목록대학원 수업/음성신호 (18)
공부 정리 블로그

Concatenative Methods(2) • TD-PSOLA(time-domain pitch synchronous overlap and add) wave form 자체를 잘라서 이어붙임 ▫ Diphones are concatenated pitch-synchronously. Diphones 방식 그대로 이용 ▫ The alignment to pitch periods Vary the timing of repeats for each waveform type. ▫ Simple but discontinuous at the overlap points 잘라서 이어붙이는 부분에서 약간 어색한 소리가 날 염려가 있음 -> 이런 부분들을 완화를 시키려면 가공 • LP-PSOLA ▫ Store linear predi..

Bit-Rate Reduction • Efficient quantization • Linear transformations 비슷한 신호가 들어올 때 각각을 quantization • Vector quantizationIdea -The number of perceptually distinguishable spectra is far smaller than the number that is typically generated by a speech device. - The label of the best match would be transmitted. 벡터 그 자체로 quantization한다면? => index를 사용하서 quantization • Reduce the number of parameters -..

TTS 기본 원리 / 딥러닝 이전의 기본 원리 이해 Text-to-Speech (TTS) Synthesis (1) • Word or phrase concatenation(phrase의 경우 관용적인 문구도 활용하게 되므로 문장이 제한됨) ▫ Limited vocabulary word를 연결하면 되지만 단어 수가 제한됨 ▫ Applications Warning messages Operating instructions • Arbitrary TTS(voc size에 대한 restriction 이 없음, 한 번도 보지 않은 단어도 TTS를 할 수 있음) 물론 퀄리티는 떨어질 수 있음 ▫ Unrestricted vocabulary including words never met before ▫ Applica..

LPC Vocoder의 개념으로 부터 출발 음성을 생성할 때, source filter model 사용하므로(excitation을 source생각) -> All pole filter LPC synthesizer 로 excitation filtering -> sythetic speech 생성 -> 실제 speech(coding 하고자하는 대상) 비교 -> error 구함 -> perceptual 관점 weighting -> -> weighted error - > error minimization ->추정으로 extitation 생성 위의 과정 반복을 통해 생성 excitation, LPC sythesizer coding을 통해서 bit 수를 줄이고 speech에서 빼서 error 생성, error에 per..

Vocoders 신경망 coding 전 신호처리 위주의 방식들을 살펴봄 neural coding 전까지 신호처리 기반의 coding 방식을 이해함 Vocoder systems ▫ Analysis-synthesis systems(이용) of speech ▫ Primary application - Source coding to reduce the required rate of transmission source coding(source 자체의 데이터를 줄임, 요구되는 coding rate을 줄임) channel coding(channel의 특성을 살림, 여기서는 다루지 않음) source -> channel -> Receiver -> 해독 source를 그대로 보내면 데이터량이 많기 때문에 channel 정..

Pitch 사람의 vocal tract 에서 purse train이 있고 vocal tract의 출력을 거쳐서 나오는 게 음성이다. 유성음의 경우, purse traind의 주파수를 pitch frequency라고 부름 source filter 모델에 있어서(생성 모델) 유성음 • Subjective definition(사람이 느낄 때는 listener에 의해서 더 복잡한 pure tone의 frequency를 pitch라 부름) ▫ Frequency of a pure tone that is matched by the listener to a more complex (usually periodic) signal • Pitch detection = fundamental frequency estimation..

Introduction to Linear Prediction • Speech sounds 1. Deterministic sounds : periodic or impulsive sources (vowels, plosives) 2. Stochastic sounds : noise sources (fricatives) • Estimation of parameters of an all-pole system function ▫ Linear prediction analysis ▫ Pitch synchronous analysis Time-Dependent Processing • Many analysis techniques assume that speech signals are quasi-stationary(라고 가정을..

댕쩌는 블로그 발견 https://sanghyu.tistory.com/37 STFT(Short-Time Fourier Transform)와 Spectrogram의 python구현과 의미 음성신호처리에서 아주 기본적인 feature로 spectrogram이 존재한다. spectrogram을 많이 쓰지만 왜 짧은 시간으로 나눠서 Fourier transform을 하는 지에 대해 생각하지 않고 쓰는 경우가 많다. Python에서 함 sanghyu.tistory.com Short-Time Fourier Analysis Short-Time Fourier Transform ▫ Short-time windows ▫ Quasi-stationary Quasi-stationary 음성 원래 본질은 non-statinary..