목록대학원 수업 (77)
공부 정리 블로그

8.2.2.1 HMM의 세가지 기본 문제(Segmentation: Viterbi Algorithm) 하나의 주제별로 1m 40sec 분량으로 자름 이것에 대한 transcription 이 나오고 'ㅏ', 'ㅗ' 에 대한 걸 각각 떼서 학습 우리가 모르는 것 : 어디서부터 어디까지가 'ㅣ'인지를 모르니, 음성인식기 학습할 때 사전 정보를 줄 수 없음 이걸 어떻게 할 수 있을까? 작업이 힘들고 정답이 없음(사람에 따라 답이 달라지고, 시점에 따라 달라짐 -> 일관성의 문제) 하지만 순서를 알고 있음 -> 'ㄱ' -'ㅏ' .... 해당 정보를 가지고 기계를 학습하게 함 음성 : 시간축 상에 선후 관계가 있음 문장 HMM을 가지고, x축: 음성 파형, y축 : 문장 HMM best path는 항상 우상향하는가?..

Table of contents 8.2 Hidden Markov Model 관련알고리즘 2010년 modeling 기법들 8.2.1. 인식 forward -> CTC 8.2.2. segmentation Viterbi 8.2.3. HMM 에서 파생된 Decoding 공부 길이가 다른 Seq 제어를 하지 못했음 seq -> seq -> seq corpus를 분석할 때, 군집화 된 영역 cluster의 index로 바꿀 때, 길이가 똑같은 cluster 번호의 열로 바꾼 classifier 음향모델용 classifier가 가져야 할 특성 - 모델의 구분단위를 정할 수 있어야 함(예: 음소,음을 낼 때 최소 단위) phoneme(발음 기호 하나하나가 음소가 됨) - 모델이 주어졌을 때 인식결과 생성이 가능해야 ..

같은 단어를 반복하고 있을 때, 비슷한 파형이 반복되면 전체 입력에 대한 Attention을 구할때, 음성하고 맞지 않다면 multi-Head Attention은 음성에 더욱 잘 맞음 vector를 끊어서, concatnation 왜 잘 맞는가? 고주파, 저주파 대역에서의 특성이 다름, 대역별로 attention을 하게 만듦 seq2seq에서는 transformer가 제일 좋은 성능을 보이고 있음 의미를 vector화 한 것이 가장 큰 변화 단어는 Index인데, index가 다르면 의미가 다르다는 것까지만 알수 있음 1이라는 차이가 무엇을 뜻하는지에 대한 정보는 없음 문장을 Vector로 만드는 데 문제가 있음 -> 문장의 길이가 각각 다르기 때문, RNN계열을 이용하여 vector를 뽑음 마지막 hi..

7.2 Transformers : Self-Attention Network Transformers RNN의 한계점으로 인해서 recurrent connection을 제거 input vectors (𝑥1,…,𝑥𝑛)map to output vectors (𝑦1,…,𝑦𝑛) Transformers는 encoder-decoder 구조 the encoder maps an input sequence of symbol representations (𝑥1,…,𝑥𝑛)to a sequence of continuous representations 𝐳=(𝑧1,…,𝑧𝑛) Given 𝒛, the decoder then generates an output sequence (𝑦1,…,𝑦𝑛)of symbols one element at..

Concatenative Methods(2) • TD-PSOLA(time-domain pitch synchronous overlap and add) wave form 자체를 잘라서 이어붙임 ▫ Diphones are concatenated pitch-synchronously. Diphones 방식 그대로 이용 ▫ The alignment to pitch periods Vary the timing of repeats for each waveform type. ▫ Simple but discontinuous at the overlap points 잘라서 이어붙이는 부분에서 약간 어색한 소리가 날 염려가 있음 -> 이런 부분들을 완화를 시키려면 가공 • LP-PSOLA ▫ Store linear predi..

Bit-Rate Reduction • Efficient quantization • Linear transformations 비슷한 신호가 들어올 때 각각을 quantization • Vector quantizationIdea -The number of perceptually distinguishable spectra is far smaller than the number that is typically generated by a speech device. - The label of the best match would be transmitted. 벡터 그 자체로 quantization한다면? => index를 사용하서 quantization • Reduce the number of parameters -..

TTS 기본 원리 / 딥러닝 이전의 기본 원리 이해 Text-to-Speech (TTS) Synthesis (1) • Word or phrase concatenation(phrase의 경우 관용적인 문구도 활용하게 되므로 문장이 제한됨) ▫ Limited vocabulary word를 연결하면 되지만 단어 수가 제한됨 ▫ Applications Warning messages Operating instructions • Arbitrary TTS(voc size에 대한 restriction 이 없음, 한 번도 보지 않은 단어도 TTS를 할 수 있음) 물론 퀄리티는 떨어질 수 있음 ▫ Unrestricted vocabulary including words never met before ▫ Applica..

LPC Vocoder의 개념으로 부터 출발 음성을 생성할 때, source filter model 사용하므로(excitation을 source생각) -> All pole filter LPC synthesizer 로 excitation filtering -> sythetic speech 생성 -> 실제 speech(coding 하고자하는 대상) 비교 -> error 구함 -> perceptual 관점 weighting -> -> weighted error - > error minimization ->추정으로 extitation 생성 위의 과정 반복을 통해 생성 excitation, LPC sythesizer coding을 통해서 bit 수를 줄이고 speech에서 빼서 error 생성, error에 per..