공부 정리 블로그

[음성신호처리6]-Speech production 본문

대학원 수업/음성신호

[음성신호처리6]-Speech production

따옹 2023. 4. 24. 17:28

 

Acoustic Tube Model (1)

 

목소리 관로를 다양한 횡단면적을 가진 연결된 음향 관로로 모델링합니다. 음성 관로를 비손실 비균일 관로로 가정하며, 이를 N개의 균일한 관로들의 연결로 근사화할 수 있습니다. 파열음에서 입술까지의 전달 함수(transfer function)를 유도하기 위해 파동 방정식을 적용합니다

 

성대에서 소리가 올라오는 시간을 계산

입속에서는 압력이 가해지는데, 입 밖으로 나오면서 free space로 나갈 때, 공기중의 압력을 0으로 가정

 

주기적으로 반복되는 생성으로

모든 wave가 합쳐져서 결국에는 standing wave가 됨

 

 

입력을 FT해서 입력으로 곱해주면 출력으로 나와주면 출력의 FT(푸리에 트랜스폼)

source -  성대로부터 나오는 

vocal track (성대~입)-  system

출력 - 음성

 

성대~ 입  : L

k 홀수 / cosine 0이되는 지점들

 

tow k = T의 정수배

 

Complete Discrete-Time Model (1)

"소스/필터 모델"은 음성생성을 분석하기 위해 음성 관로를 비균일한 관로로 모델링함으로써 얻어진 효과에 대한 설명입니다. 이 모델에서는 발음된 소리에 따라 다양한 소리원(소스)을 사용하여 음성을 생성합니다.

 

1. 유성음(voiced speech) - impurse train을 소스로 사용

2. 마찰음 - 랜덤 noise 를 소스로 사용

3. 파열음 - impulse 를 소스로 사용

셋중 하나를 선택하는 형태일 수 있으나 좀 더 복합적인 형태는 적절하게 weighted sum 형태로 source 형성

vocal track tube를 거치고 입술 밖으로 free space로 나가는 radiation 특징을 고려해서 speech 형성

 

voiced voice에서 output speechd

 

 

자음 공기의 흐름이 원할하지 않은 부분 많음

Quasi 반복

이런형태 주기적으로 나타남

 

Speech-Producing Mechanism (1)

- Vowels(모음)

 

모음 공기의 흐름이 원활하지 않는 부분이 거의 없음

턱, 혀, 입술의 위치 달라짐  -> 다른 발음 나옴

vocal track 단면적의 변화가 있음 

vocal track trans function (모양)달라짐 (source는 다 똑같지만)

-> speech의 모양이 달라짐

 

혀가 입천장쪽으로 다가가지만 공기의 흐름은 방해하지 않음

주기마다 pulsetrack이 하나씩 들어가 있음(pitch periode)

똑같은 사람이면 주기가 거의 일정

한 주기

spectrogram을 그려보면 차이가 있음

wave form을 잘라서 시간과 주파수의 2차원 패턴의 모양을 만듦

 

레저드 프리퀀시 (포머드) 밝은 색 부터 순서대로 골라낼 수 있음

한 주기가 f1보다 더 낮은 주파수 대역을 가지고 있음

f0 f1이후의 값은 성격이 완전히 다름

f0는 성대의 주기를 나타냄(메세지 특성 x / 사람마다의 성대 특성)

메세지의 특성은 f1부터인 fomat 

 

f1, f2로 어떤 모음인지 유추할 수 있음(초창기 방식)

하지만 noise에 굉장히 취약 조금만 껴도 f1, f2가 틀어짐 (ideal 할 때는 가능)

 

- 마찰음

Fricatives (마찰음)는 음성 신호의 특정 부분에서 공기 흐름이 협착되어 공기가 마찰을 일으키는 소리가 형성되는 현상입니다. 예를 들면, /s/, /z/, /f/, /v/와 같은 소리들이 fricatives에 해당됩니다. 이러한 소리들은 성대의 떨림이 없고, 공기 흐름에 의해 발생되는 소음이 형성됩니다. Fricatives은 주로 고주파수 영역에서 에너지가 집중되어 있고, 쉽게 식별되는 특징

1. unvoiced-random noise

성대가 공기의 흐름을 방해하면서 진동하여 소리를 만들어냅니다. 예를 들면, 영어의 /v/, /z/, /b/, /d/와 같은 소리들이 음성이라고 할 수 있습니다.

2. voiced - 성대가 떨리므로 주기적

성대가 휴지럼 상태이므로 성대의 진동이 없고, 소음이 주로 형성됩니다. 예를 들면, 영어의 /f/, /s/, /p/, /t/와 같은 소리들이 무성

 

system-vocal tract

constriction 이 명확하게 보임

공기의 흐름이 원활하지 않기 때문에 turbulence 형성 -> 독특한 소리 발생

 

- 파열음

압력이 응축되다가 constriction 이 풀리면서 갑작스러운 sound 발생

막혀있다가 터지면서 나오는 sound

 

- 비음

voiced sound 성대가 떨림

통로가 코쪽으로 열려야함

 

- 이중 모음

주기성 있음

처음엔 어떤 모음을 반환하다가 다음 모음으로 이동

포먼트(주파수)가 ㅣ-> ㅏ 로 이동

 

- 반모음

주기적인 puffs 가짐

glides / liquids로 나눌 수 있음

transition한 발음들 (변화 함)

처음에는 constriciton이 없다가 있는 방향으로 이동함 

이중 발음 첫번째 발음과 두번째 발음에 대해서 천천히 이동을 함

glide는 하나의 발음처럼 순간적으로 빠르게 이동(vocal tract 빠르게 움직임)

liquid side branch 발생 혀가 뾰족하게 해서 가운데가 막고 혀 양 옆으로 소리가 원활하게 빠져나감(R발음)

 

"Glide"는 음운적으로 슬라이딩되는 소리를 말합니다. 소리가 시작과 끝 사이에서 부드럽게 이어지는 것을 의미합니다. 예를 들면, 영어의 /j/와 /w/와 같은 소리들이 glide로 분류됩니다. 예를 들어, "yes"의 /jɛs/나 "we"의 /wi/와 같은 소리들이 glide로 분류됩니다.

"Liquid"은 음운적으로 액체처럼 흐르는 소리를 말합니다. 소리가 공기 흐름을 방해하면서 부드럽게 흘러가는 것을 의미합니다. 예를 들면, 영어의 /l/과 /ɹ/와 같은 소리들이 liquid로 분류됩니다. 예를 들어, "love"의 /lʌv/나 "run"의 /rʌn/과 같은 소리들이 liquid로 분류됩니다.

 

소리의 constriction이 있어서 모음보다 에너지가 작음

 

파찰음 = 마찰음+파열음

vocal tract 에서 성대의 떨림은 없으므로 모음은 아님

 

 

한국어의 음운들

각 음소의 class - phonemes

음성인식 phonemes을 구별한다