공부 정리 블로그

[음성신호처리7] - sound wave and wave equation 본문

대학원 수업/음성신호

[음성신호처리7] - sound wave and wave equation

따옹 2023. 4. 12. 21:39

 

Sound Waves and Wave Equation

 

3차원도 같이 고려해야함

3차원 공간 상 한 공간에서 구의 형태로 퍼져나가므로 spherical 

원점으로부터의 거리를 기준으로 한 구를 생성 / 거리가 하나의 cordinate (r)

 

pressure 크기  (비례) 1/ 거리

intensity
단위 면적 당 지나가는 sound energy의 양

 

Sound Pressure Level

기준점을 어떻게 할 것인가? -> 낮은 값으로 잡음

사람이 소리를 느낄 수 있는 가장 낮은 값으로 설정

 

발화되는 위치에서 40cm 만큼 떨어질 위치에서 1m^2를 통과하는 sound wave 의 sound PRESSURE LEVEL측정

decibel 계산

 

Absorption

sound가 매질이 다른 두개를 통과하는 상황

partly reflected / partly absorbed -> 두 가지가 있음 

 

높은 주파수가 absorption 가 잘 됨

absorption 가 많이 될 수록 빨리 소멸함

 

실제는 공기중에서도 absorption 됨

저주파보다 고주파에서 absorption  coefficients가 큼(=흡수가 잘 된다)

material 종류에 따라 차이가 남

Acoustic Reverberation

reflection pattern

거리에 반비례해서 pressure 줄어듦

spharse하지만 뒤로 갈 수록 다양한 경로가 나타날 수 있어서 촘촘하게 나타남

왜?

 

Reverberation Time

얼마나 반사가 심한지를 측정

특정 공간에서 소리가 감쇠되어 사라지기까지 걸리는 시간을 나타냅니다. 일반적으로 "RT60"이라고도 불립니다. Reverberation Time은 음향 환경을 측정하고 설계하는데 중요한 요소로 사용됩니다.

Reverberation Time은 음향 공간의 음향 특성을 정량화하는데 사용됩니다. 특정 공간에서 발생한 소리가 벽, 바닥, 천정 등의 표면에 반사되어 여러 번 반복되고 점차적으로 감쇠되는 현상을 나타냅니다. Reverberation Time이 길면 긴 시간 동안 소리가 남아있어 "감쇠"가 느껴지지 않고, Reverberation Time이 짧으면 소리가 빠르게 소멸되어 "감쇠"가 빨리 일어납니다.

 

"RT60"은 소리가 초기 레벨에서 60dB(데시벨) 감소하는 시간을 의미

 

- 강한 반향 에너지가 있는 경우, 음절의 시작 및 신원이 이전 음절들의 감쇠하는 에너지에 의해 가려질(masking) 수 있습니다. 특히 소음과 결합될 경우, 음성의 명료도를 해치게 됩니다.
- 반향이 소음과 결합되었을 때 음성의 명료도가 저하된다는 내용을 나타냅니다. 즉, 소음과 함께 강한 반향이 있는 경우, 음성이 불분명하게 들릴 수 있어 음성의 이해를 어렵게 만들 수 있습니다. 반향이 음성과 결합되면 음성 정보가 덮어씌워져 명료하게 듣기 어렵게 될 수 있습니다.

 

반향은 inteligibiltiy에 악영향을 줄 수 있음 

사람이 소리를 들을 때 얼마나 깨끗한 가 -음질

말에 대한 메세지를 얼마나 정확하게 이해하는 가 - inteligibility

 

soure 신호 ,  impurse 에 response

room impurse response

Estimation of Reverberation

첫 번째로, 반향은 소스 신호와 반향 응답을 선형 합성한 것으로 표현될 수 있습니다. 이는 에코 응답과 소스 신호를 선형 합성한 결과라고 볼 수 있습니다.

두 번째로, 실제 방에서 임펄스 응답(에코 응답)을 추정하는 방법에 대해 언급되어 있습니다. 이를 위해 흰색 잡음이나 의사 난수 수열을 사용하여 임펄스 응답을 추정할 수 있습니다.

세 번째로, 체르프(Chirp)라는 신호를 사용하여 임펄스 응답을 추정하는 방법이 언급되어 있습니다. 이 경우 출력 신호는 소스의 다양한 사인 파형 구성 요소의 타이밍을 보상하기 위해 위상을 조정하여 전송 함수(transfer function)의 추정치를 얻을 수 있습니다.

직접적인 측정할 수 없다.

source를 impurse로 하기 위해선 0-> 무한대 소리를 발생시켜야하는데

이 세상에 존재하지 않는 스피커임

 

ideal하게 측정하여 알 수 있는 방법 없음 -> 간접적으로 측정해야함

white noise대신 수도랜덤 seq로 플레이 시킴-> 이를 위해 흰색 잡음이나 의사 난수 수열을 사용하여 임펄스 응답을 추정할 수 있습니다.

 

1. 자기자신에 대한 auto cor -> impurse로 간접적으로 찾음

어떤 신호든 response든 convolution 하면 자기자신 

입력,측정값

 

2. chirp 시간에 따라 점점 증가하는 frequency를 가짐

 

impurse -  푸리에 변환하면 모두 동일한 주파수를 가지는 것

impurse를 시간에 따라 주파수로 펼쳐놓은 것 chirp 신호

play를 시킨 다음 response를 측정된 위치에서 마이크로 녹음하면 

첩 신호에 대한 response나옴

source가 시간에 따라 달라짐 (시차 있음) -> 시차만 보정해줌

 

linear system이니 주파수가 변하지 않음

신호를 측정한 다음, 그 신호를 주파수 별로 시간을 보존함 (phase 보존)

쭉 압축해서 넣으면 리임펄스 리스퍼스됨?

 

단위면적당 에너지  intensity

물리적인 값 실제 소리의 에너지의 강약 -Loudness

사람이 소리의 세기를 느끼는 주관적인 관점에서의 크기 

 

반향이 있으면 그 소리가 더 세다고 느낄 수 있음

이전 신호와의 중첩때문에

 

Reflections

- Reverberation은 loudness(주관적인 크기)를 증가시킴

- loudness에 따른 intellifivility(명료도) 증가

- 소리-나 거리 추정 early reflection(초기 반사음) 사용

사람이 느끼는 room size , character 모두 포함

- room acoustics(방의 특성)

보통의 reverberation snr(신호대잡음비)증가시킴 -> 가청성 상승

 

하지만 문제는 long reflection 악영향을 끼침

말을 할 때, 음운의 seq형태로 말을 하지만 소스입장에서 

 

 

사람은 들을 수만 있으면 도움이 된다

early reflection이 오히려 도움이 된다

하지만 음성인식 system 관점에서는 echo가 신호를 바꾸는 역할을 함

 

Speech-Recognition Application

너무 이상적인 상황에서 녹음했으므로

조금만 특성이 다른 신호가 녹음되면 inconsistence 

따라서 음성인식 성능을 급격하게 떨어뜨림

 

해결?

1. talker 근처에 Use a directional microphone 

2. Microphone arrays  Processing techniques such as beam forming or matched filtering

-> clean signal 에 가깝게 만들어 낼 수 있음

마이크 어레이(Microphone Array)는 여러 개의 마이크를 특정한 패턴 또는 배열로 배치한 것을 의미합니다. 이러한 마이크 배열은 특정한 목적을 가지고 사용되며, 음성 및 오디오 신호 처리, 음향 합성, 음성 인식, 소음 제거 등 다양한 응용 분야에서 사용될 수 있습니다.

마이크로 받은 걸 그대로 넣어주면 성능이 떨어지지만

처리를 해서 system 에 넣어주면 좋다

-> auditory system transformation을 배워서 해보다

 

Human Auditory System

들어오는 신호를 엄청 바꿔버림

The ear modifies incoming signals in significant ways:

wave shapes are distorted, onsets and offsets are enhanced(변화에 민감), signals are suppressed

(masking, 불필요한 정보 솎아냄) by proceeding signals, etc.

 

clean 신호를 복원해서 넣어주면 가장 좋을 거라 생각했지만

사람은 이것을 바꿔서 완전히 다른 신호로 뇌에서 processing

 

dynamic range의 범위가 넓음

가청 주파수도 20~20000 Hz(1000배)

100Hz이하는 sensitivity 작음

Cochlea is the central organ for audio perception. • 고막->망치뼈->모루뼈->등자뼈->달팽이관

중간에 임피던스 매칭 -> 소리 전달 잘 되게 (망치뼈, 모루뼈, 등자뼈)