대학원 수업/음성신호

[음성신호처리8] - Human Auditory System

따옹 2023. 4. 22. 20:15

. 청각 시스템은 들어오는 신호를 다양한 방법으로 수정하여 처리하는데, 예를 들어 파형을 왜곡하고 시작과 끝을 강조하며, 이전 신호에 의해 신호가 억제되는 등의 과정이 있습니다. 또한, 인간 청각 시스템은 매우 높은 동적 범위를 가지고 있어 가장 작은 소리도 10^12배로 증폭하여 인지할 수 있습니다. 인간의 청취 가능한 주파수 범위는 일반적으로 20 Hz에서 20,000 Hz 사이이며, 100 Hz 이하로 내려갈수록 감도가 떨어집니다. 더불어 성인은 12 kHz 이상의 주파수를 듣는데 어려움을 겪을 수 있습니다.

 

 

달팽이관

달팽이관은 파동의 진행 방향을 바꾸어주는 역할을 수행합니다. 기체에서 들어온 파동이 달팽이관에 부딪히면, 달팽이관의 형태와 내부 구조에 의해 파동의 진행 방향이 바뀌게 됩니다. -> 저항 감소

오른쪽으로 갈수록 진폭이 점점 작아짐(위치에 따른 주파수를 잘 파악하는 영역이 다름)

달팽이관의 모식도를 보면 단면적이 다른 것을 알 수 있는데, 이는 소리를 대역별로 분할하기 위함이다.

 

Auditory Critical Band Filters

1kHz 이하에서는 100Hz정도의 filter bandwidths를 가지고

1kHz 이상에서는 Constant Q

 

 

 

Bark scale

 

•The “Bark” scale is a remapping of the frequency scale so that a spacing of one Bark is equal to a spacing of one critical bandwidth at any point in frequency.

Slopes of response curve below CF are typically less than 50dB/Bark. Slopes on the high frequency side are hundreds of dBs per Bark.

 

Hair cell

전기적인 신호로 뇌로 전달

 

뉴런의 실제 전기신호는 spike train

Spike 사용 이유

- Threshold 이상에서 spike 발생 -> 잡음에 강함(noise robust)

- 언제 자극이 들어왔는지 알 수 있도록 temporal/spatial correlation 이용

-> 처음소리부터 계속 누점시킴으로 많은 왜곡이 있을 수도 있음

신호들이 변형되어 전달됨 

 

 

Auditory Nerve(청각신경) 동작 특징

  1. Adaptation
  2. Tuning
  3. Synchrony
  4. Nonlinearity
  1. 적응 (Adaptation): 청각신경은 자극에 대한 반응이 시간에 따라 조절되는 특성을 가지고 있습니다. 예를 들어, 지속적인 자극에 대한 반응이 감소하거나 끊임없이 변하는 자극에 대한 반응이 조절되는 등 적응 기작을 가지고 있습니다.
  2. 조절 (Tuning): 청각신경은 특정 주파수 범위에 대해 민감하게 반응하는 특성을 가지고 있습니다. 이는 주파수에 따라 청각신경의 활성화 패턴이 달라지는 것을 의미합니다. 이러한 주파수 선택성은 음성의 주파수 정보를 청각 시스템이 인지하는데 중요한 역할을 합니다.
  3. 동기화 (Synchrony): 청각신경은 자극에 대한 신경 활동이 시간적으로 동기화되는 특성을 가지고 있습니다. 즉, 자극의 주기나 리듬에 따라 청각신경의 활성화가 조절되는데, 이는 음성의 리듬과 타이밍을 처리하는데 도움을 줍니다.
  4. 비선형성 (Nonlinearity): 청각신경은 선형적인 응답이 아닌 비선형적인 응답을 보이는 특성을 가지고 있습니다. 이는 자극의 강도와 특성에 따라 청각신경의 활성화 패턴이 비선형적으로 변하는 것을 의미하며, 음성 신호의 다양한 특성을 처리하는데 중요한 역할을 합니다.
 

1. Adaptation

The neuron is more responsive to changes than to steady inputs.

없던 소리가 발생하면 큰 자극으로 받아들임

 

2. Tuning

Auditory nerves act like a bank of tuned filters.

각각의 hair cell들이 반응하는 주파수가 다름

slope 완만한 부분(저주파) / slope가 급격한 부분(고주파)

 

 

3. Synchrony

자극에 따라 이전 spike-다음 spike 시간 간격 측정

주파수가 높을 수록 시간간격은 짧음

하지만 너무 높으면 신호가 나타나지 않음

 

5. Nonlinearity: Saturation

The number of spikes(시점을 나타내는 것이지 크기를 나타내는 것이 아님) in a given time is limited.

빈도수를 체크해보면 세기도 측정 가능함

반응을 잘하는 cell / 드물게 하는 cell

saturation 현상으로 반응 안하는 cell들로 변별력을 줄 수 있음

 

Nonlinearity: Two-Tone Suppression (1)

If a new tone is applied without removing the old tone, the old tone can be suppressed.

자극이 2개면 suppression 발생

두 개의 자극이 없어지는 시점에 자극이 생겨난 것처럼 반응함

 

Nonlinearity: Two-Tone Suppression (2)

떨어져 있는 주파수 -> 차이에 대해 민감하게 설계되어 있음

자극이 발생하면 response threshold 가 급격히 증가함

Nonlinearity: Masking of a Tone by Noise

노이즈가 있는 tone은 그 노이즈 만큼 suppression이 있음

 

Nonlinearity: Combination Tones

•If a fiber(cell로 전달되는 과정) is excited by two tones, a combination tone may appear that was not present in the stimulus.

If the two applied tones are f1=1.0 kHz and f2=1.1 kHz, the combination tones 0.7 kHz (4f1-3f2), 0.8 kHz (3f1-2f2), and 0.9 kHz (2f1-f2) will also be able to excite the appropriately tuned fiber.

 

공명 조합음 (Resonant Combination Tones): 두 개 이상의 주파수가 음향공간 내에서 반영되거나, 간섭되는 등의 현상으로 인해 새로운 주파수가 생성되는 경우를 말합니다. 이는 보통 특정한 환경이나 공간에서 발생하는 현상으로, 예를 들어 두 개의 음원이 반구 모양의 공간에서 발생하는 경우 등이 있습니다.

차이 조합음 (Difference Combination Tones): 두 개 이상의 주파수의 차이에 의해 발생하는 조합음으로, 두 주파수 간의 주파수 차이에 해당하는 주파수가 조합음으로 들리게 됩니다. 이는 보통 인간의 청각 시스템에서 발생하는 현상으로, 예를 들어 두 개의 음원이 함께 울리는 경우 등에서 발생할 수 있습니다.