공부 정리 블로그
[음성신호처리9]-Psychoacoustics 본문
• Physical and perceptual levels may be different.
The subjective impression of pitch, although primarily dependent on frequency, can vary with other parameters, such as intensity or spectrum.
개개인의 주파수 인식 차이로 intensity, spectrum에 영향을 끼치게 됨
Sound-Pressure Level and Loudness
The loudness S (Subjective measure) in sones(lossness의 단위) is proportional to the cube root of the intensity
이 관계는 강도 값이 상대적으로 큰 범위에서 로그함수와 유사한 형태를 나타내기 때문에 "로그적인 관계"로 표현될 수도 있습니다.
예를 들어, 1000 Hz 주파수의 음성 신호 중 40 dB SPL (Sound Pressure Level)의 음의 크기가 1 쏜으로 정의되어 있습니다. 즉, 이 음성 신호의 강도가 기준값인 1 쏜에 해당하는 것입니다. 또한 음량은 음의 강도뿐만 아니라 주파수와 음의 품질에 따라서도 변화할 수 있습니다. 음의 강도, 주파수, 품질이 음량에 영향을 미치는 요소들 중 일부입니다.
Equal Loudness Curves
Equal Loudness Curves는 소리의 높낮이와 음량 사이의 관계를 나타내는 그래프로, 서로 다른 주파수의 소리가 동일한 강도로 들릴 때의 음량 레벨을 보여줍니다. 이 그래프는 청취자의 주관적인 음량 체감을 고려하여 측정된 데이터로, 표준적인 "폰" 레벨로 표시됩니다.
Equal Loudness Curves는 Fletcher-Munson 곡선이라고도 불리며, 1930년대에 Harvey Fletcher와 W.A. Munson에 의해 처음으로 발견되었습니다. 이 곡선들은 다양한 주파수 범위에서 다른 음량 레벨을 가지고 있으며, 일반적으로 낮은 주파수에서는 높은 음량이 필요하고, 고주파수에서는 낮은 음량이 필요함을 보여줍니다. 이를 통해 인간의 귀가 주파수에 따라 다르게 민감하게 반응하는 것을 보여줍니다.
인간의 귀는 4 kHz 주파수에 가장 민감합니다.
• 저주파수의 소리에는 상대적으로 덜 민감합니다.
• 음량 레벨은 1 kHz에서의 음향압력(SPL)과 동일한 레벨인 폰 레벨로 설정됩니다.
• 소리의 지속 시간이 200 ms보다 작으면, 그 소리는 덜 크게 인지됩니다.
Frequency Analysis and Critical Bands (1)
동일 band로 인지되는 대역의 폭
인간의 귀는 특정 주파수 대역을 하나의 그룹으로 처리하며, 이를 비판적인 대역 또는 크리티컬 밴드라고 합니다. 비판적인 대역의 크기는 주변 소음의 대역폭에 따라 달라지며, 주변 소음의 대역폭이 크리티컬 밴드보다 클 경우, 소음에 더 민감하게 반응하게 됩니다.
주파수 대역의 크기가 비판적인 대역보다 작아지면, 소리를 듣는 능력이 강화되는 현상이 나타납니다. 이는 소음이나 음악 등의 복잡한 음향 신호를 처리할 때, 특정 주파수 대역에 대한 인식 능력이 향상되는 것을 의미합니다.
"S/N"은 신호 대 잡음비(Signal-to-Noise Ratio)의 약어입니다.
신호 대 잡음비는 신호와 잡음의 강도를 비교하여 표현한 값으로, 음향이나 통신 시스템에서 신호가 잡음에 비해 얼마나 강한지를 나타냅니다. S/N 값이 높을수록 신호가 잡음에 비해 강하게 나타납니다. S/N 값이 높을수록 더 깨끗하고 높은 품질의 음향 신호가 전달됩니다.
Frequency Analysis and Critical Bands (2)
일반적으로 높은 중심 주파수를 가진 필터일수록 더 넓은 대역폭을 갖게 됩니다.(Constant Q)
"Q"는 대역폭 대비 중심 주파수의 비율을 나타내며, Constant Q 필터는 같은 "Q" 값으로 설정된 필터들이 모든 주파수 범위에서 동일한 대역폭 비율을 유지하는 필터링 시스템을 의미합니다. 이는 인간의 청각 시스템에서의 중요한 특성 중 하나인 critical bands를 모델링하기 위해 사용될 수 있습니다.
인간의 청각 시스템에서의 중요한 민감 대역폭인 "critical bands"를 모델링하기 위해 사용되는 여러 가지 근사치(scale)들이 있습니다. 이들 근사치에는 Bark 스케일, Greenwood 스케일, 그리고 Mel 스케일이 있습니다.
1. Bark 스케일: Bark 스케일은 청취자의 주관적인 음량 인지에 기초하여 청취 가능한 주파수 범위를 동일한 폭의 대역으로 나눈 심리음향학적인 스케일입니다. Eberhard Zwicker에 의해 개발되었으며 청각 연구 및 오디오 신호 처리 분야에서 널리 사용됩니다.
2. Greenwood 스케일: Greenwood 스케일은 내이동(Inner hair cell)이라는 청각기관인 와우막의 비선형적인 주파수-위치 변환을 모델링한 심리음향학적인 스케일입니다. 청각 연구 및 와우막 이식 수신기 신호 처리 분야에서 널리 사용됩니다.
3. Mel 스케일: Mel 스케일은 음성 및 오디오 처리에서 사용되는 주파수 스케일로, 음향적 유사성에 기초하여 주파수 스케일을 근사화한 스케일입니다. 음성 인식 및 음악 신호 처리 분야에서 널리 사용됩니다.
Masking (1)
마스킹(Masking)은 더 큰 음의 영향으로 인해 더 약한 음의 청각 역치가 상승하는 현상으로, 두 음의 주파수에 따라 발생하는 것으로 가장 잘 설명될 수 있습니다.
마스킹은 더 큰 음이 작은 음을 덮어씌워서 작은 음이 들리지 않게 만드는 현상으로, 인간의 청각 시스템에서 일어나는 자연적인 현상 중 하나입니다. 더 laut음이 작은 leise음을 가려서 작은 음이 들리지 않게 만들어버린다고 생각할 수 있습니다.
두 음의 주파수는 마스킹 효과의 강도와 특성을 결정하는데 중요한 역할을 합니다. 특정 주파수의 음이 인접한 주파수의 음을 가려서 듣기 어렵게 만들 수 있습니다. 이는 인간의 청각 시스템에서 각 주파수 범위에 따라 다른 마스킹 특성이 나타남
2개 이상의 tone 에 노출되면 하나의 tone이 또 다른 tone을 막음
들으려는 소리의 threshold를 높임
사람의 귀는 소음 유무에 상관없이 필요한 것을 들어야함
spike반응(너무 잦으면 반응 못함)
Frequency masking (Simultaneous masking)
한 음이 충분한 높은 레벨의 주파수가 근접한 다른 음이 있는 경우, 한 음이 인지되지 않을 수 있습니다.
주파수가 가까운 다른 음이 있는 경우, 그 음은 더 높은 주파수의 음보다 더 쉽게 가려져서 들리지 않게 됩니다.
또한, 더 높은 진폭을 갖는 음은 인접한 주파수의 음을 더 강하게 가려서 들리지 않게 만들 수 있습니다. 진폭이 높은 음일수록 인접한 음들을 더 강하게 마스킹하여 듣기 어렵게 만듭니다.
• Temporal masking (non-simultaneous masking)
음성 신호나 소리가 끝난 후 일정 시간 동안에는 해당 주파수 근처의 다른 소리가 들리지 않게 되는 현상을 말합니다. 즉, 한 소리가 끝난 후에도 그 소리와 근접한 주파수의 다른 소리가 마스킹되어 들리지 않게 되는 것을 의미합니다.
Sound signals at one time will affect the hearing of later signals. The effect is strongest over 10-50 ms.
• Central masking (실험적 현상)
Masking of a tone in one ear can be caused by noise in the other ear, under certain conditions
• Utilized for audio coding and feature extraction
audio coding:사람이 못 듣는 쪽의 주파수 차이를 늘려주면서 loss 줌 (code coefficient 높여줌)
feature extraction : 안들리는 부분을 없애거나 추출 -> 잡음환경성능 높임
Perceptual Cues
phonemes 를 구별하는 음향적 특성
http://www.ktword.co.kr/test/view/view.php?m_temp1=3745
포르만트 주파수
Formant Frequency 포르만트 주파수, 포만트 주파수, 포만트(2017-07-13)
www.ktword.co.kr
'대학원 수업 > 음성신호' 카테고리의 다른 글
[신호처리4] - Filters (0) | 2023.04.24 |
---|---|
[신호처리3] - Discrete-Time Fourier Transtrom(DTFT) (0) | 2023.04.24 |
[음성신호처리8] - Human Auditory System (0) | 2023.04.22 |
[음성신호처리2]푸리에 급수, 푸리에 변환, Discrete-Time Signals (1) | 2023.04.22 |
[음성신호처리1] 개론 (0) | 2023.04.20 |