1. 음성 부호화 (Speech Coding, Voice Coding)
ㅇ 주로, 전화 음성 통신을 위해, 음성 정보를 가능한 낮은 속도로 전송할 수 있게 함
2. 음성 부호화의 구분/특징
ㅇ 협대역 음성부호화 (Narrowband/Telephone Speech Coding)
- 전통적인 PSTN 에서는, G.711(PCM)
. 300~3,400 Hz의 음성주파수에 대해 전통적으로 단일의 코덱 표준 G.711(PCM) 을 사용
- 장거리 국제전화는, G.726(ADPCM)
- VoIP 등 패킷망은, G.711, G.723.1, G.729a 등
- 이동통신은, G.728 등
ㅇ 광대역 음성부호화 (Widband Speech Coding)
- 협대역 보다 넓은 50~7,000 Hz 대역의 음성주파수를 대상
. 현재의 전화망(PSTN) 대역폭이 협대역인 300~3400 Hz에 비해,
. 50~7000 Hz의 광대역 신호를 대상으로 압축/복원하는 음성부호화 기술을 말함
- 협대역 신호에 비해,
. 자연성 높아짐 : 50~300 Hz (저주파영역)
. 명료성 증가 : 3400~7000 Hz (고주파영역)
※ 한편, 광대역 오디오 코딩에 대해서는 ☞ 오디오 부호화 참조
3. 음성 및 오디오 부호화시 주요 파라미터의 개략적인 값 例
※ [범례 : ① 대역폭(Hz) ② 샘플링주파수(kHz) ③ 양자화비트 ④ 비트율(kbps)]
ㅇ 전화 음성 통신 : ① 300~3400 ② 8 kHz ③ 12, 13 ④ 64, 96, 104 kbps
ㅇ FM 라디오방송 : ① 50~7000 ② 16 kHz ③ 12, 13 ④ 224, 240 kbps
ㅇ TV 스테레오 : ① 30~15000 ② 32 kHz ③ 16 ④ 512 kbps
ㅇ audio CD Player : ① 20~20000 ② 44.1 kHz ③ 16 ④ 706 kbps
ㅇ 전문가 오디오 : ① 10~22000 ② 48 kHz ③ 20,24 이상 ④ 1152 kbps
4. 음성 부호화의 방식 구분
ㅇ 파형 부호화 (Waveform Coding, 파형코덱)
- 음성신호의 모양 즉, 파형을 기반으로 하는 압축방식 (16 kbps 이상)
. 무 압축 : PCM (G.711)
. 신호 상관성을 이용한 일부 압축 : DPCM, DM, ADPCM (G.726) 등
ㅇ 파원 부호화 (Vocoding : 보코딩, 소스코덱)
- 음성신호 발성모델을 이용
. 송신부 : 특정 파라미터 만을 전송하고,
. 수신부 : 이들 파리미터에 의해 얼마나 비슷한 소리로 복원시키는 것에 초점을 둔 코딩방식
- 종별 : LPC, MP-MLQ, AMR 등
ㅇ 혼합 부호화
- 위 두 방식의 장점을 결합 (4.8~16 kbps)
. 종별 : CELP, SBC(Sub-band Coding,대역분할부호화), APC, ATC, RELP, MPLPC
5. 음성 부호화의 표준
※ ITU-T 관련 표준 (ITU-T에서 음성부호화 표준을 주도하고 있는 편임)
※ [범례 : ① 음성코딩 ② 비트율 ③ MOS(Mean Opinion Score) ④ 사용예
ㅇ G.711 ① PCM ② 64 kbps ③ 4.1 ④ PSTN
ㅇ G.721/G.726 ① ADPCM ② 32 kbps ③ 3.85 ④ PSTN
ㅇ G.723/723.1 ① MP-MLQ/ACELP ② 6.3 또는 5.3 kbps ③ 3.9 또는 3.65 ④ VoIP
ㅇ G.728 ① LD-CELP ② 16 kbps ③ 3.61 ④ 이동전화
ㅇ G.729/729a ① CS-ACELP ② 8 kbps ③ 3.92 ④ VoIP
※ 한편, 방송,음향기기 등에서는, => Dolby AC-3, MPEG-2 AAC 등이 주로 사용됨