1. 발성(發聲) 및 조음(調音) 기관(器官)의 구분
ㅇ 발성 기관 : 호흡을 통해 성대를 중심으로 음성을 발생시킴
- (폐, 기관, 후두, 성대 등)
ㅇ 조음 기관 : 성대에서 만들어진 음성을, 혀,턱,입술 등으로 조정, 특정한 말소리를 만들어냄
- (혀, 입술, 치아, 연구개(입 천장), 구강, 비강 등)
※ 결국, 사람의 목소리는,
- `성대의 진동 (음원)`과 `성도의 진동 구조 (필터)`에 의해, 원하는대로 생성됨
2. 인간의 발성 구조 모델 (Vocal Tract Model)
ㅇ 개요
- 음성을, `음원` 및 `조음`이라는 2개 요소로 분리하여 설명하는 모델
. 입력 신호(음원)에 대해, 시간에 따라 변화하는 성도(조음)의 응답으로, 음성을 생성
.. 이를, "소스 - 필터 모델 (Source – Filter Model)" 이라고도 함
ㅇ 음원 (Source) 모델링
- 유성음 (Voiced Speech) : 주기적인 임펄스 수열로 모델링 (성대의 주기적 진동에 해당)
- 무성음 (Unvoiced Speech) : 백색 잡음으로 모델링 (성대의 진동이 없는 마찰음 등)
ㅇ 조음 (Filter) 모델링
- 조음(성도, Vocal Tract)은 시변 필터로 모델링됨
. 성도의 형태 변화에 따라 공진이 발생하며, 이 공진 주파수를 "포만트(Formant)"라고 함
ㅇ 두 가지 선형 필터 구조
- 피치 필터 (Pitch Filter) : (음원 발성 때)
. 음원의 기본 주기 및 크기 생성 (음성의 높낮이(피치) 결정)
- 포만트 필터 (Formant Filter) : (조음 때)
. 성도의 공진 주파수(포만트 주파수) 반영 (말소리의 음색 및 형태 결정)
ㅇ 기본 가정 (정상 과정 구간)
- 약 20~30 ms 동안은, 음성 신호를 정상 과정으로 간주
- 이는, 성도 구조가 짧은 시간 동안 급격히 변하지 않는다는 물리적 근거에 기반
3. 인간 발성 모델의 특징
ㅇ 음원 신호의 단순화
- 발성 모델은, 다음 두 가지 형태의 단순 음원으로 구성됨
. 주기적 임펄스 수열 → 유성음
. 백색 잡음 → 무성음
ㅇ 소스 - 필터 모델의 구현 ☞ LPC (선형 예측 부호화) 참조
- 소스와 필터의 선형 컨볼루션으로 전체 음성 신호를 구성
- 스펙트럼 관점에서는, 소스와 필터의 스펙트럼 곱으로 표현됨
ㅇ 응용 : 인공 음성 합성
- 위의 모델 구조를 이용하여 합성음(Synthetic Speech) 생성 가능
. 대표적 응용 : TTS (Text-to-Speech) 시스템 (인공 음성 합성)