1. 발성 기관 (發聲器官), 조음 기관 (調音器官)
ㅇ 발성 기관 : 호흡을 통해, 성대를 중심으로 음성을 발생시키는 인체 기관
ㅇ 조음 기관 : 혀,턱,입술 등으로 특정한 말 소리를 만들어내는 인체 기관
※ 즉, 사람의 목소리는, `성대의 진동`과 `성도의 진동 구조`에 의해, 원하는대로 생성됨
2. 인간의 발성 구조 모델 (때론, Vocal Tract Model)
ㅇ 음성을 `음원` 및 `조음`이라는 2개의 분리 가능한 요소로 봄
* 즉, 1 이상의 여기 신호(음원)라는 입력에 대해, 시간에 따라 변화하는 성도(조음)의 응답
. 여러 `소스`와 시변 `필터`를 분리하자는 개념
ㅇ `음원`과 `조음`의 모델링
- 음원의 경우에는, 크게 2개의 소스 형태로 구분 가능
. 유성음(Voiced Speech)을, 주기적인 임펄스 수열로써,
. 무성음(Unvoiced Speech)을, 백색잡음(White Noise)으로써, 모델링 가능
- 조음의 경우에는, 시변적인 필터로써, 모델링 가능
. 성도(Vocal Tract)에서의 공진을 일으키는 모양을 특징짓는,
. 시변 디지털 필터에 의해 모델링 가능
ㅇ 선형 필터 둘(2)
- 피치 필터 : 피치 길이와 크기로써 여기 값을 냄 (음원 발성)
- 포만트 필터 : 포만트 주파수로써 여기 값을 냄 (조음)
ㅇ 한편, 기본적인 가정으로써,
- 20 ~ 30 ms 동안에는 정상과정으로 간주됨
- 성도가 이런 짧은 시간에는 순식간에 변할 수 없기 때문임
3. 인간 발성 모델 특징
ㅇ 이 모델에서 여기 신호(2개의 소스 형태)로는,
- `백색 잡음(무성음)` 및 `주기적인 임펄스 수열(유성음)`를 단순 음원으로 삼고 있음
ㅇ `소스` 및 `필터`와의 선형 컨볼루션으로 구현 가능 ☞ LPC (선형 예측 부호화) 참조
- 이를 스펙트럼 관점으로 볼 때는, 소스와 필터 간의 스펙트럼 곱으로 다루어짐
ㅇ 한편, 이러한 모델구조를 이용하여, 합성 음 (Synthetic Speech)을 만들 수 있음
- 例) TTS (Text to Speech) : 인공 음성 합성