Vocal Tract Model   발성 모델, 인간 발성 구조

(2022-09-03)

음성 발생 모델, 발성 기관, 조음 기관, 발성 원리


1. 발성 기관(發聲器官), 조음 기관(調音器官)발성 기관 : 호흡을 통해 가능하고, 성대를 중심으로 음성을 발생시키는 인체 기관
  ㅇ 조음 기관 : 혀,턱,입술 등으로 특정한 말 소리를 만들어내는 인체 기관

  ※ 즉, 사람의 목소리는, 성대진동성도진동 구조에 의해 생성됨


2. 인간의 발성 구조 모델 (때론, Vocal Tract Model)

  ㅇ 음성을 `음원` 및 `조음`이라는 2개의 분리 가능한 요소로 봄
     * 즉, 1 이상의 여기 신호(음원)라는 입력에 대해, 시간에 따라 변화하는 성도(조음)의 응답
        . 여러 `소스`와 시변 `필터`를 분리하자는 개념

  ㅇ `음원`과 `조음`의 모델링
     - 음원의 경우에는, 크게 2개의 소스 형태로 구분 가능
        . 유성음(Voiced Speech)을, 주기적인 임펄스 수열로써,
        . 무성음(Unvoiced Speech)을, 백색잡음(White Noise)으로써, 모델링 가능

     - 조음의 경우에는, 시변적인 필터로써, 모델링 가능
        . 성도(Vocal Tract)에서의 공진을 일으키는 모양을 특징짓는,
        . 시변 디지털 필터에 의해 모델링 가능

  ㅇ 선형 필터 둘(2)
     - 피치 필터 : 피치 길이와 크기로써 여기 값을 냄 (음원 발성)
     - 포만트 필터 : 포만트 주파수로써 여기 값을 냄 (조음)

  ㅇ 한편, 기본적인 가정으로써,
     - 20 ~ 30 ms 동안에는 정상과정으로 간주됨
     - 성도가 이런 짧은 시간에는 순식간에 변할 수 없기 때문임


3. 인간 발성 모델 특징

  ㅇ 이 모델에서 여기 신호(2개의 소스 형태)로는,
     - `백색 잡음(무성음)` 및 `주기적인 임펄스 수열(유성음)`를 단순 음원으로 삼고 있음

  ㅇ `소스` 및 `필터`와의 선형 컨볼루션으로 구현 가능  ☞ LPC (선형 예측 부호화) 참조
     - 스펙트럼 관점에서는, 소스와 필터 간의 스펙트럼 곱으로 다루어짐

  ㅇ 한편, 이러한 모델구조를 이용하여, 합성 음 (Synthetic Speech)을 만들 수 있음
     - 例) TTS (Text to Speech) : 인공 음성 합성



Copyrightⓒ written by 차재복 (Cha Jae Bok)
"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"