Vocal Tract Model   발성 모델, 인간 발성 구조

(2025-10-19)

음성 발생 모델, 발성 기관, 조음 기관, 발성 원리


1. 발성(發聲) 및 조음(調音) 기관(器官)의 구분발성 기관 : 호흡을 통해 성대를 중심으로 음성을 발생시킴
     - (, 기관, 후두, 성대 등)
  ㅇ 조음 기관 : 성대에서 만들어진 음성을, 혀,턱,입술 등으로 조정, 특정한 말소리를 만들어냄
     - (, 입술, 치아, 연구개( 천장), 구강, 비강 등)

  ※ 결국, 사람의 목소리는, 
     - `성대진동 (음원)`과 `성도진동 구조 (필터)`에 의해, 원하는대로 생성됨


2. 인간발성 구조 모델 (Vocal Tract Model)

  ㅇ 개요
     - 음성을, `음원` 및 `조음`이라는 2개 요소로 분리하여 설명하는 모델
        . 입력 신호(음원)에 대해, 시간에 따라 변화하는 성도(조음)의 응답으로, 음성을 생성
           .. 이를, "소스 - 필터 모델 (Source – Filter Model)" 이라고도 함

  ㅇ 음원 (Source) 모델링
     - 유성음 (Voiced Speech)  :  주기적인 임펄스 수열모델링 (성대주기진동에 해당)
     - 무성음 (Unvoiced Speech)  :  백색 잡음으로 모델링 (성대진동이 없는 마찰음 등)

  ㅇ 조음 (Filter) 모델링
     - 조음(성도, Vocal Tract)은 시변 필터모델링됨
        . 성도의 형태 변화에 따라 공진이 발생하며, 이 공진 주파수를 "포만트(Formant)"라고 함

  ㅇ 두 가지 선형 필터 구조
     - 피치 필터 (Pitch Filter)  :  (음원 발성 때)
        . 음원의 기본 주기 및 크기 생성 (음성의 높낮이(피치) 결정)
     - 포만트 필터 (Formant Filter)  :  (조음 때)
        . 성도공진 주파수(포만트 주파수) 반영 (말소리음색 및 형태 결정)

  ㅇ 기본 가정 (정상 과정 구간)
     - 약 20~30 ms 동안은, 음성 신호정상 과정으로 간주
     - 이는, 성도 구조가 짧은 시간 동안 급격히 변하지 않는다는 물리적 근거에 기반


3. 인간 발성 모델의 특징

  ㅇ 음원 신호의 단순화
     - 발성 모델은, 다음 두 가지 형태의 단순 음원으로 구성됨
        . 주기임펄스 수열유성음
        . 백색 잡음무성음

  ㅇ 소스 - 필터 모델의 구현                                 ☞ LPC (선형 예측 부호화) 참조
     - 소스와 필터선형 컨볼루션으로 전체 음성 신호를 구성
     - 스펙트럼 관점에서는, 소스와 필터스펙트럼 곱으로 표현됨

  ㅇ 응용  :  인공 음성 합성
     - 위의 모델 구조를 이용하여 합성음(Synthetic Speech) 생성 가능
        . 대표적 응용  :  TTS (Text-to-Speech) 시스템 (인공 음성 합성)

음성
1. 음성 (Voice,Speech)   2. 성대,성도   3. 유/무성음   4. 발성 모델   5. 음정 (Pitch)   6. 포만트 주파수 (Formant)  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]          Copyrightⓒ 차재복