Post

AudioKit의 VocalTract

AudioKit의 VocalTract

VocalTract

용어설명

성도 (Vocal Tract, 聲道)

  • 정의: 인간의 발성 기관 중, 성문부터 입술까지의 공기 통로를 의미합니다.
  • 구성: 인두(pharynx), 구강(oral cavity), 비강(nasal cavity) 등 포함.
  • 역할: 이 통로의 형태와 크기를 조절함으로써 소리의 공명을 변화시켜 다양한 말소리(모음, 자음)를 만들어냅니다. 예: 입을 크게 벌리거나 혀 위치를 바꾸면 음색이 달라지는 이유.

성문 펄스 파형 (Glottal Pulse Wave)

  • 정의: 성대(glottis)가 주기적으로 열리고 닫히며 발생시키는 기초적인 소리 파형입니다.
  • 역할: 이 파형이 바로 음성의 원천적인 진동이며, 이후 성도에서 공명을 거쳐 실제 말소리로 바뀝니다.
  • 예시: 남자의 저음 목소리는 느린 주기로 성대가 열리고 닫히면서 낮은 주파수의 성문 펄스가 발생하는 것.

요약하면:

  • 성도는 소리를 변조하는 필터 역할이고,
  • 성문 펄스 파형은 소리의 원천 신호 (진동원) 역할입니다.

파라미터

VocalTract에서 조정하는 아래 5가지 파라미터는 사람의 음성 생성 과정을 물리적으로 모사한 것이며, 각각이 소리의 성질에 중요한 영향을 미칩니다. 아래는 각 파라미터가 조절될 때 어떤 음향적 특징이 변하는지에 대한 설명입니다.

1. frequency: 성문 주파수 (Glottal Frequency)

  • 정의: 성대의 진동 속도, 즉 1초당 성대가 열리고 닫히는 횟수 (Hz).
  • 영향:

    • 이 값이 높을수록 음의 높이(피치)가 올라감.
    • 낮을수록 음성이 굵고 낮은 톤.
  • 예시: 어린이의 목소리는 높은 주파수, 남성의 저음 목소리는 낮은 주파수.

2. tonguePosition: 혀 위치

  • 정의: 입안에서 혀의 앞뒤 위치를 0~1 범위로 나타냄.
  • 영향:

    • 혀가 앞쪽(0)일수록 앞 모음 계열 (예: [i], [e])
    • 뒤쪽(1)으로 갈수록 후설음 계열 (예: [u], [o])
  • 예시: ‘이’와 ‘우’의 차이처럼 혀 위치에 따라 공명 위치가 달라짐.

3. tongueDiameter: 혀 직경

  • 정의: 혀가 차지하는 입안의 공간 크기를 나타냄.
  • 영향:

    • 작을수록 입안의 공간이 좁아져 높은 포먼트 주파수 → 밝고 가는 소리
    • 클수록 공간이 넓어져 낮은 포먼트 주파수 → 둔탁하고 어두운 소리
  • 예시: 입을 크게 벌리거나 혀를 들어올릴 때 음색이 달라짐.

4. tenseness: 음성 긴장도

  • 정의: 성대 근육의 긴장 정도 (0 = 무성음, 1 = 긴장된 유성음)
  • 영향:

    • 값이 낮으면 속삭이는 소리, 숨소리 같이 부드럽고 기식이 섞임
    • 값이 높으면 선명한 유성음, 일반적인 목소리
  • 예시: whisper와 normal voice의 차이

5. nasality: 비음도 (콧소리 성분)

  • 정의: 코를 통한 공기 통과 정도
  • 영향:

    • 값이 높을수록 콧소리가 섞인 듯한 음색
    • 낮을수록 입 중심의 일반적인 소리
  • 예시: “나”, “마”처럼 코를 울리는 소리에서 nasality 값이 높음

요약표

파라미터 설명 영향을 주는 소리 특성
frequency 성대 진동 속도 음의 높낮이 (피치)
tonguePosition 혀의 앞뒤 위치 발음의 공명 위치 (모음의 구분)
tongueDiameter 혀의 굵기/공간 음색의 밝기/어둠
tenseness 성대의 긴장도 유성/무성 구분, 속삭임 ↔ 선명도
nasality 비강의 개방 정도 비음의 정도 (콧소리 포함 여부)

이러한 파라미터들은 함께 작동하여 하나의 음성이 생성되며, 이를 조절하면 사람의 말소리나 다양한 음색을 실제처럼 시뮬레이션할 수 있게 됩니다.

This post is licensed under CC BY 4.0 by the author.