AudioKit의 VocalTract
AudioKit의 VocalTract
VocalTract
용어설명
성도 (Vocal Tract, 聲道)
- 정의: 인간의 발성 기관 중, 성문부터 입술까지의 공기 통로를 의미합니다.
- 구성: 인두(pharynx), 구강(oral cavity), 비강(nasal cavity) 등 포함.
- 역할: 이 통로의 형태와 크기를 조절함으로써 소리의 공명을 변화시켜 다양한 말소리(모음, 자음)를 만들어냅니다. 예: 입을 크게 벌리거나 혀 위치를 바꾸면 음색이 달라지는 이유.
성문 펄스 파형 (Glottal Pulse Wave)
- 정의: 성대(glottis)가 주기적으로 열리고 닫히며 발생시키는 기초적인 소리 파형입니다.
- 역할: 이 파형이 바로 음성의 원천적인 진동이며, 이후 성도에서 공명을 거쳐 실제 말소리로 바뀝니다.
- 예시: 남자의 저음 목소리는 느린 주기로 성대가 열리고 닫히면서 낮은 주파수의 성문 펄스가 발생하는 것.
요약하면:
- 성도는 소리를 변조하는 필터 역할이고,
- 성문 펄스 파형은 소리의 원천 신호 (진동원) 역할입니다.
파라미터
VocalTract에서 조정하는 아래 5가지 파라미터는 사람의 음성 생성 과정을 물리적으로 모사한 것이며, 각각이 소리의 성질에 중요한 영향을 미칩니다. 아래는 각 파라미터가 조절될 때 어떤 음향적 특징이 변하는지에 대한 설명입니다.
1. frequency: 성문 주파수 (Glottal Frequency)
- 정의: 성대의 진동 속도, 즉 1초당 성대가 열리고 닫히는 횟수 (Hz).
-
영향:
- 이 값이 높을수록 음의 높이(피치)가 올라감.
- 낮을수록 음성이 굵고 낮은 톤.
- 예시: 어린이의 목소리는 높은 주파수, 남성의 저음 목소리는 낮은 주파수.
2. tonguePosition: 혀 위치
- 정의: 입안에서 혀의 앞뒤 위치를 0~1 범위로 나타냄.
-
영향:
- 혀가 앞쪽(0)일수록 앞 모음 계열 (예: [i], [e])
- 뒤쪽(1)으로 갈수록 후설음 계열 (예: [u], [o])
- 예시: ‘이’와 ‘우’의 차이처럼 혀 위치에 따라 공명 위치가 달라짐.
3. tongueDiameter: 혀 직경
- 정의: 혀가 차지하는 입안의 공간 크기를 나타냄.
-
영향:
- 작을수록 입안의 공간이 좁아져 높은 포먼트 주파수 → 밝고 가는 소리
- 클수록 공간이 넓어져 낮은 포먼트 주파수 → 둔탁하고 어두운 소리
- 예시: 입을 크게 벌리거나 혀를 들어올릴 때 음색이 달라짐.
4. tenseness: 음성 긴장도
- 정의: 성대 근육의 긴장 정도 (0 = 무성음, 1 = 긴장된 유성음)
-
영향:
- 값이 낮으면 속삭이는 소리, 숨소리 같이 부드럽고 기식이 섞임
- 값이 높으면 선명한 유성음, 일반적인 목소리
- 예시: whisper와 normal voice의 차이
5. nasality: 비음도 (콧소리 성분)
- 정의: 코를 통한 공기 통과 정도
-
영향:
- 값이 높을수록 콧소리가 섞인 듯한 음색
- 낮을수록 입 중심의 일반적인 소리
- 예시: “나”, “마”처럼 코를 울리는 소리에서 nasality 값이 높음
요약표
| 파라미터 | 설명 | 영향을 주는 소리 특성 |
|---|---|---|
frequency |
성대 진동 속도 | 음의 높낮이 (피치) |
tonguePosition |
혀의 앞뒤 위치 | 발음의 공명 위치 (모음의 구분) |
tongueDiameter |
혀의 굵기/공간 | 음색의 밝기/어둠 |
tenseness |
성대의 긴장도 | 유성/무성 구분, 속삭임 ↔ 선명도 |
nasality |
비강의 개방 정도 | 비음의 정도 (콧소리 포함 여부) |
이러한 파라미터들은 함께 작동하여 하나의 음성이 생성되며, 이를 조절하면 사람의 말소리나 다양한 음색을 실제처럼 시뮬레이션할 수 있게 됩니다.
This post is licensed under
CC BY 4.0
by the author.