Modelo fuente-filtro

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

El modelo fuente-filtro representa el habla como una combinación de una fuente de sonido, como las cuerdas vocales, y un filtro acústico lineal, el tracto vocal. Si bien es solo una aproximación, el modelo se usa ampliamente en varias aplicaciones, como la síntesis y el análisis del habla, debido a su relativa simplicidad. También está relacionado con la predicción lineal. El desarrollo del modelo se debe, en gran parte, al trabajo inicial de Gunnar Fant, aunque otros, en particular Ken Stevens, también han contribuido sustancialmente a los modelos subyacentes al análisis acústico del habla y la síntesis del habla. Fant se basó en el trabajo de Tsutomu Chiba y Masato Kajiyama, quienes primero mostraron la relación entre las propiedades acústicas de una vocal y la forma del tracto vocal.

Una suposición importante que se hace a menudo en el uso del modelo fuente-filtro es la independencia de la fuente y el filtro. En tales casos, el modelo debe denominarse con mayor precisión "modelo de fuente-filtro independiente".

Historia

En 1942, Chiba y Kajiyama publicaron su investigación sobre la acústica de las vocales y el tracto vocal en su libro The Vowel: Its nature and structure. Mediante la creación de modelos del tracto vocal utilizando fotografías de rayos X, pudieron predecir las frecuencias formantes de diferentes vocales, estableciendo una relación entre las dos. Gunnar Fant, un científico del habla pionero, utilizó la investigación de Chiba y Kajiyama que involucraba la fotografía de rayos X del tracto vocal para interpretar sus propios datos de los sonidos del habla ruso en Acoustic Theory of Speech Production, que estableció el modelo fuente-filtro.

Aplicaciones

En diversos grados, los diferentes fonemas se pueden distinguir por las propiedades de su(s) fuente(s) y su forma espectral. Los sonidos sonoros (p. ej., las vocales) tienen al menos una fuente debido a la excitación glótica mayoritariamente periódica, que puede aproximarse mediante un tren de impulsos en el dominio del tiempo y por armónicos en el dominio de la frecuencia, y un filtro que depende, por ejemplo, de la lengua. posición y protrusión de los labios. Por otro lado, las fricativas, como [s] y [f], tienen al menos una fuente debido al ruido turbulento producido en una constricción en la cavidad oral o faringe. Las llamadas fricativas sonoras, como [z] y [v], tienen dos fuentes: una en la glotis y otra en la constricción supraglótica.

Síntesis de voz

En la implementación del modelo fuente-filtro de producción del habla, la fuente de sonido, o señal de excitación, a menudo se modela como un tren de impulsos periódicos, para el habla sonora, o como un ruido blanco para el habla sorda. El filtro del tracto vocal es, en el caso más simple, aproximado por un filtro de todos los polos, donde los coeficientes se obtienen realizando una predicción lineal para minimizar el error cuadrático medio en la señal de voz a reproducir. La convolución de la señal de excitación con la respuesta del filtro produce entonces el habla sintetizada.

Modelado de la producción del habla humana

En la producción del habla humana, la fuente de sonido son las cuerdas vocales, que pueden producir un sonido periódico cuando se contraen o un sonido aperiódico (ruido blanco) cuando se relajan. El filtro es el resto del tracto vocal, que puede cambiar de forma mediante la manipulación de la faringe, la boca y la cavidad nasal. Fant compara aproximadamente la fuente y el filtro con la fonación y la articulación, respectivamente. La fuente produce una serie de armónicos de amplitud variable, que viajan a través del tracto vocal y se amplifican o atenúan para producir un sonido del habla.

Contenido relacionado

Más resultados...