Procesamiento de voz

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

Procesamiento del habla es el estudio de las señales del habla y los métodos de procesamiento de las señales. Las señales generalmente se procesan en una representación digital, por lo que el procesamiento de voz se puede considerar como un caso especial de procesamiento de señales digitales, aplicado a las señales de voz. Los aspectos del procesamiento del habla incluyen la adquisición, manipulación, almacenamiento, transferencia y salida de señales de voz. La entrada se llama reconocimiento de voz y la salida se llama síntesis de voz.

Historia

Los primeros intentos de procesamiento y reconocimiento del habla se centraron principalmente en comprender un puñado de elementos fonéticos simples, como las vocales. En 1952, tres investigadores de Bell Labs, Stephen. Balashek, R. Biddulph y K. H. Davis, desarrollaron un sistema que podía reconocer dígitos hablados por un solo hablante. Los trabajos pioneros en el campo del reconocimiento de voz mediante el análisis de su espectro se informaron en la década de 1940.

La codificación predictiva lineal (LPC), un algoritmo de procesamiento del habla, fue propuesto por primera vez por Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) en 1966. Bishnu S. Atal realizó más desarrollos en la tecnología LPC. y Manfred R. Schroeder en Bell Labs durante la década de 1970. LPC fue la base para la tecnología de voz sobre IP (VoIP), así como para los chips de sintetizador de voz, como los chips de voz LPC de Texas Instruments utilizados en Speak & Juguetes de hechizos de 1978.

Uno de los primeros productos de reconocimiento de voz comercialmente disponibles fue Dragon Dictate, lanzado en 1990. En 1992, AT&T utilizó la tecnología desarrollada por Lawrence Rabiner y otros en Bell Labs en su servicio de procesamiento de llamadas de reconocimiento de voz para enrutar llamadas sin un operador humano. En este punto, el vocabulario de estos sistemas era más grande que el vocabulario humano promedio.

A principios de la década de 2000, la estrategia de procesamiento de voz dominante comenzó a alejarse de los modelos ocultos de Markov hacia redes neuronales más modernas y aprendizaje profundo.

Técnicas

Deformación dinámica del tiempo

La deformación temporal dinámica (DTW) es un algoritmo para medir la similitud entre dos secuencias temporales, que pueden variar en velocidad. En general, DTW es un método que calcula una coincidencia óptima entre dos secuencias dadas (por ejemplo, series de tiempo) con ciertas restricciones y reglas. La coincidencia óptima se denota por la coincidencia que satisface todas las restricciones y reglas y que tiene el costo mínimo, donde el costo se calcula como la suma de las diferencias absolutas, para cada par de índices coincidentes, entre sus valores.

Modelos ocultos de Markov

Un modelo oculto de Markov se puede representar como la red bayesiana dinámica más simple. El objetivo del algoritmo es estimar una variable oculta x(t) dada una lista de observaciones y(t). Al aplicar la propiedad de Markov, la distribución de probabilidad condicional de la variable oculta x(t) en el momento t, dados los valores de la variable oculta x en todo momento, depende únicamente del valor de la variable oculta x(t − 1). De manera similar, el valor de la variable observada y(t) solo depende del valor de la variable oculta x(t) (ambos en el tiempo t).

Redes neuronales artificiales

Una red neuronal artificial (ANN) se basa en una colección de unidades o nodos conectados llamados neuronas artificiales, que modelan libremente las neuronas en un cerebro biológico. Cada conexión, como las sinapsis en un cerebro biológico, puede transmitir una señal de una neurona artificial a otra. Una neurona artificial que recibe una señal puede procesarla y luego enviar señales a otras neuronas artificiales conectadas a ella. En las implementaciones comunes de ANN, la señal en una conexión entre neuronas artificiales es un número real, y la salida de cada neurona artificial se calcula mediante alguna función no lineal de la suma de sus entradas.

Procesamiento con reconocimiento de fase

La fase generalmente se supone que es variable uniforme al azar y por lo tanto inútil. Esto es debido envolvimiento de fase: el resultado de la función arctangente no es continuo debido a saltos periódicos en . Después del desvío de fase (véase, Capítulo 2.3; fase y frecuencia instantáneas), se puede expresar como: , donde es fase lineal ( es el cambio temporal en cada marco de análisis), es la contribución de fase del tracto vocal y la fuente de fase. Las estimaciones de fases obtenidas se pueden utilizar para la reducción del ruido: el suavizado temporal de fase instantánea y sus derivados por tiempo (frecuencia instantánea) y frecuencia (traslación del grupo), el suavizado de la fase a través de la frecuencia. La amplitud unida y los estimadores de fase pueden recuperar el discurso más preciso basándose en la suposición de la distribución de la fase de von Mises.

Aplicaciones

  • Sistemas de voz interactivos
  • Virtual Assistants
  • Identificación de voz
  • Reconocimiento de emociones
  • Automatización del centro de llamadas
  • Robot

Contenido relacionado

Harald Tveit Alvestrand

Harald Tveit Alvestran es un informático noruego. Fue presidente del Grupo de Trabajo de Ingeniería de Internet desde 2001 hasta 2005, sucediendo a Fred...

Tecnología electrotérmica-química

electrotérmica-química es un intento de aumentar la precisión y la energía de boca de los futuros tanques, artillería y cañones de sistemas de armas...

Transporte en las Islas Caimán

La infraestructura de transporte de las Islas Caimán consta de una red de carreteras públicas, dos puertos marítimos y tres...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save