Codificador de voz

Ajustar Compartir Imprimir Citar

Encriptación de voz, transformación y dispositivo de síntesis

Vocoder de principios de 1970, construido a medida para la banda de música electrónica Kraftwerk

Un vocoder (un acrónimo de voice y encoder) es una categoría de codificación de voz que analiza y sintetiza la señal de voz humana para compresión de datos de audio, multiplexación, cifrado de voz o transformación de voz.

El codificador de voz fue inventado en 1938 por Homer Dudley en Bell Labs como un medio para sintetizar el habla humana. Este trabajo se convirtió en el codificador de voz de canal, que se utilizó como códec de voz para telecomunicaciones para la codificación de voz a fin de conservar el ancho de banda en la transmisión.

Al cifrar las señales de control, la transmisión de voz se puede asegurar contra la intercepción. Su uso principal de esta manera es para comunicaciones de radio seguras. La ventaja de este método de cifrado es que no se envía nada de la señal original, solo envolventes de los filtros de paso de banda. La unidad receptora debe configurarse con la misma configuración de filtro para volver a sintetizar una versión del espectro de la señal original.

El vocoder también se ha utilizado ampliamente como instrumento musical electrónico. La parte del decodificador del vocodificador, denominada voder, se puede utilizar de forma independiente para la síntesis de voz.

Teoría

La voz humana consta de sonidos generados por la apertura y el cierre de la glotis por las cuerdas vocales, lo que produce una forma de onda periódica con muchos armónicos. Luego, este sonido básico se filtra por la nariz y la garganta (un complicado sistema de tuberías resonantes) para producir diferencias en el contenido armónico (formantes) de manera controlada, creando la amplia variedad de sonidos utilizados en el habla. Existe otro conjunto de sonidos, conocidos como sordos y oclusivos, que son creados o modificados por la boca de diferentes maneras.

El vocoder examina el habla midiendo cómo cambian sus características espectrales con el tiempo. Esto da como resultado una serie de señales que representan estas frecuencias en un momento determinado mientras habla el usuario. En términos simples, la señal se divide en varias bandas de frecuencia (cuanto mayor sea este número, más preciso será el análisis) y el nivel de señal presente en cada banda de frecuencia brinda la representación instantánea del contenido de energía espectral. Para recrear el habla, el codificador de voz simplemente invierte el proceso, procesando una fuente de ruido de banda ancha haciéndola pasar por una etapa que filtra el contenido de frecuencia en función de la serie de números grabados originalmente.

Específicamente, en el codificador, la entrada pasa a través de un filtro multibanda, luego la salida de cada banda se mide usando un seguidor de envolvente y las señales de los seguidores de envolvente se transmiten al decodificador. El decodificador las aplica como señales de control a los amplificadores correspondientes de los canales de filtro de salida.

La información sobre la frecuencia instantánea de la señal de voz original (a diferencia de su característica espectral) se descarta; no era importante preservar esto para el uso original del codificador de voz como ayuda para el cifrado. Es este aspecto deshumanizante del proceso de codificación de voz lo que lo ha hecho útil para crear efectos de voz especiales en la música popular y el entretenimiento de audio.

En lugar de una recreación punto por punto de la forma de onda, el proceso de vocoder envía solo los parámetros del modelo vocal a través del enlace de comunicación. Dado que los parámetros cambian lentamente en comparación con la forma de onda del habla original, se puede reducir el ancho de banda necesario para transmitir el habla. Esto permite que más canales de voz utilicen un canal de comunicación determinado, como un canal de radio o un cable submarino.

Los codificadores de voz analógicos suelen analizar una señal entrante dividiendo la señal en varias bandas o rangos de frecuencia sintonizados. Para reconstruir la señal, se envía una señal portadora a través de una serie de estos filtros de paso de banda sintonizados. En el ejemplo de una voz de robot típica, la portadora es el ruido o una forma de onda de diente de sierra. Suele haber entre 8 y 20 bandas.

La amplitud del modulador para cada una de las bandas de análisis individuales genera un voltaje que se usa para controlar los amplificadores para cada una de las bandas portadoras correspondientes. El resultado es que los componentes de frecuencia de la señal de modulación se asignan a la señal portadora como cambios discretos de amplitud en cada una de las bandas de frecuencia.

A menudo hay una banda sorda o un canal de sibilancias. Esto es para frecuencias que están fuera de las bandas de análisis para el habla típica pero que aún son importantes en el habla. Ejemplos son palabras que comienzan con las letras s, f, ch o cualquier otro sonido sibilante. El uso de esta banda produce un habla reconocible, aunque un sonido algo mecánico. Los codificadores de voz a menudo incluyen un segundo sistema para generar sonidos sordos, utilizando un generador de ruido en lugar de la frecuencia fundamental. Esto se mezcla con la salida de la portadora para aumentar la claridad.

En el algoritmo del codificador de voz del canal, entre los dos componentes de una señal analítica, considerar solo el componente de amplitud y simplemente ignorar el componente de fase tiende a dar como resultado una voz poco clara; sobre los métodos para rectificar esto, consulte fase vocoder.

Historia

Circuito esquemático del Vocoder de Dudley
(basado en: Dudley 1940, p. 508, Fig.7)

SIGSALY (1943-1946)

HY-2 Vocoder (designado en 1961), fue la última generación de vocoder canal en los Estados Unidos.

El desarrollo de un codificador de voz se inició en 1928 por el ingeniero de Bell Labs, Homer Dudley, a quien se le concedieron las patentes el 21 de marzo de 1939 y el 16 de noviembre de 1937.

Para demostrar la capacidad de síntesis de voz de su sección decodificadora, se presentó al público el voder (demostración de funcionamiento por voz) en el edificio de AT&T en la Feria Mundial de Nueva York de 1939-1940. El voder constaba de un oscilador electrónico, una fuente de sonido de tonos agudos, y un generador de ruido para silbidos, filtros resonadores de 10 bandas con amplificadores de ganancia variable como tracto vocal y controladores manuales que incluían un juego de teclas sensibles a la presión para control de filtro y un pedal para controlar el tono. Los filtros controlados por teclas convierten el tono y el siseo en vocales, consonantes e inflexiones. Esta era una máquina compleja de operar, pero un operador hábil podía producir un habla reconocible.

El codificador de voz de Dudley se usó en el sistema SIGSALY, que fue construido por ingenieros de Bell Labs en 1943. SIGSALY se usó para comunicaciones de voz encriptadas durante la Segunda Guerra Mundial. El codificador de voz KO-6 se lanzó en 1949 en cantidades limitadas; era una aproximación cercana al SIGSALY a 1200 bit/s. En 1953, el codificador de voz KY-9 THESEUS de 1650 bit/s usó lógica de estado sólido para reducir el peso a 565 libras (256 kg) de las 55 toneladas cortas (50 000 kg) de SIGSALY, y en 1961 el HY-2 codificador de voz, un sistema de 16 canales de 2400 bit/s, pesaba 100 libras (45 kg) y fue la última implementación de un codificador de voz de canal en un sistema de voz seguro.

Desde entonces, el trabajo posterior en este campo ha utilizado la codificación digital del habla. La técnica de codificación de voz más utilizada es la codificación predictiva lineal (LPC). Otra técnica de codificación del habla, la modulación de código de pulso diferencial adaptativo (ADPCM, por sus siglas en inglés), fue desarrollada por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973.

Aplicaciones

Equipo terminal para sistemas basados en radio móvil digital (DMR).
Grabación y encriptación de voz digital
Implantes cocleares: ruido y tono se utiliza para simular los efectos de implantes cocleares.
Efectos musicales y artísticos

Implementaciones modernas

Incluso con la necesidad de grabar varias frecuencias y sonidos sordos adicionales, la compresión de los sistemas de codificador de voz es impresionante. Los sistemas de grabación de voz estándar capturan frecuencias de aproximadamente 500 a 3400 Hz, donde se encuentran la mayoría de las frecuencias utilizadas en el habla, normalmente con una frecuencia de muestreo de 8 kHz (ligeramente mayor que la frecuencia de Nyquist). La resolución de muestreo suele ser de 8 o más bits por resolución de muestra, para una velocidad de datos en el rango de 64 kbit/s, pero un buen codificador de voz puede proporcionar una simulación de voz razonablemente buena con tan solo 5 kbit/s de datos.

Los codificadores de voz de

Calidad interurbana, como ITU G.729, se utilizan en muchas redes telefónicas. G.729 en particular tiene una velocidad de datos final de 8 kbit/s con una excelente calidad de voz. G.723 logra una calidad ligeramente peor a velocidades de datos de 5,3 y 6,4 kbit/s. Muchos sistemas de codificadores de voz utilizan velocidades de datos más bajas, pero por debajo de 5 kbit/s la calidad de la voz comienza a disminuir rápidamente.

Varios sistemas de codificador de voz se utilizan en los sistemas de encriptación de la NSA:

LPC-10, FIPS Pub 137, 2400 bit/s, que utiliza codificación predictiva lineal
Predicción lineal excitada por código (CELP), 2400 y 4800 bits/s, Federal Standard 1016, utilizada en STU-III
Modulación continua de pendiente variable delta (CVSD), 16 kbit/s, utilizado en en encriptadores de banda ancha como el KY-57.
Predicción lineal de excitación mixta (MELP), MIL STD 3005, 2400 bit/s, utilizada en el futuro terminal digital de banda estrecha FNBDT, teléfono seguro del siglo XXI de NSA.
Adaptive Differential Modulación del Código de Pulso (ADPCM), ex UIT-T G.721, 32 kbit/s utilizados en el teléfono seguro STE

(ADPCM no es un codificador de voz propiamente dicho, sino un códec de forma de onda. La UIT ha recopilado G.721 junto con algunos otros códecs ADPCM en G.726).

Los codificadores de voz también se utilizan actualmente en el desarrollo de investigaciones sobre psicofísica, lingüística, neurociencia computacional e implantes cocleares.

Los codificadores de voz modernos que se utilizan en equipos de comunicación y en dispositivos de almacenamiento de voz en la actualidad se basan en los siguientes algoritmos:

Predicción lineal de código algebraico (ACELP 4.7 kbit/s – 24 kbit/s)
Predicción lineal de excitación mixta (MELPe 2400, 1200 y 600 bit/s)
excitación de banda múltiple (AMBE 2000 bit/s – 9600 bit/s)
Representación Sinusoidal-Pulsed (SPR 600 bit/s – 4800 bit/s)
Interpolación Waveform de baja complejidad avanzada (RALCWI 2050bit/s, 2400bit/s y 2750bit/s)
Predicción lineal (TWELP 600 bits/s – 9600 bit/s)
Noise Robust Vocoder (NRV 300 bit/s y 800 bit/s)

Basado en predicción lineal

Desde finales de la década de 1970, la mayoría de los codificadores de voz no musicales se han implementado mediante predicción lineal, en la que la envolvente espectral (formante) de la señal de destino se estima mediante un filtro IIR de todos los polos. En la codificación de predicción lineal, el filtro de todos los polos reemplaza el banco de filtros de paso de banda de su predecesor y se usa en el codificador para blanquear la señal (es decir, aplanar el espectro) y nuevamente en el decodificador para re- aplicar la forma espectral de la señal de voz de destino.

Una ventaja de este tipo de filtrado es que la ubicación de los picos espectrales del predictor lineal está completamente determinada por la señal de destino y puede ser tan precisa como lo permita el período de tiempo que se filtrará. Esto contrasta con los codificadores de voz que utilizan bancos de filtros de ancho fijo, donde los picos espectrales generalmente solo pueden determinarse dentro del alcance de una banda de frecuencia determinada. El filtrado LP también tiene la desventaja de que las señales con un gran número de frecuencias constituyentes pueden exceder el número de frecuencias que puede representar el filtro de predicción lineal. Esta restricción es la razón principal por la que la codificación LP casi siempre se usa junto con otros métodos en codificadores de voz de alta compresión.

Forma de onda interpolativa

El codificador de voz con interpolación de forma de onda (WI) fue desarrollado en AT&T Bell Laboratories alrededor de 1995 por W.B. Kleijn y, posteriormente, AT&T desarrolló una versión de baja complejidad para la competencia de codificador de voz seguro DoD. Se realizaron mejoras notables al codificador WI en la Universidad de California, Santa Bárbara. AT&T posee las patentes principales relacionadas con WI y otros institutos poseen patentes adicionales.

Efectos artísticos

Usos en la música

Canal vocoder configurado como una aplicación musical; las capciones holandesas son "filtros Band-pass" y "Meta distancia"

Para aplicaciones musicales, se utiliza una fuente de sonidos musicales como portadora, en lugar de extraer la frecuencia fundamental. Por ejemplo, se podría usar el sonido de un sintetizador como entrada al banco de filtros, una técnica que se hizo popular en la década de 1970.

Historia

Werner Meyer-Eppler, un científico alemán con especial interés en la síntesis de voz electrónica, publicó una tesis en 1948 sobre música electrónica y síntesis de voz desde el punto de vista de la síntesis de sonido. Más tarde jugó un papel decisivo en la fundación del Estudio de Música Electrónica de WDR en Colonia, en 1951.

Siemens Synthesizer (c.1959) en Siemens Studio for Electronic Music fue uno de los primeros intentos de utilizar un vocoder (rear) para crear música

Uno de los primeros intentos de usar un codificador de voz para crear música fue el "Sintetizador Siemens" en el Siemens Studio for Electronic Music, desarrollado entre 1956 y 1959.

En 1968, Robert Moog desarrolló uno de los primeros codificadores de voz musicales de estado sólido para el estudio de música electrónica de la Universidad de Buffalo.

En 1968, Bruce Haack construyó un prototipo de codificador de voz, llamado Farad en honor a Michael Faraday. Apareció por primera vez en "The Electronic Record For Children" lanzado en 1969 y luego en su álbum de rock The Electric Lucifer lanzado en 1970.

En 1970, Wendy Carlos y Robert Moog construyeron otro vocoder musical, un dispositivo de diez bandas inspirado en los diseños de vocoder de Homer Dudley. Originalmente se llamó codificador-decodificador de espectro y luego se lo denominó simplemente codificador de voz. La señal portadora provenía de un sintetizador modular Moog y el modulador de una entrada de micrófono. La salida del codificador de voz de diez bandas era bastante inteligible, pero se basaba en un habla especialmente articulada. Algunos codificadores de voz usan un filtro de paso alto para dejar pasar algo de sibilancia desde el micrófono; esto arruina el dispositivo para su aplicación original de codificación de voz, pero hace que el efecto del sintetizador parlante sea mucho más inteligible.

En 1972, el primer álbum de música electrónica de Isao Tomita, Electric Samurai: Switched on Rock, fue un primer intento de aplicar la técnica de síntesis de voz al estilo a través de un codificador de voz en rock electrónico y música pop. El álbum incluía interpretaciones electrónicas de canciones pop y rock contemporáneas, mientras utilizaba voces sintetizadas en lugar de voces humanas. En 1974, utilizó voces sintetizadas en su popular álbum de música clásica Snowflakes are Dancing, que se convirtió en un éxito mundial y ayudó a popularizar la música electrónica.

En 1973, la banda británica Emerson, Lake and Palmer utilizó un codificador de voz en su álbum Brain Salad Surgery, para la canción "Karn Evil 9: 3rd Impression".

La canción de 1975 "The Raven" del álbum Tales of Mystery and Imagination de The Alan Parsons Project presenta a Alan Parsons interpretando voces a través de un vocoder de EMI. Según las notas del álbum, "The Raven" fue la primera canción de rock en presentar un codificador de voz digital.

Pink Floyd también usó un codificador de voz en tres de sus álbumes, primero en Animals de 1977 para las canciones "Sheep" y "Pigs (Three Different Ones)", luego en A Momentary Lapse of Reason en "A New Machine Part 1" y "Una nueva máquina Parte 2" (1987), y finalmente en The Division Bell de 1994, en 'Keep Talking'.

La Electric Light Orchestra fue una de las primeras en utilizar el codificador de voz en un contexto comercial, con su álbum de 1977 Out of the Blue. La banda lo usa ampliamente en el álbum, incluso en los éxitos "Sweet Talkin' Mujer" y "Sr. Cielo azul". En los siguientes álbumes, la banda hizo un uso esporádico de él, especialmente en sus éxitos "The Diary of Horace Wimp" y "Confusión" de su álbum de 1979 Discovery, las pistas "Prologue", "Yours Truly, 2095" y "Epilogue" en su álbum de 1981 Time, y "Calling America" de su álbum de 1986 Balance of Power.

A fines de la década de 1970, el dúo francés Space Art usó un codificador de voz durante la grabación de su segundo álbum, Trip in the Center Head.

Phil Collins usó un codificador de voz para proporcionar un efecto vocal para su exitoso sencillo internacional de 1981 'In the Air Tonight'.

Los codificadores de voz han aparecido en grabaciones pop de vez en cuando, la mayoría de las veces simplemente como un efecto especial en lugar de un aspecto destacado del trabajo. Sin embargo, muchos artistas electrónicos experimentales del género musical de la nueva era a menudo utilizan vocoder de una manera más completa en trabajos específicos, como Jean-Michel Jarre (en Zoolook, 1984) y Mike Oldfield (en QE2, 1980 y Five Miles Out, 1982).

El módulo Vocoder y su uso por parte de M. Oldfield se pueden ver claramente en su DVD Live At Montreux 1981 (pista "Sheba").

También hay algunos artistas que han hecho de los codificadores de voz una parte esencial de su música, en general o durante una fase extendida. Los ejemplos incluyen el grupo alemán de synthpop Kraftwerk, el grupo japonés de new wave Polysics, Stevie Wonder ("Send One Your Love", "A Seed's a Star") y el teclista de jazz/fusión. Herbie Hancock durante su período de finales de la década de 1970. En 1982, Neil Young usó un Sennheiser Vocoder VSM201 en seis de las nueve pistas de Trans. El coro y el puente de Michael Jackson's 'P.Y.T. (Cosa bastante joven)". cuenta con un codificador de voz ("Pretty young thing/You make me sing"), cortesía del músico de sesión Michael Boddicker.

Coldplay ha utilizado un codificador de voz en algunas de sus canciones. Por ejemplo, en "Mayor Menos" y "Hurts Like Heaven", ambos del álbum Mylo Xyloto (2011), las voces de Chris Martin son en su mayoría procesadas con vocoder. "Midnight", de Ghost Stories (2014), también presenta a Martin cantando a través de un codificador de voz. La pista oculta "X Marks the Spot" de A Head Full of Dreams también se grabó a través de un codificador de voz.

La banda de Noisecore Atari Teenage Riot ha utilizado codificadores de voz en una variedad de sus canciones y presentaciones en vivo como Live at the Brixton Academy (2002) junto con otras tecnologías de audio digital, tanto antiguas como nuevas.

La canción de los Red Hot Chili Peppers "By the Way" usa un efecto de vocoder en Anthony Kiedis' voz.

Entre los usuarios más constantes del vocoder a la hora de emular la voz humana se encuentran Daft Punk, que han utilizado este instrumento desde su primer álbum Homework (1997) hasta su último trabajo Random Access Memories (2013) y consideran la convergencia de la tecnología y la voz humana "la identidad de su proyecto musical". Por ejemplo, la letra de "Around the World" (1997) están integralmente procesados por vocoder, "Get Lucky" (2013) presenta una mezcla de voces humanas naturales y procesadas, y "Instant Crush" (2013) presenta a Julian Casablancas cantando en un codificador de voz.

El productor Zedd, la cantante de country estadounidense Maren Morris y el dúo musical estadounidense Gray crearon una canción titulada "The Middle" que contó con un codificador de voz y alcanzó los diez primeros de las listas en 2018.

Efectos de voz en otras artes

Las voces de los robots se convirtieron en un elemento recurrente en la música popular durante el siglo XX. Además de los codificadores de voz, varios otros métodos para producir variaciones de este efecto incluyen: Sonovox, Talk box y Auto-Tune, codificadores de voz de predicción lineal, síntesis de voz, modulación en anillo y filtro de peine.

Ejemplo de vocoder

Demostración del efecto "voz romántica" encontrado en la película y la televisión.

¿Problemas para jugar este archivo? Vea la ayuda de los medios.

Los codificadores de voz se utilizan en la producción de televisión, cine y juegos, generalmente para robots o computadoras parlantes. Las voces robóticas de los Cylons en Battlestar Galactica se crearon con un EMS Vocoder 2000. La versión de 1980 del tema de Doctor Who, arreglada y grabada por Peter Howell, tiene un sección de la melodía principal generada por un vocoder Roland SVC-350. Se utilizó un vocoder Roland VP-330 similar para crear la voz de Soundwave, un personaje de la serie Transformers.

Codificador de voz

Teoría

Historia

Aplicaciones

Implementaciones modernas

Basado en predicción lineal

Forma de onda interpolativa

Efectos artísticos

Usos en la música

Historia

Efectos de voz en otras artes

Diodo PIN

Ecuación de Darcy-Weisbach

Ratón óptico