Síntesis de voz
La síntesis de voz es la producción artificial del habla humana. Un sistema informático utilizado para este fin se denomina sintetizador de voz y puede implementarse en productos de software o hardware. Un sistema de texto a voz (TTS) convierte el texto del idioma normal en voz; otros sistemas traducen representaciones lingüísticas simbólicas como transcripciones fonéticas en habla. El proceso inverso es el reconocimiento de voz.
El habla sintetizada se puede crear mediante la concatenación de fragmentos de voz grabados que se almacenan en una base de datos. Los sistemas difieren en el tamaño de las unidades de voz almacenadas; un sistema que almacena teléfonos o difonos proporciona el mayor rango de salida, pero puede carecer de claridad. Para dominios de uso específicos, el almacenamiento de palabras u oraciones completas permite una salida de alta calidad. Alternativamente, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para crear un sonido completamente "sintético" salida de voz
La calidad de un sintetizador de voz se juzga por su similitud con la voz humana y por su capacidad para ser entendido con claridad. Un programa inteligible de texto a voz permite a las personas con discapacidades visuales o de lectura escuchar palabras escritas en una computadora doméstica. Muchos sistemas operativos de computadora han incluido sintetizadores de voz desde principios de la década de 1990.
Un sistema de texto a voz (o "motor") se compone de dos partes: un front-end y un back-end. El front-end tiene dos tareas principales. Primero, convierte el texto sin procesar que contiene símbolos como números y abreviaturas en el equivalente de palabras escritas. Este proceso suele denominarse normalización de texto, preprocesamiento o tokenización. Luego, el front-end asigna transcripciones fonéticas a cada palabra y divide y marca el texto en unidades prosódicas, como frases, cláusulas y oraciones. El proceso de asignar transcripciones fonéticas a las palabras se denomina conversión texto a fonema o grafema a fonema. Las transcripciones fonéticas y la información de prosodia forman juntas la representación lingüística simbólica que genera el front-end. El back-end, a menudo denominado sintetizador, convierte la representación lingüística simbólica en sonido. En ciertos sistemas, esta parte incluye el cálculo de la prosodia objetivo (contorno de tono, duraciones de fonemas), que luego se impone en el discurso de salida.
Historia
Mucho antes de la invención del procesamiento de señales electrónicas, algunas personas intentaron construir máquinas para emular el habla humana. Algunas de las primeras leyendas sobre la existencia de "Brazen Heads" involucró al Papa Silvestre II (m. 1003 d. C.), Alberto Magno (1198–1280) y Roger Bacon (1214–1294).
En 1779, el científico germano-danés Christian Gottlieb Kratzenstein ganó el primer premio en un concurso anunciado por la Academia Imperial Rusa de Ciencias y Artes para los modelos que construyó del tracto vocal humano que podían producir los cinco sonidos de vocales largas (en International Notación del alfabeto fonético: [aː], [eː], [iː], [oː ] y [uː]). Siguió la "máquina de habla acústico-mecánica" operada por fuelles" de Wolfgang von Kempelen de Pressburg, Hungría, descrito en un artículo de 1791. Esta máquina agregó modelos de la lengua y los labios, lo que le permitió producir tanto consonantes como vocales. En 1837, Charles Wheatstone produjo una "máquina parlante" basado en el diseño de von Kempelen, y en 1846, Joseph Faber exhibió la "Euphonia". En 1923 Paget resucitó el diseño de Wheatstone.
En la década de 1930, Bell Labs desarrolló el vocoder, que analizaba automáticamente el habla en sus tonos y resonancias fundamentales. A partir de su trabajo en el vocoder, Homer Dudley desarrolló un sintetizador de voz operado por teclado llamado The Voder (Voice Demonstrator), que exhibió en la Feria Mundial de Nueva York de 1939.
Dra. Franklin S. Cooper y sus colegas de Haskins Laboratories construyeron la reproducción de patrones a fines de la década de 1940 y la completaron en 1950. Había varias versiones diferentes de este dispositivo de hardware; sólo uno sobrevive actualmente. La máquina convierte las imágenes de los patrones acústicos del habla en forma de espectrograma en sonido. Usando este dispositivo, Alvin Liberman y sus colegas descubrieron señales acústicas para la percepción de segmentos fonéticos (consonantes y vocales).
Dispositivos electrónicos
Los primeros sistemas de síntesis de voz basados en computadora se originaron a fines de la década de 1950. Noriko Umeda et al. desarrolló el primer sistema de texto a voz en inglés general en 1968, en el Laboratorio Electrotécnico de Japón. En 1961, el físico John Larry Kelly, Jr. y su colega Louis Gerstman utilizaron una computadora IBM 704 para sintetizar el habla, un evento entre los más destacados en la historia de Bell Labs. El sintetizador de grabadora de voz de Kelly (vocoder) recreó la canción 'Daisy Bell', con acompañamiento musical de Max Mathews. Coincidentemente, Arthur C. Clarke estaba visitando a su amigo y colega John Pierce en las instalaciones de Bell Labs Murray Hill. Clarke quedó tan impresionado con la demostración que la usó en la escena culminante del guión de su novela 2001: Una odisea del espacio, donde la computadora HAL 9000 canta la misma canción que el astronauta Dave Bowman le pone. dormir. A pesar del éxito de la síntesis de voz puramente electrónica, continúa la investigación sobre sintetizadores de voz mecánicos.
La codificación predictiva lineal (LPC), una forma de codificación de voz, comenzó a desarrollarse con el trabajo de Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) en 1966. Bishnu realizó más desarrollos en la tecnología LPC. S. Atal y Manfred R. Schroeder en Bell Labs durante la década de 1970. Más tarde, LPC fue la base de los primeros chips de sintetizador de voz, como los chips de voz LPC de Texas Instruments utilizados en Speak & Juguetes de hechizos de 1978.
En 1975, Fumitada Itakura desarrolló el método de pares espectrales de líneas (LSP) para la codificación de voz de alta compresión, mientras trabajaba en NTT. De 1975 a 1981, Itakura estudió problemas de análisis y síntesis del habla basados en el método LSP. En 1980, su equipo desarrolló un chip sintetizador de voz basado en LSP. LSP es una tecnología importante para la codificación y la síntesis de voz, y en la década de 1990 fue adoptada por casi todos los estándares internacionales de codificación de voz como un componente esencial, lo que contribuye a la mejora de la comunicación de voz digital a través de canales móviles e Internet.
En 1975, se lanzó MUSA y fue uno de los primeros sistemas de síntesis de voz. Consistía en un hardware de computadora independiente y un software especializado que le permitía leer italiano. Una segunda versión, lanzada en 1978, también podía cantar italiano en una "a cappella" estilo.
Los sistemas dominantes en las décadas de 1980 y 1990 fueron el sistema DECtalk, basado en gran medida en el trabajo de Dennis Klatt en el MIT, y el sistema Bell Labs; este último fue uno de los primeros sistemas multilingües independientes del lenguaje, haciendo un uso extensivo de los métodos de procesamiento del lenguaje natural.
La electrónica de mano con síntesis de voz comenzó a surgir en la década de 1970. Uno de los primeros fue la calculadora portátil para ciegos Speech+ de Telesensory Systems Inc. (TSI) en 1976. Otros dispositivos tenían principalmente fines educativos, como Speak & Juguete de hechizos producido por Texas Instruments en 1978. Fidelity lanzó una versión parlante de su computadora electrónica de ajedrez en 1979. El primer videojuego que presentó síntesis de voz fue el juego de arcade shoot 'em up de 1980, Stratovox (conocido en Japón como Speak & Rescue), de Sun Electronics. El primer juego de computadora personal con síntesis de voz fue Manbiki Shoujo (Shoplifting Girl), lanzado en 1980 para el PET 2001, para el cual el desarrollador del juego, Hiroshi Suzuki, desarrolló un "cero cruce" técnica de programación para producir una forma de onda de voz sintetizada. Otro ejemplo temprano, la versión arcade de Berzerk, también data de 1980. The Milton Bradley Company produjo el primer juego electrónico multijugador usando síntesis de voz, Milton, en el mismo año.
Los primeros sintetizadores de voz electrónicos sonaban robóticos y, a menudo, eran apenas inteligibles. La calidad del habla sintetizada ha mejorado constantemente, pero a partir de 2016, la salida de los sistemas de síntesis de voz contemporáneos sigue siendo claramente distinguible del habla humana real.
Las voces sintetizadas solían sonar masculinas hasta 1990, cuando Ann Syrdal, de AT&T Bell Laboratories, creó una voz femenina.
Kurzweil predijo en 2005 que a medida que la relación costo-rendimiento hiciera que los sintetizadores de voz fueran más baratos y accesibles, más personas se beneficiarían del uso de programas de conversión de texto a voz.
Tecnologías de sintetizador
Las cualidades más importantes de un sistema de síntesis de voz son la naturaleza y la inteligibilidad. La naturalidad describe qué tan cerca suena la salida del habla humana, mientras que la inteligibilidad es la facilidad con la que se entiende la salida. El sintetizador de voz ideal es tanto natural como inteligible. Los sistemas de síntesis de voz suelen intentar maximizar ambas características.
Las dos tecnologías principales que generan formas de onda de voz sintéticas son la síntesis concatenativa y la síntesis de formantes. Cada tecnología tiene fortalezas y debilidades, y los usos previstos de un sistema de síntesis generalmente determinarán qué enfoque se utilizará.
Síntesis de concatenación
La síntesis concatenativa se basa en la concatenación (encadenamiento) de segmentos de voz grabada. Generalmente, la síntesis concatenativa produce el habla sintetizada con el sonido más natural. Sin embargo, las diferencias entre las variaciones naturales del habla y la naturaleza de las técnicas automatizadas para segmentar las formas de onda a veces dan como resultado fallas audibles en la salida. Hay tres subtipos principales de síntesis concatenativa.
Síntesis de selección de unidades
La síntesis de selección de unidades utiliza grandes bases de datos de voz grabada. Durante la creación de la base de datos, cada expresión grabada se segmenta en algunos o todos los siguientes: fonemas individuales, difonos, medios fonos, sílabas, morfemas, palabras, frases y oraciones. Por lo general, la división en segmentos se realiza mediante un reconocedor de voz especialmente modificado configurado en una "alineación forzada" modo con alguna corrección manual después, utilizando representaciones visuales como la forma de onda y el espectrograma. A continuación, se crea un índice de las unidades en la base de datos del habla en función de la segmentación y los parámetros acústicos, como la frecuencia fundamental (tono), la duración, la posición en la sílaba y los fonemas vecinos. En el tiempo de ejecución, la expresión de destino deseada se crea determinando la mejor cadena de unidades candidatas de la base de datos (selección de unidades). Este proceso generalmente se logra utilizando un árbol de decisión especialmente ponderado.
La selección de unidades proporciona la mayor naturalidad, ya que aplica solo una pequeña cantidad de procesamiento de señal digital (DSP) al habla grabada. DSP a menudo hace que el habla grabada suene menos natural, aunque algunos sistemas utilizan una pequeña cantidad de procesamiento de señal en el punto de concatenación para suavizar la forma de onda. La salida de los mejores sistemas de selección de unidades a menudo no se distingue de las voces humanas reales, especialmente en contextos para los que se ha ajustado el sistema TTS. Sin embargo, la naturalidad máxima generalmente requiere que las bases de datos de voz de selección de unidades sean muy grandes, en algunos sistemas que van hasta los gigabytes de datos grabados, lo que representa docenas de horas de voz. Además, se sabe que los algoritmos de selección de unidades seleccionan segmentos de un lugar que da como resultado una síntesis menos que ideal (por ejemplo, las palabras menores se vuelven poco claras) incluso cuando existe una mejor opción en la base de datos. Recientemente, los investigadores han propuesto varios métodos automatizados para detectar segmentos no naturales en sistemas de síntesis de voz de selección de unidades.
Síntesis de difonos
La síntesis de difonos utiliza una base de datos de voz mínima que contiene todos los difonos (transiciones de sonido a sonido) que ocurren en un idioma. El número de difonos depende de la fonotáctica del idioma: por ejemplo, el español tiene alrededor de 800 difonos y el alemán alrededor de 2500. En la síntesis de difonos, solo se incluye un ejemplo de cada difono en la base de datos de voz. En tiempo de ejecución, la prosodia objetivo de una oración se superpone a estas unidades mínimas mediante técnicas de procesamiento de señales digitales como la codificación predictiva lineal, PSOLA o MBROLA. o técnicas más recientes, como la modificación del tono en el dominio de la fuente utilizando la transformada de coseno discreta. La síntesis de difonos sufre los fallos sónicos de la síntesis concatenativa y la naturaleza de sonido robótico de la síntesis de formantes, y tiene pocas de las ventajas de cualquiera de los enfoques además del tamaño pequeño. Como tal, su uso en aplicaciones comerciales está disminuyendo, aunque continúa utilizándose en investigación porque hay una serie de implementaciones de software disponibles gratuitamente. Un ejemplo temprano de la síntesis Diphone es un robot de enseñanza, Leachim, que fue inventado por Michael J. Freeman. Leachim contenía información sobre el plan de estudios de la clase y cierta información biográfica sobre los estudiantes a quienes estaba programado para enseñar. Se probó en un aula de cuarto grado en el Bronx, Nueva York.
Síntesis específica de dominio
La síntesis específica de dominio concatena palabras y frases pregrabadas para crear expresiones completas. Se utiliza en aplicaciones en las que la variedad de textos que generará el sistema se limita a un dominio en particular, como anuncios de horarios de tránsito o informes meteorológicos. La tecnología es muy simple de implementar y ha estado en uso comercial durante mucho tiempo, en dispositivos como relojes parlantes y calculadoras. El nivel de naturalidad de estos sistemas puede ser muy alto porque la variedad de tipos de oraciones es limitada y se asemejan mucho a la prosodia y la entonación de las grabaciones originales.
Debido a que estos sistemas están limitados por las palabras y frases en sus bases de datos, no son de propósito general y solo pueden sintetizar las combinaciones de palabras y frases con las que han sido preprogramados. Sin embargo, la combinación de palabras dentro del lenguaje hablado naturalmente puede causar problemas a menos que se tengan en cuenta las muchas variaciones. Por ejemplo, en dialectos no róticos del inglés, la "r" en palabras como "clear" /ˈklɪə/ generalmente solo se pronuncia cuando la siguiente palabra tiene una vocal como primera letra (por ejemplo, "limpiar" se realiza como /ˌklɪəɹˈʌʊt/ ). Del mismo modo, en francés, muchas consonantes finales ya no son mudas si van seguidas de una palabra que comienza con una vocal, un efecto llamado enlace. Esta alternancia no puede reproducirse mediante un sistema simple de concatenación de palabras, que requeriría una complejidad adicional para ser sensible al contexto.
Síntesis de formantes
La síntesis de formantes no utiliza muestras de voz humana en tiempo de ejecución. En su lugar, la salida de voz sintetizada se crea utilizando síntesis aditiva y un modelo acústico (síntesis de modelado físico). Los parámetros como la frecuencia fundamental, la sonorización y los niveles de ruido varían con el tiempo para crear una forma de onda de habla artificial. Este método a veces se denomina síntesis basada en reglas; sin embargo, muchos sistemas concatenativos también tienen componentes basados en reglas. Muchos sistemas basados en la tecnología de síntesis de formantes generan un habla artificial con sonido robótico que nunca se confundiría con el habla humana. Sin embargo, la máxima naturalidad no siempre es el objetivo de un sistema de síntesis de voz, y los sistemas de síntesis de formantes tienen ventajas sobre los sistemas concatenativos. El habla sintetizada por formantes puede ser inteligible de forma fiable, incluso a velocidades muy altas, evitando los fallos acústicos que suelen afectar a los sistemas concatenativos. Los discapacitados visuales utilizan el habla sintetizada de alta velocidad para navegar rápidamente por las computadoras usando un lector de pantalla. Los sintetizadores de formantes suelen ser programas más pequeños que los sistemas concatenativos porque no tienen una base de datos de muestras de voz. Por lo tanto, se pueden utilizar en sistemas integrados, donde la memoria y la potencia del microprocesador son especialmente limitadas. Debido a que los sistemas basados en formantes tienen un control completo de todos los aspectos del discurso de salida, se puede generar una amplia variedad de prosodias y entonaciones, transmitiendo no solo preguntas y declaraciones, sino también una variedad de emociones y tonos de voz.
Ejemplos de control de entonación no en tiempo real pero altamente preciso en la síntesis de formantes incluyen el trabajo realizado a fines de la década de 1970 para el juguete Speak & de Texas Instruments; Spell, y a principios de la década de 1980, las máquinas recreativas Sega y en muchos juegos recreativos de Atari, Inc. que utilizan los chips TMS5220 LPC. Crear la entonación adecuada para estos proyectos fue arduo y los resultados aún no se han igualado con las interfaces de texto a voz en tiempo real.
Síntesis articulatoria
La síntesis articulatoria se refiere a técnicas computacionales para sintetizar el habla basadas en modelos del tracto vocal humano y los procesos de articulación que ocurren allí. El primer sintetizador articulatorio utilizado regularmente para experimentos de laboratorio fue desarrollado en Haskins Laboratories a mediados de la década de 1970 por Philip Rubin, Tom Baer y Paul Mermelstein. Este sintetizador, conocido como ASY, se basó en modelos de tracto vocal desarrollados en Bell Laboratories en las décadas de 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas.
Hasta hace poco, los modelos de síntesis articulatoria no se habían incorporado a los sistemas de síntesis de voz comerciales. Una excepción notable es el sistema basado en NeXT desarrollado y comercializado originalmente por Trillium Sound Research, una empresa derivada de la Universidad de Calgary, donde se llevó a cabo gran parte de la investigación original. Tras la desaparición de las diversas encarnaciones de NeXT (iniciado por Steve Jobs a fines de la década de 1980 y fusionado con Apple Computer en 1997), el software Trillium se publicó bajo la Licencia Pública General GNU, y el trabajo continúa como gnuspeech. El sistema, comercializado por primera vez en 1994, proporciona una conversión de texto a voz basada en la articulación completa utilizando una guía de ondas o una línea de transmisión análoga de los tractos oral y nasal humanos controlados por el 'modelo de región distintiva' de Carré.;.
Los sintetizadores más recientes, desarrollados por Jorge C. Lucero y sus colegas, incorporan modelos de biomecánica de las cuerdas vocales, aerodinámica glótica y propagación de ondas acústicas en los bronquios, la tráquea, las cavidades nasal y oral y, por lo tanto, constituyen sistemas completos de habla basada en la física. simulación.
Síntesis basada en HMM
La síntesis basada en HMM es un método de síntesis basado en modelos ocultos de Markov, también llamado síntesis paramétrica estadística. En este sistema, los HMM modelan simultáneamente el espectro de frecuencias (tracto vocal), la frecuencia fundamental (fuente de voz) y la duración (prosodia) del habla. Las formas de onda del habla se generan a partir de los propios HMM en función del criterio de máxima verosimilitud.
Síntesis de onda sinusoidal
La síntesis de ondas sinusoidales es una técnica para sintetizar el habla reemplazando los formantes (bandas principales de energía) con silbidos de tono puro.
Síntesis basada en aprendizaje profundo
La síntesis de voz de aprendizaje profundo utiliza redes neuronales profundas (DNN) para producir voz artificial a partir de texto (text-to-speech) o espectro (vocoder). Las redes neuronales profundas se entrenan utilizando una gran cantidad de voz grabada y, en el caso de un sistema de texto a voz, las etiquetas asociadas y/o el texto de entrada.
Los sintetizadores de voz basados en DNN se acercan a la naturalidad de la voz humana. Ejemplos de desventajas del método son baja robustez cuando los datos no son suficientes, falta de Controlabilidad y bajo rendimiento en modelos autorregresivos. Algunas de las limitaciones (como la falta de control) pueden resolverse mediante investigaciones futuras.
Actualmente, Tacotron2 + Waveglow requiere solo unas pocas docenas de horas de material de capacitación en voz grabada para producir una voz de muy alta calidad. Sin embargo, para los idiomas tonales, como el chino o el taiwanés, se requieren diferentes niveles de sandhi de tono y, a veces, la salida del sintetizador de voz puede provocar errores de sandhi de tono.
Falsos profundos de audio
The audio deepfake es un tipo de inteligencia artificial utilizado para crear frases convincentes que suenan como personas específicas diciendo cosas que no dijeron. Esta tecnología se desarrolló inicialmente para diversas aplicaciones para mejorar la vida humana. Por ejemplo, se puede utilizar para producir audiolibros, y también para ayudar a las personas que han perdido sus voces (debido a enfermedad de garganta u otros problemas médicos) para recuperarlos. Comercialmente, ha abierto la puerta a varias oportunidades. Esta tecnología también puede crear asistentes digitales más personalizados y servicios de traducción de discursos de sonido natural.
Audio deepfakes, recientemente llamadas manipulaciones de audio, se están volviendo ampliamente accesible utilizando dispositivos móviles simples o PCs personales. Estas herramientas también se han utilizado para difundir información errónea utilizando audio. Esto ha dado lugar a preocupaciones de ciberseguridad entre el público mundial acerca de los efectos secundarios del uso de las afecciones de audio. La gente puede utilizarlos como una técnica de voz de acceso lógico, donde pueden utilizarse para manipular la opinión pública para propaganda, difamación o terrorismo. Las grandes cantidades de grabaciones de voz se transmiten diariamente a través de Internet, y la detección de la espoofía es difícil. Sin embargo, los atacantes de audio profundos han dirigido no sólo a individuos y organizaciones, sino también a políticos y gobiernos. A principios de 2020, algunos estafadores utilizaron software artificial basado en inteligencia para imitar la voz de un CEO para autorizar una transferencia de dinero de unos $35 millones a través de una llamada telefónica. Por lo tanto, es necesario autenticar cualquier grabación de audio distribuida para evitar la difusión de información errónea.Desafíos
Desafíos de normalización de texto
El proceso de normalización de texto rara vez es sencillo. Los textos están llenos de heterónimos, números y abreviaturas que requieren expansión en una representación fonética. Hay muchas grafías en inglés que se pronuncian de manera diferente según el contexto. Por ejemplo, "Mi último proyecto es aprender a proyectar mejor mi voz" contiene dos pronunciaciones de "proyecto".
La mayoría de los sistemas de conversión de texto a voz (TTS) no generan representaciones semánticas de sus textos de entrada, ya que los procesos para hacerlo no son confiables, no se comprenden bien y son computacionalmente ineficaces. Como resultado, se utilizan varias técnicas heurísticas para adivinar la forma correcta de eliminar la ambigüedad de los homógrafos, como examinar palabras vecinas y usar estadísticas sobre la frecuencia de aparición.
Recientemente, los sistemas TTS han comenzado a utilizar HMM (discutido anteriormente) para generar "partes del discurso" para ayudar a eliminar la ambigüedad de los homógrafos. Esta técnica es bastante exitosa para muchos casos, como si "leer" debe pronunciarse como "rojo" lo que implica tiempo pasado, o como "reed" implicando tiempo presente. Las tasas de error típicas cuando se usan HMM de esta manera suelen estar por debajo del cinco por ciento. Estas técnicas también funcionan bien para la mayoría de los idiomas europeos, aunque el acceso a los corpus de formación requeridos suele ser difícil en estos idiomas.
Decidir cómo convertir números es otro problema que deben abordar los sistemas TTS. Es un simple desafío de programación convertir un número en palabras (al menos en inglés), como "1325" convirtiéndose en "mil trescientos veinticinco". Sin embargo, los números ocurren en muchos contextos diferentes; "1325" también puede leerse como "uno tres dos cinco", "trece veinticinco" o "mil trescientos veinticinco". Un sistema TTS a menudo puede inferir cómo expandir un número en función de las palabras, los números y la puntuación que lo rodean y, a veces, el sistema proporciona una forma de especificar el contexto si es ambiguo. Los números romanos también se pueden leer de manera diferente según el contexto. Por ejemplo, "Enrique VIII" se lee como "Enrique Octavo", mientras que "Capítulo VIII" se lee como "Capítulo ocho".
Del mismo modo, las abreviaturas pueden ser ambiguas. Por ejemplo, la abreviatura "en" para "pulgadas" debe diferenciarse de la palabra "in", y la dirección "12 St John St." usa la misma abreviatura para "San" y "Calle". Los sistemas TTS con interfaces inteligentes pueden hacer conjeturas informadas sobre abreviaturas ambiguas, mientras que otros proporcionan el mismo resultado en todos los casos, lo que da como resultado salidas sin sentido (y a veces cómicas), como "Ulysses S. Grant" siendo renderizado como "Ulysses South Grant".
Desafíos de texto a fonema
Los sistemas de síntesis de voz utilizan dos enfoques básicos para determinar la pronunciación de una palabra en función de su ortografía, un proceso que a menudo se denomina conversión de texto a fonema o de grafema a fonema (fonema es el término utilizado por los lingüistas para describir sonidos distintivos en un idioma). El enfoque más simple para la conversión de texto a fonema es el enfoque basado en diccionario, donde el programa almacena un gran diccionario que contiene todas las palabras de un idioma y sus pronunciaciones correctas. Determinar la pronunciación correcta de cada palabra es cuestión de buscar cada palabra en el diccionario y reemplazar la ortografía con la pronunciación especificada en el diccionario. El otro enfoque se basa en reglas, en el que las reglas de pronunciación se aplican a las palabras para determinar su pronunciación en función de su ortografía. Esto es similar al enfoque de "sounding out", o fonética sintética, para aprender a leer.
Cada enfoque tiene ventajas y desventajas. El enfoque basado en el diccionario es rápido y preciso, pero falla por completo si se le da una palabra que no está en su diccionario. A medida que crece el tamaño del diccionario, también lo hacen los requisitos de espacio de memoria del sistema de síntesis. Por otro lado, el enfoque basado en reglas funciona con cualquier entrada, pero la complejidad de las reglas crece sustancialmente a medida que el sistema tiene en cuenta la ortografía o la pronunciación irregulares. (Considere que la palabra "of" es muy común en inglés, sin embargo, es la única palabra en la que se pronuncia la letra "f" [v].) Como resultado, casi todos los sistemas de síntesis de voz utilizan una combinación de estos enfoques.
Los idiomas con ortografía fonémica tienen un sistema de escritura muy regular, y la predicción de la pronunciación de las palabras en función de su ortografía es bastante acertada. Los sistemas de síntesis de voz para tales idiomas a menudo usan el método basado en reglas de manera extensiva, recurriendo a diccionarios solo para aquellas pocas palabras, como nombres extranjeros y préstamos, cuyas pronunciaciones no son obvias a partir de su ortografía. Por otro lado, los sistemas de síntesis de voz para idiomas como el inglés, que tienen sistemas ortográficos extremadamente irregulares, es más probable que se basen en diccionarios y usen métodos basados en reglas solo para palabras inusuales o palabras que no están en su diccionarios.
Desafíos de evaluación
La evaluación coherente de los sistemas de síntesis de voz puede ser difícil debido a la falta de criterios de evaluación objetivos aceptados universalmente. Diferentes organizaciones a menudo usan diferentes datos de voz. La calidad de los sistemas de síntesis de voz también depende de la calidad de la técnica de producción (que puede implicar una grabación analógica o digital) y de las instalaciones utilizadas para reproducir la voz. Por lo tanto, la evaluación de los sistemas de síntesis de voz a menudo se ha visto comprometida por las diferencias entre las técnicas de producción y las instalaciones de reproducción.
Sin embargo, desde 2005, algunos investigadores han comenzado a evaluar los sistemas de síntesis de voz utilizando un conjunto de datos de voz común.
Prosodics y contenido emocional
Un estudio en la revista Speech Communication realizado por Amy Drahota y sus colegas de la Universidad de Portsmouth, Reino Unido, informó que los oyentes de grabaciones de voz podían determinar, mejor que los niveles de probabilidad, si el hablante o no estaba sonriendo. Se sugirió que la identificación de las características vocales que señalan el contenido emocional puede usarse para ayudar a que el habla sintetizada suene más natural. Una de las cuestiones relacionadas es la modificación del contorno tonal de la oración, según se trate de una oración afirmativa, interrogativa o exclamativa. Una de las técnicas para la modificación del tono utiliza una transformada de coseno discreta en el dominio de la fuente (predicción residual lineal). Dichas técnicas de modificación de tono síncrono de tono necesitan un marcado de tono a priori de la base de datos de voz de síntesis usando técnicas tales como extracción de época usando índice de explosión dinámico aplicado en el residuo de predicción lineal integrado de las regiones sonoras del habla.
Hardware dedicado
- Icophone
- Instrumento general SP0256-AL2
- National Semiconductor DT1050 Digitalker (Mozer – Forrest Mozer)
- Texas Instruments LPC Chips de voz
Sistemas de hardware y software
Sistemas populares que ofrecen síntesis de voz como una función integrada.
Instrumentos de Texas
A principios de la década de 1980, TI era conocida como pionera en la síntesis de voz, y un módulo de síntesis de voz conectable muy popular estaba disponible para TI-99/4 y 4A. Los sintetizadores de voz se ofrecieron de forma gratuita con la compra de varios cartuchos y se usaron en muchos videojuegos escritos por TI (los juegos que se ofrecieron con voz durante esta promoción incluyeron Alpiner y Parsec). El sintetizador utiliza una variante de codificación predictiva lineal y tiene un pequeño vocabulario incorporado. La intención original era lanzar pequeños cartuchos que se conectaran directamente a la unidad del sintetizador, lo que aumentaría el vocabulario integrado del dispositivo. Sin embargo, el éxito del software de texto a voz en el cartucho Terminal Emulator II canceló ese plan.
Matel
La consola de juegos Mattel Intellivision ofreció el módulo de síntesis de voz Intellivoice en 1982. Incluía el chip sintetizador de voz Narrador SP0256 en un cartucho extraíble. El narrador tenía 2kB de memoria de solo lectura (ROM), y esto se utilizó para almacenar una base de datos de palabras genéricas que se podían combinar para formar frases en los juegos de Intellivision. Dado que el chip Orator también podría aceptar datos de voz de la memoria externa, cualquier palabra o frase adicional necesaria podría almacenarse dentro del propio cartucho. Los datos consistían en cadenas de coeficientes de filtros analógicos para modificar el comportamiento del modelo de tracto vocal sintético del chip, en lugar de simples muestras digitalizadas.
SAM
También lanzado en 1982, Software Automatic Mouth fue el primer programa comercial de síntesis de voz de todo el software. Más tarde se utilizó como base para Macintalk. El programa estaba disponible para computadoras Apple que no eran Macintosh (incluidas Apple II y Lisa), varios modelos de Atari y Commodore 64. La versión de Apple prefería hardware adicional que contenía DAC, aunque en su lugar podía usar la computadora. salida de audio de un bit (con la adición de mucha distorsión) si la tarjeta no estaba presente. El Atari hizo uso del chip de audio POKEY integrado. La reproducción de voz en Atari normalmente deshabilitaba las solicitudes de interrupción y apagaba el chip ANTIC durante la salida de voz. La salida audible es un discurso extremadamente distorsionado cuando la pantalla está encendida. El Commodore 64 utilizó el chip de audio SID integrado del 64.
Atari
Posiblemente, el primer sistema de voz integrado en un sistema operativo fueron las computadoras personales 1400XL/1450XL diseñadas por Atari, Inc. que usaban el chip Votrax SC01 en 1983. Las computadoras 1400XL/1450XL usaban una máquina de estados finitos para permitir la ortografía del inglés mundial. síntesis de texto a voz. Desafortunadamente, las computadoras personales 1400XL/1450XL nunca se enviaron en cantidad.
Las computadoras Atari ST se vendieron con "stspeech.tos" en disquete.
Manzana
El primer sistema de voz integrado en un sistema operativo que se envió en grandes cantidades fue MacInTalk de Apple Computer. El software obtuvo la licencia de los desarrolladores externos Joseph Katz y Mark Barton (más tarde, SoftVoice, Inc.) y se presentó durante la introducción de la computadora Macintosh en 1984. Esta demostración de enero requirió 512 kilobytes de memoria RAM. Como resultado, no podía ejecutarse en los 128 kilobytes de RAM con los que se envió la primera Mac. Por lo tanto, la demostración se realizó con un prototipo de Mac 512k, aunque a los asistentes no se les informó sobre esto y la demostración de síntesis creó un entusiasmo considerable para Macintosh. A principios de la década de 1990, Apple amplió sus capacidades ofreciendo soporte de texto a voz en todo el sistema. Con la introducción de computadoras basadas en PowerPC más rápidas, incluyeron muestreo de voz de mayor calidad. Apple también introdujo el reconocimiento de voz en sus sistemas, lo que proporcionó un conjunto de comandos fluido. Más recientemente, Apple ha agregado voces basadas en muestras. Comenzando como una curiosidad, el sistema de voz de Apple Macintosh ha evolucionado hasta convertirse en un programa totalmente compatible, PlainTalk, para personas con problemas de visión. VoiceOver apareció por primera vez en 2005 en Mac OS X Tiger (10.4). Durante 10.4 (Tiger) y los primeros lanzamientos de 10.5 (Leopard), solo había un envío de voz estándar con Mac OS X. A partir de 10.6 (Snow Leopard), el usuario puede elegir entre una amplia lista de múltiples voces. Las voces de VoiceOver cuentan con respiraciones que suenan realistas entre oraciones, así como una claridad mejorada a altas velocidades de lectura en comparación con PlainTalk. Mac OS X también incluye, por ejemplo, una aplicación basada en línea de comandos que convierte texto en voz audible. Las adiciones estándar de AppleScript incluyen un verbo decir que permite que un guión use cualquiera de las voces instaladas y controle el tono, la velocidad de habla y la modulación del texto hablado.
Amazonas
Utilizado en Alexa y como software como servicio en AWS (desde 2017).
Amiga OS
El segundo sistema operativo que presentó capacidades avanzadas de síntesis de voz fue AmigaOS, presentado en 1985. La síntesis de voz fue licenciada por Commodore International de SoftVoice, Inc., quien también desarrolló el sistema original de texto a voz MacinTalk. Presentaba un sistema completo de emulación de voz para inglés americano, con voces masculinas y femeninas y "estrés" marcadores indicadores, posible gracias al chipset de audio de Amiga. El sistema de síntesis se dividió en una biblioteca de traductores que convertía el texto en inglés sin restricciones en un conjunto estándar de códigos fonéticos y un dispositivo narrador que implementaba un modelo formante de generación de voz. AmigaOS también presentaba un 'Speak Handler' de alto nivel.;, que permitía a los usuarios de la línea de comandos redirigir la salida de texto a voz. La síntesis de voz se usaba ocasionalmente en programas de terceros, en particular procesadores de texto y software educativo. El software de síntesis se mantuvo prácticamente sin cambios desde la primera versión de AmigaOS y Commodore finalmente eliminó el soporte de síntesis de voz de AmigaOS 2.1 en adelante.
A pesar de la limitación de fonemas del inglés estadounidense, se desarrolló una versión no oficial con síntesis de voz multilingüe. Esto hizo uso de una versión mejorada de la biblioteca de traductores que podía traducir varios idiomas, dado un conjunto de reglas para cada idioma.
Microsoft Windows
Los sistemas de escritorio modernos de Windows pueden usar componentes SAPI 4 y SAPI 5 para admitir la síntesis y el reconocimiento de voz. SAPI 4.0 estaba disponible como complemento opcional para Windows 95 y Windows 98. Windows 2000 agregó Narrador, una utilidad de texto a voz para personas con discapacidad visual. Los programas de terceros, como JAWS para Windows, Window-Eyes, Non-visual Desktop Access, Supernova y System Access, pueden realizar varias tareas de conversión de texto a voz, como leer texto en voz alta desde un sitio web específico, una cuenta de correo electrónico, un documento de texto, la Portapapeles de Windows, escritura del teclado del usuario, etc. No todos los programas pueden usar la síntesis de voz directamente. Algunos programas pueden usar complementos, extensiones o complementos para leer texto en voz alta. Hay programas de terceros disponibles que pueden leer texto del portapapeles del sistema.
Microsoft Speech Server es un paquete basado en servidor para síntesis y reconocimiento de voz. Está diseñado para uso en red con aplicaciones web y centros de llamadas.
Votrax
De 1971 a 1996, Votrax produjo varios componentes comerciales de sintetizadores de voz. Se incluyó un sintetizador Votrax en la primera generación de Kurzweil Reading Machine for the Blind.
Sistemas de texto a voz
Text-to-speech (TTS) se refiere a la capacidad de las computadoras para leer texto en voz alta. Un motor TTS convierte el texto escrito en una representación fonémica, luego convierte la representación fonémica en formas de onda que pueden emitirse como sonido. Los motores TTS con diferentes idiomas, dialectos y vocabularios especializados están disponibles a través de editores externos.
Android
La versión 1.6 de Android agregó compatibilidad con la síntesis de voz (TTS).
Internet
Actualmente, hay una serie de aplicaciones, complementos y gadgets que pueden leer mensajes directamente desde un cliente de correo electrónico y páginas web desde un navegador web o la barra Google. Algunos programas especializados pueden transmitir fuentes RSS. Por un lado, los narradores de RSS en línea simplifican la entrega de información al permitir que los usuarios escuchen sus fuentes de noticias favoritas y las conviertan en podcasts. Por otro lado, los lectores de RSS en línea están disponibles en casi cualquier computadora personal conectada a Internet. Los usuarios pueden descargar archivos de audio generados a dispositivos portátiles, p. con la ayuda de un receptor de podcasts, y escúchalos mientras caminas, trotas o viajas al trabajo.
Un campo en crecimiento en TTS basado en Internet es la tecnología de asistencia basada en web, p. 'Navegar en voz alta' de una empresa del Reino Unido y Readspeaker. Puede brindar la funcionalidad TTS a cualquier persona (por razones de accesibilidad, conveniencia, entretenimiento o información) con acceso a un navegador web. El proyecto sin fines de lucro Pediaphon se creó en 2006 para proporcionar una interfaz TTS basada en web similar a Wikipedia.
Se está realizando otro trabajo en el contexto del W3C a través del W3C Audio Incubator Group con la participación de la BBC y Google Inc.
Código abierto
Algunos sistemas de software de código abierto están disponibles, como:
- RHVoice con soporte para varios idiomas.
- Festival Speech Synthesis System que utiliza la síntesis basada en el teléfono, así como técnicas más modernas y de mejor sonido.
- eSpeak que soporta una amplia gama de idiomas.
- gnuspeech que utiliza la síntesis articulatoria de la Fundación Software Libre.
- MaryTTS, web basado y fuente abierta.
Otros
- Tras el fracaso comercial de la Intellivoice basada en hardware, los desarrolladores de juegos utilizan escasamente la síntesis de software en juegos posteriores. Los sistemas anteriores de Atari, como el Atari 5200 (Baseball) y el Atari 2600 (Quadrun y Open Sesame), también tenían juegos utilizando la síntesis de software.
- Algunos lectores de libros electrónicos, como Amazon Kindle, Samsung E6, PocketBook eReader Pro, enTourage eDGe, y el Bebook Neo.
- La BBC Micro incorporó el chip de síntesis de discursos TMS5220 de Texas Instruments,
- Algunos modelos de ordenadores caseros de Texas Instruments producidos en 1979 y 1981 (Texas Instruments TI-99/4 y TI-99/4A) fueron capaces de síntesis de texto a teléfono o recitar palabras y frases completas (texto a diccionario), utilizando un periférico de sintetizador de habla muy popular. TI utilizó un codec propietario para incrustar frases habladas completas en aplicaciones, principalmente videojuegos.
- El OS/2 Warp 4 de IBM incluía VoiceType, un precursor de IBM ViaVoice.
- Unidades de navegación GPS producidas por Garmin, Magellan, TomTom y otros utilizan la síntesis del habla para la navegación del automóvil.
- Yamaha produjo un sintetizador musical en 1999, el Yamaha FS1R que incluyó una capacidad de síntesis Formant. Se podrían almacenar y reproducir secuencias de hasta 512 vocales individuales y formadores consonantes, permitiendo que se sinteticen frases vocales cortas.
Sonidos similares a los digitales
En la Conferencia sobre sistemas de procesamiento de información neuronal (NeurIPS) de 2018, los investigadores de Google presentaron el trabajo 'Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis', que transfiere el aprendizaje de la verificación del hablante para lograr síntesis de texto a voz, que se puede hacer que suene casi como cualquier persona a partir de una muestra de voz de solo 5 segundos.
También los investigadores de Baidu Research presentaron un sistema de clonación de voz con objetivos similares en la conferencia NeurIPS de 2018, aunque el resultado es bastante poco convincente.
En 2019, los sonidos similares digitales llegaron a manos de los delincuentes, ya que los investigadores de Symantec conocen tres casos en los que la tecnología de sonidos similares digitales se ha utilizado para cometer delitos.
Esto aumenta el estrés en la situación de desinformación junto con los hechos que
- La síntesis de imagen humana desde principios de los años 2000 ha mejorado más allá del punto de incapacidad de los humanos para contar una imagen humana real con una cámara real de una simulación de una imagen humana con una simulación de una cámara.
- Las técnicas de falsificación de vídeo 2D se presentaron en 2016 que permiten la falsificación en tiempo real de expresiones faciales en el vídeo 2D existente.
- En SIGGRAPH 2017, investigadores de la Universidad de Washington presentaron un aspecto digital de torso superior de Barack Obama. Fue impulsado sólo por una pista de voz como datos fuente para la animación después de la fase de entrenamiento para adquirir sincronización de labios y información facial más amplia del material de entrenamiento consistente en videos 2D con audio había sido completado.
En marzo de 2020, se lanzó una aplicación web gratuita llamada 15.ai que genera voces de alta calidad a partir de una variedad de personajes ficticios de una variedad de fuentes de medios. Los personajes iniciales incluyeron GLaDOS de Portal, Twilight Sparkle y Fluttershy del programa My Little Pony: Friendship Is Magic, y el Décimo Doctor de Doctor Who..
Lenguajes de marcado de síntesis de voz
Se han establecido varios lenguajes de marcado para la interpretación de texto como voz en un formato compatible con XML. El más reciente es el lenguaje de marcado de síntesis de voz (SSML), que se convirtió en una recomendación del W3C en 2004. Los lenguajes de marcado de síntesis de voz más antiguos incluyen Java Speech Markup Language (JSML) y SABLE. Aunque cada uno de estos fue propuesto como un estándar, ninguno de ellos ha sido ampliamente adoptado.
Los lenguajes de marcado de síntesis de voz se distinguen de los lenguajes de marcado de diálogo. VoiceXML, por ejemplo, incluye etiquetas relacionadas con el reconocimiento de voz, la gestión de diálogos y la marcación por tonos, además del marcado de texto a voz.
Aplicaciones
La síntesis del habla ha sido durante mucho tiempo una herramienta de tecnología de asistencia vital y su aplicación en esta área es significativa y generalizada. Permite eliminar las barreras ambientales para las personas con una amplia gama de discapacidades. La aplicación más antigua ha sido en el uso de lectores de pantalla para personas con discapacidad visual, pero los sistemas de texto a voz ahora son comúnmente utilizados por personas con dislexia y otras discapacidades de lectura, así como por niños prealfabetizados. También se emplean con frecuencia para ayudar a las personas con problemas graves del habla, por lo general a través de una ayuda de comunicación de salida de voz dedicada. El trabajo para personalizar una voz sintética para que coincida mejor con la personalidad de una persona o una voz histórica está disponible. Una aplicación destacada, de síntesis de voz, fue la máquina de lectura Kurzweil para ciegos, que incorporó software de texto a fonética basado en el trabajo de Haskins Laboratories y un sintetizador de caja negra construido por Votrax.
Las técnicas de síntesis de voz también se utilizan en producciones de entretenimiento como juegos y animaciones. En 2007, Animo Limited anunció el desarrollo de un paquete de aplicaciones de software basado en su software de síntesis de voz FineSpeech, explícitamente dirigido a clientes de la industria del entretenimiento, capaz de generar narraciones y líneas de diálogo de acuerdo con las especificaciones del usuario. La aplicación alcanzó su madurez en 2008, cuando NEC Biglobe anunció un servicio web que permite a los usuarios crear frases a partir de las voces de los personajes de la serie de anime japonesa Code Geass: Lelouch of the Rebellion R2.
En los últimos años, las ayudas de texto a voz para personas con discapacidad y problemas de comunicación se han vuelto ampliamente disponibles. La conversión de texto a voz también está encontrando nuevas aplicaciones; por ejemplo, la síntesis de voz combinada con el reconocimiento de voz permite la interacción con dispositivos móviles a través de interfaces de procesamiento de lenguaje natural.
La conversión de texto a voz también se usa en la adquisición de un segundo idioma. Voki, por ejemplo, es una herramienta educativa creada por Oddcast que permite a los usuarios crear su propio avatar parlante, usando diferentes acentos. Se pueden enviar por correo electrónico, incrustar en sitios web o compartir en las redes sociales. Otra área de aplicación es la creación de videos con IA con cabezas parlantes. Herramientas, como Elai.io, permiten a los usuarios crear contenido de video con avatares de IA que hablan usando tecnología de texto a voz.
Además, la síntesis del habla es una valiosa ayuda computacional para el análisis y la evaluación de los trastornos del habla. Un sintetizador de calidad de voz, desarrollado por Jorge C. Lucero et al. en la Universidad de Brasilia, simula la física de la fonación e incluye modelos de fluctuación y temblor de frecuencia vocal, ruido de flujo de aire y asimetrías laríngeas. El sintetizador se ha utilizado para imitar el timbre de los altavoces disfónicos con niveles controlados de aspereza, respiración entrecortada y tensión.
Contenido relacionado
Cuadros por segundo
Wintel
XFS