NETtalk (red neuronal artificial)

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Estructura NETtalk.

NETtalk es una red neuronal artificial. Es el resultado de una investigación realizada a mediados de los años 1980 por Terrence Sejnowski y Charles Rosenberg. La intención detrás de NETtalk era construir modelos simplificados que pudieran arrojar luz sobre la complejidad del aprendizaje de tareas cognitivas a nivel humano y su implementación como un modelo conexionista que también podría aprender a realizar una tarea comparable. Los autores lo entrenaron de dos maneras, una con la máquina de Boltzmann y otra mediante retropropagación.

NETtalk es un programa que aprende a pronunciar texto escrito en inglés al mostrarle texto como entrada y comparar transcripciones fonéticas para comparar.

La red se entrenó con una gran cantidad de palabras en inglés y sus pronunciaciones correspondientes, y es capaz de generar pronunciaciones para palabras invisibles con un alto nivel de precisión. El éxito de la red NETtalk inspiró más investigaciones en el campo de la generación de pronunciación y la síntesis del habla y demostró el potencial de las redes neuronales para resolver problemas complejos de PNL. La salida de la red fue una corriente de fonemas, que se alimentaron a DECtalk para producir un discurso audible. Logró un éxito popular y apareció en el programa Today. El proceso de desarrollo fue descrito en una entrevista de 1993. Se necesitaron tres meses para crear el conjunto de datos de entrenamiento, pero solo unos días para entrenar la red.

Arquitectura

La red tenía tres capas y 18.629 pesos ajustables, un tamaño grande para los estándares de 1986. Existía la preocupación de que se ajustara demasiado al conjunto de datos, pero se entrenó con éxito. El conjunto de datos era un subconjunto de 20.000 palabras del Brown Corpus, con fonemas y acentos anotados manualmente para cada letra.

La entrada de la red tiene 203 unidades, divididas en 7 grupos de 29 unidades cada uno. Cada grupo es una codificación one-hot de un carácter. Hay 29 caracteres posibles: 26 letras, coma, punto y límite de palabra (espacio en blanco).

La capa oculta tiene 80 unidades.

La salida tiene 26 unidades. 21 unidades codifican las características articulatorias (punto de articulación, sonoridad, altura de las vocales, etc.) de los fonemas, y 5 unidades codifican el acento y los límites de las sílabas.

Logros y limitaciones

NETtalk fue creado para explorar los mecanismos de aprendizaje de la pronunciación correcta de textos en inglés. Los autores señalan que aprender a leer implica un mecanismo complejo que involucra muchas partes del cerebro humano. NETtalk no modela específicamente las etapas de procesamiento de imágenes y el reconocimiento de letras de la corteza visual. Más bien, se supone que las letras han sido preclasificadas y reconocidas, y que estas secuencias de letras que comprenden palabras se muestran a la red neuronal durante el entrenamiento y durante las pruebas de rendimiento. La tarea de NETtalk es aprender las asociaciones adecuadas entre la pronunciación correcta con una secuencia determinada de letras según el contexto en el que aparecen las letras. En otras palabras, NETtalk aprende a utilizar las letras alrededor del fonema pronunciado actualmente que proporcionan pistas sobre su mapeo fonémico previsto.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save