Historia de la traducción automática

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

La traducción automática es un subcampo de la lingüística computacional que investiga el uso de software para traducir texto o voz de un idioma natural a otro.

En la década de 1950, la traducción automática se convirtió en una realidad en la investigación, aunque se pueden encontrar referencias al tema ya en el siglo XVII. El experimento de Georgetown, que supuso la traducción totalmente automática con éxito de más de sesenta frases rusas al inglés en 1954, fue uno de los primeros proyectos registrados. Los investigadores del experimento de Georgetown afirmaron su creencia de que la traducción automática sería un problema resuelto en unos pocos años. En la Unión Soviética, experimentos similares se realizaron poco después. En consecuencia, el éxito del experimento marcó el comienzo de una era de financiación significativa para la investigación de la traducción automática en los Estados Unidos. El progreso alcanzado fue mucho más lento de lo esperado; en 1966, el informe ALPAC concluyó que diez años de investigación no habían cumplido las expectativas del experimento de Georgetown y dieron como resultado una reducción drástica de la financiación.

El interés por los modelos estadísticos para la traducción automática aumentó, y en la década de 1980 se hicieron más comunes y también menos costosos a medida que aumentaba la capacidad computacional disponible.

Aunque no existe ningún sistema autónomo de "traducción totalmente automática de alta calidad de textos sin restricciones", existen muchos programas disponibles que son capaces de proporcionar resultados útiles dentro de límites estrictos. Varios de estos programas están disponibles en línea, como Google Translate y el sistema SYSTRAN que impulsa BabelFish de AltaVista (que fue reemplazado por el traductor Bing de Microsoft en mayo de 2012).

El principio

Los orígenes de la traducción automática se remontan al trabajo de Al-Kindi, un criptógrafo árabe del siglo IX que desarrolló técnicas para la traducción sistemática de idiomas, incluidos el criptoanálisis, el análisis de frecuencias y la probabilidad y la estadística, que se utilizan en la traducción automática moderna. La idea de la traducción automática apareció más tarde en el siglo XVII. En 1629, René Descartes propuso un lenguaje universal, con ideas equivalentes en diferentes lenguas que compartían un símbolo.

A mediados de los años 30, Georges Artsrouni solicitó las primeras patentes para "máquinas traductoras" para un diccionario bilingüe automático que utilizaba cinta de papel. El ruso Peter Troyanskii presentó una propuesta más detallada que incluía tanto el diccionario bilingüe como un método para tratar los roles gramaticales entre idiomas, basado en el sistema gramatical del esperanto. Este sistema se dividió en tres etapas: la primera etapa consistía en un editor nativo en el idioma de origen para organizar las palabras en sus formas lógicas y ejercer las funciones sintácticas; la segunda etapa requería que la máquina "tradujera" estas formas al idioma de destino; y la tercera etapa requería un editor nativo en el idioma de destino para normalizar este resultado. La propuesta de Troyanskii permaneció desconocida hasta finales de los años 50, cuando las computadoras ya eran bien conocidas y utilizadas.

Los primeros años

El primer conjunto de propuestas para la traducción automática por ordenador fue presentado en 1949 por Warren Weaver, investigador de la Fundación Rockefeller, en el "Memorando de la traducción". Estas propuestas se basaban en la teoría de la información, los éxitos en la descifrado de códigos durante la Segunda Guerra Mundial y las teorías sobre los principios universales que subyacen al lenguaje natural.

Unos años después de que Weaver presentara sus propuestas, en muchas universidades de Estados Unidos se inició la investigación en serio. El 7 de enero de 1954 se celebró en Nueva York, en la sede central de IBM, el experimento Georgetown-IBM. Se trató de la primera demostración pública de un sistema de traducción automática. La demostración tuvo una amplia repercusión en los periódicos y despertó el interés del público. Sin embargo, el sistema en sí no era más que un sistema "de juguete". Tenía sólo 250 palabras y traducía al inglés 49 frases rusas cuidadosamente seleccionadas, principalmente en el campo de la química. No obstante, alentó la idea de que la traducción automática era inminente y estimuló la financiación de la investigación, no sólo en Estados Unidos sino en todo el mundo.

Los primeros sistemas utilizaban grandes diccionarios bilingües y reglas codificadas a mano para fijar el orden de las palabras en el resultado final, lo que finalmente se consideró demasiado restrictivo en los avances lingüísticos de la época. Por ejemplo, se explotaron la lingüística generativa y la gramática transformacional para mejorar la calidad de las traducciones. Durante este período se instalaron sistemas operativos. La Fuerza Aérea de los Estados Unidos utilizó un sistema producido por IBM y la Universidad de Washington en St. Louis, mientras que la Comisión de Energía Atómica y Euratom, en Italia, utilizaron un sistema desarrollado en la Universidad de Georgetown. Si bien la calidad del resultado era deficiente, satisfacía muchas de las necesidades de los clientes, en particular en términos de velocidad.

A finales de los años 50, el gobierno de Estados Unidos le pidió a Yehoshua Bar-Hillel que estudiara la traducción automática para evaluar la posibilidad de una traducción totalmente automática y de alta calidad por parte de máquinas. Bar-Hillel describió el problema de la ambigüedad semántica o el doble sentido, como se ilustra en la siguiente frase:

El pequeño John estaba buscando su caja de juguetes. Finalmente lo encontró. La caja estaba en el bolígrafo.

La palabra pluma puede tener dos significados: el primero, algo que se usa para escribir con tinta; el segundo, un recipiente de algún tipo. Para un ser humano, el significado es obvio, pero Bar-Hillel afirmó que sin una "enciclopedia universal" una máquina nunca podría lidiar con este problema. En ese momento, este tipo de ambigüedad semántica solo podía resolverse escribiendo textos fuente para la traducción automática en un lenguaje controlado que utiliza un vocabulario en el que cada palabra tiene exactamente un significado.

Los años 60, el informe ALPAC y los setenta

En la década de 1960, tanto en la Unión Soviética como en los Estados Unidos, la investigación se centró principalmente en el par de idiomas ruso-inglés. Los objetos de la traducción eran principalmente documentos científicos y técnicos, como artículos de revistas científicas. Las traducciones preliminares que se producían eran suficientes para obtener una comprensión básica de los artículos. Si un artículo trataba de un tema considerado confidencial, se enviaba a un traductor humano para que hiciera una traducción completa; si no, se descartaba.

En 1966, la investigación sobre traducción automática sufrió un duro golpe con la publicación del informe ALPAC, encargado por el gobierno de Estados Unidos y presentado por el Comité Asesor sobre Procesamiento Automático del Lenguaje (ALPAC), un grupo de siete científicos convocado por el gobierno de Estados Unidos en 1964. Al gobierno de Estados Unidos le preocupaba que no se estuvieran logrando avances a pesar de los importantes gastos. El informe concluía que la traducción automática era más cara, menos precisa y más lenta que la traducción humana y que, a pesar de los gastos, no era probable que la traducción automática alcanzara la calidad de un traductor humano en un futuro próximo.

Sin embargo, el informe recomendó que se desarrollaran herramientas para ayudar a los traductores (como diccionarios automáticos) y que se siguiera apoyando cierta investigación en lingüística computacional.

La publicación del informe tuvo un profundo impacto en la investigación sobre traducción automática en Estados Unidos y, en menor medida, en la Unión Soviética y el Reino Unido. La investigación, al menos en Estados Unidos, estuvo casi completamente abandonada durante más de una década. En Canadá, Francia y Alemania, sin embargo, la investigación continuó. En Estados Unidos, las principales excepciones fueron los fundadores de SYSTRAN (Peter Toma) y Logos (Bernard Scott), quienes establecieron sus empresas en 1968 y 1970 respectivamente y trabajaron para el Departamento de Defensa de Estados Unidos. En 1970, el sistema SYSTRAN fue instalado por la Fuerza Aérea de los Estados Unidos y, posteriormente, por la Comisión de las Comunidades Europeas en 1976. El sistema METEO, desarrollado en la Universidad de Montreal, fue instalado en Canadá en 1977 para traducir las previsiones meteorológicas del inglés al francés y traducía cerca de 80.000 palabras al día o 30 millones de palabras al año hasta que fue reemplazado por un sistema de la competencia el 30 de septiembre de 2001.

Mientras que en la década de 1960 la investigación se centraba en pares de idiomas y entradas limitadas, en la década de 1970 la demanda se orientaba a sistemas de bajo costo que pudieran traducir una variedad de documentos técnicos y comerciales. Esta demanda fue impulsada por el aumento de la globalización y la demanda de traducción en Canadá, Europa y Japón.

Los años 80 y principios de 1990

En la década de 1980, tanto la diversidad como la cantidad de sistemas instalados para traducción automática habían aumentado. Se utilizaban varios sistemas que dependían de la tecnología de mainframe, como SYSTRAN, Logos, Ariane-G5 y Metal.

Como resultado de la mayor disponibilidad de microcomputadoras, surgió un mercado para sistemas de traducción automática de gama baja. Muchas empresas aprovecharon esta situación en Europa, Japón y Estados Unidos. También se comercializaron sistemas en China, Europa del Este, Corea y la Unión Soviética.

Durante la década de 1980, hubo mucha actividad en el campo de la traducción automática, especialmente en Japón. Con la quinta generación de ordenadores, Japón pretendía superar a su competencia en hardware y software informáticos, y un proyecto en el que se vieron involucradas muchas grandes empresas japonesas de electrónica fue la creación de software para traducir hacia y desde el inglés (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

Durante la década de 1980, la investigación se basó generalmente en la traducción mediante algún tipo de representación lingüística intermedia que implicaba análisis morfológico, sintáctico y semántico.

A finales de los años 1980, se produjo un gran auge de una serie de nuevos métodos de traducción automática. En IBM se desarrolló un sistema basado en métodos estadísticos. Makoto Nagao y su grupo utilizaron métodos basados en un gran número de ejemplos de traducción, una técnica que ahora se denomina traducción automática basada en ejemplos. Una característica definitoria de ambos enfoques fue el descuido de las reglas sintácticas y semánticas y la dependencia, en su lugar, de la manipulación de grandes corpus de texto.

Durante la década de 1990, alentados por los éxitos en el reconocimiento y la síntesis de voz, se inició la investigación en el campo de la traducción del habla con el desarrollo del proyecto alemán Verbmobil.

El sistema Forward Area Language Converter (FALCon), una tecnología de traducción automática diseñada por el Laboratorio de Investigación del Ejército, se utilizó en 1997 para traducir documentos para los soldados en Bosnia.

El uso de la traducción automática se ha incrementado considerablemente como resultado de la aparición de ordenadores más potentes y de bajo coste. A principios de los años 90, la traducción automática empezó a dejar de lado los grandes ordenadores centrales para pasar a los ordenadores personales y las estaciones de trabajo. Dos empresas que lideraron el mercado de los ordenadores personales durante un tiempo fueron Globalink y MicroTac, tras lo cual se determinó que una fusión de las dos empresas (en diciembre de 1994) era beneficiosa para ambas. Intergraph y Systran también empezaron a ofrecer versiones para PC en esa época. También aparecieron sitios en Internet, como Babel Fish de AltaVista (que utilizaba tecnología de Systran) y Google Language Tools (que también utilizaba inicialmente tecnología de Systran exclusivamente).

2000s

El campo de la traducción automática ha experimentado grandes cambios en la década de 2000. Se ha realizado una gran cantidad de investigación en traducción automática estadística y traducción automática basada en ejemplos. En el área de la traducción del habla, la investigación se centró en pasar de sistemas de traducción de dominio limitado a sistemas de traducción de dominio ilimitado. En diferentes proyectos de investigación en Europa (como TC-STAR) y en los Estados Unidos (STR-DUST y DARPA Global Autonomous Language Exploitation Program), se desarrollaron soluciones para traducir automáticamente discursos parlamentarios y noticias transmitidas. En estos escenarios, el dominio del contenido ya no estaba limitado a un área especial, sino que los discursos a traducir cubrían una variedad de temas. El proyecto franco-alemán Quaero investigó la posibilidad de hacer uso de traducciones automáticas para una Internet multilingüe. El proyecto buscaba traducir no solo páginas web, sino también videos y archivos de audio en Internet.

2010s

En la última década, los métodos de traducción automática neuronal (NMT) reemplazaron a la traducción automática estadística. El término traducción automática neuronal fue acuñado por Bahdanau et al y Sutskever et al, quienes también publicaron la primera investigación sobre este tema en 2014. Las redes neuronales solo necesitaban una fracción de la memoria que necesitan los modelos estadísticos y se podían modelar oraciones completas de manera integrada. La primera NMT a gran escala fue lanzada por Baidu en 2015, seguida por Google Neural Machine Translation (GNMT) en 2016. A esto le siguieron otros servicios de traducción como DeepL Translator y la adopción de la tecnología NMT en servicios de traducción más antiguos como Microsoft Translator.

Las redes neuronales utilizan una arquitectura de red neuronal de extremo a extremo única conocida como secuencia a secuencia (seq2seq) que utiliza dos redes neuronales recurrentes (RNN). Una RNN codificadora y una RNN decodificadora. La RNN codificadora utiliza vectores de codificación en la oración de origen y la RNN decodificadora genera la oración de destino en función del vector de codificación anterior. Los avances posteriores en la capa de atención, la transformación y las técnicas de retropropagación han hecho que las NMT sean flexibles y adoptadas en la mayoría de las tecnologías de traducción automática, resumen y chatbot.

Véase también

  • Historia del procesamiento del lenguaje natural
  • Informe ALPAC
  • Traducción asistida por computadora
  • Lighthill report
  • Traducción automática

Notas

  1. ^ Nye, Mary Jo (2016). "Hablando en Tongues: la búsqueda de siglos de ciencia para un lenguaje común". Destilaciones. 2 (1): 40–43. Retrieved 22 de marzo 2018.
  2. ^ Gordin, Michael D. (2015). Scientific Babel: How Science was Done Before and After Global English. Chicago, Illinois: Universidad de Chicago Press. ISBN 978-0-226-00029-9.
  3. ^ a b Plumb, Robert K. (8 de enero de 1954). "El ruso se convierte en inglés por un traductor electrónico rápido". New York Times.
  4. ^ Madsen, Mathias Winther (23 de diciembre de 2009). Los límites de la traducción automática (Tesis). University of Copenhagen. p. 11.
  5. ^ Melby, Alan K. (1995). Posibilidad del lenguaje. Amsterdam: J. Benjamins. pp. 27–41. ISBN 978-90-272-1614-4.
  6. ^ Wooten, Adam (14 de febrero de 2006). "Un modelo simple que esboza la tecnología de traducción". TENTI Business. Archivado desde el original el 16 de julio de 2012.
  7. ^ "Apéndice III de 'El estado actual de la traducción automática de idiomas'" (PDF). Avances en computadoras. 1960. pp. 158–163. Archivado desde el original (PDF) el 28 septiembre 2018. Retrieved 2 de mayo 2009. Reimpresión en Y.Bar-Hillel (1964). Idioma e información. Massachusetts: Addison-Wesley. pp. 174–179.
  8. ^ DuPont, Quinn (enero 2018). "Los orígenes citológicos de la traducción automática: de al-Kindi a Weaver". Amoderna (8).
  9. ^ √ (30 de abril de 1993). деничиныхpágs. 70 a 71. ISBN 978-4-87502-214-5. .らенипитьныенинаниенинанинининнинаннинаннаннниннанннинанниваниенннниенннниенниениниениениениениениенининининининининининининининанананинининининининнинининнининннннининининнннннннннннннннннннннннннннннннннннннннннннннннннининнинининнининнннниннннининннннни.- ¿Qué?traducido del
    Knowlson, James (1975). SCHEMES UNIVERSALES EN ESFERA Y FRANCIA 1600-1800. ISBN 978-0-8020-5296-4.
  10. ^ ministrar, 照; 棚橋, 照 (15 de octubre de 1960). "Seguridad". En el нелиного, 英; ваные, 善на (eds.). ̄Segurizar? (en japonés) (1 ed.). Tokio: (modelo) correspondió a cero. pp. 10–11. No hay nada que hacer. Puede ser casi el primer caso de traducción automática que Peter Petrovich Troyanskii intentó en 1933. Presentó que "escribir la máquina que elige palabras e imprimirlas en traducción de un idioma a otro idioma o a varios idiomas simultáneamente". Obtuvo la patente de esta invención, pero no fue capaz de implementar en ese momento.)
  11. ^ ministrar, 照; 弘, 弘 (25 de febrero de 1964). √≠)ющенныеннный пентенный (en japonés) (1 ed.). Tokio: (Primera parte) XXXIVISTA RECIBADOS 1933 ESTUDIANTES RECIBADOS RECIENTES RECIENTES RECIBILIZADOS RECIBILIZADOS RECIBILIZADOS POR EL CUMPLIMIENTO DE LOS RECURSOS RESPECTO RESPECTO DE LOS RECURSOS RESUMENADOS POR LA TRANSlación (asistida por Google Translate): La invención patentada por Peter Petrovich Troyanskii en 1933 parecía ser capaz de traducir simultáneamente múltiples idiomas y los envió a un lugar lejano.), traducido del
    Delaveney, Émile. LA MACHINE A TRADUIRE (Colección QUE SAIS-JE? No.834) (en francés). Presses Universitaires de France.
  12. ^ "Memorándum Weaver". Marzo de 1949. Archivado desde el original el 5 de octubre de 2006.
  13. ^ "Proceso de promoción". Canadian International Tribunal de Comercio30 de julio de 2002. Archivado desde el original el 6 de julio de 2011. Retrieved 10 de febrero 2007.
  14. ^ Nagao, Makoto (octubre de 1984). "Un marco de traducción mecánica entre japonés e inglés por principio de analogía". Proc. of the International NATO Symposium on Artificial and Human Intelligence. North-Holland. pp. 173–180. ISBN 978-0-444-86545-8.
  15. ^ "la Asociación para la Lingüística Computacional – Premio ACL Lifetime Achievement". Association for Computational Linguistics. Archivado desde el original el 12 de junio de 2010. Retrieved 10 de marzo 2010.
  16. ^ Weisgerber, John; Yang, Jin; Fisher, Pete (2000). Traductor portátil Pacific Rim. Revisión de la traducción automática en el futuro de la información. Notas de conferencia en Ciencias de la Computación. Vol. 1934. pp. 196–201. doi:10.1007/3-540-39965-8_21. ISBN 978-3-540-41117-8. S2CID 36571004.
  17. ^ "TC-Star". Retrieved 25 de octubre 2010.
  18. ^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprender Representaciones de Frase usando RNN Encoder-Decoder para Traducción de Máquinas Estadísticas". Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, EE.UU.: Asociación para la Lingüística Computacional: 1724-1734. arXiv:1406.1078. doi:10.3115/v1/d14-1179. S2CID 5590763.
  19. ^ Tachioka, Yuuki; Watanabe, Shinji; Le Roux, Jonathan; Hershey, John R (diciembre de 2014). "Entrenamiento discriminativo de secuencia para redes neurales profundas de bajo rango". 2014 IEEE Global Conference on Signal and Information Processing (GlobalSIP). IEEE. pp. 572-576. doi:10.1109/globalsip.2014.7032182. ISBN 978-1-4799-7088-9. S2CID 767028.
  20. ^ "¿Cómo funciona?". TranslateFX. Retrieved 9 de diciembre 2022.

Referencias

  • Hutchins, J. (2005). "Milestones en traducción automática – No.6: Bar-Hillel y la no viabilidad de FAHQT]" (PDF). Archivado desde el original (PDF) on 29 January 2019. Retrieved 9 de marzo 2012.
  • Van Slype, Georges (1983). Mejor traducción para una mejor comunicación. Paris: Pergamon Press. ISBN 978-0-08-030534-9.

Más lectura

  • Hutchins, W. John (1986). Traducción automática: pasado, presente, futuro. Serie Ellis Horwood en computadoras y sus aplicaciones. Ellis Horwood. ISBN 978-0-470-20313-2.
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save