Traducción automática
La traducción automática, autónoma o mecánica, a la que a veces se hace referencia con la abreviatura MT del inglés Machine translation (que no debe confundirse con traducción asistida por computadora, traducción humana asistida por máquina o traducción interactiva), es un subcampo de la lingüística computacional que investiga el uso de software para traducir texto o voz. de un idioma a otro.
En un nivel básico, MT realiza la sustitución mecánica de palabras en un idioma por palabras en otro, pero eso solo rara vez produce una buena traducción porque se necesita el reconocimiento de frases completas y sus contrapartes más cercanas en el idioma de destino. No todas las palabras en un idioma tienen palabras equivalentes en otro idioma, y muchas palabras tienen más de un significado.
Resolver este problema con técnicas neuronales y estadísticas de corpus es un campo de rápido crecimiento que conduce a mejores traducciones, manejo de diferencias en tipología lingüística, traducción de modismos y aislamiento de anomalías.
El software de traducción automática actual a menudo permite la personalización por dominio o profesión (como informes meteorológicos), mejorando la producción al limitar el alcance de las sustituciones permitidas. Esta técnica es particularmente efectiva en dominios donde se usa lenguaje formal o formulaico. De ello se deduce que la traducción automática de documentos gubernamentales y legales produce resultados utilizables más fácilmente que una conversación o un texto menos estandarizado.
La calidad de salida mejorada también se puede lograr mediante la intervención humana: por ejemplo, algunos sistemas pueden traducir con mayor precisión si el usuario ha identificado sin ambigüedades qué palabras en el texto son nombres propios. Con la ayuda de estas técnicas, la traducción automática ha demostrado ser útil como herramienta para ayudar a los traductores humanos y, en un número muy limitado de casos, incluso puede producir resultados que se pueden usar tal cual (por ejemplo, informes meteorológicos).
El progreso y el potencial de la traducción automática han sido muy debatidos a lo largo de su historia. Desde la década de 1950, varios académicos, en primer lugar y sobre todo Yehoshua Bar-Hillel, han cuestionado la posibilidad de lograr una traducción automática totalmente automática de alta calidad.
Historia
Orígenes
Los orígenes de la traducción automática se remontan al trabajo de Al-Kindi, un criptógrafo árabe del siglo IX que desarrolló técnicas para la traducción sistémica de idiomas, incluidos el criptoanálisis, el análisis de frecuencia y la probabilidad y la estadística, que se utilizan en la traducción automática moderna. La idea de la traducción automática apareció más tarde en el siglo XVII. En 1629, René Descartes propuso un lenguaje universal, con ideas equivalentes en diferentes lenguas compartiendo un mismo símbolo.
La idea de usar computadoras digitales para la traducción de lenguajes naturales fue propuesta ya en 1946 por AD Booth de Inglaterra y Warren Weaver en la Fundación Rockefeller al mismo tiempo. "El memorándum escrito por Warren Weaver en 1949 es quizás la publicación más influyente en los primeros días de la traducción automática". Otros siguieron. En 1954 se hizo una demostración en la máquina APEXC del Birkbeck College (Universidad de Londres) de una traducción rudimentaria del inglés al francés. En ese momento se publicaron varios artículos sobre el tema, e incluso artículos en revistas populares (por ejemplo, un artículo de Cleave y Zacharov en la edición de septiembre de 1955 de Wireless World). Una aplicación similar, también pionera en Birkbeck College en ese momento, estaba leyendo y componiendo textos en Braille por computadora.
1950
El primer investigador en el campo, Yehoshua Bar-Hillel, comenzó su investigación en el MIT (1951). Un equipo de investigación de MT de la Universidad de Georgetown, dirigido por el profesor Michael Zarechnak, siguió (1951) con una demostración pública de su sistema de experimentos Georgetown-IBM en 1954. Los programas de investigación de MT surgieron en Japón y Rusia (1955), y la primera conferencia de MT fue celebrada en Londres (1956).
David G. Hays "escribió sobre el procesamiento del lenguaje asistido por computadora ya en 1957" y "fue líder del proyecto de lingüística computacional en Rand de 1955 a 1968".
1960-1975
Los investigadores continuaron uniéndose al campo cuando se formó la Asociación para la Traducción Automática y la Lingüística Computacional en los EE. UU. (1962) y la Academia Nacional de Ciencias formó el Comité Asesor de Procesamiento Automático del Lenguaje (ALPAC) para estudiar MT (1964). Sin embargo, el progreso real fue mucho más lento, y después del informe ALPAC (1966), que encontró que la investigación de diez años no había cumplido con las expectativas, la financiación se redujo considerablemente. Según un informe de 1972 del Director de Investigación e Ingeniería de Defensa (DDR&E), la viabilidad de la MT a gran escala fue restablecida por el éxito del sistema Logos MT en la traducción de manuales militares al vietnamita durante ese conflicto.
El Instituto Textil Francés también utilizó MT para traducir resúmenes del francés, inglés, alemán y español (1970); La Universidad Brigham Young inició un proyecto para traducir textos mormones mediante traducción automática (1971).
1975 y más allá
SYSTRAN, que "fue pionero en el campo bajo contratos del gobierno de los EE. UU." en la década de 1960, fue utilizado por Xerox para traducir manuales técnicos (1978). A partir de fines de la década de 1980, a medida que aumentaba el poder de cómputo y se abarataba, se mostró más interés en los modelos estadísticos para la traducción automática. MT se hizo más popular después de la llegada de las computadoras. El primer sistema de implementación de SYSTRAN fue implementado en 1988 por el servicio en línea del Servicio Postal Francés llamado Minitel.También se lanzaron varias empresas de traducción basadas en computadora, incluida Trados (1984), que fue la primera en desarrollar y comercializar la tecnología de memoria de traducción (1989), aunque no es lo mismo que MT. El primer sistema MT comercial para ruso/inglés/alemán-ucraniano se desarrolló en la Universidad Estatal de Kharkov (1991).
En 1998, "por tan solo $ 29,95" se podía "comprar un programa para traducir en una dirección entre el inglés y un idioma europeo importante de su elección" para ejecutarlo en una PC.
MT en la web comenzó con SYSTRAN ofreciendo traducción gratuita de pequeños textos (1996) y luego ofreciéndola a través de AltaVista Babelfish, que acumuló 500.000 solicitudes por día (1997). El segundo servicio de traducción gratuito en la web fue GlobaLink de Lernout & Hauspie. Atlantic Magazine escribió en 1998 que "Babelfish de Systran y Comprende de GlobaLink" manejaron "No confíes en eso" con un "desempeño competente".
Franz Josef Och (futuro jefe de Desarrollo de Traducción de Google) ganó la competencia de MT de velocidad de DARPA (2003). Más innovaciones durante este tiempo incluyeron MOSES, el motor estadístico de MT de código abierto (2007), un servicio de traducción de texto/SMS para móviles en Japón (2008) y un teléfono móvil con función de traducción de voz a voz integrada para inglés., japonés y chino (2009). En 2012, Google anunció que Google Translate traduce aproximadamente suficiente texto para llenar 1 millón de libros en un día.
Proceso de traducción
El proceso de traducción humana puede describirse como:
- Descifrar el significado del texto fuente; y
- Recodificación de este significado en el idioma de destino.
Detrás de este procedimiento aparentemente simple se encuentra una operación cognitiva compleja. Para decodificar el significado del texto de origen en su totalidad, el traductor debe interpretar y analizar todas las características del texto, proceso que requiere un conocimiento profundo de la gramática, semántica, sintaxis, modismos, etc., del idioma de origen., así como la cultura de sus hablantes. El traductor necesita el mismo conocimiento profundo para volver a codificar el significado en el idioma de destino.
Ahí radica el desafío de la traducción automática: cómo programar una computadora que "entienda" un texto como lo hace una persona, y que "cree" un nuevo texto en el idioma de destino que suene como si hubiera sido escrito por una persona. A menos que tenga la ayuda de una 'base de conocimientos', la MT proporciona solo una aproximación general, aunque imperfecta, del texto original, obteniendo la "esencia" del mismo (un proceso llamado "gisting"). Esto es suficiente para muchos propósitos, incluido el de aprovechar al máximo el tiempo finito y costoso de un traductor humano, reservado para aquellos casos en los que la precisión total es indispensable.
Enfoques
La traducción automática puede utilizar un método basado en reglas lingüísticas, lo que significa que las palabras se traducirán de forma lingüística: las palabras más adecuadas (habladas oralmente) del idioma de destino reemplazarán las del idioma de origen.
A menudo se argumenta que el éxito de la traducción automática requiere que primero se resuelva el problema de la comprensión del lenguaje natural.
En general, los métodos basados en reglas analizan un texto, por lo general creando una representación simbólica intermedia, a partir de la cual se genera el texto en el idioma de destino. Según la naturaleza de la representación intermediaria, un enfoque se describe como traducción automática interlingüística o traducción automática basada en transferencia. Estos métodos requieren extensos léxicos con información morfológica, sintáctica y semántica, y grandes conjuntos de reglas.
Con suficientes datos, los programas de traducción automática a menudo funcionan lo suficientemente bien como para que un hablante nativo de un idioma obtenga el significado aproximado de lo que está escrito por el otro hablante nativo. La dificultad es obtener suficientes datos del tipo correcto para respaldar el método en particular. Por ejemplo, el gran corpus multilingüe de datos necesario para que funcionen los métodos estadísticos no es necesario para los métodos basados en la gramática. Pero entonces, los métodos gramaticales necesitan un lingüista experto para diseñar cuidadosamente la gramática que utilizan.
Para traducir entre idiomas estrechamente relacionados, se puede utilizar la técnica denominada traducción automática basada en reglas.
Basado en reglas
El paradigma de la traducción automática basada en reglas incluye la traducción automática basada en transferencias, la traducción automática interlingüe y los paradigmas de traducción automática basados en diccionarios. Este tipo de traducción se utiliza principalmente en la creación de diccionarios y programas de gramática. A diferencia de otros métodos, RBMT implica más información sobre la lingüística de los idiomas de origen y de destino, utilizando las reglas morfológicas y sintácticas y el análisis semántico de ambos idiomas. El enfoque básico implica vincular la estructura de la oración de entrada con la estructura de la oración de salida utilizando un analizador sintáctico y un analizador para el idioma de origen, un generador para el idioma de destino y un léxico de transferencia para la traducción real. La mayor desventaja de RBMT es que todo debe quedar explícito: la variación ortográfica y la entrada errónea deben formar parte del analizador de la lengua de origen para hacer frente a ella, y deben escribirse reglas de selección léxica para todos los casos de ambigüedad. Adaptarse a nuevos dominios en sí mismo no es tan difícil, ya que la gramática central es la misma en todos los dominios y el ajuste específico del dominio se limita al ajuste de selección léxica.
Traducción automática basada en transferencia
La traducción automática basada en transferencia es similar a la traducción automática interlingüística en que crea una traducción a partir de una representación intermedia que simula el significado de la oración original. A diferencia de la traducción automática interlingüística, depende parcialmente del par de idiomas implicado en la traducción.
Interlingüístico
La traducción automática interlingüe es una instancia de los enfoques de traducción automática basados en reglas. En este enfoque, el idioma de origen, es decir, el texto que se va a traducir, se transforma en un idioma interlingüístico, es decir, una representación "lenguaje neutral" que es independiente de cualquier idioma. Luego, el idioma de destino se genera a partir de la interlingua. Una de las principales ventajas de este sistema es que la interlingua se vuelve más valiosa a medida que aumenta la cantidad de idiomas de destino en los que se puede convertir. Sin embargo, el único sistema de traducción automática interlingüe que se ha hecho operativo a nivel comercial es el sistema KANT (Nyberg y Mitamura, 1992), que está diseñado para traducir el inglés técnico de Caterpillar (CTE) a otros idiomas.
Basado en diccionario
La traducción automática puede utilizar un método basado en las entradas del diccionario, lo que significa que las palabras se traducirán tal cual por un diccionario.
Estadístico
La traducción automática estadística trata de generar traducciones utilizando métodos estadísticos basados en corpus de texto bilingüe, como el corpus canadiense Hansard, el registro inglés-francés del parlamento canadiense y EUROPARL, el registro del Parlamento Europeo. Cuando tales corpus están disponibles, se pueden lograr buenos resultados traduciendo textos similares, pero tales corpus aún son raros para muchos pares de idiomas. El primer software de traducción automática estadística fue CANDIDE de IBM. Google usó SYSTRAN durante varios años, pero cambió a un método de traducción estadística en octubre de 2007. En 2005, Google mejoró sus capacidades de traducción interna utilizando aproximadamente 200 mil millones de palabras de materiales de las Naciones Unidas para entrenar su sistema; se mejoró la precisión de la traducción.Google Translate y programas de traducción estadística similares funcionan detectando patrones en cientos de millones de documentos que han sido traducidos previamente por humanos y haciendo conjeturas inteligentes basadas en los hallazgos. En general, cuantos más documentos traducidos por humanos estén disponibles en un idioma determinado, más probable es que la traducción sea de buena calidad. Los enfoques más nuevos en la traducción automática estadística, como METIS II y PRESEMT, utilizan un tamaño de corpus mínimo y, en cambio, se centran en la derivación de la estructura sintáctica a través del reconocimiento de patrones. Con un mayor desarrollo, esto puede permitir que la traducción automática estadística opere a partir de un corpus de texto monolingüe.La mayor caída de SMT incluye que depende de una gran cantidad de textos paralelos, sus problemas con los lenguajes ricos en morfología (especialmente con la traducción a dichos lenguajes) y su incapacidad para corregir errores únicos.
Basado en ejemplos
El enfoque de traducción automática basada en ejemplos (EBMT) fue propuesto por Makoto Nagao en 1984. La traducción automática basada en ejemplos se basa en la idea de analogía. En este enfoque, el corpus que se utiliza es aquel que contiene textos que ya han sido traducidos. Dada una oración que se va a traducir, se seleccionan oraciones de este corpus que contienen componentes sub-orales similares. Luego, las oraciones similares se usan para traducir los componentes sub-orales de la oración original al idioma de destino, y estas frases se juntan para formar una traducción completa.
TA híbrida
La traducción automática híbrida (HMT) aprovecha las ventajas de las metodologías de traducción estadísticas y basadas en reglas. Varias organizaciones de MT reclaman un enfoque híbrido que utiliza tanto reglas como estadísticas. Los enfoques difieren en varios aspectos:
- Reglas posprocesadas por estadísticas: las traducciones se realizan mediante un motor basado en reglas. Las estadísticas se utilizan luego en un intento de ajustar/corregir la salida del motor de reglas.
- Estadísticas guiadas por reglas: las reglas se utilizan para preprocesar datos en un intento de guiar mejor el motor estadístico. Las reglas también se utilizan para posprocesar la salida estadística para realizar funciones como la normalización. Este enfoque tiene mucho más poder, flexibilidad y control al traducir. También proporciona un amplio control sobre la forma en que se procesa el contenido tanto antes de la traducción (p. ej., marcado de contenido y términos no traducibles) como después de la traducción (p. ej., correcciones y ajustes posteriores a la traducción).
Más recientemente, con la llegada de Neural MT, está surgiendo una nueva versión de traducción automática híbrida que combina los beneficios de las reglas, la traducción automática estadística y neuronal. El enfoque permite beneficiarse del procesamiento previo y posterior en un flujo de trabajo guiado por reglas, así como beneficiarse de NMT y SMT. La desventaja es la complejidad inherente que hace que el enfoque sea adecuado solo para casos de uso específicos.
MT neuronal
Un enfoque basado en el aprendizaje profundo de MT, la traducción automática neuronal ha progresado rápidamente en los últimos años, y Google ha anunciado que sus servicios de traducción ahora están utilizando esta tecnología con preferencia a sus métodos estadísticos anteriores. Un equipo de Microsoft afirmó haber alcanzado la paridad humana en WMT-2017 ("Segunda conferencia sobre traducción automática de EMNLP 2017") en 2018, lo que marcó un hito histórico. Sin embargo, muchos investigadores han criticado esta afirmación, volviendo a ejecutar y discutiendo sus experimentos; el consenso actual es que la llamada paridad humana lograda no es real, ya que se basa completamente en dominios limitados, pares de idiomas y ciertos conjuntos de pruebas, es decir, carece de poder de significancia estadística. Todavía queda un largo viaje antes de que NMT alcance actuaciones de paridad humana real.
Para abordar la traducción de frases idiomáticas, expresiones de varias palabras y palabras de baja frecuencia (también llamadas OOV, o traducción de palabras fuera del vocabulario), se han explorado características lingüísticas centradas en el lenguaje en una máquina neuronal de última generación. modelos de traducción (NMT). Por ejemplo, la descomposición de caracteres chinos en radicales y trazos ha demostrado ser útil para traducir expresiones de varias palabras en NMT.
Problemas mayores
Desambiguación
La desambiguación del sentido de las palabras se refiere a encontrar una traducción adecuada cuando una palabra puede tener más de un significado. El problema fue planteado por primera vez en la década de 1950 por Yehoshua Bar-Hillel. Señaló que sin una "enciclopedia universal", una máquina nunca podría distinguir entre los dos significados de una palabra. Hoy en día existen numerosos enfoques diseñados para superar este problema. Se pueden dividir aproximadamente en enfoques "superficiales" y enfoques "profundos".
Los enfoques superficiales no asumen ningún conocimiento del texto. Simplemente aplican métodos estadísticos a las palabras que rodean la palabra ambigua. Los enfoques profundos suponen un conocimiento integral de la palabra. Hasta ahora, los enfoques superficiales han tenido más éxito.
Claude Piron, un traductor de mucho tiempo para las Naciones Unidas y la Organización Mundial de la Salud, escribió que la traducción automática, en el mejor de los casos, automatiza la parte más fácil del trabajo de un traductor; la parte más difícil y que requiere más tiempo generalmente implica realizar una investigación exhaustiva para resolver las ambigüedades en el texto de origen, que las exigencias gramaticales y léxicas del idioma de destino requieren resolver:
¿Por qué un traductor necesita todo un día de trabajo para traducir cinco páginas y no una o dos horas?..... Alrededor del 90% de un texto promedio corresponde a estas simples condiciones. Pero desafortunadamente, está el otro 10%. Es esa parte la que requiere seis [más] horas de trabajo. Hay ambigüedades que uno tiene que resolver. Por ejemplo, el autor del texto fuente, un médico australiano, citó el ejemplo de una epidemia que se declaró durante la Segunda Guerra Mundial en un "campo de prisioneros de guerra japoneses". ¿Estaba hablando de un campo estadounidense con prisioneros japoneses o de un campo japonés con prisioneros estadounidenses? El inglés tiene dos sentidos. Por lo tanto, es necesario investigar, tal vez hasta el punto de hacer una llamada telefónica a Australia.
El enfoque profundo ideal requeriría que el software de traducción hiciera toda la investigación necesaria para este tipo de eliminación de ambigüedades por sí mismo; pero esto requeriría un mayor grado de IA que el que se ha alcanzado hasta ahora. Un enfoque superficial que simplemente adivine el sentido de la ambigua frase en inglés que menciona Piron (basado, quizás, en qué tipo de campo de prisioneros de guerra se menciona con más frecuencia en un corpus dado) tendría una posibilidad razonable de adivinar mal bastante con frecuencia. Un enfoque superficial que implique "preguntar al usuario sobre cada ambigüedad", según la estimación de Piron, solo automatizaría alrededor del 25% del trabajo de un traductor profesional, dejando el 75% más difícil aún para que lo haga un ser humano.
Discurso no estándar
Uno de los principales inconvenientes de la traducción automática es su incapacidad para traducir un lenguaje no estándar con la misma precisión que un lenguaje estándar. La MT basada en estadísticas o heurística toma información de varias fuentes en la forma estándar de un lenguaje. La traducción basada en reglas, por naturaleza, no incluye usos comunes no estándar. Esto provoca errores en la traducción de una fuente vernácula o al lenguaje coloquial. Las limitaciones en la traducción del habla casual presentan problemas en el uso de la traducción automática en dispositivos móviles.
Entidades nombradas
En la extracción de información, las entidades nombradas, en sentido estricto, se refieren a entidades concretas o abstractas del mundo real, como personas, organizaciones, empresas y lugares que tienen un nombre propio: George Washington, Chicago, Microsoft. También se refiere a expresiones de tiempo, espacio y cantidad como 1 de julio de 2011, $500.
En la oración "Smith es el presidente de Fabrionix", tanto Smith como Fabrionix son entidades nombradas y pueden calificarse aún más a través del nombre u otra información; "presidente" no lo es, ya que Smith podría haber ocupado anteriormente otro puesto en Fabrionix, por ejemplo, vicepresidente. El término designador rígido es lo que define estos usos para el análisis en la traducción automática estadística.
Las entidades nombradas deben identificarse primero en el texto; de lo contrario, pueden traducirse erróneamente como sustantivos comunes, lo que probablemente no afectaría la calificación BLEU de la traducción, pero cambiaría la legibilidad humana del texto. Pueden omitirse de la traducción de salida, lo que también tendría implicaciones para la legibilidad y el mensaje del texto.
La transliteración incluye encontrar las letras en el idioma de destino que más se correspondan con el nombre en el idioma de origen. Sin embargo, se ha dicho que esto a veces empeora la calidad de la traducción. Para "Sur de California", la primera palabra debe traducirse directamente, mientras que la segunda palabra debe transliterarse. Las máquinas a menudo transliteran ambos porque los tratan como una sola entidad. Palabras como estas son difíciles de procesar para los traductores automáticos, incluso aquellos con un componente de transliteración.
Uso de una lista de "no traducir", que tiene el mismo objetivo final: transliteración en lugar de traducción. todavía se basa en la identificación correcta de las entidades nombradas.
Un tercer enfoque es un modelo basado en clases. Las entidades con nombre se reemplazan con un token para representar su "clase"; "Ted" y "Erica" serían reemplazados por tokens de clase "persona". Luego, la distribución estadística y el uso de nombres de personas, en general, se pueden analizar en lugar de mirar las distribuciones de "Ted" y "Erica" individualmente, de modo que la probabilidad de un nombre dado en un idioma específico no afectará la probabilidad asignada. de una traducción. Un estudio de Stanford sobre la mejora de esta área de la traducción da ejemplos de que se asignarán diferentes probabilidades a "David va a dar un paseo" y "Ankit va a dar un paseo" para el inglés como idioma de destino debido a la diferente cantidad de ocurrencias. para cada nombre en los datos de entrenamiento.
Algo relacionadas están las frases "beber té con leche" frente a "beber té con Molly".
Traducción de fuentes multiparalelas
Se ha trabajado en la utilización de corpus multiparalelos, es decir, un cuerpo de texto que ha sido traducido a 3 o más idiomas. Con estos métodos, un texto que ha sido traducido a 2 o más idiomas se puede utilizar en combinación para proporcionar una traducción más precisa a un tercer idioma en comparación con si solo se usara uno de esos idiomas de origen.
Ontologías en MT
Una ontología es una representación formal del conocimiento que incluye los conceptos (tales como objetos, procesos, etc.) en un dominio y algunas relaciones entre ellos. Si la información almacenada es de naturaleza lingüística, se puede hablar de un léxico. En NLP, las ontologías se pueden utilizar como fuente de conocimiento para los sistemas de traducción automática. Con acceso a una gran base de conocimientos, los sistemas pueden habilitarse para resolver muchas ambigüedades (especialmente léxicas) por sí mismos. En los siguientes ejemplos clásicos, como humanos, podemos interpretar la frase preposicional según el contexto porque usamos nuestro conocimiento del mundo, almacenado en nuestros léxicos:
Vi un hombre/estrella/molécula con un microscopio/telescopio/prismáticos.
Un sistema de traducción automática inicialmente no podría diferenciar entre los significados porque la sintaxis no cambia. Sin embargo, con una ontología lo suficientemente grande como fuente de conocimiento, se pueden reducir las posibles interpretaciones de palabras ambiguas en un contexto específico. Otras áreas de uso de ontologías dentro de NLP incluyen recuperación de información, extracción de información y resumen de texto.
Construcción de ontologías
La ontología generada para el sistema de traducción automática basado en el conocimiento PANGLOSS en 1993 puede servir como ejemplo de cómo se puede compilar una ontología para fines de PNL:
- Se necesita una ontología a gran escala para ayudar a analizar los módulos activos del sistema de traducción automática.
- En el ejemplo de PANGLOSS, se pretendía incluir alrededor de 50 000 nodos en la región superior (abstracta) de la ontología más pequeña y construida manualmente. Debido a su tamaño, tuvo que ser creado automáticamente.
- El objetivo era fusionar los dos recursos LDOCE en línea y WordNet para combinar los beneficios de ambos: definiciones concisas de Longman y relaciones semánticas que permiten la taxonomización semiautomática a la ontología de WordNet.
- Se creó un algoritmo de coincidencia de definiciones para fusionar automáticamente los significados correctos de las palabras ambiguas entre los dos recursos en línea, en función de las palabras que las definiciones de esos significados tienen en común en LDOCE y WordNet. Usando una matriz de similitud, el algoritmo entregó coincidencias entre significados, incluido un factor de confianza. Sin embargo, este algoritmo por sí solo no coincidió correctamente con todos los significados.
- Por lo tanto, se creó un segundo algoritmo de coincidencia de jerarquías que utiliza las jerarquías taxonómicas que se encuentran en WordNet (jerarquías profundas) y parcialmente en LDOCE (jerarquías planas). Esto funciona primero haciendo coincidir significados inequívocos y luego limitando el espacio de búsqueda solo a los antepasados y descendientes respectivos de esos significados coincidentes. Por lo tanto, el algoritmo coincidió con significados no ambiguos localmente (por ejemplo, mientras que la palabra foca como tal es ambigua, solo hay un significado de foca en la subjerarquía animal).
- Ambos algoritmos se complementaron y ayudaron a construir una ontología a gran escala para el sistema de traducción automática. Las jerarquías de WordNet, junto con las definiciones coincidentes de LDOCE, estaban subordinadas a la región superior de la ontología. Como resultado, el sistema PANGLOSS MT pudo hacer uso de esta base de conocimiento, principalmente en su elemento de generación.
Aplicaciones
Si bien ningún sistema proporciona el santo grial de la traducción automática de alta calidad de texto sin restricciones, muchos sistemas totalmente automatizados producen resultados razonables. La calidad de la traducción automática mejora sustancialmente si el dominio está restringido y controlado.
A pesar de sus limitaciones inherentes, los programas de MT se utilizan en todo el mundo. Probablemente el mayor usuario institucional sea la Comisión Europea. losEl proyecto MOLTO, por ejemplo, coordinado por la Universidad de Gotemburgo, recibió más de 2.375 millones de euros de apoyo de proyectos de la UE para crear una herramienta de traducción confiable que cubra la mayoría de los idiomas de la UE. El mayor desarrollo de los sistemas de traducción automática llega en un momento en que los recortes presupuestarios en la traducción humana pueden aumentar la dependencia de la UE de programas fiables de traducción automática. La Comisión Europea contribuyó con 3.072 millones de euros (a través de su programa ISA) para la creación de MT@EC, un programa de traducción automática estadística adaptado a las necesidades administrativas de la UE, para reemplazar un sistema anterior de traducción automática basado en reglas.
En 2005, Google afirmó que se obtuvieron resultados prometedores utilizando un motor de traducción automática estadística patentado. El motor de traducción estadística utilizado en las herramientas de idioma de Google para árabe <-> inglés y chino <-> inglés obtuvo una puntuación general de 0,4281 por encima de la puntuación BLEU-4 de 0,3954 (verano de 2006) de IBM, que quedó en segundo lugar, en las pruebas realizadas por National Instituto de Normas y Tecnología.
Con el enfoque reciente en el terrorismo, las fuentes militares en los Estados Unidos han estado invirtiendo cantidades significativas de dinero en ingeniería de lenguaje natural. In-Q-Tel (un fondo de capital de riesgo, financiado en gran parte por la Comunidad de Inteligencia de EE. UU., para estimular nuevas tecnologías a través de empresarios del sector privado) creó empresas como Language Weaver. Actualmente, la comunidad militar está interesada en la traducción y el procesamiento de idiomas como el árabe, el pastún y el dari. Dentro de estos idiomas, la atención se centra en las frases clave y la comunicación rápida entre militares y civiles mediante el uso de aplicaciones para teléfonos móviles.La Oficina de Tecnología de Procesamiento de la Información en DARPA alberga programas como TIDES y el traductor de Babylon. La Fuerza Aérea de EE. UU. ha otorgado un contrato de $ 1 millón para desarrollar una tecnología de traducción de idiomas.
El notable auge de las redes sociales en la web en los últimos años ha creado otro nicho para la aplicación de software de traducción automática, en utilidades como Facebook o clientes de mensajería instantánea como Skype, GoogleTalk, MSN Messenger, etc., que permiten a los usuarios hablar. diferentes idiomas para comunicarse entre sí. También se han lanzado aplicaciones de traducción automática para la mayoría de los dispositivos móviles, incluidos teléfonos móviles, PC de bolsillo, PDA, etc. Debido a su portabilidad, estos instrumentos se han designado como herramientas de traducción móvil que permiten la creación de redes comerciales móviles entre socios que hablan diferentes idiomas, o facilitando tanto el aprendizaje de idiomas extranjeros como los viajes no acompañados a países extranjeros sin la necesidad de la intermediación de un traductor humano.
A pesar de haber sido catalogado como un competidor indigno de la traducción humana en 1966 por el Comité Asesor de Procesamiento de Lenguaje Automatizado creado por el gobierno de los Estados Unidos, la calidad de la traducción automática ahora se ha mejorado a niveles tales que su aplicación en la colaboración en línea y en el campo médico están siendo investigados. La aplicación de esta tecnología en entornos médicos donde los traductores humanos están ausentes es otro tema de investigación, pero surgen dificultades debido a la importancia de las traducciones precisas en los diagnósticos médicos.
También se han observado fallas en la traducción automática por su valor de entretenimiento. Dos videos subidos a YouTube en abril de 2017 involucran dos caracteres hiragana japoneses えぐ (e y gu) que se pegan repetidamente en Google Translate, y las traducciones resultantes se degradan rápidamente en frases sin sentido como "HUEVO EN DESCARGA" y "Árboles exprimidores de aguas profundas". que luego se leen con voces cada vez más absurdas; la versión completa del video tiene actualmente 6,9 millones de visitas a partir de marzo de 2022.
Evaluación
Hay muchos factores que afectan la forma en que se evalúan los sistemas de traducción automática. Estos factores incluyen el uso previsto de la traducción, la naturaleza del software de traducción automática y la naturaleza del proceso de traducción.
Diferentes programas pueden funcionar bien para diferentes propósitos. Por ejemplo, la traducción automática estadística (SMT) suele superar a la traducción automática basada en ejemplos (EBMT), pero los investigadores descubrieron que, al evaluar la traducción del inglés al francés, la EBMT funciona mejor. El mismo concepto se aplica a los documentos técnicos, que SMT puede traducir más fácilmente debido a su lenguaje formal.
Sin embargo, en ciertas aplicaciones, por ejemplo, descripciones de productos escritas en un lenguaje controlado, un sistema de traducción automática basado en diccionario ha producido traducciones satisfactorias que no requieren intervención humana salvo para la inspección de calidad.
Hay varios medios para evaluar la calidad de salida de los sistemas de traducción automática. El más antiguo es el uso de jueces humanos para evaluar la calidad de una traducción. Aunque la evaluación humana requiere mucho tiempo, sigue siendo el método más confiable para comparar diferentes sistemas, como los sistemas estadísticos y basados en reglas. Los medios automatizados de evaluación incluyen BLEU, NIST, METEOR y LEPOR.
Confiar exclusivamente en la traducción automática sin editar ignora el hecho de que la comunicación en el lenguaje humano está incrustada en el contexto y que se necesita una persona para comprender el contexto del texto original con un grado razonable de probabilidad. Ciertamente es cierto que incluso las traducciones puramente generadas por humanos son propensas a errores. Por lo tanto, para garantizar que una traducción generada por una máquina sea útil para un ser humano y que se logre una traducción de calidad publicable, dichas traducciones deben ser revisadas y editadas por un ser humano.El difunto Claude Piron escribió que la traducción automática, en el mejor de los casos, automatiza la parte más fácil del trabajo de un traductor; la parte más difícil y que requiere más tiempo generalmente implica realizar una investigación exhaustiva para resolver las ambigüedades en el texto de origen, que las exigencias gramaticales y léxicas del idioma de destino requieren resolver. Dicha investigación es un preludio necesario para la preedición necesaria para proporcionar información para el software de traducción automática de modo que la salida no sea sin sentido.
Además de los problemas de eliminación de ambigüedades, se puede producir una disminución de la precisión debido a los diferentes niveles de datos de entrenamiento para los programas de traducción automática. Tanto la traducción automática basada en ejemplos como la estadística se basan en una amplia gama de oraciones de ejemplo reales como base para la traducción, y cuando se analizan demasiadas o muy pocas oraciones, la precisión se ve comprometida. Los investigadores encontraron que cuando un programa se entrena en 203,529 pares de oraciones, la precisión en realidad disminuye. El nivel óptimo de datos de entrenamiento parece ser un poco más de 100 000 oraciones, posiblemente porque a medida que aumentan los datos de entrenamiento, aumenta la cantidad de oraciones posibles, lo que dificulta encontrar una traducción exacta.
Usar la traducción automática como herramienta de enseñanza
Aunque ha habido preocupaciones sobre la precisión de la traducción automática, la Dra. Ana Nino de la Universidad de Manchester ha investigado algunas de las ventajas de utilizar la traducción automática en el aula. Uno de esos métodos pedagógicos se denomina "MT como mal modelo". La TA como mal modelo obliga al estudiante de idiomas a identificar inconsistencias o aspectos incorrectos de una traducción; a su vez, el individuo (con suerte) poseerá una mejor comprensión del idioma. El Dr. Nino cita que esta herramienta de enseñanza se implementó a fines de la década de 1980. Al final de varios semestres, el Dr. Nino pudo obtener resultados de encuestas de estudiantes que habían usado MT como un modelo malo (así como otros modelos). De manera abrumadora, los estudiantes sintieron que habían observado una comprensión mejorada, recuperación léxica y aumento confianza en su lengua meta.
Traducción automática y lenguajes de señas
A principios de la década de 2000, las opciones de traducción automática entre los idiomas hablados y de señas estaban muy limitadas. Era una creencia común que las personas sordas podían usar traductores tradicionales. Sin embargo, el estrés, la entonación, el tono y el tiempo se transmiten de manera muy diferente en los idiomas hablados en comparación con los lenguajes de señas. Por lo tanto, una persona sorda puede malinterpretar o confundirse sobre el significado del texto escrito que se basa en un idioma hablado.
Los investigadores Zhao, et al. (2000), desarrolló un prototipo llamado TEAM (traducción automática del inglés al ASL) que completaba traducciones del inglés al lenguaje de señas estadounidense (ASL). El programa primero analizaría los aspectos sintácticos, gramaticales y morfológicos del texto en inglés. Después de este paso, el programa accedió a un sintetizador de signos, que actuó como un diccionario para ASL. Este sintetizador albergaba el proceso que se debe seguir para completar las señas de ASL, así como los significados de estas señas. Una vez que se analiza todo el texto y se ubican los signos necesarios para completar la traducción en el sintetizador, aparece un humano generado por computadora y usaría ASL para firmar el texto en inglés para el usuario.
Derechos de autor
Solo las obras que son originales están sujetas a la protección de los derechos de autor, por lo que algunos académicos afirman que los resultados de la traducción automática no tienen derecho a la protección de los derechos de autor porque la traducción automática no implica creatividad. El derecho de autor en cuestión es para un trabajo derivado; el autor de la obra original en el idioma original no pierde sus derechos cuando se traduce una obra: un traductor debe tener permiso para publicar una traducción.
Contenido relacionado
Consonante coronal
Traducción
Idioma azerbaiyano