Memoria de traducción

Ajustar Compartir Imprimir Citar

Una memoria de traducción (TM) es una base de datos que almacena "segmentos", que pueden ser oraciones, párrafos o unidades similares a oraciones (encabezados, títulos o elementos de una lista) que hayan sido traducidos previamente, para ayudar a los traductores humanos. La memoria de traducción almacena el texto de origen y su correspondiente traducción en pares de idiomas denominados “unidades de traducción”. Las palabras individuales son manejadas por bases terminológicas y no están dentro del dominio de TM.

Los programas de software que usan memorias de traducción a veces se conocen como administradores de memorias de traducción (TMM) o sistemas de memorias de traducción (sistemas TM , que no debe confundirse con un sistema de gestión de traducción (TMS), que es otro tipo de software centrado en la gestión del proceso de traducción).

Las memorias de traducción se suelen utilizar junto con una herramienta de traducción asistida por ordenador (CAT), un programa de procesamiento de textos, sistemas de gestión de terminología, un diccionario multilingüe o incluso una traducción automática sin procesar.

La investigación indica que muchas empresas que producen documentación multilingüe utilizan sistemas de memoria de traducción. En una encuesta de profesionales de la lengua en 2006, el 82,5% de las 874 respuestas confirmaron el uso de una MT. El uso de MT se correlacionó con el tipo de texto caracterizado por términos técnicos y estructura de oración simple (técnicos, en menor grado de marketing y financieros), habilidades informáticas y repetitividad del contenido.

Uso de memorias de traducción

El programa divide el texto de origen (el texto que se va a traducir) en segmentos, busca coincidencias entre los segmentos y la mitad de origen de los pares de origen-destino previamente traducidos almacenados en una memoria de traducción , y presenta tales pares coincidentes como coincidencias parciales y/o completas de traducción. El traductor puede aceptar una coincidencia, reemplazarla con una traducción nueva o modificarla para que coincida con la fuente. En los dos últimos casos, la traducción nueva o modificada pasa a la base de datos.

Algunos sistemas de memorias de traducción solo buscan coincidencias al 100 %, es decir, solo pueden recuperar segmentos de texto que coincidan exactamente con las entradas de la base de datos, mientras que otros emplean algoritmos de coincidencia aproximada para recuperar segmentos similares, que se presentan al traductor con diferencias marcadas. Es importante tener en cuenta que los sistemas típicos de memorias de traducción solo buscan texto en el segmento de origen.

La flexibilidad y la solidez del algoritmo de coincidencia determinan en gran medida el rendimiento de la memoria de traducción, aunque para algunas aplicaciones la tasa de recuperación de coincidencias exactas puede ser lo suficientemente alta como para justificar el enfoque de coincidencia del 100 %.

Los segmentos en los que no se encuentren coincidencias deberán ser traducidos manualmente por el traductor. Estos segmentos recién traducidos se almacenan en la base de datos donde se pueden utilizar para futuras traducciones, así como repeticiones de ese segmento en el texto actual.

Las memorias de traducción funcionan mejor con textos muy repetitivos, como manuales técnicos. También son útiles para traducir cambios incrementales en un documento previamente traducido, correspondientes, por ejemplo, a cambios menores en una nueva versión de un manual de usuario. Tradicionalmente, las memorias de traducción no se han considerado apropiadas para textos literarios o creativos, por la sencilla razón de que hay tan poca repetición en el lenguaje utilizado. Sin embargo, otros los encuentran valiosos incluso para textos no repetitivos, porque los recursos de la base de datos creados tienen valor para búsquedas de concordancia para determinar el uso apropiado de los términos, para el aseguramiento de la calidad (sin segmentos vacíos) y la simplificación del proceso de revisión (fuente y segmento de destino siempre se muestran juntos, mientras que los traductores tienen que trabajar con dos documentos en un entorno de revisión tradicional).

Principales beneficios

Los administradores de memorias de traducción son los más adecuados para traducir documentación técnica y documentos que contienen vocabularios especializados. Sus beneficios incluyen:

Principales obstáculos

Los principales problemas que obstaculizan un uso más amplio de los administradores de memorias de traducción incluyen:

Efectos sobre la calidad

El uso de sistemas de MT puede afectar la calidad de los textos traducidos. Su principal efecto está claramente relacionado con la llamada "propagación de errores": si la traducción de un segmento en particular es incorrecta, de hecho es más probable que la traducción incorrecta se reutilice la próxima vez que la misma fuente se traduce el texto, o un texto fuente similar, perpetuando así el error. Tradicionalmente, se han descrito dos efectos principales sobre la calidad de los textos traducidos: la "ensalada de oraciones" (Bédard 2000; citado en O'Hagan 2009: 50) y el efecto "mirilla" (Heyn 1998). El primero se refiere a la falta de coherencia a nivel de texto cuando se traduce un texto utilizando oraciones de una TM que han sido traducidas por diferentes traductores con diferentes estilos. Según este último, los traductores pueden adaptar su estilo al uso del sistema MT para que estos no contengan referencias intratextuales, de modo que los segmentos puedan reutilizarse mejor en futuros textos, afectando así la cohesión y la legibilidad (O'Hagan 2009).

Existe un efecto potencial y, si está presente, probablemente inconsciente en el texto traducido. Diferentes idiomas usan diferentes secuencias para los elementos lógicos dentro de una oración y un traductor que se presenta con una oración de cláusulas múltiples que está traducida a la mitad es menos probable que reconstruya completamente una oración. Evidencias empíricas consistentes (Martín-Mor 2011) muestran que lo más probable es que los traductores modifiquen la estructura de una oración de cláusulas múltiples cuando trabajan con un procesador de texto en lugar de un sistema de MT.

También existe la posibilidad de que el traductor trate el texto mecánicamente oración por oración, en lugar de centrarse en cómo cada oración se relaciona con quienes la rodean y con el texto como un todo. Los investigadores (Dragsted 2004) han identificado este efecto, que se relaciona con la característica de segmentación automática de estos programas, pero no necesariamente tiene un efecto negativo en la calidad de las traducciones.

Tenga en cuenta que estos efectos están estrechamente relacionados con la capacitación y no son inherentes a la herramienta. Según Martín-Mor (2011), el uso de sistemas de MT sí tiene un efecto en la calidad de los textos traducidos, especialmente en los novatos, pero los traductores experimentados pueden evitarlo. Pym (2013) recuerda que "los traductores que usan TM/MT tienden a revisar cada segmento a medida que avanzan, dejando poco tiempo para una revisión final de todo el texto al final", que de hecho podría ser la última causa de algunos de los efectos descritos aquí.

Tipos de sistemas de memoria de traducción

Funciones

El siguiente es un resumen de las principales funciones de una memoria de traducción.

Funciones fuera de línea

Importar

Esta función se utiliza para transferir un texto y su traducción desde un archivo de texto a la MT. La importación se puede realizar desde un formato sin procesar, en el que un texto fuente externo está disponible para importar a una MT junto con su traducción. A veces los textos tienen que ser reprocesados por el usuario. Hay otro formato que se puede usar para importar: el formato nativo. Este formato es el que utiliza la TM para guardar memorias de traducción en un archivo.

Análisis

El proceso de análisis implica los siguientes pasos:

Persona textual
Es muy importante reconocer correctamente la puntuación para distinguir entre por ejemplo una parada completa al final de una frase y una parada completa en una abreviatura. Así, el marcador es una especie de pre-edición. Por lo general, los materiales que han sido procesados a través de programas de ayuda de traductores contienen marcado, ya que la etapa de traducción está incrustada en una línea de producción de documentos multilingüe. Otros elementos de texto especiales se pueden establecer por marcado. Hay elementos especiales que no necesitan ser traducidos, como nombres y códigos adecuados, mientras que otros pueden necesitar ser convertidos a formato nativo.
Parálisis lingüístico
La reducción de la forma base se utiliza para preparar listas de palabras y un texto para la recuperación automática de términos de un banco de plazo. Por otro lado, el análisis sintáctico se puede utilizar para extraer términos multipalabra o fraseología de un texto fuente. Así que el análisis se utiliza para normalizar la variación del orden de palabras de la fraseología, esto es lo que las palabras pueden formar una frase.
Segmentation
Su propósito es elegir las unidades de traducción más útiles. La segmentación es como un tipo de persiana. Se hace monolingüemente utilizando el persing superficial y la alineación se basa en la segmentación. Si los traductores corrigen manualmente las segmentaciones, versiones posteriores del documento no encontrarán partidos contra el TM basado en la segmentación corregida porque el programa repetirá sus propios errores. Los traductores suelen proceder a la oración por frase, aunque la traducción de una frase puede depender de la traducción de los alrededores.
Alineación
Es la tarea de definir correspondencias de traducción entre textos de origen y destinatarios. Debe haber retroalimentación de alineación a segmentación y un buen algoritmo de alineación debe ser capaz de corregir la segmentación inicial.
Extracción a plazo
Puede tener como entrada un diccionario anterior. Además, cuando se extraen términos desconocidos, puede utilizar el análisis basado en estadísticas de texto. Se utilizan para estimar la cantidad de trabajo involucrado en un trabajo de traducción. Esto es muy útil para planificar y programar el trabajo. Las estadísticas de traducción suelen contar las palabras y estimar la cantidad de repetición en el texto.

Exportar

Exportar transfiere el texto de la MT a un archivo de texto externo. La importación y la exportación deben ser inversas.

Funciones en línea

Al traducir, uno de los propósitos principales de la MT es recuperar las coincidencias más útiles en la memoria para que el traductor pueda elegir la mejor. La TM debe mostrar tanto el texto de origen como el de destino señalando las identidades y diferencias.

Recuperación

Se pueden recuperar varios tipos diferentes de coincidencias de una MT.

El partido de salida
Los partidos de salida aparecen cuando el partido entre el segmento de fuente actual y el almacenado es un partido de carácter. Al traducir una frase, una coincidencia exacta significa que la misma frase se ha traducido antes. Los partidos de salida también se llaman "100 % coincidencias".
In-Context Exact (ICE) match or Guaranteed Match
Un partido ICE es un partido exacto que ocurre exactamente en el mismo contexto, es decir, el mismo lugar en un párrafo. Contexto se define a menudo por las oraciones y atributos circundantes, como el nombre de archivo de documentos, fecha y permisos.
Fuzzy match
Cuando el partido no es exacto, es un partido "fuzzy". Algunos sistemas asignan porcentajes a estos tipos de partidos, en cuyo caso un partido borroso es mayor que el 0% y menos del 100%. Esas cifras no son comparables entre sistemas a menos que se especifique el método de puntuación.
libro
Cuando el traductor selecciona una o más palabras en el segmento fuente, el sistema recupera pares de segmento que coinciden con los criterios de búsqueda. Esta característica es útil para encontrar traducciones de términos y expresiones en ausencia de una base de datos terminológica.

Actualizando

Una TM se actualiza con una nueva traducción cuando ha sido aceptada por el traductor. Como siempre en la actualización de una base de datos, existe la pregunta de qué hacer con el contenido anterior de la base de datos. Una TM se puede modificar cambiando o eliminando entradas en la TM. Algunos sistemas permiten a los traductores guardar varias traducciones del mismo segmento de origen.

Traducción automática

Las herramientas de memoria de traducción a menudo brindan recuperación y sustitución automáticas.

Recuperación automática
Los sistemas TM se registran y sus resultados se muestran automáticamente a medida que un traductor se mueve a través de un documento.
Sustitución automática
Con sustitución automática, si aparece un partido exacto en la traducción de una nueva versión de un documento, el software repetirá la traducción antigua. Si el traductor no verifica la traducción contra la fuente, se repetirá un error en la traducción anterior.

Redes

La red permite que un grupo de traductores traduzca un texto juntos más rápido que si cada uno trabajara de forma aislada, porque las oraciones y frases traducidas por un traductor están disponibles para los demás. Además, si las memorias de traducción se comparten antes de la traducción final, existe la posibilidad de que los errores de un traductor sean corregidos por otros miembros del equipo.

Memoria de texto

"Memoria de texto" es la base del estándar Lisa OSCAR xml:tm propuesto. La memoria de texto comprende la memoria del autor y la memoria de traducción.

Memoria de traducción

Los identificadores únicos se recuerdan durante la traducción para que el documento en el idioma de destino sea 'exactamente' alineados al nivel de la unidad de texto. Si el documento de origen se modifica posteriormente, las unidades de texto que no han cambiado se pueden transferir directamente a la nueva versión de destino del documento sin necesidad de interacción con el traductor. Este es el concepto de 'exacto' o 'perfecto' coincidencia con la memoria de traducción. xml:tm también puede proporcionar mecanismos para coincidencias aproximadas y apalancadas en el documento.

Historia

La década de 1970 es la etapa inicial de los sistemas de MT en la que los académicos llevaron a cabo una ronda preliminar de debates exploratorios. La idea original de los sistemas de MT a menudo se atribuye a "Proper Place" de Martin Kay. papel, pero los detalles de la misma no se dan completamente. En este documento, ha mostrado el concepto básico del sistema de almacenamiento: "El traductor podría comenzar emitiendo un comando que haga que el sistema muestre cualquier cosa en el almacenamiento que pueda ser relevante para... Antes de continuar, él Puede examinar fragmentos de texto pasados y futuros que contienen material similar. Esta observación de Kay en realidad fue influenciada por la sugerencia de Peter Arthern de que los traductores pueden usar documentos similares ya traducidos en línea. En su artículo de 1978, dio una demostración completa de lo que hoy llamamos sistemas de MT: cualquier texto nuevo se escribiría en una estación de procesamiento de textos y, mientras se escribía, el sistema compararía este texto con los textos anteriores almacenados en su memoria. junto con su traducción a todos los demás idiomas oficiales [de la Comunidad Europea]... Una ventaja sobre la traducción automática propiamente dicha sería que todos los pasajes así recuperados serían gramaticalmente correctos. En efecto, deberíamos estar operando un dispositivo electrónico de 'cortar y pegar'. proceso que, según mis cálculos, ahorraría al menos el 15 por ciento del tiempo que los traductores emplean ahora en la producción efectiva de traducciones.

La idea se incorporó de las herramientas ALPS (Automated Language Processing Systems) desarrolladas por primera vez por un investigador de la Universidad Brigham Young, y en ese momento la idea de los sistemas de MT se mezcló con una herramienta llamada "Procesamiento de repeticiones" que solo tenía como objetivo encontrar cadenas coincidentes. Solo después de mucho tiempo, surgió el concepto de la llamada memoria de traducción.

La verdadera etapa exploratoria de los sistemas de MT sería la década de 1980. Una de las primeras implementaciones del sistema TM apareció en Sadler y Vendelmans' Banco de Conocimiento Bilingüe. Un banco de conocimiento bilingüe es un par de corpus estructurados sintáctica y referencialmente, uno de los cuales es una traducción del otro, en el que las unidades de traducción están codificadas de forma cruzada entre los corpus. El objetivo de Bilingual Knowledge Bank es desarrollar una fuente de conocimiento de propósito general basada en corpus para aplicaciones en traducción automática y traducción asistida por computadora (Sadler & Vendelman, 1987). Otro paso importante lo dio Brian Harris con su 'Bi-texto'. Ha definido el bi-texto como "un solo texto en dos dimensiones" (1988), los textos de origen y de destino relacionados por la actividad del traductor a través de unidades de traducción que hizo un eco similar con Sadler's Bilingual Knowledge Bank. Y en el trabajo de Harris, propuso algo así como el sistema TM sin usar este nombre: una base de datos de traducciones emparejadas, que se puede buscar por palabra individual o por "unidad de traducción completa", en el último caso la búsqueda se le permite recuperar unidades similares en lugar de idénticas.

La tecnología TM solo estuvo disponible comercialmente a gran escala a fines de la década de 1990, por lo que los esfuerzos realizados por varios ingenieros y traductores. Destaca la primera herramienta de MT denominada Trados (actualmente SDL Trados). En esta herramienta, al abrir el archivo de origen y aplicar la memoria de traducción para que cualquier "coincidencia al 100%" (coincidencias idénticas) o "coincidencias parciales" (coincidencias similares, pero no idénticas) dentro del texto se extraen instantáneamente y se colocan dentro del archivo de destino. Luego, los "coincidencias" sugerido por la memoria de traducción puede aceptarse o anularse con nuevas alternativas. Si una unidad de traducción se actualiza manualmente, se almacena en la memoria de traducción para su uso futuro, así como para su repetición en el texto actual. De manera similar, todos los segmentos en el archivo de destino sin una "coincidencia" se traduciría manualmente y luego se agregaría automáticamente a la memoria de traducción.

En la década de 2000, los servicios de traducción en línea comenzaron a incorporar TM. Servicios de traducción automática como Google Translate, así como servicios profesionales e "híbridos" Los servicios de traducción proporcionados por sitios como Gengo y Ackuna incorporan bases de datos de datos de MT proporcionados por traductores y voluntarios para hacer conexiones más eficientes entre idiomas y brindar servicios de traducción más rápidos a los usuarios finales.

Tendencias recientes

Un desarrollo reciente es el concepto de 'memoria de texto' a diferencia de la memoria de traducción. Esta es también la base del estándar LISA OSCAR propuesto. La memoria de texto dentro de xml:tm comprende 'memoria de autor' y 'memoria de traducción'. La memoria de autor se utiliza para realizar un seguimiento de los cambios durante el ciclo de creación. La memoria de traducción utiliza la información de la memoria del autor para implementar la coincidencia de la memoria de traducción. Aunque está dirigido principalmente a documentos XML, xml:tm se puede usar en cualquier documento que se pueda convertir al formato XLIFF.

Memorias de traducción de segunda generación

Mucho más potentes que los sistemas de MT de primera generación, incluyen un motor de análisis lingüístico, utilizan tecnología de fragmentos para desglosar segmentos en grupos terminológicos inteligentes y generan automáticamente glosarios específicos.

Estándares relacionados

TMX

Translation Memory eXchange (TMX) es un estándar que permite el intercambio de memorias de traducción entre proveedores de traducción. TMX ha sido adoptado por la comunidad de traductores como la mejor manera de importar y exportar memorias de traducción. La versión actual es 1.4b: permite la recreación de los documentos de origen y de destino originales a partir de los datos TMX.

TBX

Intercambio de base de datos terminológica. Este estándar LISA, que fue revisado y vuelto a publicar como ISO 30042, permite el intercambio de datos terminológicos, incluida información léxica detallada. El marco para TBX lo proporcionan tres estándares ISO: ISO 12620, ISO 12200 e ISO 16642. ISO 12620 proporciona un inventario de "categorías de datos" bien definidas con nombres estandarizados que funcionan como tipos de elementos de datos o como valores predefinidos. ISO 12200 (también conocido como MARTIF) proporciona la base para la estructura central de TBX. ISO 16642 (también conocido como marco de marcado terminológico) incluye un metamodelo estructural para los lenguajes de marcado terminológicos en general.

UTX

El formato de intercambio de terminología universal (UTX) es un estándar diseñado específicamente para usarse con diccionarios de usuario de traducción automática, pero se puede usar para glosarios generales legibles por humanos. El propósito de UTX es acelerar el uso compartido y la reutilización de diccionarios mediante su especificación extremadamente simple y práctica.

SRX

Intercambio de reglas de segmentación (SRX) tiene como objetivo mejorar el estándar TMX para que los datos de la memoria de traducción que se intercambian entre aplicaciones se puedan usar de manera más efectiva. La capacidad de especificar las reglas de segmentación que se usaron en la traducción anterior puede aumentar el aprovechamiento que se puede lograr.

GMX

Métricas GILT. GILT significa (Globalización, Internacionalización, Localización y Traducción). El estándar GILT Metrics consta de tres partes: GMX-V para métricas de volumen, GMX-C para métricas de complejidad y GMX-Q para métricas de calidad. El estándar GILT Metrics propuesto tiene la tarea de cuantificar la carga de trabajo y los requisitos de calidad para cualquier tarea GILT determinada.

OLIF

Formato de intercambio de léxico abierto. OLIF es un estándar abierto compatible con XML para el intercambio de datos terminológicos y léxicos. Aunque originalmente se pensó como un medio para el intercambio de datos léxicos entre léxicos de traducción automática patentados, se ha convertido en un estándar más general para el intercambio de terminología.

XLIFF

Formato de archivo de intercambio de localización XML (XLIFF) tiene como objetivo proporcionar un formato de archivo de intercambio único que pueda ser entendido por cualquier proveedor de localización. XLIFF es la forma preferida de intercambiar datos en formato XML en la industria de la traducción.

TransWS

Servicios web de traducción. TransWS especifica las llamadas necesarias para utilizar los servicios web para el envío y recuperación de archivos y mensajes relacionados con proyectos de localización. Está pensado como un marco detallado para la automatización de gran parte del proceso de localización actual mediante el uso de servicios web.

Xml:tm

El enfoque xml:tm (memoria de texto basada en XML) para la memoria de traducción se basa en el concepto de memoria de texto que comprende la memoria de autor y la de traducción. xml:tm ha sido donado a Lisa OSCAR por XML-INTL.

PO

Formato de objeto portátil Gettext. Aunque a menudo no se considera un formato de memoria de traducción, los archivos Gettext PO son archivos bilingües que también se utilizan en los procesos de memoria de traducción de la misma manera que se utilizan las memorias de traducción. Por lo general, un sistema de memoria de traducción de PO constará de varios archivos separados en una estructura de árbol de directorios. Las herramientas comunes que funcionan con archivos PO incluyen GNU Gettext Tools y Translate Toolkit. También existen varias herramientas y programas que editan archivos PO como si fueran meros archivos de texto fuente.