Texto paralelo

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Texto colocado junto a su traducción o traducción
La Piedra de Rosetta, un esqueleto grabado con el mismo decreto tanto en los antiguos scripts egipcios como en el griego antiguo. Su descubrimiento fue clave para descifrar el antiguo idioma egipcio.

Un texto paralelo es un texto colocado junto a su traducción o traducciones. La alineación de texto paralelo es la identificación de las oraciones correspondientes en ambas mitades del texto paralelo. La Biblioteca Clásica Loeb y la Biblioteca Sánscrita Clay son dos ejemplos de series de textos en dos idiomas. Las Biblias de referencia pueden contener los idiomas originales y una traducción, o varias traducciones por sí mismas, para facilitar la comparación y el estudio; La Hexapla de Orígenes (que en griego significa "séxtuple") colocó seis versiones del Antiguo Testamento una al lado de la otra. Un ejemplo famoso es la Piedra Rosetta, cuyo descubrimiento permitió comenzar a descifrar el idioma del Antiguo Egipto.

Las grandes colecciones de textos paralelos se denominan corpus paralelos (ver corpus de texto). Las alineaciones de corpus paralelos a nivel de oración son un requisito previo para muchas áreas de la investigación lingüística. Durante la traducción, el traductor puede dividir, fusionar, eliminar, insertar o reordenar oraciones. Esto hace que la alineación sea una tarea no trivial.

Se pueden utilizar textos paralelos en la enseñanza de idiomas.

Tipos de corpus paralelos

Los corpus paralelos se pueden clasificar en cuatro categorías principales:

  • A corpus paralelo contiene traducciones del mismo documento en dos o más idiomas, alineados al menos a nivel de frases. Estos tienden a ser más raros que una corporación menos compatible.
  • A cuerpo paralelo contiene oraciones bilingües que no están perfectamente alineadas o tienen malas traducciones de calidad. Sin embargo, la mayoría de sus contenidos son traducciones bilingües de un documento específico.
  • A corpus comparable se construye a partir de documentos bilingües no alineados y no traducidos, pero los documentos son alineados con temas.
  • A cuasi-comparable corpus Incluye documentos bilingües muy heterogéneos y no paralelos que pueden o no ser alineados con temas.

Ruido en corpus

Los grandes corpus utilizados como conjuntos de entrenamiento para algoritmos de traducción automática generalmente se extraen de grandes corpus de fuentes similares, como bases de datos de artículos de noticias escritos en el primer y segundo idioma que describen eventos similares.

Sin embargo, los fragmentos extraídos pueden ser ruidosos, con elementos adicionales insertados en cada corpus. Las técnicas de extracción pueden diferenciar entre elementos bilingües representados en ambos corpus y elementos monolingües representados en un solo corpus para extraer fragmentos paralelos más limpios de elementos bilingües. Los corpus comparables se utilizan para obtener directamente conocimientos con fines de traducción. Sin embargo, es difícil obtener datos paralelos de alta calidad, especialmente en el caso de lenguas con escasos recursos.

Bitexto

En el campo de los estudios de traducción, un bitext es un documento fusionado compuesto por versiones en el idioma de origen y de destino de un texto determinado.

Los bitextos se generan mediante un software llamado herramienta de alineación, o herramienta de bitexto, que alinea automáticamente las versiones original y traducida del mismo texto. La herramienta generalmente relaciona estos dos textos frase por frase. Una colección de bitextos se denomina base de datos bitext o corpus bilingüe y se puede consultar con una herramienta de búsqueda.

Bitextos y memorias de traducción

Los

bitextos tienen algunas similitudes con las memorias de traducción. La diferencia más destacada es que una memoria de traducción pierde el contexto original, mientras que un bitexto conserva el orden de las oraciones originales. Dicho esto, algunas implementaciones de memorias de traducción, como Translation Memory eXchange (TMX), un formato XML estándar para intercambiar memorias de traducción entre programas de traducción asistida por computadora (CAT), permiten preservar el orden original de las oraciones.

Los bitextos están diseñados para ser consultados por un traductor humano, no por una máquina. Como tal, los pequeños errores de alineación o las discrepancias menores que provocarían el fallo de una memoria de traducción no tienen importancia.

En su artículo original de 1988, Harris también postuló que el bitexto representa cómo los traductores mantienen juntos sus textos de origen y de destino en sus memorias mentales de trabajo a medida que avanzan. Sin embargo, esta hipótesis no ha sido seguida.

Los bitextos en línea y las memorias de traducción también pueden denominarse concordancias bilingües en línea. Varios están disponibles en la Web pública, incluidos Linguée, Reverso y Tradooit.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save