Cuerpo de texto

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Una colección de textos

En lingüística, un corpus (plural corpora) o corpus de texto es un recurso lingüístico que consiste en un conjunto grande y estructurado de textos (hoy en día generalmente se almacenan y procesan electrónicamente). En la lingüística de corpus, se utilizan para realizar análisis estadísticos y pruebas de hipótesis, verificar ocurrencias o validar reglas lingüísticas dentro de un territorio lingüístico específico.

En la tecnología de búsqueda, un corpus es la colección de documentos que se busca.

Resumen

Un corpus puede contener textos en un solo idioma (corpus monolingüe) o datos de texto en varios idiomas (corpus multilingüe).

Para que los corpus sean más útiles para la investigación lingüística, a menudo se someten a un proceso conocido como anotación. Un ejemplo de anotación de un corpus es el etiquetado de parte del discurso, o etiquetado POS, en el que la información sobre la parte del discurso de cada palabra (verbo, sustantivo, adjetivo, etc.) se agregado al corpus en forma de etiquetas. Otro ejemplo es indicar la forma del lema (base) de cada palabra. Cuando el idioma del corpus no es un idioma de trabajo de los investigadores que lo utilizan, se utiliza la glosa interlineal para hacer la anotación bilingüe.

Algunos corpus tienen niveles de análisis estructurados adicionales aplicados. En particular, los corpus más pequeños pueden analizarse completamente. Dichos corpus suelen denominarse Treebanks o Parsed Corpora. La dificultad de garantizar que todo el corpus esté anotado de manera completa y coherente significa que estos corpus suelen ser más pequeños y contienen alrededor de uno a tres millones de palabras. Son posibles otros niveles de análisis estructurado lingüístico, incluidas anotaciones para morfología, semántica y pragmática.

Aplicaciones

Los corpus son la principal base de conocimiento en la lingüística de corpus. Otras áreas notables de aplicación incluyen:

Tecnología lingüística, procesamiento de idiomas naturales, lingüística computacional
- El análisis y procesamiento de varios tipos de corporación son también el tema de mucho trabajo en la lingüística computacional, el reconocimiento del habla y la traducción automática, donde a menudo se utilizan para crear modelos ocultos de Markov para parte de la etiquetación del habla y otros propósitos. Las listas de corpora y frecuencia derivadas de ellas son útiles para la enseñanza de idiomas. La corpora puede considerarse como un tipo de ayuda para la escritura de idiomas extranjeros como el conocimiento gramatical contextualizado adquirido por los usuarios no nativos mediante la exposición a textos auténticos en corpora permite a los estudiantes comprender la forma de formación de frases en el idioma objetivo, permitiendo la escritura efectiva.

Traducción automática
- Multilingual corpora que han sido especialmente formateados para la comparación lado a lado se llaman corporación paralela alineada. Hay dos tipos principales de corporación paralela que contienen textos en dos idiomas. En un traducción corpus, los textos en un idioma son traducciones de textos en el otro idioma. En un corpus comparable, los textos son del mismo tipo y cubren el mismo contenido, pero no son traducciones entre sí. Para explotar un texto paralelo, algún tipo de alineación de texto que identifique segmentos equivalentes de texto (frases o oraciones) es un requisito previo para el análisis. Los algoritmos de traducción automática para traducir entre dos idiomas a menudo se entrenan utilizando fragmentos paralelos que comprenden un corpus de primer idioma y un corpus de segundo idioma, que es un elemento para el elemento de la traducción del primer cuerpo de idiomas.

Philologies
- El texto corpora también se utiliza en el estudio de documentos históricos, por ejemplo en los intentos de descifrar escrituras antiguas, o en la beca bíblica. Algunas corporaciones arqueológicas pueden ser de tan corta duración que proporcionan una instantánea en el tiempo. Una de las corporaciones más cortas en el tiempo puede ser los textos de letras Amarna de 15 a 30 años (1350 aC). El corpus de una antigua ciudad, (por ejemplo los "Kültepe Texts" de Turquía), puede pasar por una serie de corpora, determinada por sus fechas del sitio.

Algunos corpus de texto notables

Contenido relacionado

Más resultados...