Lenguaje del cuerpo

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Rama de la lingüística que estudia el idioma mediante ejemplos contenidos en textos reales

La lingüística de corpus es el estudio de una lengua tal como se expresa en su corpus de texto (plural corpora), su cuerpo de "mundo real" texto. La lingüística de corpus propone que un análisis confiable de un idioma es más factible con corpus recopilados en el campo, el contexto natural ("realia") de ese idioma, con una mínima interferencia experimental.

El método de corpus de texto utiliza el cuerpo de textos escritos en cualquier idioma natural para derivar el conjunto de reglas abstractas que gobiernan ese idioma. Esos resultados se pueden utilizar para explorar las relaciones entre ese idioma sujeto y otros idiomas que han sido objeto de un análisis similar. Los primeros corpus de este tipo se derivaron manualmente de los textos fuente, pero ahora ese trabajo está automatizado.

Los corpus no solo se han utilizado para la investigación lingüística, también se han utilizado para compilar diccionarios (comenzando con The American Heritage Dictionary of the English Language en 1969) y guías gramaticales, como A Comprehensive Grammar of the English Language, publicado en 1985.

Los expertos en la materia tienen opiniones diferentes sobre la anotación de un corpus. Estos puntos de vista van desde John McHardy Sinclair, que aboga por una anotación mínima para que los textos hablen por sí mismos, hasta el equipo Survey of English Usage (University College, Londres), que aboga por que la anotación permita una mayor comprensión lingüística a través de un registro riguroso.

Historia

Algunos de los primeros esfuerzos en la descripción gramatical se basaron, al menos en parte, en corpus de significado religioso o cultural particular. Por ejemplo, la literatura Prātiśākhya describió los patrones de sonido del sánscrito como se encuentran en los Vedas, y La gramática del sánscrito clásico de Pāṇini se basó, al menos en parte, en el análisis de ese mismo corpus. De manera similar, los primeros gramáticos árabes prestaron especial atención al idioma del Corán. En la tradición de Europa occidental, los eruditos prepararon concordancias para permitir un estudio detallado del lenguaje de la Biblia y otros textos canónicos.

Corporaciones en inglés

Un hito en la lingüística de corpus moderna fue la publicación de Análisis computacional del inglés americano actual en 1967. Escrito por Henry Kučera y W. Nelson Francis, el trabajo se basó en un análisis del Brown Corpus, que fue una compilación contemporánea de alrededor de un millón de palabras en inglés estadounidense, cuidadosamente seleccionadas de una amplia variedad de fuentes. Kučera y Francis sometieron el Brown Corpus a una variedad de análisis computacionales y luego combinaron elementos de lingüística, enseñanza de idiomas, psicología, estadística y sociología para crear una obra rica y variada. Otra publicación clave fue 'Hacia una descripción del uso del inglés' de Randolph Quirk. en 1960 en el que introdujo la Encuesta de uso del inglés.

Poco después, la editorial de Boston Houghton-Mifflin se acercó a Kučera para que le proporcionara una base de citas de tres líneas y un millón de palabras para su nuevo American Heritage Dictionary, el primer diccionario compilado utilizando la lingüística de corpus. El AHD dio el paso innovador de combinar elementos prescriptivos (cómo debería usarse el lenguaje) con información descriptiva (cómo realmente se usa).

Otros editores siguieron su ejemplo. La editorial británica Collins' El diccionario monolingüe para estudiantes COBUILD, diseñado para usuarios que están aprendiendo inglés como idioma extranjero, se compiló utilizando el Banco de Inglés. El Survey of English Usage Corpus se utilizó en el desarrollo de una de las gramáticas basadas en Corpus más importantes, que fue escrita por Quirk et al. y publicada en 1985 como A Comprehensive Grammar of the Idioma Inglés.

El Brown Corpus también ha generado una serie de corpus de estructura similar: LOB Corpus (inglés británico de los años 60), Kolhapur (inglés de la India), Wellington (inglés de Nueva Zelanda), Australian Corpus of English (inglés australiano), the Frown Corpus (inglés americano de principios de la década de 1990) y el FLOB Corpus (inglés británico de la década de 1990). Otros corpus representan muchos idiomas, variedades y modos, e incluyen el International Corpus of English y el British National Corpus, una colección de 100 millones de palabras de una variedad de textos orales y escritos, creada en la década de 1990 por un consorcio de editores, universidades (Oxford y Lancaster) y la Biblioteca Británica. Para el inglés estadounidense contemporáneo, el trabajo se ha estancado en el American National Corpus, pero el Corpus de más de 400 millones de palabras del inglés estadounidense contemporáneo (1990-presente) ahora está disponible a través de una interfaz web.

El primer corpus computarizado de lenguaje hablado transcrito fue construido en 1971 por el Proyecto Francés de Montreal, que contiene un millón de palabras, lo que inspiró el corpus mucho más grande de Shana Poplack de francés hablado en el área de Ottawa-Hull.

Corpora multilingüe

En la década de 1990, muchos de los primeros éxitos notables de los métodos estadísticos en la programación de lenguaje natural (PNL) ocurrieron en el campo de la traducción automática, debido especialmente al trabajo en IBM Research. Estos sistemas pudieron aprovechar corpus textuales multilingües existentes que habían sido producidos por el Parlamento de Canadá y la Unión Europea como resultado de leyes que exigían la traducción de todos los procedimientos gubernamentales a todos los idiomas oficiales de los sistemas de gobierno correspondientes.

También hay corpus en idiomas no europeos. Por ejemplo, el Instituto Nacional de Lengua y Lingüística Japonesas de Japón ha creado una serie de corpus de japonés hablado y escrito.

Cuerpos de lenguas antiguas

Además de estos corpus de lenguas vivas, también se han realizado corpus informatizados de colecciones de textos en lenguas antiguas. Un ejemplo es la base de datos Andersen-Forbes de la Biblia hebrea, desarrollada desde la década de 1970, en la que cada cláusula se analiza mediante gráficos que representan hasta siete niveles de sintaxis, y cada segmento se etiqueta con siete campos de información. El corpus árabe coránico es un corpus anotado para el idioma árabe clásico del Corán. Este es un proyecto reciente con varias capas de anotación, incluida la segmentación morfológica, el etiquetado de partes del discurso y el análisis sintáctico mediante la gramática de dependencia. El Digital Corpus of Sanskrit (DCS) es un "cuerpo dividido en sandhi de textos sánscritos con análisis morfológico y léxico completo... diseñado para la investigación histórico-textual en la lingüística y la filología sánscritas".

Corpora de campos específicos

Además de la investigación lingüística pura, los investigadores habían comenzado a aplicar la lingüística de corpus a otros campos académicos y profesionales, como la subdisciplina emergente de Law and Corpus Linguistics, que busca comprender textos legales utilizando herramientas y datos de corpus. El DBLP Discovery Dataset se concentra en la informática y contiene publicaciones informáticas relevantes con metadatos conscientes, como afiliaciones de autores, citas o campos de estudio. NLP Scholar introdujo un conjunto de datos más enfocado, una combinación de documentos de ACL Anthology y metadatos de Google Scholar.

Métodos

La lingüística de corpus ha generado una serie de métodos de investigación que intentan trazar un camino desde los datos hasta la teoría. Wallis y Nelson (2001) introdujeron por primera vez lo que llamaron la perspectiva 3A: anotación, abstracción y análisis.

Anotación consiste en la aplicación de un esquema a los textos. Las anotaciones pueden incluir marcado estructural, etiquetado en parte de la palabra, pareado y numerosas otras representaciones.
Abstracción consiste en la traducción (mapping) de términos en el esquema a términos en un modelo o conjunto de datos teóricamente motivados. La abstracción típicamente incluye búsqueda dirigida por lingüistas, pero puede incluir, por ejemplo, el aprendizaje de reglas para los pares.
Análisis consiste en probing estadístico, manipulación y generalización desde el conjunto de datos. El análisis podría incluir evaluaciones estadísticas, optimización de bases de reglas o métodos de descubrimiento de conocimientos.

La mayoría de los corpus léxicos actuales están etiquetados como parte del discurso (etiquetados como POS). Sin embargo, incluso los lingüistas de corpus que trabajan con 'texto simple sin anotaciones' inevitablemente se aplica algún método para aislar los términos más destacados. En tales situaciones, la anotación y la abstracción se combinan en una búsqueda léxica.

La ventaja de publicar un corpus anotado es que otros usuarios pueden realizar experimentos en el corpus (a través de administradores de corpus). Lingüistas con otros intereses y perspectivas diferentes a las de los creadores' puede explotar este trabajo. Al compartir datos, los lingüistas del corpus pueden tratar el corpus como un lugar de debate lingüístico y estudio adicional.

Notas y referencias

^ Sinclair, J. 'El análisis automático de corpora', en Svartvik, J. (ed.) Instrucciones en Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlín: Mouton de Gruyter. 1992.
^ Wallis, S. 'Anotación, recuperación y experimentación', en Meurman-Solin, A. & Nurmi, A.A. (ed.) Anotando Variación y Cambio. Helsinki: Varieng, [Universidad de Helsinki]. 2007.
^ Francis, W. Nelson; Kučera, Henry (1 de junio de 1967). Análisis computacional del inglés americano actual. Providence: Brown University Press. ISBN 978-0870571053.
^ Quirk, Randolph (noviembre de 1960). "Hacia una descripción del uso inglés". Transacciones de la Sociedad Filológica. 59 (1): 40–61. doi:10.1111/j.1467-968X.1960.tb00308.x.
^ Quirk, Randolph; Greenbaum, Sidney; Leech, Geoffrey; Svartvik, Jan (1985). Una gramática completa del idioma inglés. Longman. ISBN 978-0582517349.
^ Sankoff, David; Sankoff, Gillian (1973). Darnell, R. (ed.). "Métodos de estudio y análisis asistidos por computadora en el estudio de la variación gramática". Idiomas canadienses en su contexto social. Edmonton: Linguistic Research Incorporado: 7–63.
^ Poplack, Shana (1989). Fasold, R.; Schiffrin, D. (eds.). "El cuidado y manejo de un mega-corpus". Cambio de idioma y variación. Problemas actuales en la teoría lingüística. Amsterdam: Benjamins. 52: 411–451. doi:10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.
^ Andersen, Francis I.; Forbes, A. Dean (2003), "Hebrew Grammar Visualized: I. Syntax", Estudios antiguos del Cercano Oriente, vol. 40, págs. 43 a 61 [45]
^ Eyland, E. Ann (1987), "Revelations from Word Counts", en Newing, Edward G.; Conrad, Edgar W. (eds.), Perspectivas del lenguaje y el texto: Ensayos y poemas en honor del cumpleaños de Francis I. Andersen, 28 de julio de 1985, Lago Winona, IN: Eisenbrauns, p. 51, ISBN 0-931464-26-9
^ Dukes, K., Atwell, E. and Habash, N. 'Colaboración supervisada para la anotación sintáctica del árabe coránico'. Language Resources and Evaluation Journal. 2011.
^ "Corpus digital de sánscrito (DCS)". Retrieved 28 de junio 2022.
^ Wahle, Jan Philip; Ruas, Terry; Mohammad, Saif; Gipp, Bela (2022). "D3: Un conjunto de datos masivos de metadatos becarios para analizar el estado de la investigación científica informática". Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marsella, Francia: European Language Resources Association: 2642–2651. arXiv:2204.13384.
^ Mohammad, Saif M. (2020). "NLP Scholar: A Dataset for Examining the State of NLP Research". Proceedings of the Doceth Language Resources and Evaluation Conference. Marsella, Francia: European Language Resources Association: 868–877. ISBN 979-10-95546-34-4.
^ Wallis, S. y Nelson G. El descubrimiento del conocimiento en corpora analizado gramaticalmente. Data Mining and Knowledge Discovery, 5: 307–340. 2001.
^ Baker, Paul; Egbert, Jesse, eds. (2016). Triangulación de enfoques metodológicos en la investigación corpus-Linguistic. Nueva York: Routledge.

Contenido relacionado

Más resultados...