Colocación

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Frecuente ocurrencia de palabras al lado del otro

En lingüística de corpus, una colocación es una serie de palabras o términos que coexisten con más frecuencia de lo que se esperaría por casualidad. En fraseología, una colocación es un tipo de sintagma compositivo, lo que significa que puede entenderse a partir de las palabras que lo componen. Esto contrasta con un modismo, donde el significado del todo no puede inferirse de sus partes y puede no tener ninguna relación.

Hay alrededor de siete tipos principales de colocaciones: adjetivo + sustantivo, sustantivo + sustantivo (como los sustantivos colectivos), sustantivo + verbo, verbo + sustantivo, adverbio + adjetivo, verbos + frase preposicional (verbos compuestos) y verbo + adverbio.

La extracción de colocaciones es una técnica computacional que encuentra colocaciones en un documento o corpus, utilizando varios elementos de lingüística computacional que se asemejan a la minería de datos.

Definición ampliada

Las colocaciones son expresiones parcial o totalmente fijas que se establecen mediante un uso repetido que depende del contexto. Términos como claro como el cristal, mandos intermedios, familia nuclear y cirugía cosmética son ejemplos de pares de palabras colocadas..

Las colocaciones pueden estar en una relación sintáctica (como verbo-objeto: tomar y decisión), una relación léxica (como antonimia) o no pueden estar en ninguna relación. relación lingüísticamente definida. El conocimiento de las colocaciones es vital para el uso competente de una lengua: una oración gramaticalmente correcta resultará incómoda si se violan las preferencias de colocación. Esto hace que la colocación sea un área interesante para la enseñanza de idiomas.

Los lingüistas de corpus especifican una palabra clave en contexto (KWIC) e identifican las palabras que la rodean inmediatamente. Esto da una idea de la forma en que se usan las palabras.

El procesamiento de colocaciones implica una serie de parámetros, el más importante de los cuales es la medida de asociación, que evalúa si la coexistencia es puramente aleatoria o estadísticamente significativa. Debido a la naturaleza no aleatoria del lenguaje, la mayoría de las colocaciones se clasifican como significativas y las puntuaciones de asociación se utilizan simplemente para clasificar los resultados. Las medidas de asociación comúnmente utilizadas incluyen información mutua, puntuaciones t y probabilidad logarítmica.

En lugar de seleccionar una única definición, Gledhill propone que la colocación implica al menos tres perspectivas diferentes: coocurrencia, una visión estadística, que ve la colocación como la aparición recurrente en un texto de un nodo y sus colocaciones; construcción, que ve la colocación como una correlación entre un lexema y un patrón léxico-gramatical, o como una relación entre una base y sus socios colocativos; y expresión, una visión pragmática de la colocación como unidad de expresión convencional, independientemente de la forma. Estas diferentes perspectivas contrastan con la forma habitual de presentar la colocación en los estudios fraseológicos. Tradicionalmente hablando, la colocación se explica en términos de las tres perspectivas a la vez, en un continuo:

Colocación de la mercancía ligada a la combinación libre idioma congelado

En diccionarios

En 1933, el Segundo informe provisional sobre colocaciones en inglés de Harold Palmer destacó la importancia de la colocación como clave para producir un lenguaje con sonido natural para cualquiera que esté aprendiendo un idioma extranjero. Así, a partir de la década de 1940, la información sobre combinaciones de palabras recurrentes se convirtió en una característica estándar de los diccionarios para estudiantes monolingües. A medida que estos diccionarios se volvieron "menos centrados en las palabras y más en las frases", se prestó más atención a la colocación. Esta tendencia se vio respaldada, desde principios del siglo XXI, por la disponibilidad de grandes corpus de texto y software inteligente de consulta de corpus, lo que permitió proporcionar una explicación más sistemática de la colocación en los diccionarios. Utilizando estas herramientas, diccionarios como el Macmillan English Dictionary y el Longman Dictionary of Contemporary English incluían cuadros o paneles con listas de colocaciones frecuentes.

También hay una serie de diccionarios especializados dedicados a describir las colocaciones frecuentes en un idioma. Estos incluyen (para español) Redes: Diccionario combinatorio del español contemporáneo (2004), (para francés) Le Robert: Dictionnaire des combinaisons de mots (2007) y (para inglés) el Diccionario LTP de colocaciones seleccionadas (1997) y el Diccionario de colocaciones Macmillan (2010).

Colocación estadísticamente significativa

La prueba t del estudiante se puede utilizar para determinar si la ocurrencia de una collocación en un cuerpo es estadísticamente significativa. Para un bigram ${displaystyle w_{1}w_{2}}$ , vamos ${displaystyle P(w_{1})={frac {#w_{1}}{N}}}$ ser la probabilidad incondicional de que ocurra $w_{1}$ en un cuerpo con tamaño $N$ , y dejar ${displaystyle P(w_{2})={frac {#w_{2}}{N}}}$ ser la probabilidad incondicional de que ocurra $w_{2}$ en el cuerpo. El t-score para el bigram ${displaystyle w_{1}w_{2}}$ se calcula como:

{displaystyle t={frac {{bar {x}}-mu }{sqrt {frac {s^{2}}{N}}}},}

Donde ${displaystyle {bar {x}}={frac {#w_{i}w_{j}}{N}}}$ es la media muestra de la ocurrencia de ${displaystyle w_{1}w_{2}}$ , ${displaystyle #w_{1}w_{2}}$ es el número de casos de ${displaystyle w_{1}w_{2}}$ , ${displaystyle mu =P(w_{i})P(w_{j})}$ es la probabilidad de ${displaystyle w_{1}w_{2}}$ bajo la hipótesis nula $w_{1}$ y $w_{2}$ aparecen independientemente en el texto, y ${displaystyle s^{2}={bar {x}}(1-{bar {x}})approx {bar {x}}}$ es la variación de la muestra. Con un gran $N$ , el t- La prueba es equivalente a una prueba Z.

Contenido relacionado

Más resultados...