Lematización
Lematización (o menos comúnmente lemmatización) en lingüística es el proceso de agrupar las formas flexionadas de una palabra para que puedan analizarse como un solo elemento, identificado por el lema de la palabra o forma de diccionario.
En lingüística computacional, la lematización es el proceso algorítmico de determinar el lema de una palabra en función de su significado previsto. A diferencia de la derivación, la lematización depende de identificar correctamente la parte intencionada del discurso y el significado de una palabra en una oración, así como dentro del contexto más amplio que rodea esa oración, como oraciones vecinas o incluso un documento completo. Como resultado, el desarrollo de algoritmos de lematización eficientes es un área abierta de investigación.
Descripción
En muchos idiomas, las palabras aparecen en varias formas inflexionadas. Por ejemplo, en inglés, el verbo 'to walk' puede aparecer como 'caminata', 'caminó', 'caminata' o 'caminar'. La forma base, "caminar", que uno podría buscar en un diccionario, se llama lema de la palabra. La asociación de la forma base con una parte del discurso a menudo se denomina lexema de la palabra.
La lematización está estrechamente relacionada con la derivación. La diferencia es que un lematizador opera con una sola palabra sin conocimiento del contexto y, por lo tanto, no puede discriminar entre palabras que tienen diferentes significados según la parte del discurso. Sin embargo, los destiladores suelen ser más fáciles de implementar y ejecutar más rápido. La reducida "precisión" Puede que no importe para algunas aplicaciones. De hecho, cuando se utiliza dentro de sistemas de recuperación de información, la derivación mejora la precisión de la recuperación de consultas, o la tasa de verdaderos positivos, en comparación con la lematización. No obstante, la derivación reduce la precisión, o la proporción de instancias etiquetadas positivamente que en realidad son positivas, para tales sistemas.
Por ejemplo:
- La palabra "mejor" tiene "bueno" como su lema. Este enlace se pierde por el tallo, ya que requiere una búsqueda de diccionario.
- La palabra "caminar" es la forma base para la palabra "caminar", y por lo tanto esto se combina tanto en la tala como en la lemmatización.
- La palabra "reunión" puede ser la forma base de un sustantivo o una forma de un verbo ("reunión") dependiendo del contexto; por ejemplo, "en nuestra última reunión" o "nos reuniremos de nuevo mañana". A diferencia del tallo, la lemmatización intenta seleccionar la lema correcta dependiendo del contexto.
El software de indexación de documentos como Lucene puede almacenar el formato de raíz base de la palabra sin conocer el significado, pero solo considerando las reglas gramaticales de formación de palabras. La palabra derivada en sí misma podría no ser una palabra válida: 'lazy', como se ve en el siguiente ejemplo, muchas derivaciones derivan de 'lazi'. Esto se debe a que el propósito de la derivación no es producir el lema apropiado; esa es una tarea más desafiante que requiere conocimiento del contexto. El objetivo principal de la derivación es mapear diferentes formas de una palabra en una sola forma. Como algoritmo basado en reglas, que depende únicamente de la ortografía de una palabra, sacrifica la precisión para garantizar que, por ejemplo, cuando la 'pereza' tiene su raíz en 'lazi', tiene la misma raíz que 'lazy'.
Algoritmos
Una forma trivial de realizar lematización es mediante una simple búsqueda en el diccionario. Esto funciona bien para formas con flexiones sencillas, pero será necesario un sistema basado en reglas para otros casos, como en idiomas con palabras compuestas largas. Estas reglas pueden elaborarse manualmente o aprenderse automáticamente a partir de un corpus anotado.
Uso en biomedicina
El análisis morfológico de la literatura biomédica publicada puede arrojar resultados útiles. El procesamiento morfológico de textos biomédicos puede ser más eficaz mediante un programa de lematización especializado para biomedicina y puede mejorar la precisión de las tareas prácticas de extracción de información.
Contenido relacionado
Morfología (lingüística)
Idioma hawaiano
Idioma armenio