Extracción de información

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Lectura de máquinas de documentos no estructurados

Extracción de información (IE) es la tarea de extraer automáticamente información estructurada de documentos no estructurados y/o semiestructurados legibles por máquina y otras fuentes representadas electrónicamente. En la mayoría de los casos, esta actividad consiste en procesar textos en lenguaje humano mediante el procesamiento del lenguaje natural (PLN). Las actividades recientes en el procesamiento de documentos multimedia, como la anotación automática y la extracción de contenido de imágenes/audio/vídeo/documentos, podrían verse como extracción de información.

Debido a la dificultad del problema, los enfoques actuales de IE (a partir de 2010) se centran en dominios muy restringidos. Un ejemplo es la extracción de informes de noticias sobre fusiones corporativas, como lo denota la relación formal:

{displaystyle mathrm {MergerBetween} (company_{1},company_{2},date)}

de una frase de noticias en línea como:

"Ayer, Foo Inc, con sede en Nueva York, anunció su adquisición de Bar Corp".

Un objetivo amplio de IE es permitir que se realicen cálculos sobre datos previamente no estructurados. Un objetivo más específico es permitir el razonamiento automatizado sobre la forma lógica de los datos de entrada. Los datos estructurados son datos semánticamente bien definidos de un dominio objetivo elegido, interpretados con respecto a la categoría y el contexto.

La extracción de información es la parte de un rompecabezas mayor que aborda el problema de idear métodos automáticos para la gestión de textos, más allá de su transmisión, almacenamiento y visualización. La disciplina de recuperación de información (IR) ha desarrollado métodos automáticos, típicamente de tipo estadístico, para indexar grandes colecciones de documentos y clasificar documentos. Otro enfoque complementario es el del procesamiento del lenguaje natural (PNL), que ha resuelto el problema de modelar el procesamiento del lenguaje humano con considerable éxito teniendo en cuenta la magnitud de la tarea. En términos de dificultad y énfasis, IE se ocupa de tareas intermedias entre IR y PNL. En términos de entrada, IE supone la existencia de un conjunto de documentos en los que cada documento sigue una plantilla, es decir, describe una o más entidades o eventos de una manera similar a los de otros documentos pero que difieren en los detalles. Un ejemplo, consideremos un grupo de artículos de noticias sobre el terrorismo latinoamericano y se presume que cada artículo se basa en uno o más actos terroristas. También definimos para cualquier tarea de IE determinada una plantilla, que es un (o un conjunto de) marcos de casos para contener la información contenida en un solo documento. Para el ejemplo del terrorismo, una plantilla tendría espacios correspondientes al autor, la víctima y el arma del acto terrorista, y la fecha en que ocurrió el evento. Para este problema, se requiere que un sistema IE "comprenda" un artículo de ataque solo lo suficiente para encontrar los datos correspondientes a las ranuras en esta plantilla.

Historia

La extracción de información se remonta a finales de la década de 1970, en los primeros días de la PNL. Uno de los primeros sistemas comerciales de mediados de la década de 1980 fue JASPER, construido para Reuters por Carnegie Group Inc con el objetivo de proporcionar noticias financieras en tiempo real a los operadores financieros.

Did you mean:

Beginning in 1987, IE was spurred by a series of Message Understanding Conferences. MUCH is a competition-based conference that focused on the following domains:

MUC-1 (1987), MUC-3 (1989): Mensajes de operaciones navales.
MUC-3 (1991), MUC-4 (1992): Terrorismo en países latinoamericanos.
MUC-5 (1993): joint ventures and microelectronics domain.
MUC-6 (1995): Noticias sobre cambios de gestión.
MUC-7 (1998): informes de lanzamiento por satélite.

Recibió un apoyo considerable la Agencia de Proyectos de Investigación Avanzada de Defensa de Estados Unidos (DARPA), que deseaba automatizar tareas mundanas realizadas por analistas gubernamentales, como escanear periódicos en busca de posibles vínculos con el terrorismo.

Significado actual

La importancia actual de la IE se refiere a la creciente cantidad de información disponible en forma no estructurada. Tim Berners-Lee, inventor de la World Wide Web, se refiere a la Internet existente como la red de documentos y aboga por que una mayor parte del contenido esté disponible como una red de datos. Hasta que esto suceda, la web se compone en gran medida de documentos no estructurados que carecen de metadatos semánticos. El conocimiento contenido en estos documentos se puede hacer más accesible para el procesamiento automático mediante la transformación a formato relacional o marcando con etiquetas XML. Un agente inteligente que monitorea una fuente de datos de noticias requiere que IE transforme los datos no estructurados en algo con lo que se pueda razonar. Una aplicación típica de IE es escanear un conjunto de documentos escritos en un lenguaje natural y completar una base de datos con la información extraída.

Tareas y subtareas

La aplicación de la extracción de información al texto está vinculada al problema de la simplificación del texto para crear una vista estructurada de la información presente en el texto libre. El objetivo general es crear un texto más fácilmente legible por máquina para procesar las oraciones. Las tareas y subtareas típicas de IE incluyen:

Relleno de plantilla: Extracting a fixed set of fields from a document, e.g. extract perpetrators, victims, time, etc. from a newspaper article about a terrorist attack.
- Extracción del evento: Dado un documento de entrada, las plantillas de salida cero o más eventos. Por ejemplo, un artículo del periódico podría describir múltiples ataques terroristas.
Base de conocimientos Población: Llenar una base de datos de hechos dado un conjunto de documentos. Típicamente la base de datos está en forma de trillizos (entidad 1, relación, entidad 2), por ejemplo. (Barack Obama, Spouse, Michelle Obama)
- Reconocimiento de entidad nombrada: reconocimiento de nombres de entidades conocidos (para personas y organizaciones), nombres de lugares, expresiones temporales y ciertos tipos de expresiones numéricas, empleando el conocimiento existente del dominio o la información extraída de otras oraciones. Típicamente la tarea de reconocimiento implica asignar un identificador único a la entidad extraída. Una tarea más simple es Detección de entidad designada, cuyo objetivo es detectar entidades sin tener ningún conocimiento existente sobre las instancias de la entidad. Por ejemplo, en el procesamiento de la frase "M. Smith gusta la pesca", Detección de entidad designada denotaría detección que la frase "M. Smith" se refiere a una persona, pero sin tener (o utilizar) ningún conocimiento sobre un determinado M. Smith quién es (o, "might be") la persona específica de la que esa frase está hablando.
- Resolución de Coreference: detección de vínculos de Coreference y anaféricos entre entidades de texto. En tareas de IE, esto suele limitarse a encontrar vínculos entre entidades nombradas anteriormente extraídas. Por ejemplo, "International Business Machines" e "IBM" se refieren a la misma entidad del mundo real. Si tomamos las dos frases "M. Smith le gusta pescar. Pero no le gusta la bicicleta", sería beneficioso detectar que "él" se refiere a la persona previamente detectada "M. Smith".
- Extracción de relaciones: identificación de relaciones entre entidades, como:
  - PERSON trabaja para la ORGANIZACIÓN (extraído de la frase "Bill trabaja para IBM.")
  - PERSON ubicado en LOCACIÓN (extraído de la frase "Bill está en Francia.")
Extracción de información semiestructurada que puede referirse a cualquier IE que trate de restaurar algún tipo de estructura de información que se ha perdido a través de la publicación, como:
- Extracción de tablas: encontrar y extraer tablas de documentos.
- Extracción de información de tablas: extracción de información de manera estructurada de los cuadros. Esta tarea es más compleja que la extracción de tablas, ya que la extracción de tablas es sólo el primer paso, mientras que la comprensión de los roles de las células, filas, columnas, vincular la información dentro de la tabla y comprender la información presentada en la tabla son tareas adicionales necesarias para la extracción de información de tablas.
- Extracción de comentarios: extracción de comentarios del contenido real de los artículos para restaurar el vínculo entre los autores de cada una de las oraciones
Análisis de idiomas y vocabulario
- Extracción de terminología: encontrar los términos pertinentes para un determinado corpus
Extracción de audio
- Extracción de música basada en la plantilla: encontrar características relevantes en una señal de audio tomada de un repertorio dado; por ejemplo, se pueden extraer índices de tiempo de ocurrencias de sonidos percusivos para representar el componente rítmico esencial de una pieza musical.

Tenga en cuenta que esta lista no es exhaustiva y que el significado exacto de las actividades de IE no es comúnmente aceptado y que muchos enfoques combinan múltiples subtareas de IE para lograr un objetivo más amplio. En IE se utilizan a menudo el aprendizaje automático, el análisis estadístico y/o el procesamiento del lenguaje natural.

La IE en documentos que no son de texto se está convirtiendo en un tema cada vez más interesante en la investigación, y la información extraída de documentos multimedia ahora se puede expresar en una estructura de alto nivel como se hace en texto. Naturalmente, esto conduce a la fusión de información extraída de múltiples tipos de documentos y fuentes.

Aplicaciones de la World Wide Web

IE ha sido el foco de las conferencias MUC. Sin embargo, la proliferación de la Web intensificó la necesidad de desarrollar sistemas IE que ayuden a las personas a hacer frente a la enorme cantidad de datos disponibles en línea. Los sistemas que realizan IE a partir de texto en línea deben cumplir con los requisitos de bajo costo, flexibilidad en el desarrollo y fácil adaptación a nuevos dominios. Los sistemas MUC no cumplen con esos criterios. Además, el análisis lingüístico realizado para texto no estructurado no explota las etiquetas HTML/XML ni los formatos de diseño disponibles en los textos en línea. Como resultado, se han desarrollado enfoques menos intensivos lingüísticamente para IE en la Web utilizando contenedores, que son conjuntos de reglas muy precisas que extraen el contenido de una página en particular. El desarrollo manual de envoltorios ha demostrado ser una tarea que requiere mucho tiempo y un alto nivel de experiencia. Se han utilizado técnicas de aprendizaje automático, supervisadas o no supervisadas, para inducir dichas reglas automáticamente.

Los

envoltorios suelen manejar colecciones de páginas web muy estructuradas, como catálogos de productos y directorios telefónicos. Sin embargo, fallan cuando el tipo de texto está menos estructurado, lo que también es común en la Web. Los recientes esfuerzos en extracción adaptativa de información motivan el desarrollo de sistemas IE que pueden manejar diferentes tipos de texto, desde texto bien estructurado hasta texto casi libre (donde los envoltorios comunes fallan), incluidos tipos mixtos. Estos sistemas pueden explotar el conocimiento superficial del lenguaje natural y, por tanto, también pueden aplicarse a textos menos estructurados.

Un desarrollo reciente es la extracción de información visual, que se basa en representar una página web en un navegador y crear reglas basadas en la proximidad de regiones en la página web representada. Esto ayuda a extraer entidades de páginas web complejas que pueden exhibir un patrón visual, pero que carecen de un patrón discernible en el código fuente HTML.

Aproximaciones

Los siguientes enfoques estándar ahora son ampliamente aceptados:

Expresiones regulares escritas a mano (o grupo anidado de expresiones regulares)
Usando clasificadores
- Generativo: ingenuo Clasificación de las bahías
- Discriminativo: modelos de entropía máxima como regresión logística multinomial
Modelos de secuencia
- Red neural recurrente
- Modelo Oculto Markov
- Modelo Condición Markov (CMM) / Máxima-entropía Modelo Markov (MEMM)
- Los campos aleatorios condicionales (CRF) se utilizan comúnmente en conjunto con IE para tareas tan variadas como extraer información de documentos de investigación para extraer instrucciones de navegación.

Existen muchos otros enfoques para IE, incluidos enfoques híbridos que combinan algunos de los enfoques estándar enumerados anteriormente.

Software y servicios gratuitos o de código abierto

Arquitectura General para la Ingeniería de Textos (GATE) está incluido con un sistema de Extracción de Información gratuita
Apache OpenNLP es un kit de herramientas de aprendizaje automático Java para el procesamiento de lenguaje natural
OpenCalais es un servicio web automatizado de extracción de información de Thomson Reuters (versión limitada gratuita)
Machine Learning for Language Toolkit (Mallet) es un paquete basado en Java para una variedad de tareas de procesamiento de idiomas naturales, incluida la extracción de información.
DBpedia Spotlight es una herramienta de código abierto en Java/Scala (y servicio web gratuito) que se puede utilizar para el reconocimiento de entidad y la resolución de nombre.
Natural Language Toolkit es un conjunto de bibliotecas y programas para el procesamiento simbólico y estadístico del lenguaje natural (NLP) para el lenguaje de programación Python
Véanse también las implementaciones del FCI

Contenido relacionado

Más resultados...