Consumo de información

Compartir Imprimir Citar

La consumo de información en informática y ciencias de la información es el proceso de obtener recursos del sistema de información que son relevantes para una necesidad de información a partir de una colección de esos recursos. Las búsquedas se pueden basar en el texto completo o en otra indexación basada en el contenido. La recuperación de información es la ciencia de buscar información en un documento, buscar los propios documentos y también buscar los metadatos que describen los datos y las bases de datos de textos, imágenes o sonidos.

Los sistemas automatizados de recuperación de información se utilizan para reducir lo que se ha denominado sobrecarga de información. Un sistema IR es un sistema de software que brinda acceso a libros, revistas y otros documentos; almacena y administra esos documentos. Los motores de búsqueda web son las aplicaciones IR más visibles.

Visión de conjunto

Un proceso de recuperación de información comienza cuando un usuario ingresa una consulta al sistema. Las consultas son declaraciones formales de necesidades de información, por ejemplo, cadenas de búsqueda en motores de búsqueda web. En la recuperación de información, una consulta no identifica de manera única un solo objeto en la colección. En su lugar, varios objetos pueden coincidir con la consulta, quizás con diferentes grados de relevancia.

Un objeto es una entidad que está representada por información en una colección de contenido o base de datos. Las consultas de los usuarios se comparan con la información de la base de datos. Sin embargo, a diferencia de las consultas SQL clásicas de una base de datos, en la recuperación de información, los resultados devueltos pueden o no coincidir con la consulta, por lo que los resultados generalmente se clasifican. Esta clasificación de resultados es una diferencia clave de la búsqueda de recuperación de información en comparación con la búsqueda en bases de datos.

Dependiendo de la aplicación, los objetos de datos pueden ser, por ejemplo, documentos de texto, imágenes, audio, mapas mentales o videos. A menudo, los documentos en sí mismos no se guardan o almacenan directamente en el sistema IR, sino que se representan en el sistema mediante sustitutos de documentos o metadatos.

La mayoría de los sistemas de IR calculan una puntuación numérica sobre qué tan bien cada objeto en la base de datos coincide con la consulta y clasifican los objetos de acuerdo con este valor. A continuación, se muestran al usuario los objetos de mayor rango. Luego, el proceso puede iterarse si el usuario desea refinar la consulta.

Historia

hay... una máquina llamada Univac... mediante la cual las letras y las cifras se codifican como un patrón de puntos magnéticos en una cinta de acero larga. De esta manera, el texto de un documento, precedido por su símbolo de código de asunto, puede ser grabado... la máquina... selecciona y escribe automáticamente aquellas referencias que han sido codificadas de la forma deseada a una velocidad de 120 palabras por minuto.—  JE Holmström, 1948

La idea de usar computadoras para buscar información relevante se popularizó en el artículo As We May Think de Vannevar Bush en 1945. Parece que Bush se inspiró en las patentes de una 'máquina estadística', presentada por Emanuel Goldberg en la década de 1920. y años 30, que buscaba documentos almacenados en películas. La primera descripción de una computadora que busca información fue realizada por Holmstrom en 1948,detallando una mención temprana de la computadora Univac. Los sistemas automatizados de recuperación de información se introdujeron en la década de 1950: uno incluso apareció en la comedia romántica de 1957, Desk Set. En la década de 1960, Gerard Salton formó en Cornell el primer gran grupo de investigación de recuperación de información. En la década de 1970, se había demostrado que varias técnicas de recuperación diferentes funcionaban bien en corpus de texto pequeños, como la colección Cranfield (varios miles de documentos). Los sistemas de recuperación a gran escala, como el sistema Lockheed Dialog, comenzaron a usarse a principios de la década de 1970.

En 1992, el Departamento de Defensa de EE. UU. junto con el Instituto Nacional de Estándares y Tecnología (NIST), copatrocinaron la Conferencia de recuperación de texto (TREC) como parte del programa de texto TIPSTER. El objetivo de esto era buscar en la comunidad de recuperación de información proporcionando la infraestructura que se necesitaba para la evaluación de metodologías de recuperación de texto en una colección de texto muy grande. Esto catalizó la investigación sobre métodos que escalan a grandes corpus. La introducción de los motores de búsqueda web ha aumentado aún más la necesidad de sistemas de recuperación a gran escala.

Aplicaciones

Las áreas donde se emplean técnicas de recuperación de información incluyen (las entradas están en orden alfabético dentro de cada categoría):

Aplicaciones generales

Aplicaciones específicas de dominio

Otros métodos de recuperación

Los métodos/técnicas en los que se emplean técnicas de recuperación de información incluyen:

Tipos de modelos

Para recuperar documentos relevantes de manera efectiva mediante estrategias de IR, los documentos se transforman normalmente en una representación adecuada. Cada estrategia de recuperación incorpora un modelo específico para sus propósitos de representación de documentos. La imagen de la derecha ilustra la relación de algunos modelos comunes. En la imagen, los modelos se clasifican según dos dimensiones: la base matemática y las propiedades del modelo.

Primera dimensión: base matemática

Segunda dimensión: propiedades del modelo

Medidas de rendimiento y corrección

La evaluación de un sistema de recuperación de información es el proceso de evaluar qué tan bien un sistema satisface las necesidades de información de sus usuarios. En general, la medición considera una colección de documentos a buscar y una consulta de búsqueda. Las métricas de evaluación tradicionales, diseñadas para la recuperación booleana o la recuperación top-k, incluyen precisión y recuperación. Todas las medidas asumen una noción de relevancia básica: se sabe que cada documento es relevante o no relevante para una consulta en particular. En la práctica, las consultas pueden estar mal planteadas y puede haber diferentes matices de relevancia.

Cronología

Grandes conferencias