Matriz de términos de documento
Una matriz de términos de documento es una matriz matemática que describe la frecuencia de los términos que aparecen en cada documento de una colección. En una matriz de términos de documento, las filas corresponden a los documentos de la colección y las columnas corresponden a los términos. Esta matriz es una instancia específica de una matriz de características de documento donde las "características" puede referirse a otras propiedades de un documento además de los términos. También es común encontrar la transpuesta, o matriz término-documento donde los documentos son las columnas y los términos son las filas. Son útiles en el campo del procesamiento del lenguaje natural y el análisis computacional de textos.
Si bien el valor de las celdas suele ser el recuento bruto de un término determinado, existen varios esquemas para ponderar los recuentos brutos, como la normalización de filas (es decir, frecuencia/proporciones relativas) y tf-idf.
Los términos suelen ser palabras individuales separadas por espacios en blanco o puntuación en cada lado (también conocidos como unigramas). En tal caso, esto también se conoce como "bolsa de palabras" representación porque se conserva el recuento de palabras individuales, pero no el orden de las palabras en el documento.
Concepto general
Al crear un conjunto de datos de términos que aparecen en un corpus de documentos, la matriz de documento-term contiene filas correspondientes a los documentos y columnas correspondientes a los términos. Cada uno ij celular, entonces, es el número de veces palabra j ocurre en el documento i. Como tal, cada fila es un vector de recuentos de plazo que representa el contenido del documento correspondiente a esa fila. Por ejemplo, si uno tiene los dos documentos siguientes:
- D1 = "Me gustan las bases de datos"
- D2 = "No me gustan las bases de datos",
entonces la matriz de plazo de documento sería:
I | como | No me gusta | bases de datos | |
---|---|---|---|---|
D1 | 1 | 1 | 0 | 1 |
D2 | 1 | 0 | 1 | 1 |
que muestra qué documentos contienen qué términos y cuántas veces aparecen. Tenga en cuenta que, a diferencia de representar un documento simplemente como una lista de recuento de tokens, la matriz de términos del documento incluye todos los términos del corpus (es decir, el vocabulario del corpus), razón por la cual hay recuentos de cero para los términos del corpus que no también ocurrir en un documento específico. Por esta razón, las matrices de términos de documentos generalmente se almacenan en un formato de matriz dispersa.
Como resultado de la distribución de los tokens según la ley de potencias en casi todos los corpus (consulte la ley de Zipf), es común ponderar los recuentos. Esto puede ser tan simple como dividir los recuentos por el número total de tokens en un documento (llamado frecuencia relativa o proporciones), dividir por la frecuencia máxima en cada documento (llamado prop max) o tomar el registro de frecuencias (llamado recuento de registros). . Si se desea ponderar las palabras más exclusivas de un documento individual en comparación con el corpus en su conjunto, es común utilizar tf-idf, que divide el término frecuencia por la frecuencia del documento del término.
Historia del concepto
La matriz documento-término surgió en los primeros años de la informatización del texto. La creciente capacidad de almacenamiento de documentos creó el problema de recuperar un documento determinado de manera eficiente. Si bien anteriormente el trabajo de clasificación e indexación se realizaba a mano, los investigadores exploraron la posibilidad de hacerlo automáticamente utilizando información de frecuencia de palabras.
Una de las primeras matrices de términos-documento publicadas fue en el artículo de Harold Borko de 1962 "La construcción de un sistema de clasificación derivado matemáticamente basado empíricamente" (1962). (página 282, véase también su artículo de 1965). Borko hace referencia a dos programas informáticos, "FEAT" que significaba "Frecuencia de cada término permitido", escrito por John C. Olney de System Development Corporation y el Descriptor Word Index Program, escrito por Eileen Stone también de System Development Corporation:
Habiendo seleccionado los documentos que iban a componer la biblioteca experimental, el siguiente paso consistía en pulsar todo el cuerpo de texto preparatorio para el procesamiento informático. El programa utilizado para este análisis fue FEAT (Frequency of Every Allowable Term). fue escrito por John C. Olney de la Corporación de Desarrollo del Sistema y está diseñado para realizar recuentos de frecuencia y resumen de palabras individuales y de pares de palabras. La salida de este programa es un listado alfabético, por frecuencia de ocurrencia, de todos los tipos de palabras que aparecieron en el texto. Ciertas palabras de función como y, la, a, a, etc., fueron colocadas en una tabla de "lista de palabras prohibidas", y la frecuencia de estas palabras se registró en un listado separado... Se escribió un programa informático especial, llamado Programa de índice de Word descriptor, para proporcionar esta información y para preparar una matriz a plazo de documento en un formulario adecuado para la entrada al programa de análisis de factores. El programa Descriptor Word Index fue preparado por Eileen Stone de la Corporación de Desarrollo del Sistema.
Poco después, Gerard Salton publicó "Algunos modelos jerárquicos para la recuperación automática de documentos" en 1963, que también incluía una representación visual de una matriz de términos de documento. Salton estaba en la Universidad de Harvard en ese momento y su trabajo fue apoyado por los Laboratorios de Investigación de Cambridge de la Fuerza Aérea y Sylvania Electric Products, Inc. En este artículo, Salton presenta la matriz documento-término en comparación con un tipo de matriz término-contexto utilizada para medir similitudes entre palabras:
Si se desea generar asociaciones de documentos o agrupaciones de documentos en lugar de asociaciones de palabras, los mismos procedimientos se pueden utilizar con ligeras modificaciones. En lugar de empezar con una matriz de palabra-sentencia CAhora es conveniente construir una matriz de documentos de palabras F, lista de frecuencia de la aparición de la palabra Wi en el documento Dj... Ahora se pueden calcular similitudes de documentos como antes comparando pares de filas y obteniendo coeficientes de similitud basados en la frecuencia de co-ocurrencias de las palabras de contenido incluidas en el documento dado. Este procedimiento produce una matriz de similitud documento-documento que a su vez puede utilizarse para la generación de grupos de documentos...
Además de Borko y Salton, en 1964, F.W. Lancaster publicó una revisión exhaustiva de la indexación y recuperación automatizadas. Si bien el trabajo se publicó mientras trabajaba en Herner and Company en Washington D.C., el artículo se escribió mientras estaba "empleado en trabajos de investigación en Aslib, en el Proyecto Aslib Cranfield". Lancaster le da crédito a Borko por la matriz de términos del documento:
Harold Borko, de la Corporación de Desarrollo del Sistema, ha llevado esta operación un poco más lejos. Un grupo significativo de palabras clave es elegido del vocabulario de una colección experimental. Estos se organizan en una matriz de documento/term para mostrar la frecuencia de ocurrencia de cada término en cada documento.... Luego se computa un coeficiente de correlación para cada par de palabras, basado en su co-occurrencia en el conjunto de documentos. La matriz de plazo/term resultante... se analiza entonces el factor y se aísla una serie de factores. Estos factores, cuando se interpretan y nombran sobre la base de los términos con altas cargas que aparecen en cada uno de los factores, se convierten en las clases de una clasificación empírica. Los términos con cargas altas en cada factor son las palabras clave o predictores de las categorías.
Elección de términos
Un punto de vista sobre la matriz es que cada fila representa un documento. En el modelo semántico vectorial, que normalmente es el que se utiliza para calcular una matriz documento-término, el objetivo es representar el tema de un documento mediante la frecuencia de términos semánticamente significativos. Los términos son unidades semánticas de los documentos. A menudo se supone, en el caso de las lenguas indoeuropeas, que los sustantivos, los verbos y los adjetivos son las categorías más significativas, y que las palabras de esas categorías deben conservarse como términos. Agregar colocación como términos mejora la calidad de los vectores, especialmente cuando se calculan similitudes entre documentos.
Aplicaciones
Mejorar los resultados de búsqueda
El análisis semántico latente (LSA, que realiza la descomposición de valores singulares en la matriz de términos de documento) puede mejorar los resultados de la búsqueda al eliminar la ambigüedad de las palabras polisémicas y buscar sinónimos de la consulta. Sin embargo, la búsqueda en el espacio continuo de alta dimensión es mucho más lenta que la búsqueda en la estructura de datos trie estándar de los motores de búsqueda.
Buscar temas
El análisis multivariado de la matriz documento-término puede revelar temas del corpus. Específicamente, se pueden utilizar el análisis semántico latente y la agrupación de datos y, más recientemente, se ha descubierto que el análisis semántico latente probabilístico con su generalización, la asignación latente de Dirichlet y la factorización matricial no negativa funcionan bien para esta tarea.