Factorización matricial no negativa

Factorización matricial no negativa (NMF o NNMF), también la aproximación matricial no negativa es una grupo de algoritmos en análisis multivariado y álgebra lineal donde una matriz V se factoriza en (generalmente) dos matrices W y H, con la propiedad de que las tres matrices no tienen elementos negativos. Esta no negatividad hace que las matrices resultantes sean más fáciles de inspeccionar. Además, en aplicaciones como el procesamiento de espectrogramas de audio o actividad muscular, la no negatividad es inherente a los datos que se consideran. Dado que el problema en general no tiene solución exacta, comúnmente se aproxima numéricamente.
NMF encuentra aplicaciones en campos como la astronomía, la visión por computadora, la agrupación de documentos, la imputación de datos faltantes, la quimiometría, el procesamiento de señales de audio, los sistemas de recomendación y la bioinformática.
Historia
En la factorización de matriz no negativo de quimiometría tiene una larga historia bajo el nombre de "Resolución curva auto modeladora". En este marco los vectores de la matriz correcta son curvas continuas en lugar de vectores discretos. También un grupo finlandés de investigadores realizó trabajos tempranos sobre factorizaciones de matriz no negativas bajo el nombre factorización de la matriz positiva. Se volvió más conocido como factorización de la matriz no negativa después de que Lee y Seung investigaron las propiedades del algoritmo y publicaron algunos sencillos y útiles algoritmos para dos tipos de factorizaciones.
Fondo
Sea la matriz V el producto de las matrices W y H,
La multiplicación de matriz puede ser implementada como computación de los vectores de columna de V como combinaciones lineales de los vectores de columna en W utilizando coeficientes suministrados por columnas de H. Es decir, cada columna de V se puede calcular de la siguiente manera:
donde vi es el < i>i-ésimo vector de columna de la matriz del producto V y hi es la i-ésima columna vector de la matriz H.
Al multiplicar matrices, las dimensiones de las matrices de factores pueden ser significativamente más bajas que las de la matriz de productos y es esta propiedad la que forma la base de NMF. NMF genera factores con dimensiones significativamente reducidas en comparación con la matriz original. Por ejemplo, si V es un m × n matriz, W es un m × p matriz, y H es una p × matriz n entonces p puede ser significativamente menor que ambas m y n.
A continuación se muestra un ejemplo basado en una aplicación de minería de textos:
- Que la matriz de entrada (la matriz que se debe tener en cuenta) V con 10000 filas y 500 columnas donde las palabras están en filas y documentos están en columnas. Es decir, tenemos 500 documentos indexados por 10000 palabras. Sigue que un vector de columna v dentro V representa un documento.
- Supongamos que le pedimos al algoritmo que encuentre 10 características para generar un características matriz W con 10000 filas y 10 columnas y una matriz de coeficientes H con 10 filas y 500 columnas.
- El producto de W y H es una matriz con 10000 filas y 500 columnas, la misma forma que la matriz de entrada V y, si la factorización funcionó, es una aproximación razonable a la matriz de entrada V.
- Del tratamiento de la multiplicación de la matriz por encima de ella sigue que cada columna en la matriz del producto # es una combinación lineal de los 10 vectores de columna en la matriz de características W con coeficientes suministrados por la matriz de coeficientes H.
Este último punto es la base de NMF porque podemos considerar que cada documento original en nuestro ejemplo está construido a partir de un pequeño conjunto de características ocultas. NMF genera estas características.
Es útil pensar en cada característica (vector de columna) en la matriz de características W como un arquetipo de documento que comprende un conjunto de palabras donde cada El valor de celda de la palabra define la clasificación de la palabra en la característica: cuanto mayor sea el valor de la celda de una palabra, mayor será la clasificación de la palabra en la característica. Una columna en la matriz de coeficientes H representa un documento original con un valor de celda que define la clasificación del documento para una característica. Ahora podemos reconstruir un documento (vector de columna) a partir de nuestra matriz de entrada mediante una combinación lineal de nuestras características (vectores de columna en W) donde cada característica es ponderado por el valor de celda de la característica de la columna del documento en H.
Propiedad de agrupamiento
NMF tiene una propiedad de agrupación inherente, es decir, agrupa automáticamente las columnas de datos de entrada .
Más específicamente, la aproximación de por se logra encontrando y que minimiza la función de error (utilizando la norma Frobenius)
sujeto a ,
Si además imponemos una restricción de ortogonalidad , i.e. , entonces la minimización anterior es matemáticamente equivalente a la minimización de K-medios agrupación.
Además, el cálculo da a los miembros del grupo, es decir, si para todos i ل k, esto sugiere que los datos de entrada pertenece a - el cúmulo. La computación da a los centroides de racimo, es decir, el -la columna da el centroide de racimo - el cúmulo. La representación de este centroide puede mejorarse significativamente por convex NMF.
Cuando la ortogonalidad restringe no se impone explícitamente, la ortogonalidad se mantiene en gran medida, y la propiedad de agrupación tiene también.
Cuando la función de error que se utilizará es la divergencia de Kullback-Leibler, NMF es idéntico al análisis semántico latente probabilístico (PLSA), un método popular de agrupación de documentos.
Tipos
Factorización matricial aproximada no negativa
Por lo general, el número de columnas de W y el número de filas de H en NMF se seleccionan para que el producto WH se convierta en una aproximación a V. La descomposición completa de V equivale a las dos matrices no negativas W<. /span> y H así como un residual U, tal que: V = WH + U. Los elementos de la matriz residual pueden ser negativos o positivos.
Cuando W y H son más pequeños que V se vuelven más fáciles de almacenar y manipular. Otra razón para factorizar V en matrices más pequeñas W y H, es que si el objetivo de uno es representar aproximadamente los elementos V por significativamente menos datos, entonces hay que inferir alguna estructura latente en los datos.
Factorización de matrices convexas no negativas
En NMF estándar, factor de matriz W ▪ R+m × k, es decir, W puede ser cualquier cosa en ese espacio. Convex NMF restringe las columnas de W para convexas combinaciones de los vectores de datos de entrada . Esto mejora enormemente la calidad de la representación de datos W. Además, el factor de matriz resultante H se vuelve más escasa y ortogonal.
Factorización de rangos no negativos
En caso de que el rango no negativo de V sea igual a su rango real, V = WH se denomina factorización de rango no negativo (NRF). Se sabe que el problema de encontrar el NRF de V, si existe, es NP-difícil.
Diferentes funciones de costes y regularizaciones
Existen diferentes tipos de factorizaciones matriciales no negativas. Los diferentes tipos surgen del uso de diferentes funciones de costos para medir la divergencia entre V y WH y posiblemente mediante la regularización de W y/o H matrices.
Dos funciones de divergencia simples estudiadas por Lee y Seung son el error al cuadrado (o norma de Frobenius) y una extensión de la divergencia de Kullback-Leibler a matrices positivas (la divergencia de Kullback-Leibler original se define en distribuciones de probabilidad). Cada divergencia conduce a un algoritmo NMF diferente, que normalmente minimiza la divergencia mediante reglas de actualización iterativas.
El problema de la factorización en la versión de error cuadrado de NMF se puede decir como: Dada una matriz encontrar matrices no negativas W y H que minimizan la función
Otro tipo de NMF para imágenes se basa en la norma de variación total.
Cuando la regularización L1 (similar a Lasso) se agrega a NMF con la función de costo de error cuadrático medio, el problema resultante puede denominarse codificación dispersa no negativa debido a la similitud con el problema de codificación dispersa , aunque también se le puede seguir denominando NMF.
NMF en línea
Muchos algoritmos estándar de NMF analizan todos los datos juntos; es decir, toda la matriz está disponible desde el principio. Esto puede ser insatisfactorio en aplicaciones donde hay demasiados datos para encajar en la memoria o donde los datos se proporcionan de manera de streaming. Uno de estos usos es el filtrado colaborativo en sistemas de recomendación, donde puede haber muchos usuarios y muchos artículos que recomendar, y sería ineficiente recalcular todo cuando un usuario o un elemento se añade al sistema. La función de coste para la optimización en estos casos puede o no ser la misma que para la NMF estándar, pero los algoritmos necesitan ser bastante diferentes.
NMF convolucional
Si las columnas de V representan datos muestreados en dimensiones espaciales o temporales, p. señales de tiempo, imágenes o videos, características que son equivariantes w.r.t. Los cambios a lo largo de estas dimensiones pueden aprenderse mediante NMF convolucional. En este caso, W es escaso y las columnas tienen ventanas de peso locales distintas de cero que se comparten entre turnos a lo largo de las dimensiones espacio-temporales de V, que representa núcleos de convolución. Mediante la agrupación espacio-temporal de H y el uso repetido de la representación resultante como entrada para NMF convolucional, se pueden aprender jerarquías de características profundas.
Algoritmos
Hay varias formas en las que W y H se puede encontrar: La regla de actualización multiplicativa de Lee y Seung ha sido un método popular debido a la simplicidad de su implementación. Este algoritmo es:
- inicializar: W y H No negativo.
- Luego, actualice los valores en W y H computando lo siguiente, con como índice de la iteración.
- y
- Hasta W y H están estables.
Tenga en cuenta que las actualizaciones se realizan elemento por elemento, no mediante multiplicación de matrices.
Observamos que los factores multiplicativos W y H, es decir, el y términos, son matrices de uno cuando .
Más recientemente se han desarrollado otros algoritmos. Algunos enfoques se basan en mínimos cuadrados no negativos alternos: en cada paso de dicho algoritmo, primero H es fijo y W encontrado por un solucionador de mínimos cuadrados no negativos, entonces W es fijo y H se encuentra de manera análoga. Los procedimientos utilizados para resolver W y H pueden ser los iguales o diferentes, ya que algunas variantes de NMF regularizan uno de W y H lapso>. Los enfoques específicos incluyen los métodos de descenso de gradiente proyectado, el método de conjunto activo, el método de gradiente óptimo y el método de pivote principal de bloque, entre varios otros.
Los algoritmos actuales no son óptimos porque solo garantizan encontrar un mínimo local, en lugar de un mínimo global de la función de costos. Es poco probable que se encuentre un algoritmo demostrablemente óptimo en el futuro cercano, ya que se ha demostrado que el problema generaliza el problema de agrupamiento de k-medias que se sabe que es NP-completo. Sin embargo, como en muchas otras aplicaciones de minería de datos, un mínimo local aún puede resultar útil.
Además del paso de optimización, la inicialización tiene un efecto significativo en NMF. Los valores iniciales elegidos para W y H pueden afectar no sólo la tasa de convergencia, sino también el error general en la convergencia. Algunas opciones de inicialización incluyen aleatorización completa, SVD, agrupación de k-medias y estrategias más avanzadas basadas en estos y otros paradigmas.

NMF secuencial
La construcción secuencial de componentes NMF (W y H) se utilizó por primera vez para relacionar NMF con el análisis principal de componentes (PCA) en la astronomía. La contribución de los componentes de PCA está clasificada por la magnitud de sus correspondientes eigenvalues; para NMF, sus componentes pueden clasificarse empíricamente cuando se construye uno por uno (secuencialmente), es decir, aprender el -to componente con el primer componentes construidos.
La contribución de los componentes secuenciales de NMF se puede comparar con el teorema Karhunen-Loève, una aplicación de PCA, utilizando la trama de eigenvalues. Una elección típica del número de componentes con PCA se basa en el punto "elbow", entonces la existencia de la meseta plana indica que PCA no está capturando los datos de manera eficiente, y por fin existe una gota repentina que refleja la captura de ruido aleatorio y cae en el régimen de overfitting. Para NMF secuencial, la trama de eigenvalues se aproxima por la trama de las curvas de varianza residual fraccional, donde las curvas disminuyen continuamente, y convergen a un nivel más alto que el PCA, que es la indicación de menor sobre-ajuste de NMF secuencial.
NMF exacta
(feminine)Se pueden esperar soluciones exactas para las variantes de NMF (en tiempo polinómico) cuando se cumplen restricciones adicionales para la matriz V. Campbell y Poole proporcionaron en 1981 un algoritmo de tiempo polinómico para resolver la factorización de rangos no negativos si V contiene una submatriz monomial de rango igual a su rango. Kalofolias y Gallopoulos (2012) resolvieron la contraparte simétrica de este problema, donde V es simétrico y contiene una submatriz principal diagonal de rango r. Su algoritmo se ejecuta en tiempo O(rm2) en el caso denso. Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) proporciona un algoritmo de tiempo polinomial para NMF exacto que funciona en el caso en que uno de los factores W satisface una condición de separabilidad.
Relación con otras técnicas
En Aprendizaje de las partes de objetos mediante factorización matricial no negativa Lee y Seung propusieron NMF principalmente para la descomposición de imágenes basada en partes. Compara NMF con la cuantificación vectorial y el análisis de componentes principales, y muestra que aunque las tres técnicas pueden escribirse como factorizaciones, implementan diferentes restricciones y, por lo tanto, producen diferentes resultados.

Más tarde se demostró que algunos tipos de NMF son una instancia de un modelo probabilístico más general llamado "multinomial PCA". Cuando NMF se obtiene minimizando la divergencia Kullback-Leibler, es en realidad equivalente a otro caso de PCA multinomio, análisis semántico probabilístico latente, entrenado por estimación de máxima probabilidad. Ese método se utiliza comúnmente para analizar y agrupar datos textuales y también está relacionado con el modelo de clase latente.
NMF con el objetivo de mínimos cuadrados es equivalente a una forma relajada de agrupación de K-medias: el factor de matriz W contiene centroides de agrupación y < span class="texhtml">H contiene indicadores de membresía del clúster. Esto proporciona una base teórica para utilizar NMF para la agrupación de datos. Sin embargo, k-means no impone la no negatividad en sus centroides, por lo que la analogía más cercana es, de hecho, con "semi-NMF".
NMF puede verse como un modelo gráfico dirigido de dos capas con una capa de variables aleatorias observadas y una capa de variables aleatorias ocultas.
NMF se extiende más allá de las matrices hasta tensores de orden arbitrario. Esta extensión puede verse como una contraparte no negativa de, por ejemplo, el modelo PARAFAC.
Otras extensiones de NMF incluyen la factorización conjunta de varias matrices de datos y tensores donde se comparten algunos factores. Estos modelos son útiles para la fusión de sensores y el aprendizaje relacional.
NMF es una instancia de programación cuadrática no negativa, al igual que la máquina de vectores de soporte (SVM). Sin embargo, SVM y NMF están relacionados a un nivel más íntimo que el de NQP, lo que permite la aplicación directa de los algoritmos de solución desarrollados para cualquiera de los dos métodos a problemas en ambos dominios.
Singularidad
La factorización no es única: se puede utilizar una matriz y su inversa para transformar las dos matrices de factorización, por ejemplo,
Si las dos nuevas matrices y son no negativos que forman otra parametrización de la factorización.
La no negativa y aplica al menos si B es una matriz monomial no negativa. En este caso sencillo sólo corresponderá a un escalado y una permutación.
Se obtiene más control sobre la no unicidad de NMF con restricciones de escasez.
Aplicaciones
Astronomía
En astronomía, NMF es un método prometedor para la reducción de dimensiones en el sentido de que las señales astrofísicas no son negativas. NMF se ha aplicado a las observaciones espectroscópicas y a las observaciones de imágenes directas como método para estudiar las propiedades comunes de los objetos astronómicos y posprocesar las observaciones astronómicas. Los avances en las observaciones espectroscópicas de Blanton & Roweis (2007) tiene en cuenta las incertidumbres de las observaciones astronómicas, lo que luego mejora Zhu (2016), donde también se consideran los datos faltantes y se habilita la computación paralela. Luego, su método es adoptado por Ren et al. (2018) al campo de las imágenes directas como uno de los métodos de detección de exoplanetas, especialmente para la obtención de imágenes directas de discos circunestelares.
Ren et al. (2018) son capaces de probar la estabilidad de los componentes de NMF cuando se construyen secuencialmente (es decir, uno por uno), lo que permite la linealidad del proceso de modelado NMF; la propiedad linealidad se utiliza para separar la luz estelar y la luz dispersa de los exoplanetas y discos circumstellar.
En imágenes directas, para revelar los tenues exoplanetas y los discos circunestelares a partir de las brillantes luces estelares circundantes, que tienen un contraste típico de 10⁵ a 10¹⁰, se han adoptado varios métodos estadísticos; sin embargo, la luz de los exoplanetas o los discos circunestelares suele ser sobreajustado, donde se debe adoptar un modelo avanzado para recuperar el flujo real. Actualmente, el modelado directo está optimizado para fuentes puntuales, pero no para fuentes extendidas, especialmente para estructuras de forma irregular, como los discos circunestelares. En esta situación, NMF ha sido un método excelente, siendo menos sobreajustable en el sentido de la no negatividad y la escasez de los coeficientes de modelado de NMF, por lo tanto, el modelado directo se puede realizar con unos pocos factores de escala, en lugar de datos computacionalmente intensivos. nueva reducción en los modelos generados.
imputación de datos
Para calcular los datos perdidos en las estadísticas, NMF puede tomar datos perdidos al minimizar su función de coste, en lugar de tratar estos datos perdidos como ceros. Esto lo convierte en un método matemáticamente probado para la imputación de datos en estadísticas. Al probar primero que los datos perdidos son ignorados en la función de costo, a continuación, demostrando que el impacto de los datos perdidos puede ser tan pequeño como un segundo efecto de orden, Ren et al. (2020) estudió y aplicó tal enfoque para el campo de la astronomía. Su trabajo se centra en matrices bidimensionales, específicamente, incluye derivación matemática, imputación de datos simulados y aplicación a datos on-sky.
El procedimiento de imputación de datos con NMF puede estar compuesto de dos pasos. En primer lugar, cuando se conocen los componentes del NMF, Ren et al. (2020) demostraron que el impacto de los datos perdidos durante la imputación de datos ("modificación de objetivos" en su estudio) es un segundo efecto de orden. En segundo lugar, cuando se desconocen los componentes de la NMF, los autores probaron que el impacto de los datos perdidos durante la construcción de componentes es un efecto de orden de primer a segundo.
Dependiendo de la forma en que se obtengan los componentes NMF, el primer paso anterior puede ser independiente o dependiente del segundo. Además, la calidad de la imputación se puede aumentar cuando se utilizan más componentes de NMF, consulte la Figura 4 de Ren et al. (2020) por su ilustración.
Minería de texto
NMF se puede utilizar para aplicaciones de minería de texto. En este proceso, se construye una matriz de términos de documento con las ponderaciones de varios términos (normalmente información de frecuencia de palabras ponderada) de un conjunto de documentos. Esta matriz se factoriza en una matriz término-característica y una matriz característica-documento. Las características se derivan del contenido de los documentos, y la matriz característica-documento describe grupos de datos de documentos relacionados.
Una aplicación específica utilizó NMF jerárquico en un pequeño subconjunto de resúmenes científicos de PubMed. Otro grupo de investigación agrupó partes del conjunto de datos de correo electrónico de Enron con 65.033 mensajes y 91.133 términos en 50 grupos. NMF también se ha aplicado a los datos de citas, con un ejemplo que agrupa artículos de Wikipedia en inglés y revistas científicas en función de las citas científicas salientes en Wikipedia en inglés.
Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) ha proporcionado algoritmos de tiempo polinomial para aprender modelos temáticos utilizando NMF. El algoritmo supone que la matriz temática satisface una condición de separabilidad que a menudo se cumple en estos entornos.
Hassani, Iranmanesh y Mansouri (2019) propusieron un método de aglomeración de características para matrices de términos-documentos que opera utilizando NMF. El algoritmo reduce la matriz término-documento a una matriz más pequeña, más adecuada para la agrupación de texto.
Análisis de datos espectrales
NMF también se utiliza para analizar datos espectrales; Uno de esos usos es la clasificación de objetos y desechos espaciales.
Predicción escalable de distancias en Internet
NMF se aplica en la predicción de distancia de Internet escalable (tiempo de ida y vuelta). Para una red con anfitriones, con la ayuda de NMF, las distancias de todas las los enlaces de extremo a extremo se pueden predecir después de realizar solamente medidas. Este tipo de método se introdujo por primera vez en Internet Servicio de Estimación de Distancia (IDES). Después, como enfoque totalmente descentralizado, sistema de coordinación de red Phoenix se propone. Consigue una mejor precisión general de predicción introduciendo el concepto de peso.
Eliminación de ruido del habla no estacionaria
La eliminación de ruido de la voz ha sido un problema duradero en el procesamiento de señales de audio. Existen muchos algoritmos para eliminar el ruido si el ruido es estacionario. Por ejemplo, el filtro Wiener es adecuado para ruido gaussiano aditivo. Sin embargo, si el ruido no es estacionario, los algoritmos de eliminación de ruido clásicos suelen tener un rendimiento deficiente porque la información estadística del ruido no estacionario es difícil de estimar. Schmidt y cols. utilice NMF para eliminar el ruido del habla bajo ruido no estacionario, lo cual es completamente diferente de los enfoques estadísticos clásicos. La idea clave es que la señal de voz limpia puede representarse escasamente mediante un diccionario de voz, pero el ruido no estacionario no. De manera similar, el ruido no estacionario también puede representarse escasamente mediante un diccionario de ruido, pero el habla no.
El algoritmo para la eliminación de ruido NMF es el siguiente. Es necesario entrenar fuera de línea dos diccionarios, uno para el habla y otro para el ruido. Una vez que se pronuncia un discurso ruidoso, primero calculamos la magnitud de la transformada de Fourier de tiempo corto. En segundo lugar, sepárelo en dos partes a través de NMF, una puede estar escasamente representada por el diccionario de voz y la otra parte puede estar escasamente representada por el diccionario de ruido. En tercer lugar, la parte representada por el diccionario de voz será el habla limpia estimada.
Genética de poblaciones
Sparse NMF se utiliza en genética de poblaciones para estimar coeficientes de mezcla individuales, detectar grupos genéticos de individuos en una muestra de población o evaluar mezclas genéticas en genomas muestreados. En la agrupación genética humana, los algoritmos NMF proporcionan estimaciones similares a las del programa informático STRUCTURE, pero los algoritmos son más eficientes computacionalmente y permiten el análisis de grandes conjuntos de datos genómicos de poblaciones.
Bioinformática
NMF se ha aplicado con éxito en bioinformática para agrupar datos de expresión genética y metilación del ADN y encontrar los genes más representativos de los grupos. En el análisis de mutaciones del cáncer se ha utilizado para identificar patrones comunes de mutaciones que ocurren en muchos cánceres y que probablemente tengan causas distintas. Las técnicas de NMF pueden identificar fuentes de variación, como tipos de células, subtipos de enfermedades, estratificación de la población, composición de tejidos y clonalidad de tumores.
Una variante particular de NMF, a saber, la trifactorización de matriz no negativa (NMTF), se ha utilizado para tareas de reutilización de fármacos con el fin de predecir nuevos objetivos proteicos e indicaciones terapéuticas para fármacos aprobados y para inferir un par de fármacos anticancerígenos sinérgicos.
Imágenes nucleares
NMF, también conocido en este campo como análisis factorial, se ha utilizado desde la década de 1980 para analizar secuencias de imágenes en imágenes médicas dinámicas SPECT y PET. La no unicidad de NMF se abordó mediante restricciones de escasez.
Investigación actual
La investigación actual (desde 2010) sobre factorización matricial no negativa incluye, entre otros,
- Algorítmica: búsqueda de la minima global de los factores y la inicialización del factor.
- Scalability: how to factorize million-by-billion matrices, which are commonplace in Web-scale data mining, e.g., see Distributed Nonnegative Matrix Factorization (DNMF), Scalable Nonnegative Matrix Factorization (ScalableNMF), Distributed Stochastic Singular Value Decomposition.
- En línea: cómo actualizar la factorización cuando entran nuevos datos sin recomputar desde cero, por ejemplo, ver en línea CNSC
- Factorización colectiva (junto): factorización de múltiples matrices interrelacionadas para el aprendizaje de múltiples vistas, por ejemplo, agrupación multivista, véase CoNMF y MultiNMF
- Cohen y Rothblum 1993 problema: si una matriz racional siempre tiene un NMF de dimensión interna mínima cuyos factores también son racionales. Recientemente, este problema ha sido respondido negativamente.