Análisis de componentes principales

Ajustar Compartir Imprimir Citar

Análisis de componentes principales (PCA) es una técnica popular para analizar grandes conjuntos de datos que contienen una gran cantidad de dimensiones/características por observación, lo que aumenta la interpretabilidad de los datos y preserva la máxima cantidad de información, y posibilitando la visualización de datos multidimensionales. Formalmente, PCA es una técnica estadística para reducir la dimensionalidad de un conjunto de datos. Esto se logra mediante la transformación lineal de los datos en un nuevo sistema de coordenadas en el que (la mayor parte) de la variación de los datos se puede describir con menos dimensiones que los datos iniciales. Muchos estudios utilizan los primeros dos componentes principales para trazar los datos en dos dimensiones e identificar visualmente grupos de puntos de datos estrechamente relacionados. El análisis de componentes principales tiene aplicaciones en muchos campos, como la genética de poblaciones, los estudios de microbiomas y la ciencia atmosférica.

PCA de una distribución multivariada Gaussiana centrada en (1,3) con una desviación estándar de 3 en aproximadamente la dirección (0.866, 0.5) y de 1 en la dirección ortogonal. Los vectores mostrados son los eigenvectores de la matriz de covariancia escalada por la raíz cuadrada del eigenvalue correspondiente, y cambiado por lo que sus colas están en la media.

El componentes principales de una colección de puntos en un espacio de coordenadas real son una secuencia de vectores de unidad, donde el -el vector es la dirección de una línea que mejor se ajusta a los datos mientras que ser ortogonal a la primera vectores. Aquí, una línea de mejor ajuste se define como una que minimiza la distancia perpendicular cuadrada promedio de los puntos a la línea. Estas direcciones constituyen una base ortonormal en la que diferentes dimensiones individuales de los datos son linealmente incorrelacionadas. El análisis principal de componentes es el proceso de cálculo de los componentes principales y utilizarlos para realizar un cambio de base sobre los datos, a veces utilizando sólo los primeros pocos componentes principales e ignorando el resto.

En el análisis de datos, el primer componente principal de un conjunto de variables, supuestamente distribuidas conjuntamente, es la variable derivada formada como una combinación lineal de las variables originales que explican la mayor variabilidad. El segundo componente principal explica la mayor varianza de lo que queda una vez que se elimina el efecto del primer componente, y podemos proceder a través de iteraciones hasta que toda la varianza se explica. PCA se utiliza más comúnmente cuando muchas de las variables están muy correlacionadas entre sí y es deseable reducir su número a un conjunto independiente.

PCA se utiliza en el análisis de datos exploratorios y para hacer modelos predictivos. Se utiliza comúnmente para la reducción de la dimensionalidad proyectando cada punto de datos sobre sólo los primeros componentes principales para obtener datos de menor dimensión preservando la mayor parte de la variación de los datos posible. El primer componente principal puede definirse como una dirección que maximice la diferencia de los datos proyectados. El - el componente principal se puede tomar como una dirección ortogonal al primero componentes principales que maximizan la diferencia de los datos proyectados.

Para cualquier objetivo, se puede demostrar que los componentes principales son vectores propios de la matriz de covarianza de los datos. Por lo tanto, los componentes principales a menudo se calculan mediante la descomposición propia de la matriz de covarianza de datos o la descomposición en valores singulares de la matriz de datos. PCA es el más simple de los verdaderos análisis multivariados basados en vectores propios y está estrechamente relacionado con el análisis factorial. El análisis factorial normalmente incorpora suposiciones más específicas de dominio sobre la estructura subyacente y resuelve vectores propios de una matriz ligeramente diferente. PCA también está relacionado con el análisis de correlación canónica (CCA). CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzada entre dos conjuntos de datos, mientras que PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un único conjunto de datos. También se han propuesto variantes robustas y basadas en normas L1 de PCA estándar.

Historia

PCA fue inventado en 1901 por Karl Pearson, como un análogo del teorema del eje principal en mecánica; Más tarde, Harold Hotelling lo desarrolló de forma independiente y lo nombró en la década de 1930. Dependiendo del campo de aplicación, también se denomina transformada discreta de Karhunen-Loève (KLT) en procesamiento de señales, transformada de Hotelling en control de calidad multivariado, descomposición ortogonal propia (POD) en ingeniería mecánica, descomposición en valor singular (SVD) de < b>X (inventado en el último cuarto del siglo XX), descomposición de valores propios (EVD) de XTX en álgebra lineal, análisis factorial (para una discusión de las diferencias entre PCA y análisis factorial ver Capítulo 7 del Análisis de componentes principales de Jolliffe), teorema de Eckart-Young (Harman, 1960), o funciones ortogonales empíricas (EOF) en ciencias meteorológicas (Lorenz, 1956), descomposición de función propia empírica (Sirovich, 1987), modos cuasiarmónicos (Brooks et al., 1988), descomposición espectral en ruido y vibración, y análisis modal empírico en dinámica estructural.

Intuición

PCA se puede considerar como el ajuste de un elipsoide de dimensión p a los datos, donde cada eje del elipsoide representa un componente principal. Si algún eje del elipsoide es pequeño, entonces la varianza a lo largo de ese eje también es pequeña.

Para encontrar los ejes del elipsoide, primero debemos centrar los valores de cada variable en el conjunto de datos en 0 restando la media de los valores observados de la variable de cada uno de esos valores. Estos valores transformados se utilizan en lugar de los valores originales observados para cada una de las variables. Luego, calculamos la matriz de covarianza de los datos y calculamos los valores propios y los vectores propios correspondientes de esta matriz de covarianza. Luego debemos normalizar cada uno de los vectores propios ortogonales para convertirlos en vectores unitarios. Una vez hecho esto, cada uno de los vectores propios unitarios mutuamente ortogonales se puede interpretar como un eje del elipsoide ajustado a los datos. Esta elección de base transformará la matriz de covarianza en una forma diagonalizada, en la que los elementos diagonales representan la varianza de cada eje. La proporción de la varianza que representa cada vector propio se puede calcular dividiendo el valor propio correspondiente a ese vector propio por la suma de todos los valores propios.

Se utilizan biplots y scree plots (grado de varianza explicada) para explicar los hallazgos del PCA.

La imagen anterior es de una trama de tornillo que está destinada a ayudar a interpretar el PCA y decidir cuántos componentes conservar. El inicio de la curva en la línea (punto de inflexión) debe indicar cuántos componentes se mantienen, por lo tanto en este ejemplo, tres factores deben ser retenidos.

Detalles

PCA se define como una transformación lineal ortogonal que transforma los datos en un nuevo sistema de coordenadas, de modo que la mayor variación por alguna proyección escalar de los datos llega a estar en la primera coordenada (llamada el primer componente principal), la segunda mayor varianza en la segunda coordenada, y así sucesivamente.

Considerar un matriz de datos, X, con el medio empírico cero en la columna (la media muestra de cada columna se ha desplazado a cero), donde cada uno de los n filas representa una repetición diferente del experimento, y cada una de las p columnas da un tipo particular de característica (por ejemplo, los resultados de un sensor en particular).

Matemáticamente, la transformación se define por un conjunto de tamaño de p- vectores dimensionales de pesos o coeficientes que mapa cada fila vector de X a un nuevo vector de componente principal puntuaciones , dado por

de tal manera que las variables individuales de t considerado en el conjunto de datos hereda sucesivamente la diferencia máxima posible X, con cada vector de coeficiente w limitado a ser un vector unitario (donde generalmente se selecciona para ser estrictamente menos que reducir la dimensionalidad).

Primer componente

Para maximizar la varianza, el primer vector de peso w(1) tiene que satisfacer

Equivalentemente, escribir esto en forma de matriz da

Dado que w(1) ha sido definido como un vector unitario, también satisface de manera equivalente

La cantidad a maximizar se puede reconocer como un cociente de Rayleigh. Un resultado estándar para una matriz semidefinida positiva como XTX es que el valor máximo posible del cociente es el valor propio más grande de la matriz, que ocurre cuando w es el vector propio correspondiente.

Con w(1) encontrado, el primer componente principal de un vector de datos x(i) se puede dar como una puntuación t1(i) = x< sub>(i) ⋅ w(1) en las coordenadas transformadas, o como el vector correspondiente en el original variables, {x(i)w(1)} w(1).

Otros componentes

El k-ésimo componente se puede encontrar restando los primeros k − 1 componentes principales de X:

y luego encontrar el vector de peso que extrae la varianza máxima de esta nueva matriz de datos

Resulta que esto da los vectores propios restantes de XTX, con los valores máximos para la cantidad entre paréntesis dados por su valores propios correspondientes. Por lo tanto, los vectores de peso son vectores propios de XTX.

La k-ésima componente principal de un vector de datos x(i) por lo tanto se puede dar como una puntuación tk(i) = x(i)w(k) en las coordenadas transformadas, o como el vector correspondiente en el espacio de las variables originales, {x(i)w(k)} w(k), donde w( k) es el vector propio késimo de XTX.

Por lo tanto, la descomposición completa en componentes principales de X se puede dar como

donde W es una matriz de pesos ppor p cuyas columnas son los vectores propios de X TX. La transposición de W a veces se denomina transformación blanqueadora o esférica. Las columnas de W multiplicadas por la raíz cuadrada de los valores propios correspondientes, es decir, vectores propios ampliados por las varianzas, se denominan cargas en PCA o en análisis factorial.

Covarianzas

XTX en sí puede reconocerse como proporcional a la matriz de covarianza de la muestra empírica del conjunto de datos XT .

La covarianza de la muestra Q entre dos de los diferentes componentes principales sobre el conjunto de datos viene dada por:

donde la propiedad de valor propio de w(k) se ha utilizado para pasar de la línea 2 a la línea 3. Sin embargo, los vectores propios w(j) y w(k) correspondientes a Los valores propios de una matriz simétrica son ortogonales (si los valores propios son diferentes), o pueden ser ortogonalizados (si los vectores comparten un valor repetido igual). Por lo tanto, el producto en la línea final es cero; no hay covarianza de muestra entre diferentes componentes principales sobre el conjunto de datos.

Otra forma de caracterizar la transformación de componentes principales es, por lo tanto, como la transformación a coordenadas que diagonalizan la matriz de covarianza de la muestra empírica.

En forma de matriz, la matriz de covarianza empírica para las variables originales se puede escribir

La matriz de covarianza empírica entre los componentes principales se convierte en

donde Λ es la matriz diagonal de valores propios λ(k) de XTX. λ(k) es igual a la suma de los cuadrados sobre el conjunto de datos asociado con cada componente k, que es, λ(k) = Σi tk2(i) = Σ yo (x(i)w(k))2.

Reducción de dimensionalidad

La transformación T = X W mapea un vector de datos x(i ) de un espacio original de variables p a un nuevo espacio de variables p que no están correlacionadas en el conjunto de datos. Sin embargo, no es necesario conservar todos los componentes principales. Manteniendo solo los primeros componentes principales L, producidos usando solo los primeros vectores propios L, se obtiene la transformación truncada

donde la matriz TL ahora n filas pero sólo L columnas. En otras palabras, PCA aprende una transformación lineal donde las columnas de p × L matriz forma una base ortogonal para la L características (los componentes de la representación t) que están decorados. Por construcción, de todas las matrices de datos transformadas con sólo L columnas, esta matriz de puntuación maximiza la variabilidad en los datos originales que se han conservado, minimizando el error total de reconstrucción cuadrada o .

Un análisis de componentes principales dispersión de haplotipos Y-STR calculada a partir de valores de cuenta repetida para 37 marcadores Y-cromosómicos de 354 individuos.
PCA ha encontrado con éxito combinaciones lineales de los marcadores que separan diferentes grupos correspondientes a diferentes líneas de ascendencia genética Y-cromosómica de los individuos.

Tal reducción de la dimensionalidad puede ser un paso muy útil para visualizar y procesar conjuntos de datos de alta dimensión, al mismo tiempo que conserva la mayor cantidad posible de variación en el conjunto de datos. Por ejemplo, al seleccionar L = 2 y mantener solo los dos primeros componentes principales, se encuentra el plano bidimensional a través del conjunto de datos de alta dimensión en el que los datos están más dispersos, por lo que si los datos contienen grupos, estos también puede estar más extendido y, por lo tanto, más visible para trazarse en un diagrama bidimensional; mientras que si se eligen al azar dos direcciones a través de los datos (o dos de las variables originales), los grupos pueden estar mucho menos separados entre sí y, de hecho, es mucho más probable que se superpongan sustancialmente entre sí, haciéndolos indistinguibles.

Del mismo modo, en el análisis de regresión, cuanto mayor sea el número de variables explicativas permitidas, mayor será la posibilidad de sobreajustar el modelo, produciendo conclusiones que no se pueden generalizar a otros conjuntos de datos. Un enfoque, especialmente cuando hay fuertes correlaciones entre diferentes variables explicativas posibles, es reducirlas a unos pocos componentes principales y luego ejecutar la regresión contra ellos, un método llamado regresión de componentes principales.

La reducción de la dimensionalidad también puede ser adecuada cuando las variables de un conjunto de datos tienen ruido. Si cada columna del conjunto de datos contiene ruido gaussiano independiente distribuido idénticamente, entonces las columnas de T también contendrán ruido gaussiano distribuido idénticamente (dicha distribución es invariable bajo los efectos de la matriz W< /b>, que se puede considerar como una rotación de alta dimensión de los ejes de coordenadas). Sin embargo, con una mayor parte de la variación total concentrada en los primeros componentes principales en comparación con la misma variación de ruido, el efecto proporcional del ruido es menor: los primeros componentes logran una mayor relación señal-ruido. Por lo tanto, PCA puede tener el efecto de concentrar gran parte de la señal en los primeros componentes principales, que pueden capturarse de manera útil mediante la reducción de la dimensionalidad; mientras que los componentes principales posteriores pueden estar dominados por el ruido y, por lo tanto, eliminarse sin grandes pérdidas. Si el conjunto de datos no es demasiado grande, la importancia de los componentes principales se puede probar mediante un arranque paramétrico, como ayuda para determinar cuántos componentes principales retener.

Descomposición de valores singulares

La transformación de componentes principales también se puede asociar con otra factorización de matrices, la descomposición en valores singulares (SVD) de X,

Aquí Σ es una matriz diagonal rectangular n-por-p de números positivos σ (k), llamados los valores singulares de X; U es una matriz n-by-n, cuyas columnas son vectores unitarios ortogonales de longitud n llamados los vectores singulares izquierdos de X; y W es un p-by-p cuyas columnas son vectores unitarios ortogonales de longitud p y llamados la derecha vectores singulares de X.

En términos de esta factorización, la matriz XTX se puede escribir

Donde es la matriz diagonal cuadrada con los valores singulares X y el exceso de ceros cortados que satisfizo . Comparación con la factorización eigenvectora XTX establece que los vectores singulares adecuados W de X son equivalentes a los eigenvectores de XTX, mientras los valores singulares σ()k) de son iguales a la raíz cuadrada de los eigenvalues λ()k) de XTX.

Usando la descomposición en valores singulares, la matriz de puntuación T se puede escribir

entonces cada columna de T está dada por uno de los vectores singulares izquierdos de X multiplicado por el valor singular correspondiente. Esta forma es también la descomposición polar de T.

Existen algoritmos eficientes para calcular la SVD de X sin tener que formar la matriz XTX, por lo tanto, calcular el SVD es ahora la forma estándar de calcular un análisis de componentes principales a partir de una matriz de datos, a menos que solo se requieran unos pocos componentes.

Al igual que con la descomposición propia, una matriz de puntuación truncada n × L TL se puede obtener considerando solo los primeros L valores singulares más grandes y sus vectores singulares:

El truncamiento de una matriz M o T usando una descomposición de valores singulares truncados de esta manera produce una matriz truncada que es la matriz más cercana posible de rango L a la matriz original, en el sentido de que la diferencia entre las dos tiene la norma de Frobenius más pequeña posible, resultado conocido como el teorema de Eckart-Young [1936].

Otras consideraciones

Los valores singulares (en Σ) son las raíces cuadradas de los valores propios de la matriz XTX. Cada valor propio es proporcional a la parte de la "varianza" (más correctamente de la suma de las distancias al cuadrado de los puntos desde su media multidimensional) que está asociado con cada vector propio. La suma de todos los valores propios es igual a la suma de las distancias al cuadrado de los puntos desde su media multidimensional. PCA esencialmente gira el conjunto de puntos alrededor de su media para alinearse con los componentes principales. Esto mueve tanto de la varianza como sea posible (usando una transformación ortogonal) a las primeras dimensiones. Los valores en las dimensiones restantes, por lo tanto, tienden a ser pequeños y pueden descartarse con una pérdida mínima de información (ver más abajo). PCA se utiliza a menudo de esta manera para la reducción de la dimensionalidad. PCA tiene la distinción de ser la transformación ortogonal óptima para mantener el subespacio que tiene la mayor "varianza" (como se define arriba). Esta ventaja, sin embargo, tiene el precio de mayores requisitos computacionales si se compara, por ejemplo, y cuando corresponda, con la transformada de coseno discreta y, en particular, con la DCT-II, que se conoce simplemente como "DCT". Las técnicas de reducción de dimensionalidad no lineal tienden a ser más exigentes computacionalmente que PCA.

PCA es sensible a la escala de las variables. Si tenemos solo dos variables y tienen la misma varianza muestral y están completamente correlacionadas, entonces el PCA implicará una rotación de 45° y los "pesos" (son los cosenos de rotación) para las dos variables con respecto a la componente principal serán iguales. Pero si multiplicamos todos los valores de la primera variable por 100, entonces el primer componente principal será casi el mismo que esa variable, con una pequeña contribución de la otra variable, mientras que el segundo componente estará casi alineado con la segunda variable original. Esto significa que siempre que las diferentes variables tengan diferentes unidades (como temperatura y masa), PCA es un método de análisis un tanto arbitrario. (Se obtendrían resultados diferentes si se utilizara Fahrenheit en lugar de Celsius, por ejemplo). El artículo original de Pearson se titulaba 'On Lines and Planes of Closest Fit to Systems of Points in Space'. – "en el espacio" implica un espacio físico euclidiano donde tales preocupaciones no surgen. Una forma de hacer que el PCA sea menos arbitrario es usar variables escaladas para que tengan una varianza unitaria, al estandarizar los datos y, por lo tanto, usar la matriz de autocorrelación en lugar de la matriz de autocovarianza como base para el PCA. Sin embargo, esto comprime (o expande) las fluctuaciones en todas las dimensiones del espacio de la señal a la varianza de la unidad.

La sustracción de la media (también conocida como "centrado de la media") es necesaria para realizar el PCA clásico para garantizar que el primer componente principal describa la dirección de la varianza máxima. Si no se realiza la sustracción de la media, el primer componente principal podría corresponder más o menos a la media de los datos. Se necesita una media de cero para encontrar una base que minimice el error cuadrático medio de la aproximación de los datos.

El centrado en la media no es necesario si se realiza un análisis de componentes principales en una matriz de correlación, ya que los datos ya están centrados después de calcular las correlaciones. Las correlaciones se derivan del producto cruzado de dos puntajes estándar (puntajes Z) o momentos estadísticos (de ahí el nombre: Correlación producto-momento de Pearson). Consulte también el artículo de Kromrey & Foster-Johnson (1998) sobre "Mean-centering in Moderated Regression: Much Ado About Nothing". Dado que las covarianzas son correlaciones de variables normalizadas (puntajes Z o estándar), un PCA basado en la matriz de correlación de X es igual a un PCA basado en la matriz de covarianza de Z, la versión estandarizada de X.

PCA es una técnica primaria popular en el reconocimiento de patrones. Sin embargo, no está optimizado para la separabilidad de clases. Sin embargo, se ha utilizado para cuantificar la distancia entre dos o más clases calculando el centro de masa de cada clase en el espacio de componentes principales y reportando la distancia euclidiana entre el centro de masa de dos o más clases. El análisis discriminante lineal es una alternativa optimizada para la separabilidad de clases.

Tabla de símbolos y abreviaturas

Symbol Meaning Dimensions Indices
data matrix, consisting of the set of all data vectors, one vector per row
the number of row vectors in the data set scalar
the number of elements in each row vector (dimension) scalar
the number of dimensions in the dimensionally reduced subspace, scalar
vector of empirical means, one mean for each column j of the data matrix
vector of empirical standard deviations, one standard deviation for each column j of the data matrix
vector of all 1's
deviations from the mean of each column j of the data matrix
z-scores, computed using the mean and standard deviation for each row m of the data matrix
covariance matrix
correlation matrix
matrix consisting of the set of all eigenvectors of C, one eigenvector per column
diagonal matrix consisting of the set of all eigenvalues of C along its principal diagonal, and 0 for all other elements (note used above)
matrix of basis vectors, one vector per column, where each basis vector is one of the eigenvectors of C, and where the vectors in W are a sub-set of those in V
matrix consisting of n row vectors, where each vector is the projection of the corresponding data vector from matrix X onto the basis vectors contained in the columns of matrix W.

Propiedades y limitaciones de PCA

Propiedades

Algunas propiedades de PCA incluyen:

Propiedad 1: Para cualquier entero q, 1 ≤ qp, considerar la transformación lineal ortogonal
Donde es un q-element vectores y es unq × p) matriz, y dejar ser la matriz de varianza-covariancia . Luego el rastro de , denotado , se maximiza tomando , donde consiste en el primero q columnas de es la transposición de .
Propiedad 2: Considere nuevamente la transformación ortonormal
con y definido como antes. Entonces... se minimiza al tomar Donde consiste en el último q columnas de .

La implicación estadística de esta propiedad es que las últimas PC no son simplemente remanentes sin estructura después de quitar las PC importantes. Debido a que estas últimas PC tienen variaciones lo más pequeñas posible, son útiles por derecho propio. Pueden ayudar a detectar relaciones lineales casi constantes insospechadas entre los elementos de x, y también pueden ser útiles en la regresión, en seleccionando un subconjunto de variables de x, y en la detección de valores atípicos.

Propiedad 3: (Descomposición temporal) .)

Antes de ver su uso, primero observamos los elementos diagonales,

Entonces, tal vez la principal implicación estadística del resultado es que no sólo podemos descomponer las diferencias combinadas de todos los elementos de x en la disminución de las contribuciones debido a cada PC, pero también podemos descomponer toda la matriz de covariancia en las contribuciones de cada PC. Aunque no disminuyen estrictamente, los elementos tendria a ser más pequeño como aumentos, como no está aumentando para aumentar , mientras que los elementos de tienden a permanecer cerca del mismo tamaño debido a las limitaciones de normalización: .

Limitaciones

Como se indicó anteriormente, los resultados de PCA dependen de la escala de las variables. Esto se puede solucionar escalando cada característica por su desviación estándar, de modo que uno termine con características adimensionales con varianza unitaria.

La aplicabilidad de PCA como se describe anteriormente está limitada por ciertas suposiciones (tácitas) hechas en su derivación. En particular, PCA puede capturar correlaciones lineales entre las características, pero falla cuando se viola esta suposición (consulte la Figura 6a en la referencia). En algunos casos, las transformaciones de coordenadas pueden restaurar la suposición de linealidad y luego se puede aplicar PCA (ver kernel PCA).

Otra limitación es el proceso de eliminación de la media antes de construir la matriz de covarianza para PCA. En campos como la astronomía, todas las señales son no negativas, y el proceso de eliminación de la media obligará a que la media de algunas exposiciones astrofísicas sea cero, lo que en consecuencia crea flujos negativos no físicos, y se debe realizar un modelo directo para recuperar la verdadera. magnitud de las señales. Como método alternativo, la factorización de matrices no negativas se centra solo en los elementos no negativos de las matrices, lo cual es muy adecuado para las observaciones astrofísicas. Ver más en Relación entre PCA y factorización de matriz no negativa.

PCA está en desventaja si los datos no se han estandarizado antes de aplicarles el algoritmo. PCA transforma los datos originales en datos que son relevantes para los componentes principales de esos datos, lo que significa que las nuevas variables de datos no se pueden interpretar de la misma manera que los originales. Son interpretaciones lineales de las variables originales. Además, si PCA no se realiza correctamente, existe una alta probabilidad de pérdida de información.

PCA se basa en un modelo lineal. Si un conjunto de datos tiene un patrón oculto en su interior que no es lineal, entonces PCA en realidad puede dirigir el análisis en la dirección completamente opuesta al progreso. Investigadores de la Universidad Estatal de Kansas descubrieron que el error de muestreo en sus experimentos afectó el sesgo de los resultados de PCA. "Si el número de sujetos o bloques es menor a 30, y/o el investigador está interesado en PC's más allá del primero, puede ser mejor corregir primero la correlación serial, antes de realizar PCA" 34;. Los investigadores de Kansas State también descubrieron que PCA podría estar "seriamente sesgado si la estructura de autocorrelación de los datos no se maneja correctamente".

PCA y teoría de la información

La reducción de la dimensionalidad da como resultado una pérdida de información, en general. La reducción de dimensionalidad basada en PCA tiende a minimizar esa pérdida de información, bajo ciertos modelos de señal y ruido.

Bajo el supuesto de que

es decir, que el vector de datos es la suma de la señal de información deseada y una señal de ruido se puede demostrar que PCA puede ser óptima para la reducción de la dimensionalidad, desde un punto de vista teórico de la información.

En particular, Linsker mostró que si es Gaussian y es ruido gaisiano con una matriz de covariancia proporcional a la matriz de identidad, el PCA maximiza la información mutua entre la información deseada y la producción reducida de dimensión .

Si el ruido es todavía Gaussian y tiene una matriz de covariancia proporcional a la matriz de identidad (es decir, los componentes del vector son iid), pero la señal de información es no gaussiano (que es un escenario común), PCA al menos minimiza un límite superior en el pérdida de información, que se define como

La optimización de PCA también se conserva si el ruido es iid y por lo menos más Gaussian (en términos de la divergencia Kullback-Leibler) que la señal de información que lleva . En general, incluso si el modelo de señal anterior sostiene, PCA pierde su óptima información-teorética tan pronto como el ruido se vuelve dependiente.

Cálculo de PCA utilizando el método de covarianza

La siguiente es una descripción detallada de PCA usando el método de covarianza (ver también aquí) en oposición al método de correlación.

El objetivo es transformar un conjunto de datos determinado X de dimensión p en un conjunto de datos alternativo Y de dimensión menor L . De manera equivalente, buscamos encontrar la matriz Y, donde Y es la transformada de Karhunen-Loève (KLT) de la matriz X:

Organizar el conjunto de datos

Supongamos que tiene datos que comprenden un conjunto de observaciones p variables, y desea reducir los datos para que cada observación pueda describirse con sólo L variables, L. p. Supongamos además que los datos se organizan como un conjunto de n vectores de datos con cada representando una sola observación agrupada de la p variables.

Calcular el medio empírico
Calcular las desviaciones de la media

La sustracción de la media es una parte integral de la solución para encontrar una base de componente principal que minimice el error cuadrático medio de la aproximación de los datos. Por lo tanto, procedemos centrando los datos de la siguiente manera:

En algunas aplicaciones, cada variable (columna de B) también se puede escalar para tener una varianza igual a 1 (ver Z-score). Este paso afecta a los componentes principales calculados, pero los hace independientes de las unidades utilizadas para medir las distintas variables.

Encontrar la matriz de covariancia
Encontrar los eigenvectores y eigenvalues de la matriz de covariancia
Rearrange the eigenvectors and eigenvalues
Computar el contenido acumulativo de energía para cada eigenvector
Seleccione un subconjunto de los eigenvectores como vectores base
Proyecto de los datos sobre la nueva base

Es decir, la primera columna de es la proyección de los puntos de datos sobre el primer componente principal, la segunda columna es la proyección sobre el segundo componente principal, etc.

Derivación de PCA utilizando el método de covarianza

Sea X un vector aleatorio d-dimensional expresado como vector columna. Sin pérdida de generalidad, suponga que X tiene media cero.

Queremos encontrar a d × d matriz de transformación ortonormal P así PX tiene una matriz de covariancia diagonal (es decir, PX es un vector aleatorio con todos sus componentes distintos pareados no correlacionados).

Un rápido cálculo asumiendo eran rendimientos unitarios:

Por lo tanto si y sólo si fueron diagonalables por .

Esto es muy constructivo, ya que se garantiza que cov(X) es una matriz definida no negativa y, por lo tanto, se garantiza que es diagonalizable por alguna matriz unitaria.

Cálculo sin covarianza

En implementaciones prácticas, especialmente con datos de gran dimensión (grandes p), el método de covarianza ingenuo rara vez se usa porque es no es eficiente debido a los altos costos computacionales y de memoria de determinar explícitamente la matriz de covarianza. El enfoque sin covarianza evita las operaciones np2 de cálculo y almacenamiento explícitos de la matriz de covarianza XTX, en lugar de utilizar uno de los métodos sin matriz, por ejemplo, basado en la función que evalúa el producto XT(X r) al costo de 2np operaciones.

Cálculo iterativo

Una forma de calcular el primer componente principal de manera eficiente se muestra en el siguiente pseudocódigo, para una matriz de datos X con media cero, sin siempre calculando su matriz de covarianza.

r = un vector aleatorio de longitud pr = r / Norm(r)
do c veces:
 s = 0 (un vector de longitud p)
 para cada fila x dentro X s = s +xr) x λ = rTs // λ es el eigenvalue error = ⋅ ⋅ rsSilencio r = s / Norm(s) salida si errorretorno λ, r

Este algoritmo de iteración de potencia simplemente calcula el vector XT(X r), lo normaliza y coloca el resultado atrás en r. El valor propio se aproxima mediante rT (XTX) r, que es el Cociente de Rayleigh en el vector unitario r para la matriz de covarianza XT X . Si el valor singular más grande está bien separado del siguiente más grande, el vector r se acerca al primer componente principal de X dentro del número de iteraciones c, que es pequeño en relación con < span class="texhtml mvar" style="font-style:italic;">p, al costo total 2cnp. La convergencia de la iteración de potencia se puede acelerar sin sacrificar notablemente el pequeño costo por iteración utilizando métodos sin matriz más avanzados, como el algoritmo de Lanczos o el método de gradiente conjugado precondicionado de bloque localmente óptimo (LOBPCG).

Los componentes principales subsiguientes se pueden calcular uno por uno a través de la deflación o simultáneamente como un bloque. En el primer enfoque, las imprecisiones en los componentes principales aproximados ya calculados afectan adicionalmente la precisión de los componentes principales calculados posteriormente, aumentando así el error con cada nuevo cálculo. El último enfoque en el método de potencia de bloque reemplaza los vectores únicos r y s< /span> con vectores de bloques, matrices R y S. Cada columna de R se aproxima a uno de los principales componentes principales, mientras que todas las columnas se iteran simultáneamente. El cálculo principal es la evaluación del producto XT(X R). Implementado, por ejemplo, en LOBPCG, el bloqueo eficiente elimina la acumulación de errores, permite utilizar funciones de producto matriz-matriz BLAS de alto nivel y, por lo general, conduce a una convergencia más rápida, en comparación con la técnica de un solo vector uno por uno.

El método NIPALS

Mínimos cuadrados parciales iterativos no lineales (NIPALS) es una variante de la iteración de potencia clásica con deflación de matriz por resta implementada para calcular los primeros componentes en un componente principal o análisis de mínimos cuadrados parciales. Para conjuntos de datos de muy alta dimensión, como los generados en las ciencias *ómicas (por ejemplo, genómica, metabolómica), generalmente solo es necesario calcular las primeras PC. El algoritmo de mínimos cuadrados parciales iterativos no lineales (NIPALS) actualiza las aproximaciones iterativas a las puntuaciones y cargas principales t1 y r1 T por la iteración potencia multiplicando en cada iteración por X a la izquierda y a la derecha, es decir, se evita el cálculo de la matriz de covarianza, al igual que en la implementación sin matriz de las iteraciones de potencia a XTX, basado en la función que evalúa el producto XT(X r) = ((X r)TX)T< /sup>.

La deflación de la matriz por sustracción se realiza restando el producto exterior, t1r1T de X dejando la matriz residual deflactada que se usa para calcular las PC líderes posteriores. Para matrices de datos grandes, o matrices que tienen un alto grado de colinealidad de columna, NIPALS sufre pérdida de ortogonalidad de las PC debido a errores de redondeo de precisión de la máquina acumulados en cada iteración y deflación de matriz por sustracción. Se aplica un algoritmo de reortogonalización de Gram-Schmidt tanto a las puntuaciones como a las cargas en cada paso de iteración para eliminar esta pérdida de ortogonalidad. La dependencia de NIPALS en las multiplicaciones de un solo vector no puede aprovechar BLAS de alto nivel y da como resultado una convergencia lenta para los valores singulares principales agrupados; ambas deficiencias se resuelven en solucionadores de bloques sin matriz más sofisticados, como el Gradiente conjugado precondicionado de bloque localmente óptimo (método LOBPCG).

Estimación en línea/secuencial

En un "en línea" o "transmisión" En una situación en la que los datos llegan pieza por pieza en lugar de almacenarse en un solo lote, es útil hacer una estimación de la proyección PCA que se puede actualizar secuencialmente. Esto se puede hacer de manera eficiente, pero requiere diferentes algoritmos.

PCA y variables cualitativas

En PCA, es común que queramos introducir variables cualitativas como elementos complementarios. Por ejemplo, muchas variables cuantitativas se han medido en plantas. Para estas plantas se dispone de algunas variables cualitativas como, por ejemplo, la especie a la que pertenece la planta. Estos datos fueron sometidos a PCA para variables cuantitativas. Al analizar los resultados, es natural conectar los componentes principales a la variable cualitativa especies. Para ello, se producen los siguientes resultados.

Estos resultados son lo que se denomina introducir una variable cualitativa como elemento suplementario. Este procedimiento se detalla en y Husson, Lê & Pagés 2009 y Pagés 2013. Pocos programas ofrecen esta opción de forma "automática" manera. Este es el caso de SPAD que históricamente, siguiendo el trabajo de Ludovic Lebart, fue el primero en proponer esta opción, y el paquete R FactoMineR.

Aplicaciones

Inteligencia

La primera aplicación del análisis factorial fue para localizar y medir componentes de la inteligencia humana. se creía que la inteligencia tenía varios componentes no correlacionados, como la inteligencia espacial, la inteligencia verbal, la inducción, la deducción, etc., y que las puntuaciones de estos podían aducirse mediante el análisis factorial de los resultados de varias pruebas, para dar un índice único conocido como Cociente de Inteligencia (CI).). El pionero psicólogo estadístico Spearman desarrolló el análisis factorial en 1904 para su teoría de la inteligencia de dos factores, agregando una técnica formal a la ciencia de la psicometría. En 1924 Thurstone buscó 56 factores de inteligencia, desarrollando la noción de Edad Mental. Las pruebas estándar de CI de hoy se basan en este trabajo inicial.

Diferenciación residencial

En 1949, Shevky y Williams introdujeron la teoría de la ecología factorial, que dominó los estudios de diferenciación residencial desde la década de 1950 hasta la de 1970. Los barrios de una ciudad eran reconocibles o podían distinguirse unos de otros por varias características que podían reducirse a tres mediante un análisis factorial. Estos se conocían como 'rango social' (un índice del estatus ocupacional), 'familismo' o tamaño de la familia y 'etnicidad'; Luego se podría aplicar el análisis de conglomerados para dividir la ciudad en conglomerados o recintos de acuerdo con los valores de las tres variables de factores clave. Se desarrolló una extensa literatura en torno a la ecología factorial en la geografía urbana, pero el enfoque pasó de moda después de 1980 por ser metodológicamente primitivo y tener poco lugar en los paradigmas geográficos posmodernos.

Uno de los problemas del análisis factorial siempre ha sido encontrar nombres convincentes para los diversos factores artificiales. En 2000, Flood revivió el enfoque de ecología factorial para mostrar que el análisis de componentes principales en realidad brindaba respuestas significativas directamente, sin recurrir a la rotación de factores. Los principales componentes eran en realidad variables duales o precios sombra de 'fuerzas'. uniendo o separando a la gente en las ciudades. El primer componente fue la 'accesibilidad', el clásico equilibrio entre la demanda de viajes y la demanda de espacio, en torno al cual se basa la economía urbana clásica. Los siguientes dos componentes fueron la "desventaja", que mantiene a las personas de estatus similar en vecindarios separados (mediado por la planificación), y la etnicidad, donde las personas de orígenes étnicos similares intentan vivir en el mismo lugar.

Casi al mismo tiempo, la Oficina de Estadísticas de Australia definió distintos índices de ventajas y desventajas tomando el primer componente principal de conjuntos de variables clave que se consideraban importantes. Estos índices SEIFA se publican regularmente para varias jurisdicciones y se utilizan con frecuencia en el análisis espacial.

Índices de desarrollo

PCA ha sido el único método formal disponible para el desarrollo de índices, que de otro modo son una empresa ad hoc de éxito o error.

PCA desarrolló el índice de desarrollo de la ciudad a partir de unos 200 indicadores de resultados de la ciudad en una encuesta de 1996 de 254 ciudades globales. El primer componente principal estuvo sujeto a una regresión iterativa, agregando las variables originales individualmente hasta que se representó alrededor del 90% de su variación. El índice finalmente usó alrededor de 15 indicadores, pero fue un buen predictor de muchas más variables. Su valor comparativo concordaba muy bien con una valoración subjetiva del estado de cada ciudad. Los coeficientes de los elementos de infraestructura fueron aproximadamente proporcionales a los costos promedio de brindar los servicios subyacentes, lo que sugiere que el Índice era en realidad una medida de la inversión física y social efectiva en la ciudad.

El Índice de Desarrollo Humano (IDH) a nivel de país del PNUD, que se publica desde 1990 y se usa mucho en estudios de desarrollo, tiene coeficientes muy similares en indicadores similares, lo que sugiere fuertemente que originalmente se construyó usando PCA.

Genética de poblaciones

En 1978, Cavalli-Sforza y otros fueron pioneros en el uso del análisis de componentes principales (PCA) para resumir datos sobre la variación en las frecuencias de genes humanos entre regiones. Los componentes mostraron patrones distintivos, incluidos gradientes y ondas sinusoidales. Interpretaron estos patrones como resultado de eventos migratorios antiguos específicos.

Desde entonces, PCA ha sido omnipresente en genética de poblaciones, con miles de artículos que utilizan PCA como mecanismo de visualización. La genética varía en gran medida según la proximidad, por lo que los dos primeros componentes principales en realidad muestran una distribución espacial y pueden usarse para mapear la ubicación geográfica relativa de diferentes grupos de población, mostrando así a los individuos que se han alejado de sus ubicaciones originales.

PCA en genética ha sido técnicamente controvertido, ya que la técnica se ha realizado en variables discretas no normales y, a menudo, en marcadores de alelos binarios. La falta de medidas de error estándar en PCA también es un impedimento para un uso más consistente. En agosto de 2022, el biólogo molecular Eran Elhaik publicó un artículo teórico en Scientific Reports analizando 12 aplicaciones PCA. Concluyó que era fácil manipular el método que, a su juicio, generaba resultados 'erróneos, contradictorios y absurdos'. Específicamente, argumentó, los resultados logrados en genética de poblaciones se caracterizaron por la selección de cerezas y el razonamiento circular.

Estudios de mercado e índices de actitud

La investigación de mercado ha sido un gran usuario de PCA. Se utiliza para desarrollar puntajes de satisfacción del cliente o lealtad del cliente para productos, y con agrupamiento, para desarrollar segmentos de mercado a los que se pueden dirigir campañas publicitarias, de la misma manera que la ecología factorial ubicará áreas geográficas con características similares.

PCA transforma rápidamente grandes cantidades de datos en variables más pequeñas y fáciles de digerir que se pueden analizar con mayor rapidez y facilidad. En cualquier cuestionario del consumidor, hay una serie de preguntas diseñadas para obtener las actitudes del consumidor, y los componentes principales buscan variables latentes que subyacen a estas actitudes. Por ejemplo, la Encuesta de Internet de Oxford en 2013 preguntó a 2000 personas sobre sus actitudes y creencias, y de estos analistas extrajeron cuatro componentes principales, que identificaron como 'escape', 'redes sociales', 'eficiencia' y 'creación de problemas'.

Otro ejemplo de Joe Flood en 2008 extrajo un índice de actitud hacia la vivienda de 28 preguntas de actitud en una encuesta nacional de 2697 hogares en Australia. El primer componente principal representaba una actitud general hacia la propiedad y la propiedad de la vivienda. El índice, o las preguntas de actitud que encarna, podrían introducirse en un modelo lineal general de elección de tenencia. El determinante más fuerte del alquiler privado fue, con mucho, el índice de actitud, en lugar de los ingresos, el estado civil o el tipo de hogar.

Finanzas cuantitativas

En las finanzas cuantitativas, el análisis de componentes principales se puede aplicar directamente a la gestión de riesgos de las carteras de derivados de tipos de interés. La negociación de múltiples instrumentos swap, que normalmente son una función de otros 30–500 instrumentos swap cotizables en el mercado, se busca reducir a 3 o 4 componentes principales, que representan la trayectoria de las tasas de interés sobre una base macro. Convertir los riesgos para que se representen como aquellos en cargas de factores (o multiplicadores) proporciona evaluaciones y comprensión más allá de lo que está disponible para simplemente ver los riesgos colectivamente en grupos individuales de 30 a 500.

PCA también se ha aplicado a carteras de renta variable de manera similar, tanto al riesgo de cartera como al rendimiento del riesgo. Una aplicación es reducir el riesgo de la cartera, donde las estrategias de asignación se aplican a las "carteras principales" en lugar de las acciones subyacentes. Una segunda es mejorar el rendimiento de la cartera, utilizando los componentes principales para seleccionar acciones con potencial alcista.

Neurociencia

En neurociencia se utiliza una variante del análisis de componentes principales para identificar las propiedades específicas de un estímulo que aumenta la probabilidad de que una neurona genere un potencial de acción. Esta técnica se conoce como análisis de covarianza desencadenado por picos. En una aplicación típica, un experimentador presenta un proceso de ruido blanco como estímulo (generalmente como una entrada sensorial a un sujeto de prueba o como una corriente inyectada directamente en la neurona) y registra un tren de potenciales de acción, o picos, producidos por el neurona como resultado. Presumiblemente, ciertas características del estímulo hacen que la neurona sea más propensa a disparar. Para extraer estas características, el experimentador calcula la matriz de covarianza del conjunto desencadenado por picos, el conjunto de todos los estímulos (definidos y discretizados en una ventana de tiempo finita, típicamente del orden de 100 ms) que inmediatamente precedió a un pico. Los vectores propios de la diferencia entre la matriz de covarianza desencadenada por picos y la matriz de covarianza del conjunto de estímulos previos (el conjunto de todos los estímulos, definidos durante la misma ventana de tiempo) indican las direcciones en el espacio de estímulos a lo largo de los cuales la varianza del conjunto desencadenado por picos difería más de la del conjunto de estímulos anterior. Específicamente, los vectores propios con los valores propios positivos más grandes corresponden a las direcciones a lo largo de las cuales la varianza del conjunto desencadenado por picos mostró el cambio positivo más grande en comparación con la varianza del anterior. Dado que estas fueron las direcciones en las que la variación del estímulo condujo a un pico, a menudo son buenas aproximaciones de las características de estímulo relevantes buscadas.

En neurociencia, PCA también se usa para discernir la identidad de una neurona a partir de la forma de su potencial de acción. La clasificación de picos es un procedimiento importante porque las técnicas de registro extracelular a menudo captan señales de más de una neurona. En la clasificación de picos, primero se usa PCA para reducir la dimensionalidad del espacio de formas de onda de potencial de acción y luego se realiza un análisis de agrupamiento para asociar potenciales de acción específicos con neuronas individuales.

La PCA, como técnica de reducción de dimensiones, es particularmente adecuada para detectar actividades coordinadas de grandes conjuntos neuronales. Se ha utilizado para determinar variables colectivas, es decir, parámetros de orden, durante las transiciones de fase en el cerebro.

Relación con otros métodos

Análisis de correspondencia

Análisis de correspondencia (CA) fue desarrollado por Jean-Paul Benzécri y es conceptualmente similar a PCA, pero escala los datos (que no deben ser negativos) para que las filas y las columnas se traten de manera equivalente. Se aplica tradicionalmente a las tablas de contingencia. CA descompone el estadístico chi-cuadrado asociado a esta tabla en factores ortogonales. Debido a que CA es una técnica descriptiva, se puede aplicar a tablas para las cuales la estadística de chi-cuadrado es apropiada o no. Varias variantes de CA están disponibles, incluido el análisis de correspondencia sin tendencia y el análisis de correspondencia canónica. Una extensión especial es el análisis de correspondencias múltiples, que puede verse como la contrapartida del análisis de componentes principales para datos categóricos.

Análisis factorial

La imagen anterior es un ejemplo de la diferencia entre PCA y Análisis de Factores. En el diagrama superior el "factor" (p. ej., trayectoria profesional) representa las tres variables observadas (p. ej., doctor, abogado, profesor) mientras que en el diagrama inferior las variables observadas (p. ej., profesor de preescolar, profesor de secundaria, profesor de secundaria) se reducen al componente de interés (p. ej., profesor).

El análisis de componentes principales crea variables que son combinaciones lineales de las variables originales. Las nuevas variables tienen la propiedad de que las variables son todas ortogonales. La transformación PCA puede ser útil como paso de preprocesamiento antes de la agrupación. PCA es un enfoque centrado en la varianza que busca reproducir la varianza variable total, en el que los componentes reflejan la varianza común y única de la variable. Por lo general, se prefiere PCA para fines de reducción de datos (es decir, traducir el espacio variable en un espacio de factores óptimo), pero no cuando el objetivo es detectar la construcción o los factores latentes.

El análisis factorial es similar al análisis de componentes principales, en el sentido de que el análisis factorial también implica combinaciones lineales de variables. A diferencia del PCA, el análisis factorial es un enfoque centrado en la correlación que busca reproducir las intercorrelaciones entre las variables, en el que los factores "representan la varianza común de las variables, excluyendo la varianza única". En términos de la matriz de correlación, esto corresponde a centrarse en explicar los términos fuera de la diagonal (es decir, covarianza compartida), mientras que PCA se centra en explicar los términos que se encuentran en la diagonal. Sin embargo, como resultado secundario, al intentar reproducir los términos en diagonal, PCA también tiende a ajustarse relativamente bien a las correlaciones fuera de la diagonal. Los resultados proporcionados por PCA y el análisis factorial son muy similares en la mayoría de las situaciones, pero no siempre es así y existen algunos problemas en los que los resultados son significativamente diferentes. El análisis factorial se usa generalmente cuando el propósito de la investigación es detectar la estructura de datos (es decir, constructos o factores latentes) o el modelado causal. Si el modelo factorial se formula incorrectamente o no se cumplen los supuestos, el análisis factorial dará resultados erróneos.

Conglomerado de K-medias

Se ha afirmado que la solución relajada del agrupamiento de k-medias, especificada por los indicadores de conglomerados, está dada por los componentes principales, y el subespacio PCA abarcado por las direcciones principales es idéntico al subespacio del centroide del conglomerado. Sin embargo, que PCA es una relajación útil de k, significa que el agrupamiento no era un resultado nuevo, y es sencillo descubrir contraejemplos a la afirmación de que el el subespacio del centroide del cúmulo está atravesado por las direcciones principales.

Factorización de matrices no negativas

Parcelas de varianza residual fraccional para PCA y NMF; para PCA, los valores teóricos son la contribución de los valores residuales. En comparación, las curvas FRV para PCA alcanzan una meseta plana donde ninguna señal se captura eficazmente; mientras que las curvas NMF FRV están disminuyendo continuamente, indicando una mejor capacidad de capturar señal. Las curvas FRV para NMF también convergen a niveles más altos que PCA, lo que indica la propiedad menos reacondicionada de NMF.

La factorización de matrices no negativas (NMF) es un método de reducción de dimensiones en el que solo se utilizan elementos no negativos en las matrices, por lo que es un método prometedor en astronomía, en el sentido de que las señales astrofísicas no son negativas. Los componentes de PCA son ortogonales entre sí, mientras que los componentes de NMF no son negativos y, por lo tanto, construyen una base no ortogonal.

En la PCA, la contribución de cada componente se sitúa sobre la base de la magnitud de su correspondiente valor eigenvalue, que equivale a la varianza residual fraccional (FRV) en el análisis de datos empíricos. Para NMF, sus componentes se clasifican sólo en las curvas empíricas de FRV. Las parcelas residuales de eigenvalue, es decir, como función del número de componente dado un total de componentes, para PCA tiene una meseta plana, donde no se capturan datos para eliminar el ruido cuasi estático, entonces las curvas cayeron rápidamente como una indicación de exceso de ajuste y captura el ruido aleatorio. Las curvas FRV para NMF están disminuyendo continuamente cuando los componentes NMF se construyen secuencialmente, indicando la captura continua de ruido cuasi estático; luego convergen a niveles más altos que PCA, indicando la propiedad menos de ajuste de NMF.

Iconografía de correlaciones

A menudo es difícil interpretar los componentes principales cuando los datos incluyen muchas variables de varios orígenes, o cuando algunas variables son cualitativas. Esto lleva al usuario de PCA a una delicada eliminación de varias variables. Si las observaciones o variables tienen un impacto excesivo en la dirección de los ejes, deben eliminarse y luego proyectarse como elementos complementarios. Además, es necesario evitar interpretar las proximidades entre los puntos cercanos al centro del plano factorial.

Iconografía de correlaciones - Geoquímica de aerosoles marinos

La iconografía de las correlaciones, por el contrario, que no es una proyección sobre un sistema de ejes, no tiene estos inconvenientes. Por lo tanto, podemos mantener todas las variables.

El principio del diagrama es subrayar lo "notable" correlaciones de la matriz de correlación, por línea continua (correlación positiva) o línea punteada (correlación negativa).

Una fuerte correlación no es "destacable" si no es directo, sino causado por el efecto de una tercera variable. Por el contrario, las correlaciones débiles pueden ser "notable". Por ejemplo, si una variable Y depende de varias variables independientes, las correlaciones de Y con cada una de ellas son débiles y, sin embargo, "notable".

Generalizaciones

PCA escasa

(feminine)

Una desventaja particular de PCA es que los componentes principales suelen ser combinaciones lineales de todas las variables de entrada. Sparse PCA supera esta desventaja al encontrar combinaciones lineales que contienen solo unas pocas variables de entrada. Extiende el método clásico de análisis de componentes principales (PCA) para la reducción de la dimensionalidad de los datos al agregar restricciones de escasez en las variables de entrada. Se han propuesto varios enfoques, incluyendo

  • un marco de regresión,
  • un marco de programación convexa/semidefinito,
  • un marco de método de potencia generalizado
  • un marco de maximización alterna
  • búsqueda codictiva hacia adelante y métodos exactos utilizando técnicas de rama y de límite,
  • Marco de formulación Bayesian.

Los desarrollos metodológicos y teóricos de Sparse PCA, así como sus aplicaciones en estudios científicos, se revisaron recientemente en un documento de encuesta.

PCA no lineal

PCA lineal contra Principal Manifolds no lineales para la visualización de datos de microarray de cáncer de mama: a) Configuración de nodos y superficie principal 2D en el manifold lineal 3D PCA. El conjunto de datos es curvado y no se puede mapear adecuadamente en un plano principal 2D; b) La distribución en las coordenadas de superficie principal 2D internas (ELMap2D) junto con una estimación de la densidad de puntos; c) Lo mismo que b), pero para el colector lineal 2D PCA (PCA2D). El subtipo de cáncer de mama "basal" se visualiza más adecuadamente con ELMap2D y algunas características de la distribución se resuelven mejor en comparación con PCA2D. Los múltiples principales son producidos por el algoritmo de mapas elásticos. Los datos están disponibles para la competencia pública. El software está disponible para uso gratuito no comercial.

La mayoría de los métodos modernos para la reducción de dimensionalidad no lineal encuentran sus raíces teóricas y algorítmicas en PCA o K-means. La idea original de Pearson era tomar una línea recta (o un plano) que sería "el mejor ajuste" a un conjunto de puntos de datos. Trevor Hastie amplió este concepto al proponer Curvas principales como la extensión natural para la interpretación geométrica de PCA, que construye explícitamente una variedad para la aproximación de datos seguida de la proyección de los puntos en ella, como se ilustra en la Fig. Véase también el algoritmo de mapa elástico y el análisis geodésico principal. Otra generalización popular es el PCA del kernel, que corresponde al PCA realizado en un espacio de Hilbert del kernel en reproducción asociado con un kernel definido positivo.

En el aprendizaje subespacial multilineal, PCA se generaliza a PCA multilineal (MPCA) que extrae características directamente de representaciones de tensor. MPCA se resuelve realizando PCA en cada modo del tensor de forma iterativa. MPCA se ha aplicado al reconocimiento facial, reconocimiento de la marcha, etc. MPCA se amplía aún más a MPCA no correlacionado, MPCA no negativo y MPCA robusto.

El análisis de componentes principales

N se puede realizar con modelos como la descomposición de Tucker, PARAFAC, análisis de factores múltiples, análisis de co-inercia, STATIS y DISTATIS.

PCA robusta

(feminine)

Si bien PCA encuentra el método matemáticamente óptimo (como en la minimización del error cuadrático), sigue siendo sensible a los valores atípicos en los datos que producen grandes errores, algo que el método trata de evitar en primer lugar. Por lo tanto, es una práctica común eliminar los valores atípicos antes de calcular el PCA. Sin embargo, en algunos contextos, los valores atípicos pueden ser difíciles de identificar. Por ejemplo, en los algoritmos de minería de datos como el agrupamiento de correlación, la asignación de puntos a los agrupamientos y valores atípicos no se conoce de antemano. Una generalización propuesta recientemente de PCA basada en un PCA ponderado aumenta la robustez al asignar diferentes pesos a los objetos de datos en función de su relevancia estimada.

También se han propuesto variantes de PCA resistentes a valores atípicos, basadas en formulaciones de norma L1 (L1-PCA).

El análisis robusto de componentes principales (RPCA) a través de la descomposición en matrices dispersas y de rango bajo es una modificación de PCA que funciona bien con respecto a las observaciones muy corruptas.

Técnicas similares

Análisis de componentes independientes

El análisis de componentes independientes (ICA) está dirigido a problemas similares al análisis de componentes principales, pero encuentra componentes separables de forma aditiva en lugar de aproximaciones sucesivas.

Análisis de componentes de red

Dada una matriz , intenta descomponerlo en dos matrices tal que . Una diferencia clave de técnicas como PCA y ICA es que algunas de las entradas están limitados a ser 0. Aquí. se denomina la capa reguladora. Si bien en general tal descomposición puede tener múltiples soluciones, prueban que si las siguientes condiciones están satisfechas:

  1. tiene rango de columna
  2. Cada columna de debe haber ceros donde es el número de columnas de (o alternativamente el número de filas de ). La justificación de este criterio es que si se elimina un nodo de la capa regulatoria junto con todos los nodos de salida conectados a él, el resultado debe todavía ser caracterizado por una matriz de conectividad con rango de columna completa.
  3. Debe tener fila completa.

entonces la descomposición es única hasta la multiplicación por un escalar.

Análisis discriminante de componentes principales

El análisis discriminante de componentes principales (DAPC) es un método multivariado que se utiliza para identificar y describir grupos de individuos relacionados genéticamente. La variación genética se divide en dos componentes: la variación entre grupos y dentro de los grupos, y maximiza la primera. Los discriminantes lineales son combinaciones lineales de alelos que separan mejor los grupos. Los alelos que más contribuyen a esta discriminación son, por lo tanto, los que son más marcadamente diferentes entre los grupos. Las contribuciones de los alelos a las agrupaciones identificadas por DAPC pueden permitir identificar regiones del genoma que impulsan la divergencia genética entre grupos. En DAPC, los datos primero se transforman mediante un análisis de componentes principales (PCA) y, posteriormente, los grupos se identifican mediante un análisis discriminante (DA).

Se puede realizar un DAPC en R usando el paquete Adegenet. (más info: adegenet en la web)

Software/código fuente