Análisis de componentes principales

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

Análisis de componentes principales (PCA) es una técnica popular para analizar grandes conjuntos de datos que contienen una gran cantidad de dimensiones/características por observación, lo que aumenta la interpretabilidad de los datos y preserva la máxima cantidad de información, y posibilitando la visualización de datos multidimensionales. Formalmente, PCA es una técnica estadística para reducir la dimensionalidad de un conjunto de datos. Esto se logra mediante la transformación lineal de los datos en un nuevo sistema de coordenadas en el que (la mayor parte) de la variación de los datos se puede describir con menos dimensiones que los datos iniciales. Muchos estudios utilizan los primeros dos componentes principales para trazar los datos en dos dimensiones e identificar visualmente grupos de puntos de datos estrechamente relacionados. El análisis de componentes principales tiene aplicaciones en muchos campos, como la genética de poblaciones, los estudios de microbiomas y la ciencia atmosférica.

PCA de una distribución multivariada Gaussiana centrada en (1,3) con una desviación estándar de 3 en aproximadamente la dirección (0.866, 0.5) y de 1 en la dirección ortogonal. Los vectores mostrados son los eigenvectores de la matriz de covariancia escalada por la raíz cuadrada del eigenvalue correspondiente, y cambiado por lo que sus colas están en la media.

El componentes principales de una colección de puntos en un espacio de coordenadas real son una secuencia de vectores de unidad, donde el -el vector es la dirección de una línea que mejor se ajusta a los datos mientras que ser ortogonal a la primera vectores. Aquí, una línea de mejor ajuste se define como una que minimiza la distancia perpendicular cuadrada promedio de los puntos a la línea. Estas direcciones constituyen una base ortonormal en la que diferentes dimensiones individuales de los datos son linealmente incorrelacionadas. El análisis principal de componentes es el proceso de cálculo de los componentes principales y utilizarlos para realizar un cambio de base sobre los datos, a veces utilizando sólo los primeros pocos componentes principales e ignorando el resto.

En el análisis de datos, el primer componente principal de un conjunto de variables, supuestamente distribuidas conjuntamente, es la variable derivada formada como una combinación lineal de las variables originales que explican la mayor variabilidad. El segundo componente principal explica la mayor varianza de lo que queda una vez que se elimina el efecto del primer componente, y podemos proceder a través de iteraciones hasta que toda la varianza se explica. PCA se utiliza más comúnmente cuando muchas de las variables están muy correlacionadas entre sí y es deseable reducir su número a un conjunto independiente.

PCA se utiliza en el análisis de datos exploratorios y para hacer modelos predictivos. Se utiliza comúnmente para la reducción de la dimensionalidad proyectando cada punto de datos sobre sólo los primeros componentes principales para obtener datos de menor dimensión preservando la mayor parte de la variación de los datos posible. El primer componente principal puede definirse como una dirección que maximice la diferencia de los datos proyectados. El - el componente principal se puede tomar como una dirección ortogonal al primero componentes principales que maximizan la diferencia de los datos proyectados.

Para cualquier objetivo, se puede demostrar que los componentes principales son vectores propios de la matriz de covarianza de los datos. Por lo tanto, los componentes principales a menudo se calculan mediante la descomposición propia de la matriz de covarianza de datos o la descomposición en valores singulares de la matriz de datos. PCA es el más simple de los verdaderos análisis multivariados basados en vectores propios y está estrechamente relacionado con el análisis factorial. El análisis factorial normalmente incorpora suposiciones más específicas de dominio sobre la estructura subyacente y resuelve vectores propios de una matriz ligeramente diferente. PCA también está relacionado con el análisis de correlación canónica (CCA). CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzada entre dos conjuntos de datos, mientras que PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un único conjunto de datos. También se han propuesto variantes robustas y basadas en normas L1 de PCA estándar.

Historia

PCA fue inventado en 1901 por Karl Pearson, como un análogo del teorema del eje principal en mecánica; Más tarde, Harold Hotelling lo desarrolló de forma independiente y lo nombró en la década de 1930. Dependiendo del campo de aplicación, también se denomina transformada discreta de Karhunen-Loève (KLT) en procesamiento de señales, transformada de Hotelling en control de calidad multivariado, descomposición ortogonal propia (POD) en ingeniería mecánica, descomposición en valor singular (SVD) de < b>X (inventado en el último cuarto del siglo XX), descomposición de valores propios (EVD) de XTX en álgebra lineal, análisis factorial (para una discusión de las diferencias entre PCA y análisis factorial ver Capítulo 7 del Análisis de componentes principales de Jolliffe), teorema de Eckart-Young (Harman, 1960), o funciones ortogonales empíricas (EOF) en ciencias meteorológicas (Lorenz, 1956), descomposición de función propia empírica (Sirovich, 1987), modos cuasiarmónicos (Brooks et al., 1988), descomposición espectral en ruido y vibración, y análisis modal empírico en dinámica estructural.

Intuición

PCA se puede considerar como el ajuste de un elipsoide de dimensión p a los datos, donde cada eje del elipsoide representa un componente principal. Si algún eje del elipsoide es pequeño, entonces la varianza a lo largo de ese eje también es pequeña.

Para encontrar los ejes del elipsoide, primero debemos centrar los valores de cada variable en el conjunto de datos en 0 restando la media de los valores observados de la variable de cada uno de esos valores. Estos valores transformados se utilizan en lugar de los valores originales observados para cada una de las variables. Luego, calculamos la matriz de covarianza de los datos y calculamos los valores propios y los vectores propios correspondientes de esta matriz de covarianza. Luego debemos normalizar cada uno de los vectores propios ortogonales para convertirlos en vectores unitarios. Una vez hecho esto, cada uno de los vectores propios unitarios mutuamente ortogonales se puede interpretar como un eje del elipsoide ajustado a los datos. Esta elección de base transformará la matriz de covarianza en una forma diagonalizada, en la que los elementos diagonales representan la varianza de cada eje. La proporción de la varianza que representa cada vector propio se puede calcular dividiendo el valor propio correspondiente a ese vector propio por la suma de todos los valores propios.

Se utilizan biplots y scree plots (grado de varianza explicada) para explicar los hallazgos del PCA.

La imagen anterior es de una trama de tornillo que está destinada a ayudar a interpretar el PCA y decidir cuántos componentes conservar. El inicio de la curva en la línea (punto de inflexión) debe indicar cuántos componentes se mantienen, por lo tanto en este ejemplo, tres factores deben ser retenidos.

Detalles

PCA se define como una transformación lineal ortogonal que transforma los datos en un nuevo sistema de coordenadas, de modo que la mayor variación por alguna proyección escalar de los datos llega a estar en la primera coordenada (llamada el primer componente principal), la segunda mayor varianza en la segunda coordenada, y así sucesivamente.

Considerar un matriz de datos, X, con el medio empírico cero en la columna (la media muestra de cada columna se ha desplazado a cero), donde cada uno de los n filas representa una repetición diferente del experimento, y cada una de las p columnas da un tipo particular de característica (por ejemplo, los resultados de un sensor en particular).

Matemáticamente, la transformación se define por un conjunto de tamaño de p- vectores dimensionales de pesos o coeficientes que mapa cada fila vector de X a un nuevo vector de componente principal puntuaciones , dado por

de tal manera que las variables individuales de t considerado en el conjunto de datos hereda sucesivamente la diferencia máxima posible X, con cada vector de coeficiente w limitado a ser un vector unitario (donde generalmente se selecciona para ser estrictamente menos que reducir la dimensionalidad).

Primer componente

Para maximizar la varianza, el primer vector de peso w(1) tiene que satisfacer

Contenido relacionado

Función elíptica

Serie TI-89

Inducción transfinita

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save