Correlación canónica

Ajustar Compartir Imprimir Citar

Formas de inferir información de matrices de covariancia cruzada

En estadística, el análisis de correlación canónica (CCA), también llamado análisis de variables canónicas, es una forma de inferir información a partir de matrices de covarianza. Si tenemos dos vectores X = (X₁,..., X_n) y Y = (Y₁,..., Y _m) de variables aleatorias, y existen correlaciones entre las variables, entonces el análisis de correlación canónica encontrará combinaciones lineales de X y Y que tienen la máxima correlación entre sí. T. R. Knapp señala que "prácticamente todas las pruebas paramétricas de significancia que se encuentran comúnmente pueden tratarse como casos especiales de análisis de correlación canónica, que es el procedimiento general para investigar las relaciones entre dos conjuntos de variables". El método fue introducido por primera vez por Harold Hotelling en 1936, aunque en el contexto de los ángulos entre planos el concepto matemático fue publicado por Jordan en 1875.

Definición

Dados dos vectores de columna ${displaystyle X=(x_{1},dotsx_{n})^{T}}$ y ${displaystyle Y=(y_{1},dotsy_{m})^{T}}$ de variables aleatorias con segundos momentos finitos, se puede definir la covariancia cruzada $Sigma _{XY}=operatorname {cov} (X,Y)$ ser el $ntimes m$ matriz $(i,j)$ entrada es la covariancia $operatorname {cov} (x_{i},y_{j})$ . En la práctica, estimamos la matriz de covariancia basada en datos muestreados de $X$ y $Y$ (es decir, de un par de matrices de datos).

Análisis canónico-correlación busca vectores $a$ () ${displaystyle ain mathbb {R} ^{n}}$ ) y $b$ () ${displaystyle bin mathbb {R} ^{m}}$ ) tal que las variables al azar ${displaystyle a^{T}X}$ y ${displaystyle b^{T}Y}$ maximizar la correlación ${displaystyle rho =operatorname {corr} (a^{T}X,b^{T}Y)}$ . Las variables aleatorias (scalar) ${displaystyle U=a^{T}X}$ y ${displaystyle V=b^{T}Y}$ son primer par de variables canónicas. Entonces uno busca vectores maximizando la misma correlación sujeta a la restricción de que deben estar incorrelacionados con el primer par de variables canónicas; esto da el segundo par de variables canónicas. Este procedimiento puede continuar hasta $min{m,n}$ veces.

{displaystyle (a',b')={underset {a,b}{operatorname {argmax} }}operatorname {corr} (a^{T}X,b^{T}Y)}

Cálculo

Derivación

Vamos ${displaystyle Sigma _{XY}}$ ser la matriz de covariancia cruzada para cualquier par de variables aleatorias (en forma de actor) $X$ y $Y$ . La función objetivo para maximizar es

{displaystyle rho ={frac {a^{T}Sigma _{XY}b}{{sqrt {a^{T}Sigma _{XX}a}}{sqrt {b^{T}Sigma _{YY}b}}}}.}

El primer paso es definir un cambio de base y definir

c=Sigma _{XX}^{1/2}a,

{displaystyle d=Sigma _{YY}^{1/2}b,}

Donde ${displaystyle Sigma _{XX}}$ y ${displaystyle Sigma _{YY}}$ se puede obtener de la descomposición eigena (o por diagonalización):

{displaystyle Sigma _{XX}^{1/2}=V_{X}D_{X}^{1/2}V_{X}^{top },qquad V_{X}D_{X}V_{X}^{top }=Sigma _{XX},}

{displaystyle Sigma _{YY}^{1/2}=V_{Y}D_{Y}^{1/2}V_{Y}^{top },qquad V_{Y}D_{Y}V_{Y}^{top }=Sigma _{YY}.}

Y así tenemos

{displaystyle rho ={frac {c^{T}Sigma _{XX}^{-1/2}Sigma _{XY}Sigma _{YY}^{-1/2}d}{{sqrt {c^{T}c}}{sqrt {d^{T}d}}}}.}

Por la desigualdad de Cauchy-Schwarz, tenemos

{displaystyle left(c^{T}Sigma _{XX}^{-1/2}Sigma _{XY}Sigma _{YY}^{-1/2}right)(d)leq left(c^{T}Sigma _{XX}^{-1/2}Sigma _{XY}Sigma _{YY}^{-1/2}Sigma _{YY}^{-1/2}Sigma _{YX}Sigma _{XX}^{-1/2}cright)^{1/2}left(d^{T}dright)^{1/2},}

{displaystyle rho leq {frac {left(c^{T}Sigma _{XX}^{-1/2}Sigma _{XY}Sigma _{YY}^{-1}Sigma _{YX}Sigma _{XX}^{-1/2}cright)^{1/2}}{left(c^{T}cright)^{1/2}}}.}

Hay igualdad si los vectores $d$ y ${displaystyle Sigma _{YY}^{-1/2}Sigma _{YX}Sigma _{XX}^{-1/2}c}$ son collinear. Además, se alcanza el máximo de correlación si $c$ es el eigenvector con el eigenvalo máximo para la matriz ${displaystyle Sigma _{XX}^{-1/2}Sigma _{XY}Sigma _{YY}^{-1}Sigma _{YX}Sigma _{XX}^{-1/2}}$ (vea el cociente Rayleigh). Los pares posteriores se encuentran utilizando valores eigenvalues decrecientes magnitudes. La ortogonalidad está garantizada por la simetría de las matrices de correlación.

Otra manera de ver este cálculo es que $c$ y $d$ son los vectores singulares izquierdo y derecho de la matriz de correlación de X y Y correspondientes al valor singular más alto.

Solución

La solución es por lo tanto:

$c$ es un eigenvector de ${displaystyle Sigma _{XX}^{-1/2}Sigma _{XY}Sigma _{YY}^{-1}Sigma _{YX}Sigma _{XX}^{-1/2}}$
$d$ es proporcional a ${displaystyle Sigma _{YY}^{-1/2}Sigma _{YX}Sigma _{XX}^{-1/2}c}$

Recíprocamente, también existe:

$d$ es un eigenvector de ${displaystyle Sigma _{YY}^{-1/2}Sigma _{YX}Sigma _{XX}^{-1}Sigma _{XY}Sigma _{YY}^{-1/2}}$
$c$ es proporcional a ${displaystyle Sigma _{XX}^{-1/2}Sigma _{XY}Sigma _{YY}^{-1/2}d}$

Invirtiendo el cambio de coordenadas, tenemos que

$a$ es un eigenvector de ${displaystyle Sigma _{XX}^{-1}Sigma _{XY}Sigma _{YY}^{-1}Sigma _{YX}}$ ,
$b$ es proporcional a ${displaystyle Sigma _{YY}^{-1}Sigma _{YX}a;}$
$b$ es un eigenvector de ${displaystyle Sigma _{YY}^{-1}Sigma _{YX}Sigma _{XX}^{-1}Sigma _{XY},}$
$a$ es proporcional a ${displaystyle Sigma _{XX}^{-1}Sigma _{XY}b}$ .

Las variables canónicas están definidas por:

{displaystyle U=c^{T}Sigma _{XX}^{-1/2}X=a^{T}X}

{displaystyle V=d^{T}Sigma _{YY}^{-1/2}Y=b^{T}Y}

Implementación

CCA se puede calcular mediante la descomposición de valores singulares en una matriz de correlación. Está disponible como función en

MATLAB como canoncorr (también en Octave)
R como la función estándar cancor y varios otros paquetes, incluyendo CCA y vegan. CCP para pruebas de hipótesis estadísticas en análisis de correlación canónica.
SAS como cancorrista proc
Python en la biblioteca scikit-learn, como descomposición cruzada y en estadísticamodels, como CanCorr.
SPSS como macro CanCorr enviado con el software principal
Julia (lengua de programación) en el paquete MultivariateStats.jl.

El cálculo de CCA utilizando la descomposición de valores singulares en una matriz de correlación está relacionado con el coseno de los ángulos entre pisos. La función coseno está mal condicionada para ángulos pequeños, lo que lleva a un cálculo muy inexacto de vectores principales altamente correlacionados en aritmética informática de precisión finita. Para solucionar este problema, hay algoritmos alternativos disponibles en

SciPy como subspace_angles función linear-algebra
MATLAB como subespacial de función FileExchangea

Prueba de hipótesis

Cada fila se puede probar para significar con el siguiente método. Ya que las correlaciones están ordenadas, diciendo que fila $i$ es cero implica que todas las correlaciones adicionales son también cero. Si tenemos $p$ observaciones independientes en una muestra y ${widehat {rho }}_{i}$ es la correlación estimada $i=1,dotsmin{m,n}$ . Para el $i$ la estadística de prueba es:

{displaystyle chi ^{2}=-left(p-1-{frac {1}{2}}(m+n+1)right)ln prod _{j=i}^{min{m,n}}(1-{widehat {rho }}_{j}^{2}),}

que se distribuye asintóticamente como un chi-squared con $(m-i+1)(n-i+1)$ grados de libertad para grandes $p$ . Desde todas las correlaciones de $min{m,n}$ a $p$ son lógicamente cero (y estimado de esa manera también) el producto para los términos después de este punto es irrelevante.

Observe que en el pequeño límite de tamaño muestra con $<math alttext="{displaystyle pp.n+m{displaystyle p maden+m} <img alt="{displaystyle p$ entonces estamos garantizados que la parte superior ${displaystyle m+n-p}$ Las correlaciones serán idénticas 1 y por lo tanto la prueba no tiene sentido.

Usos prácticos

Un uso típico de la correlación canónica en el contexto experimental es tomar dos conjuntos de variables y ver qué es común entre los dos conjuntos. Por ejemplo, en las pruebas psicológicas, se podrían realizar dos pruebas de personalidad multidimensionales bien establecidas, como el Inventario Multifásico de Personalidad de Minnesota (MMPI-2) y el NEO. Al ver cómo se relacionan los factores MMPI-2 con los factores NEO, se podría obtener una idea de qué dimensiones eran comunes entre las pruebas y cuánta varianza se compartió. Por ejemplo, se podría encontrar que una dimensión de extraversión o neuroticismo explica una cantidad sustancial de varianza compartida entre las dos pruebas.

También se puede utilizar el análisis de correlación canónica para producir una ecuación modelo que relacione dos conjuntos de variables, por ejemplo, un conjunto de medidas de desempeño y un conjunto de variables explicativas, o un conjunto de resultados y un conjunto de entradas. Se pueden imponer restricciones a dicho modelo para garantizar que refleje requisitos teóricos o condiciones intuitivamente obvias. Este tipo de modelo se conoce como modelo de máxima correlación.

La visualización de los resultados de la correlación canónica suele realizarse mediante diagramas de barras de los coeficientes de los dos conjuntos de variables para los pares de variables canónicas que muestran una correlación significativa. Algunos autores sugieren que se visualizan mejor trazándolos como heliógrafos, un formato circular con barras en forma de rayos, donde cada mitad representa los dos conjuntos de variables.

Ejemplos

Vamos $X=x_{1}$ con cero valor esperado, es decir, $operatorname {E} (X)=0$ .

Si $Y=X$ , es decir, $X$ y $Y$ están perfectamente correlacionados, entonces, por ejemplo, $a=1$ y $b=1$ , por lo que el primer (y sólo en este ejemplo) par de variables canónicas es $U=X$ y $V=Y=X$ .
Si $Y=-X$ , es decir, $X$ y $Y$ son perfectamente anticorrelacionados, entonces, por ejemplo, $a=1$ y $b=-1$ , por lo que el primer (y sólo en este ejemplo) par de variables canónicas es $U=X$ y $V=-Y=X$ .

Nos damos cuenta de que en ambos casos $U=V$ , que ilustra que el análisis canónico-correlación trata variables correlativas y anticorrelacionadas de manera similar.

Conexión a los ángulos principales

Suponiendo que ${displaystyle X=(x_{1},dotsx_{n})^{T}}$ y ${displaystyle Y=(y_{1},dotsy_{m})^{T}}$ tienen cero valores esperados, es decir, $operatorname {E} (X)=operatorname {E} (Y)=0$ , sus matrices de covariancia ${displaystyle Sigma _{XX}=operatorname {Cov} (X,X)=operatorname {E} [XX^{T}]}$ y ${displaystyle Sigma _{YY}=operatorname {Cov} (Y,Y)=operatorname {E} [YY^{T}]}$ se puede ver como matrices Gram en un producto interior para las entradas $X$ y $Y$ , correspondientemente. En esta interpretación, las variables al azar, las entradas $x_{i}$ de $X$ y $y_{j}$ de $Y$ son tratados como elementos de un espacio vectorial con un producto interior dado por la covariancia $operatorname {cov} (x_{i},y_{j})$ ; ver Covariancia#Relación a productos internos.

La definición de las variables canónicas $U$ y $V$ es entonces equivalente a la definición de vectores principales para el par de subespacios abarcados por las entradas de $X$ y $Y$ con respecto a este producto interno. Las correlaciones canónicas $operatorname {corr} (U,V)$ es igual al cosino de ángulos principales.

Análisis de correlación canónica probabilística y blanqueamiento

CCA también se puede ver como una transformación de blanqueamiento especial donde los vectores aleatorios $X$ y $Y$ se transforman simultáneamente de tal manera que la cruz-correlación entre los vectores blanqueados ${displaystyle X^{CCA}}$ y ${displaystyle Y^{CCA}}$ es diagonal. Las correlaciones canónicas se interpretan entonces como coeficientes de regresión que unen ${displaystyle X^{CCA}}$ y ${displaystyle Y^{CCA}}$ y también puede ser negativo. La visión de regresión de CCA también proporciona una manera de construir un modelo probabilístico variable latente para CCA, con variables ocultas no correlativas que representan variabilidad compartida y no compartida.