Correlación canónica

Ajustar Compartir Imprimir Citar
Formas de inferir información de matrices de covariancia cruzada

En estadística, el análisis de correlación canónica (CCA), también llamado análisis de variables canónicas, es una forma de inferir información a partir de matrices de covarianza. Si tenemos dos vectores X = (X1,..., X n) y Y = (Y1,..., Y m) de variables aleatorias, y existen correlaciones entre las variables, entonces el análisis de correlación canónica encontrará combinaciones lineales de X y Y que tienen la máxima correlación entre sí. T. R. Knapp señala que "prácticamente todas las pruebas paramétricas de significancia que se encuentran comúnmente pueden tratarse como casos especiales de análisis de correlación canónica, que es el procedimiento general para investigar las relaciones entre dos conjuntos de variables". El método fue introducido por primera vez por Harold Hotelling en 1936, aunque en el contexto de los ángulos entre planos el concepto matemático fue publicado por Jordan en 1875.

Definición

Dados dos vectores de columna X=()x1,...... ,xn)T{displaystyle X=(x_{1},dotsx_{n}{T}} y Y=()Sí.1,...... ,Sí.m)T{displaystyle Y=(y_{1},dotsy_{m} de variables aleatorias con segundos momentos finitos, se puede definir la covariancia cruzada .. XY=cov⁡ ⁡ ()X,Y){displaystyle Sigma _{XY}=operatorname {cov} (X,Y)} ser el n× × m{displaystyle ntimes m} matriz ()i,j){displaystyle (i,j)} entrada es la covariancia cov⁡ ⁡ ()xi,Sí.j){displaystyle operatorname {cov} (x_{i},y_{j}}. En la práctica, estimamos la matriz de covariancia basada en datos muestreados de X{displaystyle X} y Y{displaystyle Sí. (es decir, de un par de matrices de datos).

Análisis canónico-correlación busca vectores a{displaystyle a} ()a▪ ▪ Rn{displaystyle ain mathbb {R} {fn}) y b{displaystyle b} ()b▪ ▪ Rm{displaystyle bin mathbb {R} {m}) tal que las variables al azar aTX{displaystyle a^{T}X} y bTY{displaystyle b^{T}Y} maximizar la correlación *** *** =corrido⁡ ⁡ ()aTX,bTY){displaystyle rho =operatorname {corr} (a^{T}X,b^{T}Y)}. Las variables aleatorias (scalar) U=aTX{displaystyle U=a^{T}X} y V=bTY{displaystyle V=b^{T}Y} son primer par de variables canónicas. Entonces uno busca vectores maximizando la misma correlación sujeta a la restricción de que deben estar incorrelacionados con el primer par de variables canónicas; esto da el segundo par de variables canónicas. Este procedimiento puede continuar hasta min{}m,n}{displaystyle min{m,n} veces.

()a.,b.)=argmaxa,bcorrido⁡ ⁡ ()aTX,bTY){displaystyle (a',b')={underset {a,b}{operatorname {argmax}}operatorname {corr} (a^{T}X,b^{T}Y)}

Cálculo

Derivación

Vamos .. XY{displaystyle Sigma _{XY}} ser la matriz de covariancia cruzada para cualquier par de variables aleatorias (en forma de actor) X{displaystyle X} y Y{displaystyle Sí.. La función objetivo para maximizar es

*** *** =aT.. XYbaT.. XXabT.. YYb.{displaystyle rho ={f}Sigma {fnK}b} {fnMicrosoft Sans Serif} ¿Por qué? - Sí.

El primer paso es definir un cambio de base y definir

c=.. XX1/2a,{displaystyle c= Sigma ¿Qué?
d=.. YY1/2b,{displaystyle D=Sigma ¿Qué?

Donde .. XX{displaystyle Sigma _{XX}} y .. YY{displaystyle Sigma ¿Qué? se puede obtener de la descomposición eigena (o por diagonalización):

.. XX1/2=VXDX1/2VX⊤ ⊤ ,VXDXVX⊤ ⊤ =.. XX,{displaystyle Sigma _{XX}^{1/2}=V_{X}D_{X}{X}V_{X}^{top }qquad V_{X}D_{X}V_{X}{X}{X}{X}{X}{X}{X} }=Sigma _{XX},}

y

.. YY1/2=VYDY1/2VY⊤ ⊤ ,VYDYVY⊤ ⊤ =.. YY.{displaystyle Sigma ¿Qué? Sí.


Y así tenemos

*** *** =cT.. XX− − 1/2.. XY.. YY− − 1/2dcTcdTd.{displaystyle rho ={T}Sigma - ¿Qué? ¿Por qué? ¿Por qué? {fnMicrosoft Sans Serif}}

Por la desigualdad de Cauchy-Schwarz, tenemos

()cT.. XX− − 1/2.. XY.. YY− − 1/2)()d)≤ ≤ ()cT.. XX− − 1/2.. XY.. YY− − 1/2.. YY− − 1/2.. YX.. XX− − 1/2c)1/2()dTd)1/2,{displaystyle left(c^{T}Sigma ¿Qué? Sigma ¿Por qué? ¿Por qué? - ¿Qué? ¿Por qué? ¿Por qué? ¿Por qué? - ¿Qué? ¿Por qué?
*** *** ≤ ≤ ()cT.. XX− − 1/2.. XY.. YY− − 1.. YX.. XX− − 1/2c)1/2()cTc)1/2.{displaystyle rho leq {left(c^{T}Sigma - ¿Qué? ¿Por qué? ¿Qué? Sí. Sigma - ¿Qué? ¿Por qué?

Hay igualdad si los vectores d{displaystyle d} y .. YY− − 1/2.. YX.. XX− − 1/2c{displaystyle Sigma ¿Por qué? - ¿Qué? ¿Qué? son collinear. Además, se alcanza el máximo de correlación si c{displaystyle c} es el eigenvector con el eigenvalo máximo para la matriz .. XX− − 1/2.. XY.. YY− − 1.. YX.. XX− − 1/2{displaystyle Sigma _{XX}^{-1/2}Sigma ¿Por qué? ¿Qué? Sí. Sigma - ¿Qué? ¿Qué? (vea el cociente Rayleigh). Los pares posteriores se encuentran utilizando valores eigenvalues decrecientes magnitudes. La ortogonalidad está garantizada por la simetría de las matrices de correlación.

Otra manera de ver este cálculo es que c{displaystyle c} y d{displaystyle d} son los vectores singulares izquierdo y derecho de la matriz de correlación de X y Y correspondientes al valor singular más alto.

Solución

La solución es por lo tanto:

Recíprocamente, también existe:

Invirtiendo el cambio de coordenadas, tenemos que

Las variables canónicas están definidas por:

U=cT.. XX− − 1/2X=aTX{displaystyle U=c^{T}Sigma ¿Qué?
V=dT.. YY− − 1/2Y=bTY{displaystyle V=d^{T}Sigma - Sí.

Implementación

CCA se puede calcular mediante la descomposición de valores singulares en una matriz de correlación. Está disponible como función en

El cálculo de CCA utilizando la descomposición de valores singulares en una matriz de correlación está relacionado con el coseno de los ángulos entre pisos. La función coseno está mal condicionada para ángulos pequeños, lo que lleva a un cálculo muy inexacto de vectores principales altamente correlacionados en aritmética informática de precisión finita. Para solucionar este problema, hay algoritmos alternativos disponibles en

Prueba de hipótesis

Cada fila se puede probar para significar con el siguiente método. Ya que las correlaciones están ordenadas, diciendo que fila i{displaystyle i} es cero implica que todas las correlaciones adicionales son también cero. Si tenemos p{displaystyle p} observaciones independientes en una muestra y *** *** ^ ^ i{displaystyle {widehat {rho} } es la correlación estimada i=1,...... ,min{}m,n}{displaystyle i=1,dot smin{m,n}. Para el i{displaystyle i}la estadística de prueba es:

χ χ 2=− − ()p− − 1− − 12()m+n+1))In⁡ ⁡ ∏ ∏ j=imin{}m,n}()1− − *** *** ^ ^ j2),{displaystyle chi ^{2}=-left(p-1-{frac {1}{2}(m+n+1)right)ln prod _{j=i}{min{m,n}(1-{widehat {rho }}_{j}{2}}}}}} {

que se distribuye asintóticamente como un chi-squared con ()m− − i+1)()n− − i+1){displaystyle (m-i+1)(n-i+1)} grados de libertad para grandes p{displaystyle p}. Desde todas las correlaciones de min{}m,n}{displaystyle min{m,n} a p{displaystyle p} son lógicamente cero (y estimado de esa manera también) el producto para los términos después de este punto es irrelevante.

Observe que en el pequeño límite de tamaño muestra con <math alttext="{displaystyle pp.n+m{displaystyle p maden+m}<img alt="{displaystyle p entonces estamos garantizados que la parte superior m+n− − p{displaystyle m+n-p} Las correlaciones serán idénticas 1 y por lo tanto la prueba no tiene sentido.

Usos prácticos

Un uso típico de la correlación canónica en el contexto experimental es tomar dos conjuntos de variables y ver qué es común entre los dos conjuntos. Por ejemplo, en las pruebas psicológicas, se podrían realizar dos pruebas de personalidad multidimensionales bien establecidas, como el Inventario Multifásico de Personalidad de Minnesota (MMPI-2) y el NEO. Al ver cómo se relacionan los factores MMPI-2 con los factores NEO, se podría obtener una idea de qué dimensiones eran comunes entre las pruebas y cuánta varianza se compartió. Por ejemplo, se podría encontrar que una dimensión de extraversión o neuroticismo explica una cantidad sustancial de varianza compartida entre las dos pruebas.

También se puede utilizar el análisis de correlación canónica para producir una ecuación modelo que relacione dos conjuntos de variables, por ejemplo, un conjunto de medidas de desempeño y un conjunto de variables explicativas, o un conjunto de resultados y un conjunto de entradas. Se pueden imponer restricciones a dicho modelo para garantizar que refleje requisitos teóricos o condiciones intuitivamente obvias. Este tipo de modelo se conoce como modelo de máxima correlación.

La visualización de los resultados de la correlación canónica suele realizarse mediante diagramas de barras de los coeficientes de los dos conjuntos de variables para los pares de variables canónicas que muestran una correlación significativa. Algunos autores sugieren que se visualizan mejor trazándolos como heliógrafos, un formato circular con barras en forma de rayos, donde cada mitad representa los dos conjuntos de variables.

Ejemplos

Vamos X=x1{displaystyle X=x_{1} con cero valor esperado, es decir, E⁡ ⁡ ()X)=0{displaystyle operatorname {E} (X)=0}.

  1. Si Y=X{displaystyle Y=X}, es decir, X{displaystyle X} y Y{displaystyle Sí. están perfectamente correlacionados, entonces, por ejemplo, a=1{displaystyle a=1} y b=1{displaystyle b=1}, por lo que el primer (y sólo en este ejemplo) par de variables canónicas es U=X{displaystyle U=X} y V=Y=X{displaystyle V=Y=X}.
  2. Si Y=− − X{displaystyle Y=-X}, es decir, X{displaystyle X} y Y{displaystyle Sí. son perfectamente anticorrelacionados, entonces, por ejemplo, a=1{displaystyle a=1} y b=− − 1{displaystyle b=-1}, por lo que el primer (y sólo en este ejemplo) par de variables canónicas es U=X{displaystyle U=X} y V=− − Y=X{displaystyle V=-Y=X}.

Nos damos cuenta de que en ambos casos U=V{displaystyle U=V., que ilustra que el análisis canónico-correlación trata variables correlativas y anticorrelacionadas de manera similar.

Conexión a los ángulos principales

Suponiendo que X=()x1,...... ,xn)T{displaystyle X=(x_{1},dotsx_{n}{T}} y Y=()Sí.1,...... ,Sí.m)T{displaystyle Y=(y_{1},dotsy_{m} tienen cero valores esperados, es decir, E⁡ ⁡ ()X)=E⁡ ⁡ ()Y)=0{displaystyle operatorname {E} (X)=operatorname {E} (Y)=0}, sus matrices de covariancia .. XX=Cov⁡ ⁡ ()X,X)=E⁡ ⁡ [XXT]{displaystyle Sigma _{XX}=operatorname {Cov} (X,X)= [XX^{T]] y .. YY=Cov⁡ ⁡ ()Y,Y)=E⁡ ⁡ [YYT]{displaystyle Sigma ################################################################################################################################################################################################################################################################ {Cov} (Y,Y)= [E] [YYY^{T] se puede ver como matrices Gram en un producto interior para las entradas X{displaystyle X} y Y{displaystyle Sí., correspondientemente. En esta interpretación, las variables al azar, las entradas xi{displaystyle x_{i}} de X{displaystyle X} y Sí.j{displaystyle y_{j} de Y{displaystyle Sí. son tratados como elementos de un espacio vectorial con un producto interior dado por la covariancia cov⁡ ⁡ ()xi,Sí.j){displaystyle operatorname {cov} (x_{i},y_{j}}; ver Covariancia#Relación a productos internos.

La definición de las variables canónicas U{displaystyle U} y V{displaystyle V} es entonces equivalente a la definición de vectores principales para el par de subespacios abarcados por las entradas de X{displaystyle X} y Y{displaystyle Sí. con respecto a este producto interno. Las correlaciones canónicas corrido⁡ ⁡ ()U,V){displaystyle operatorname {corr} (U,V)} es igual al cosino de ángulos principales.

Análisis de correlación canónica probabilística y blanqueamiento

CCA también se puede ver como una transformación de blanqueamiento especial donde los vectores aleatorios X{displaystyle X} y Y{displaystyle Sí. se transforman simultáneamente de tal manera que la cruz-correlación entre los vectores blanqueados XCCA{displaystyle X^{CCA} y YCCA{displaystyle Y. es diagonal. Las correlaciones canónicas se interpretan entonces como coeficientes de regresión que unen XCCA{displaystyle X^{CCA} y YCCA{displaystyle Y. y también puede ser negativo. La visión de regresión de CCA también proporciona una manera de construir un modelo probabilístico variable latente para CCA, con variables ocultas no correlativas que representan variabilidad compartida y no compartida.