Coeficiente GINI
En economía, el coeficiente de Gini también conocido como índice de Gini o ratio de Gini, es una medida de dispersión estadística destinada a representar... (leer más)
En estadística, el análisis de correlación canónica (CCA), también llamado análisis de variables canónicas, es una forma de inferir información a partir de matrices de covarianza. Si tenemos dos vectores X = (X1,..., X n) y Y = (Y1,..., Y m) de variables aleatorias, y existen correlaciones entre las variables, entonces el análisis de correlación canónica encontrará combinaciones lineales de X y Y que tienen la máxima correlación entre sí. T. R. Knapp señala que "prácticamente todas las pruebas paramétricas de significancia que se encuentran comúnmente pueden tratarse como casos especiales de análisis de correlación canónica, que es el procedimiento general para investigar las relaciones entre dos conjuntos de variables". El método fue introducido por primera vez por Harold Hotelling en 1936, aunque en el contexto de los ángulos entre planos el concepto matemático fue publicado por Jordan en 1875.
Dados dos vectores de columna X=()x1,...... ,xn)T{displaystyle X=(x_{1},dotsx_{n}{T}} y Y=()Sí.1,...... ,Sí.m)T{displaystyle Y=(y_{1},dotsy_{m} de variables aleatorias con segundos momentos finitos, se puede definir la covariancia cruzada .. XY=cov ()X,Y){displaystyle Sigma _{XY}=operatorname {cov} (X,Y)} ser el n× × m{displaystyle ntimes m} matriz ()i,j){displaystyle (i,j)} entrada es la covariancia cov ()xi,Sí.j){displaystyle operatorname {cov} (x_{i},y_{j}}. En la práctica, estimamos la matriz de covariancia basada en datos muestreados de X{displaystyle X} y Y{displaystyle Sí. (es decir, de un par de matrices de datos).
Análisis canónico-correlación busca vectores a{displaystyle a} ()a▪ ▪ Rn{displaystyle ain mathbb {R} {fn}) y b{displaystyle b} ()b▪ ▪ Rm{displaystyle bin mathbb {R} {m}) tal que las variables al azar aTX{displaystyle a^{T}X} y bTY{displaystyle b^{T}Y} maximizar la correlación *** *** =corrido ()aTX,bTY){displaystyle rho =operatorname {corr} (a^{T}X,b^{T}Y)}. Las variables aleatorias (scalar) U=aTX{displaystyle U=a^{T}X} y V=bTY{displaystyle V=b^{T}Y} son primer par de variables canónicas. Entonces uno busca vectores maximizando la misma correlación sujeta a la restricción de que deben estar incorrelacionados con el primer par de variables canónicas; esto da el segundo par de variables canónicas. Este procedimiento puede continuar hasta min{}m,n}{displaystyle min{m,n} veces.
Vamos .. XY{displaystyle Sigma _{XY}} ser la matriz de covariancia cruzada para cualquier par de variables aleatorias (en forma de actor) X{displaystyle X} y Y{displaystyle Sí.. La función objetivo para maximizar es
El primer paso es definir un cambio de base y definir
Donde .. XX{displaystyle Sigma _{XX}} y .. YY{displaystyle Sigma ¿Qué? se puede obtener de la descomposición eigena (o por diagonalización):
y
Y así tenemos
Por la desigualdad de Cauchy-Schwarz, tenemos
Hay igualdad si los vectores d{displaystyle d} y .. YY− − 1/2.. YX.. XX− − 1/2c{displaystyle Sigma ¿Por qué? - ¿Qué? ¿Qué? son collinear. Además, se alcanza el máximo de correlación si c{displaystyle c} es el eigenvector con el eigenvalo máximo para la matriz .. XX− − 1/2.. XY.. YY− − 1.. YX.. XX− − 1/2{displaystyle Sigma _{XX}^{-1/2}Sigma ¿Por qué? ¿Qué? Sí. Sigma - ¿Qué? ¿Qué? (vea el cociente Rayleigh). Los pares posteriores se encuentran utilizando valores eigenvalues decrecientes magnitudes. La ortogonalidad está garantizada por la simetría de las matrices de correlación.
Otra manera de ver este cálculo es que c{displaystyle c} y d{displaystyle d} son los vectores singulares izquierdo y derecho de la matriz de correlación de X y Y correspondientes al valor singular más alto.
La solución es por lo tanto:
Recíprocamente, también existe:
Invirtiendo el cambio de coordenadas, tenemos que
Las variables canónicas están definidas por:
CCA se puede calcular mediante la descomposición de valores singulares en una matriz de correlación. Está disponible como función en
El cálculo de CCA utilizando la descomposición de valores singulares en una matriz de correlación está relacionado con el coseno de los ángulos entre pisos. La función coseno está mal condicionada para ángulos pequeños, lo que lleva a un cálculo muy inexacto de vectores principales altamente correlacionados en aritmética informática de precisión finita. Para solucionar este problema, hay algoritmos alternativos disponibles en
Cada fila se puede probar para significar con el siguiente método. Ya que las correlaciones están ordenadas, diciendo que fila i{displaystyle i} es cero implica que todas las correlaciones adicionales son también cero. Si tenemos p{displaystyle p} observaciones independientes en una muestra y *** *** ^ ^ i{displaystyle {widehat {rho} } es la correlación estimada i=1,...... ,min{}m,n}{displaystyle i=1,dot smin{m,n}. Para el i{displaystyle i}la estadística de prueba es:
que se distribuye asintóticamente como un chi-squared con ()m− − i+1)()n− − i+1){displaystyle (m-i+1)(n-i+1)} grados de libertad para grandes p{displaystyle p}. Desde todas las correlaciones de min{}m,n}{displaystyle min{m,n} a p{displaystyle p} son lógicamente cero (y estimado de esa manera también) el producto para los términos después de este punto es irrelevante.
Observe que en el pequeño límite de tamaño muestra con <math alttext="{displaystyle pp.n+m{displaystyle p maden+m}<img alt="{displaystyle p entonces estamos garantizados que la parte superior m+n− − p{displaystyle m+n-p} Las correlaciones serán idénticas 1 y por lo tanto la prueba no tiene sentido.
Un uso típico de la correlación canónica en el contexto experimental es tomar dos conjuntos de variables y ver qué es común entre los dos conjuntos. Por ejemplo, en las pruebas psicológicas, se podrían realizar dos pruebas de personalidad multidimensionales bien establecidas, como el Inventario Multifásico de Personalidad de Minnesota (MMPI-2) y el NEO. Al ver cómo se relacionan los factores MMPI-2 con los factores NEO, se podría obtener una idea de qué dimensiones eran comunes entre las pruebas y cuánta varianza se compartió. Por ejemplo, se podría encontrar que una dimensión de extraversión o neuroticismo explica una cantidad sustancial de varianza compartida entre las dos pruebas.
También se puede utilizar el análisis de correlación canónica para producir una ecuación modelo que relacione dos conjuntos de variables, por ejemplo, un conjunto de medidas de desempeño y un conjunto de variables explicativas, o un conjunto de resultados y un conjunto de entradas. Se pueden imponer restricciones a dicho modelo para garantizar que refleje requisitos teóricos o condiciones intuitivamente obvias. Este tipo de modelo se conoce como modelo de máxima correlación.
La visualización de los resultados de la correlación canónica suele realizarse mediante diagramas de barras de los coeficientes de los dos conjuntos de variables para los pares de variables canónicas que muestran una correlación significativa. Algunos autores sugieren que se visualizan mejor trazándolos como heliógrafos, un formato circular con barras en forma de rayos, donde cada mitad representa los dos conjuntos de variables.
Vamos X=x1{displaystyle X=x_{1} con cero valor esperado, es decir, E ()X)=0{displaystyle operatorname {E} (X)=0}.
Nos damos cuenta de que en ambos casos U=V{displaystyle U=V., que ilustra que el análisis canónico-correlación trata variables correlativas y anticorrelacionadas de manera similar.
Suponiendo que X=()x1,...... ,xn)T{displaystyle X=(x_{1},dotsx_{n}{T}} y Y=()Sí.1,...... ,Sí.m)T{displaystyle Y=(y_{1},dotsy_{m} tienen cero valores esperados, es decir, E ()X)=E ()Y)=0{displaystyle operatorname {E} (X)=operatorname {E} (Y)=0}, sus matrices de covariancia .. XX=Cov ()X,X)=E [XXT]{displaystyle Sigma _{XX}=operatorname {Cov} (X,X)= [XX^{T]] y .. YY=Cov ()Y,Y)=E [YYT]{displaystyle Sigma ################################################################################################################################################################################################################################################################ {Cov} (Y,Y)= [E] [YYY^{T] se puede ver como matrices Gram en un producto interior para las entradas X{displaystyle X} y Y{displaystyle Sí., correspondientemente. En esta interpretación, las variables al azar, las entradas xi{displaystyle x_{i}} de X{displaystyle X} y Sí.j{displaystyle y_{j} de Y{displaystyle Sí. son tratados como elementos de un espacio vectorial con un producto interior dado por la covariancia cov ()xi,Sí.j){displaystyle operatorname {cov} (x_{i},y_{j}}; ver Covariancia#Relación a productos internos.
La definición de las variables canónicas U{displaystyle U} y V{displaystyle V} es entonces equivalente a la definición de vectores principales para el par de subespacios abarcados por las entradas de X{displaystyle X} y Y{displaystyle Sí. con respecto a este producto interno. Las correlaciones canónicas corrido ()U,V){displaystyle operatorname {corr} (U,V)} es igual al cosino de ángulos principales.
CCA también se puede ver como una transformación de blanqueamiento especial donde los vectores aleatorios X{displaystyle X} y Y{displaystyle Sí. se transforman simultáneamente de tal manera que la cruz-correlación entre los vectores blanqueados XCCA{displaystyle X^{CCA} y YCCA{displaystyle Y. es diagonal. Las correlaciones canónicas se interpretan entonces como coeficientes de regresión que unen XCCA{displaystyle X^{CCA} y YCCA{displaystyle Y. y también puede ser negativo. La visión de regresión de CCA también proporciona una manera de construir un modelo probabilístico variable latente para CCA, con variables ocultas no correlativas que representan variabilidad compartida y no compartida.
En economía, el coeficiente de Gini también conocido como índice de Gini o ratio de Gini, es una medida de dispersión estadística destinada a representar... (leer más)
En cálculo vectorial, divergencia es un operador vectorial que opera en un campo vectorial, produciendo un campo escalar que proporciona la cantidad de la... (leer más)
La curva de campana es típica de la distribución... (leer más)