Covarianza

Compartir Imprimir Citar

En teoría de probabilidad y estadística, la covarianza es una medida de la variabilidad conjunta de dos variables aleatorias. Si los valores mayores de una variable se corresponden principalmente con los valores mayores de la otra variable, y lo mismo ocurre con los valores menores (es decir, las variables tienden a mostrar un comportamiento similar), la covarianza es positiva.En caso contrario, cuando los valores mayores de una variable corresponden mayoritariamente a los valores menores de la otra (es decir, las variables tienden a mostrar comportamientos opuestos), la covarianza es negativa. El signo de la covarianza muestra por tanto la tendencia en la relación lineal entre las variables. La magnitud de la covarianza no es fácil de interpretar porque no está normalizada y, por tanto, depende de las magnitudes de las variables. Sin embargo, la versión normalizada de la covarianza, el coeficiente de correlación, muestra por su magnitud la fuerza de la relación lineal.

Se debe distinguir entre (1) la covarianza de dos variables aleatorias, que es un parámetro poblacional que puede verse como una propiedad de la distribución de probabilidad conjunta, y (2) la covarianza muestral, que además de servir como descriptor de la muestra, sirve también como valor estimado del parámetro poblacional.

Definición

Para dos variables aleatorias de valor real distribuidas conjuntamente Xy Ycon segundos momentos finitos, la covarianza se define como el valor esperado (o la media) del producto de sus desviaciones de sus valores esperados individuales:

{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} {{\big [}(X-\operatorname {E} [X])(Y-\operatorname {E} [Y]){ \grande ]}}}

donde \nombre del operador {E} [X]es el valor esperado de X, también conocida como la media de X. La covarianza también se denota a veces {\ estilo de visualización \ sigma _ {XY}}o \sigma (X,Y), en analogía con la varianza. Al usar la propiedad de linealidad de las expectativas, esto se puede simplificar al valor esperado de su producto menos el producto de sus valores esperados: {\displaystyle {\begin{alineado}\operatorname {cov} (X,Y)&=\operatorname {E} \left[\left(X-\operatorname {E} \left[X\right]\right)\ izquierda(Y-\nombre del operador {E} \izquierda[Y\derecha]\derecha)\derecha]\\&=\nombre del operador {E} \izquierda[XY-X\nombre del operador {E} \izquierda[Y\derecha]- \nombre de operador {E} \left[X\right]Y+\nombre de operador {E} \left[X\right]\nombre de operador {E} \left[Y\right]\right]\\&=\nombre de operador {E} \ izquierda[XY\derecha]-\nombre del operador {E} \izquierda[X\derecha]\nombre del operador {E} \izquierda[Y\derecha]-\nombre del operador {E} \izquierda[X\derecha]\nombre del operador {E} \ izquierda[Y\derecha]+\nombre del operador {E} \izquierda[X\derecha]\nombre del operador {E} \izquierda[Y\derecha]\\&=\nombre del operador {E} \izquierda[XY\derecha]-\nombre del operador {E} \left[X\right]\operatorname {E} \left[Y\right],\end{alineado}}}

pero esta ecuación es susceptible de cancelación catastrófica (consulte la sección sobre cálculo numérico a continuación).

Las unidades de medida de la covarianza \nombre del operador{cov}(X, Y)son los de Xveces las de Y. Por el contrario, los coeficientes de correlación, que dependen de la covarianza, son una medida adimensional de dependencia lineal. (De hecho, los coeficientes de correlación pueden entenderse simplemente como una versión normalizada de la covarianza).

Definición de variables aleatorias complejas

La covarianza entre dos variables aleatorias complejas {\ estilo de visualización Z, W}Se define como {\displaystyle \operatorname {cov} (Z,W)=\operatorname {E} \left[(Z-\operatorname {E} [Z]){\overline {(W-\operatorname {E} [W]) }}\right]=\nombre del operador {E} \left[Z{\overline {W}}\right]-\nombre del operador {E} [Z]\nombre del operador {E} \left[{\overline {W}}\ derecho]}

Note la conjugación compleja del segundo factor en la definición.

También se puede definir una pseudocovarianza relacionada .

Variables aleatorias discretas

Si el par de variables aleatorias (reales) (X, Y)puede tomar los valores {\ estilo de visualización (x_ {i}, y_ {i})}por i=1,\ldots,n, con iguales probabilidades p_{i}=1/n, entonces la covarianza se puede escribir de manera equivalente en términos de las medias \nombre del operador {E} [X]y {\ estilo de visualización \ nombre del operador {E} [Y]}como {\displaystyle \operatorname {cov} (X,Y)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-E(X))(y_{ i}-E(Y)).}

También puede expresarse de manera equivalente, sin referirse directamente a los medios, como i}(x_{i}-x_{j})(y_{i}-y_{j}).}">

Más generalmente, si hay norteposibles realizaciones de (X, Y), a saber {\ estilo de visualización (x_ {i}, y_ {i})}pero con probabilidades posiblemente desiguales Pi}por i=1,\ldots,n, entonces la covarianza es {\displaystyle \operatorname {cov} (X,Y)=\sum _{i=1}^{n}p_{i}(x_{i}-E(X))(y_{i}-E(Y )).}

Ejemplo

Suponer que Xy Ytienen la siguiente función de masa de probabilidad conjunta, en la que las seis celdas centrales dan las probabilidades conjuntas discretas f(x, y)de las seis realizaciones hipotéticas {\displaystyle (x,y)\in S=\left\{(5,8),(6,8),(7,8),(5,9),(6,9),(7,9 )\derecho\}}:

f(x, y)X f_Y(y)
567
y800.40.10.5
90.300.20.5
f_{X}(x)0.30.40.31

Xpuede tomar tres valores (5, 6 y 7) mientras Ypuede tomar en dos (8 y 9). Sus medios son {\ estilo de visualización \ mu _ {X} = 5 (0,3) + 6 (0,4) + 7 (0,1 + 0,2) = 6}y {\ estilo de visualización \ mu _ {Y} = 8 (0,4 + 0,1) + 9 (0,3 + 0,2) = 8,5}. Entonces, {\displaystyle {\begin{alineado}\operatorname {cov} (X,Y)={}&\sigma _{XY}=\sum _{(x,y)\in S}f(x,y)\ izquierda(x-\mu _{X}\derecha)\izquierda(y-\mu _{Y}\derecha)\\[4pt]={}&(0)(5-6)(8-8.5)+ (0,4)(6-6)(8-8,5)+(0,1)(7-6)(8-8,5)+{}\\[4 puntos]&(0,3)(5-6)(9-8,5)+ (0)(6-6)(9-8.5)+(0.2)(7-6)(9-8.5)\\[4pt]={}&{-0.1}\;.\end{alineado}}}

Propiedades

Covarianza consigo mismo

La varianza es un caso especial de la covarianza en el que las dos variables son idénticas (es decir, en el que una variable siempre toma el mismo valor que la otra): {\displaystyle \operatorname {cov} (X,X)=\operatorname {var} (X)\equiv \sigma ^{2}(X)\equiv \sigma _{X}^{2}.}

Covarianza de combinaciones lineales

Si X, Y, W, y Vson variables aleatorias de valor real y a B C Dson constantes de valor real, entonces los siguientes hechos son una consecuencia de la definición de covarianza: {\displaystyle {\begin{alineado}\operatorname {cov} (X,a)&=0\\\operatorname {cov} (X,X)&=\operatorname {var} (X)\\\operatorname {cov } (X,Y)&=\nombre del operador {cov} (Y,X)\\\nombre del operador {cov} (aX,bY)&=ab\,\nombre del operador {cov} (X,Y)\\\nombre del operador { cov} (X+a,Y+b)&=\nombre del operador {cov} (X,Y)\\\nombre del operador {cov} (aX+bY,cW+dV)&=ac\,\nombre del operador {cov} ( X,W)+ad\,\operatorname {cov} (X,V)+bc\,\operatorname {cov} (Y,W)+bd\,\operatorname {cov} (Y,V)\end{alineado }}}

Para una secuencia X_{1},\ldots,X_{n}de variables aleatorias en valores reales y constantes a_1,\ldots,a_n, tenemos <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/28c23850e571feb79b4ebc1f726797cd70586b50" alt="{\displaystyle \operatorname {var} \left(\sum _{i=1}^{n}a_{i}X_{i}\right)=\sum _{i=1}^{n}a_{i }^{2}\sigma ^{2}(X_{i})+2\sum _{i,j\,:\,i

Identidad de covarianza de Hoeffding

Una identidad útil para calcular la covarianza entre dos variables aleatorias {\ estilo de visualización X, Y} es la identidad de covarianza de Hoeffding: {\displaystyle \operatorname {cov} (X,Y)=\int_{\mathbb {R} }\int_{\mathbb {R} }\left(F_{(X,Y)}(x,y) -F_{X}(x)F_{Y}(y)\right)\,dx\,dy}

donde {\ Displaystyle F_ {(X, Y)} (x, y)}es la función de distribución acumulativa conjunta del vector aleatorio {\ estilo de visualización (X, Y)}y {\ estilo de visualización F_ {X} (x), F_ {Y} (y)}son los marginales.

Descorrelación e independencia

Las variables aleatorias cuya covarianza es cero se denominan no correlacionadas. De manera similar, los componentes de vectores aleatorios cuya matriz de covarianza es cero en cada entrada fuera de la diagonal principal también se denominan no correlacionados.

Si Xy Yson variables aleatorias independientes, entonces su covarianza es cero. Esto se debe a que bajo la independencia, {\displaystyle \operatorname {E} [XY]=\operatorname {E} [X]\cdot \operatorname {E} [Y].}

Lo contrario, sin embargo, no es generalmente cierto. Por ejemplo, deja Xdistribuirse uniformemente en [-1,1]y deja {\ estilo de visualización Y = X ^ {2}}. Claramente, Xy Yno son independientes, pero {\displaystyle {\begin{alineado}\operatorname {cov} (X,Y)&=\operatorname {cov} \left(X,X^{2}\right)\\&=\operatorname {E} \left [X\cdot X^{2}\right]-\nombre del operador {E} [X]\cdot \nombre del operador {E} \left[X^{2}\right]\\&=\nombre del operador {E} \left [X^{3}\right]-\nombre del operador {E} [X]\nombre del operador {E} \left[X^{2}\right]\\&=0-0\cdot \nombre del operador {E} [X ^{2}]\\&=0.\end{alineado}}}

En este caso, la relación entre Yy Xes no lineal, mientras que la correlación y la covarianza son medidas de dependencia lineal entre dos variables aleatorias. Este ejemplo muestra que si dos variables aleatorias no están correlacionadas, en general eso no implica que sean independientes. Sin embargo, si dos variables tienen una distribución normal conjunta (pero no si solo tienen una distribución normal individual), la falta de correlación implica independencia.

Relación con los productos internos

Muchas de las propiedades de la covarianza se pueden extraer elegantemente al observar que satisface propiedades similares a las de un producto interno:

  1. bilineal: para constantes ay By variables aleatorias {\displaystyle X,Y,Z,\operatorname {cov} (aX+bY,Z)=a\operatorname {cov} (X,Z)+b\operatorname {cov} (Y,Z)}
  2. simétrico: {\ estilo de visualización \ nombre del operador {cov} (X, Y) = \ nombre del operador {cov} (Y, X)}
  3. positivo semidefinido: {\displaystyle \sigma ^{2}(X)=\operatorname {cov} (X,X)\geq 0}para todas las variables aleatorias X, y {\ estilo de visualización \ nombre del operador {cov} (X, X) = 0}implica que Xes constante casi con seguridad.

De hecho, estas propiedades implican que la covarianza define un producto interno sobre el espacio vectorial cociente obtenido al tomar el subespacio de variables aleatorias con segundo momento finito e identificar dos cualesquiera que difieran en una constante. (Esta identificación convierte la semidefinición positiva anterior en una definición positiva). Ese espacio vectorial cociente es isomorfo al subespacio de variables aleatorias con segundo momento finito y media cero; en ese subespacio, la covarianza es exactamente el producto interno L de funciones de valor real en el espacio muestral.

Como resultado, para variables aleatorias con varianza finita, la desigualdad {\displaystyle |\operatorname {cov} (X,Y)|\leq {\sqrt {\sigma ^{2}(X)\sigma ^{2}(Y)}}}

se cumple a través de la desigualdad de Cauchy-Schwarz.

prueba: si {\ estilo de visualización \ sigma ^ {2} (Y) = 0}, entonces se cumple trivialmente. De lo contrario, deje que la variable aleatoria {\displaystyle Z=X-{\frac {\operatorname {cov} (X,Y)}{\sigma ^{2}(Y)}}Y.}

Entonces tenemos {\displaystyle {\begin{alineado}0\leq \sigma ^{2}(Z)&=\operatorname {cov} \left(X-{\frac {\operatorname {cov} (X,Y)}{\ sigma ^{2}(Y)}}Y,\;X-{\frac {\operatorname {cov} (X,Y)}{\sigma ^{2}(Y)}}Y\right)\\[ 12pt]&=\sigma ^{2}(X)-{\frac {(\operatorname {cov} (X,Y))^{2}}{\sigma ^{2}(Y)}}.\end {alineado}}}

Cálculo de la covarianza de la muestra

Las covarianzas muestrales entre kvariables basadas en nortelas observaciones de cada uno, extraídas de una población no observada de otro modo, están dadas por el {\displaystyle K\veces K}matriz {\displaystyle \textstyle {\overline {\mathbf {q} }}=\left[q_{jk}\right]}con las entradas {\displaystyle q_{jk}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(X_{ij}-{\bar {X}}_{j }\derecha)\izquierda(X_{ik}-{\bar {X}}_{k}\derecha),}

que es una estimación de la covarianza entre la variable jy variables k.

La media de la muestra y la matriz de covarianza de la muestra son estimaciones no sesgadas de la media y la matriz de covarianza del vector aleatorio \textstyle \mathbf {X}, un vector cuyo j -ésimo elemento {\ estilo de visualización (j = 1, \, \ ldots, \, K)}es una de las variables aleatorias. La razón por la cual la matriz de covarianza muestral tiene \estilo de texto N-1en el denominador en lugar de \estilo de texto Nes esencialmente que la población media \nombre del operador{E}(\mathbf{X})no se conoce y se reemplaza por la media muestral \mathbf {\bar{X}}. Si la media de la población \nombre del operador{E}(\mathbf{X})se conoce, la estimación insesgada análoga viene dada por {\displaystyle q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(X_{ij}-\operatorname {E} \left(X_{j} \right)\right)\left(X_{ik}-\nombre del operador {E} \left(X_{k}\right)\right)}.

Generalizaciones

Matriz de autocovarianza de vectores aleatorios reales

para un vector {\displaystyle \mathbf {X} ={\begin{bmatrix}X_{1}&X_{2}&\dots &X_{m}\end{bmatrix}}^{\mathrm {T} }}de metrovariables aleatorias distribuidas conjuntamente con segundos momentos finitos, su matriz de autocovarianza (también conocida como matriz de varianza-covarianza o simplemente matriz de covarianza ) {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }}(también indicado por \Sigma (\mathbf{X})o {\displaystyle \operatorname {cov} (\mathbf {X},\mathbf {X})}) Se define como {\displaystyle {\begin{alineado}\operatorname {K}_{\mathbf {XX} }=\operatorname {cov} (\mathbf {X} ,\mathbf {X} )&=\operatorname {E} \left [(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\mathrm {T} }\ right]\\&=\operatorname {E} \left[\mathbf {XX} ^{\mathrm {T} }\right]-\operatorname {E} [\mathbf {X} ]\operatorname {E} [\ mathbf {X} ]^{\mathrm {T} }.\end{alineado}}}

Dejar \mathbf{X}sea ​​un vector aleatorio con matriz de covarianza Σ , y sea A una matriz que puede actuar sobre \mathbf{X}a la izquierda. La matriz de covarianza del producto matriz-vector AX es: {\displaystyle {\begin{alineado}\operatorname {cov} (\mathbf {AX} ,\mathbf {AX} )&=\operatorname {E} \left[\mathbf {AX(A} \mathbf {X)} ^{\mathrm {T} }\right]-\operatorname {E} [\mathbf {AX} ]\operatorname {E} \left[(\mathbf {A} \mathbf {X} )^{\mathrm {T } }\right]\\&=\operatorname {E} \left[\mathbf {AXX} ^{\mathrm {T} }\mathbf {A} ^{\mathrm {T} }\right]-\operatorname { E} [\mathbf {AX} ]\nombre del operador {E} \left[\mathbf {X} ^{\mathrm {T} }\mathbf {A} ^{\mathrm {T} }\right]\\&= \mathbf {A} \operatorname {E} \left[\mathbf {XX} ^{\mathrm {T} }\right]\mathbf {A} ^{\mathbf {T} }-\mathbf {A} \operatorname {E} [\mathbf {X} ]\nombre del operador {E} \left[\mathbf {X} ^{\mathrm {T} }\right]\mathbf {A} ^{\mathrm {T} }\\&=\mathbf {A} \left(\operatorname {E} \left[\mathbf {XX} ^{\mathrm {T} }\right]-\operatorname {E} [\mathbf {X} ]\operatorname {E } \left[\mathbf {X} ^{\mathrm {T} }\right]\right)\mathbf {A} ^{\mathrm {T} }\\&=\mathbf {A} \Sigma \mathbf { A} ^{\mathrm {T} }.\end{alineado}}}

Este es un resultado directo de la linealidad de la expectativa y es útil cuando se aplica una transformación lineal, como una transformación de blanqueamiento, a un vector.

Matriz de covarianza cruzada de vectores aleatorios reales

Para vectores aleatorios reales \mathbf {X} \in \mathbb {R} ^{m}y \mathbf {Y} \in \mathbb {R} ^{n}, el m\veces nmatriz de covarianza cruzada es igual a

{\displaystyle {\begin{alineado}\operatorname {K}_{\mathbf {X} \mathbf {Y} }=\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )&=\operatorname {E} \left[(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {Y} -\operatorname {E} [\mathbf {Y} ])^{\mathrm {T} }\right]\\&=\operatorname {E} \left[\mathbf {X} \mathbf {Y} ^{\mathrm {T} }\right]-\operatorname {E} [\mathbf { X} ]\nombre del operador {E} [\mathbf {Y} ]^{\mathrm {T} }\end{alineado}}}    ( Ec.2 )

donde {\displaystyle \mathbf {Y} ^{\mathrm {T} }}es la transpuesta del vector (o matriz) \mathbf{Y}.

El (yo, j)-ésimo elemento de esta matriz es igual a la covarianza {\ estilo de visualización \ nombre del operador {cov} (X_ {i}, Y_ {j})}entre la i -ésima componente escalar de \mathbf{X}y la j -ésima componente escalar de \mathbf{Y}. En particular, {\displaystyle \operatorname {cov} (\mathbf {Y},\mathbf {X})}es la transposición de {\displaystyle \operatorname {cov} (\mathbf {X},\mathbf {Y})}.

Cálculo numérico

Cuándo \nombre de operador {E} [XY]\approx \nombre de operador {E} [X]\nombre de operador {E} [Y], la ecuacion {\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} \left[XY\right]-\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right ]}es propenso a la cancelación catastrófica si {\ estilo de visualización \ nombre del operador {E} \ izquierda [XY \ derecha]}y {\displaystyle \operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]}no se calculan exactamente y, por lo tanto, deben evitarse en los programas de computadora cuando los datos no se han centrado antes. Los algoritmos numéricamente estables deberían preferirse en este caso.

Comentarios

La covarianza a veces se llama una medida de "dependencia lineal" entre las dos variables aleatorias. Eso no significa lo mismo que en el contexto del álgebra lineal (ver dependencia lineal). Cuando se normaliza la covarianza, se obtiene el coeficiente de correlación de Pearson, que da la bondad del ajuste para la mejor función lineal posible que describe la relación entre las variables. En este sentido, la covarianza es un indicador lineal de dependencia.

Aplicaciones

En genética y biología molecular

La covarianza es una medida importante en biología. Ciertas secuencias de ADN se conservan más que otras entre especies y, por lo tanto, para estudiar estructuras secundarias y terciarias de proteínas, o de estructuras de ARN, las secuencias se comparan en especies estrechamente relacionadas. Si se encuentran cambios en la secuencia o no se encuentran cambios en absoluto en el ARN no codificante (como el microARN), se considera que las secuencias son necesarias para motivos estructurales comunes, como un bucle de ARN. En genética, la covarianza sirve de base para el cálculo de la Matriz de relación genética (GRM) (también conocida como matriz de parentesco), lo que permite inferir la estructura de la población a partir de una muestra sin parientes cercanos conocidos, así como inferir la estimación de la heredabilidad de rasgos complejos.

En la teoría de la evolución y la selección natural, la ecuación de Price describe cómo cambia la frecuencia de un rasgo genético a lo largo del tiempo. La ecuación utiliza una covarianza entre un rasgo y la aptitud para dar una descripción matemática de la evolución y la selección natural. Proporciona una forma de comprender los efectos que tienen la transmisión de genes y la selección natural en la proporción de genes dentro de cada nueva generación de una población. La ecuación de Price fue derivada por George R. Price, para volver a derivar el trabajo de WD Hamilton sobre la selección de parentesco. Se han construido ejemplos de la ecuación de Price para varios casos evolutivos.

En economía financiera

Las covarianzas juegan un papel clave en la economía financiera, especialmente en la teoría moderna de carteras y en el modelo de valoración de activos de capital. Las covarianzas entre los rendimientos de varios activos se utilizan para determinar, bajo ciertos supuestos, las cantidades relativas de diferentes activos que los inversores deberían (en un análisis normativo) o se prevé que (en un análisis positivo) elijan mantener en un contexto de diversificación.

En asimilación de datos meteorológicos y oceanográficos

La matriz de covarianza es importante para estimar las condiciones iniciales requeridas para ejecutar modelos de pronóstico del tiempo, un procedimiento conocido como asimilación de datos. La 'matriz de covarianza del error de pronóstico' se construye típicamente entre perturbaciones alrededor de un estado medio (ya sea una media climatológica o de conjunto). La 'matriz de covarianza de errores de observación' se construye para representar la magnitud de los errores de observación combinados (en la diagonal) y los errores correlacionados entre mediciones (fuera de la diagonal). Este es un ejemplo de su amplia aplicación al filtrado de Kalman y una estimación de estado más general para sistemas variables en el tiempo.

En micrometeorología

La técnica de covarianza de remolinos es una técnica de medición atmosférica clave en la que la covarianza entre la desviación instantánea de la velocidad del viento vertical con respecto al valor medio y la desviación instantánea de la concentración de gas es la base para calcular los flujos turbulentos verticales.

En el procesamiento de señales

La matriz de covarianza se utiliza para capturar la variabilidad espectral de una señal.

En estadísticas y procesamiento de imágenes

La matriz de covarianza se utiliza en el análisis de componentes principales para reducir la dimensionalidad de las características en el preprocesamiento de datos.