Varianza

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En teoría de probabilidad y estadística, la varianza es la expectativa de la desviación al cuadrado de una variable aleatoria de su media poblacional o media muestral. La varianza es una medida de dispersión, lo que significa que es una medida de cuánto se separa un conjunto de números de su valor promedio. La varianza tiene un papel central en las estadísticas, donde algunas ideas que la utilizan incluyen estadísticas descriptivas, inferencia estadística, prueba de hipótesis, bondad de ajuste y muestreo de Monte Carlo. La varianza es una herramienta importante en las ciencias, donde el análisis estadístico de datos es común. La varianza es el cuadrado de la desviación estándar, el segundo momento central de una distribución y la covarianza de la variable aleatoria consigo misma, y ​​a menudo se representa por \sigma^{2}, ^{2}, \nombre del operador {Var} (X), V(X), o {\ estilo de visualización \ mathbb {V} (X)}.

Una ventaja de la varianza como medida de dispersión es que se presta más a la manipulación algebraica que otras medidas de dispersión, como la desviación absoluta esperada; por ejemplo, la varianza de una suma de variables aleatorias no correlacionadas es igual a la suma de sus varianzas. Una desventaja de la varianza para aplicaciones prácticas es que, a diferencia de la desviación estándar, sus unidades difieren de la variable aleatoria, razón por la cual la desviación estándar se informa más comúnmente como una medida de dispersión una vez que se finaliza el cálculo.

Hay dos conceptos distintos que se denominan "varianza". Uno, como se discutió anteriormente, es parte de una distribución de probabilidad teórica y está definido por una ecuación. La otra varianza es una característica de un conjunto de observaciones. Cuando la varianza se calcula a partir de las observaciones, esas observaciones normalmente se miden a partir de un sistema del mundo real. Si todas las observaciones posibles del sistema están presentes, la varianza calculada se denomina varianza de la población. Sin embargo, normalmente solo se dispone de un subconjunto, y la varianza calculada a partir de este se denomina varianza muestral. La varianza calculada a partir de una muestra se considera una estimación de la varianza de la población total. Hay varias formas de calcular una estimación de la varianza de la población, como se explica en la sección a continuación.

Los dos tipos de varianza están estrechamente relacionados. Para ver cómo, considere que una distribución de probabilidad teórica se puede utilizar como generador de observaciones hipotéticas. Si se genera un número infinito de observaciones usando una distribución, entonces la varianza de la muestra calculada a partir de ese conjunto infinito coincidirá con el valor calculado usando la ecuación de varianza de la distribución.

Definición

La varianza de una variable aleatoria Xes el valor esperado de la desviación al cuadrado de la media de X, {\ estilo de visualización \ mu = \ nombre del operador {E} [X]}: \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right].

Esta definición abarca variables aleatorias que son generadas por procesos que son discretos, continuos, ninguno o mixtos. La varianza también se puede considerar como la covarianza de una variable aleatoria consigo misma: \operatorname {Var} (X)=\operatorname {Cov} (X,X).

La varianza también es equivalente al segundo cumulante de una distribución de probabilidad que genera X. La varianza generalmente se designa como \nombre del operador {Var} (X), o a veces como V(X)o {\ estilo de visualización \ mathbb {V} (X)}, o simbólicamente como \sigma _{X}^{2}o simplemente \sigma^{2}(pronunciado "sigma al cuadrado"). La expresión para la varianza se puede expandir de la siguiente manera: {\displaystyle {\begin{alineado}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt ]&=\nombre del operador {E} \left[X^{2}-2X\nombre del operador {E} [X]+\nombre del operador {E} [X]^{2}\right]\\[4pt]&=\ nombre del operador {E} \left[X^{2}\right]-2\nombre del operador {E} [X]\nombre del operador {E} [X]+\nombre del operador {E} [X]^{2}\\[4pt ]&=\nombre del operador {E} \left[X^{2}\right]-\nombre del operador {E} [X]^{2}\end{alineado}}}

En otras palabras, la varianza de X es igual a la media del cuadrado de X menos el cuadrado de la media de X. Esta ecuación no debe usarse para cálculos que utilicen aritmética de punto flotante, porque sufre una cancelación catastrófica si los dos componentes de la ecuación son similares en magnitud. Para otras alternativas numéricamente estables, consulte Algoritmos para calcular la varianza.

Variable aleatoria discreta

Si el generador de variable aleatoria Xes discreta con función de masa de probabilidad {\displaystyle x_{1}\mapsto p_{1},x_{2}\mapsto p_{2},\ldots,x_{n}\mapsto p_{n}}, entonces \nombre del operador {Var} (X)=\sum_{i=1}^{n}p_{i}\cdot (x_{i}-\mu)^{2},

donde \mues el valor esperado. Es decir, {\displaystyle \mu =\sum _{i=1}^{n}p_{i}x_{i}.}

(Cuando una varianza ponderada discreta de este tipo se especifica mediante ponderaciones cuya suma no es 1, entonces se divide por la suma de las ponderaciones).

La varianza de una colección de nortevalores igualmente probables se pueden escribir como {\displaystyle \operatorname {Var} (X)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}}

donde \mues el valor medio. Es decir, {\displaystyle \mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.}

La varianza de un conjunto de nortelos valores igualmente probables se pueden expresar de manera equivalente, sin referirse directamente a la media, en términos de desviaciones al cuadrado de todos los puntos entre sí: i }(x_{i}-x_{j})^{2}.">

Variable aleatoria absolutamente continua

Si la variable aleatoria Xtiene una función de densidad de probabilidad f(x), y F(x)es la función de distribución acumulada correspondiente, entonces {\displaystyle {\begin{alineado}\operatorname {Var} (X)=\sigma ^{2}&=\int_{\mathbb {R} }(x-\mu )^{2}f(x) \,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int_{\mathbb {R} }xf(x) \,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int_{\mathbb {R} }x^{2}\, dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int_{\mathbb {R} }\,dF(x)\\ [4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]& =\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2},\end{alineado}}}

o equivalente, {\displaystyle \operatorname {Var} (X)=\int_{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2},}

donde \mues el valor esperado de Xdada por {\displaystyle \mu =\int_{\mathbb {R} }xf(x)\,dx=\int_{\mathbb {R} }x\,dF(x).}

En estas fórmulas, las integrales con respecto a dxy {\ estilo de visualización dF (x)} son integrales de Lebesgue y Lebesgue-Stieltjes, respectivamente.

Si la función {\displaystyle x^{2}f(x)}es Riemann-integrable en cada intervalo finito {\ estilo de visualización [a, b] \ subconjunto \ mathbb {R},}entonces {\displaystyle \operatorname {Var} (X)=\int_{-\infty}^{+\infty}x^{2}f(x)\,dx-\mu ^{2},}

donde la integral es una integral de Riemann impropia.

Ejemplos

Distribución exponencial

La distribución exponencial con parámetro λ es una distribución continua cuya función de densidad de probabilidad viene dada por {\displaystyle f(x)=\lambda e^{-\lambda x}}

en el intervalo [0, ∞) . Se puede demostrar que su media es {\displaystyle \operatorname {E} [X]=\int _{0}^{\infty }\lambda xe^{-\lambda x}\,dx={\frac {1}{\lambda }}.}

Usando integración por partes y haciendo uso del valor esperado ya calculado, tenemos: {\displaystyle {\begin{alineado}\operatorname {E} \left[X^{2}\right]&=\int_{0}^{\infty}\lambda x^{2}e^{-\ lambda x}\,dx\\&=\left[-x^{2}e^{-\lambda x}\right]_{0}^{\infty}+\int _{0}^{\infty }2xe^{-\lambda x}\,dx\\&=0+{\frac {2}{\lambda }}\operatorname {E} [X]\\&={\frac {2}{\lambda ^{2}}}.\end{alineado}}}

Por lo tanto, la varianza de X viene dada por {\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}={\frac {2}{\ lambda ^{2}}}-\left({\frac {1}{\lambda }}\right)^{2}={\frac {1}{\lambda ^{2}}}.}

Muerte justa

Un dado justo de seis caras se puede modelar como una variable aleatoria discreta, X , con resultados del 1 al 6, cada uno con la misma probabilidad de 1/6. El valor esperado de X es {\ estilo de visualización (1+2+3+4+5+6)/6=7/2.}Por lo tanto, la varianza de X es {\displaystyle {\begin{alineado}\operatorname {Var} (X)&=\sum _{i=1}^{6}{\frac {1}{6}}\left(i-{\frac { 7}{2}}\right)^{2}\\[5pt]&={\frac {1}{6}}\left((-5/2)^{2}+(-3/2) ^{2}+(-1/2)^{2}+(1/2)^{2}+(3/2)^{2}+(5/2)^{2}\derecha)\\ [5pt]&={\frac {35}{12}}\aprox. 2,92.\end{alineado}}}

La fórmula general para la varianza del resultado, X , de un dado de n caras es {\displaystyle {\begin{alineado}\operatorname {Var} (X)&=\operatorname {E} \left(X^{2}\right)-(\operatorname {E} (X))^{2} \\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}i^{2}-\left({\frac {1}{n}}\sum _{i=1}^{n}i\right)^{2}\\[5pt]&={\frac {(n+1)(2n+1)}{6}}-\left({\ fracción {n+1}{2}}\right)^{2}\\[4pt]&={\frac {n^{2}-1}{12}}.\end{alineado}}}

Distribuciones de probabilidad de uso común

La siguiente tabla enumera la varianza de algunas distribuciones de probabilidad de uso común.

Nombre de la distribución de probabilidadFunción de distribución de probabilidadSignificarDiferencia
Distribución binomial {\displaystyle \Pr \,(X=k)={\binom {n}{k}}p^{k}(1-p)^{nk}} notario público np(1-p)
Distribución geométrica {\ estilo de visualización \ Pr \, (X = k) = (1-p) ^ {k-1} p} {\ fracción {1}{p}} {\displaystyle {\frac{(1-p)}{p^{2}}}}
Distribución normal {\displaystyle f\left(x\mid \mu ,\sigma ^{2}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{ \frac{(x-\mu)^{2}}{2\sigma^{2}}}}} \mu \sigma^{2}
Distribución uniforme (continua) <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/a49d9ce0f31f14565d14be7083c467987eb0823f" alt="{\displaystyle f(x\mid a,b)={\begin{cases}{\frac {1}{ba}}&{\text{for }}a\leq x\leq b,\\[3pt] 0&{\text{para }}xb\end{casos}}}"> {\displaystyle {\frac{a+b}{2}}} {\displaystyle {\frac{(ba)^{2}}{12}}}
Distribución exponencial {\displaystyle f(x\mid \lambda)=\lambda e^{-\lambda x}} \frac{1}{\lambda} {\displaystyle {\frac{1}{\lambda^{2}}}}
distribución de veneno {\displaystyle f(k\mid \lambda)={\frac {e^{-\lambda}\lambda ^{k}}{k!}}} \lambda \lambda

Propiedades

Propiedades básicas

La varianza no es negativa porque los cuadrados son positivos o cero: \nombre del operador {Var} (X)\geq 0.

La varianza de una constante es cero. {\displaystyle\operatorname {Var} (a)=0.}

Por el contrario, si la varianza de una variable aleatoria es 0, es casi seguro que sea una constante. Es decir, siempre tiene el mismo valor: {\displaystyle \operatorname {Var} (X)=0\iff \existe a:P(X=a)=1.}

La varianza es invariable con respecto a los cambios en un parámetro de ubicación. Es decir, si se suma una constante a todos los valores de la variable, la varianza no cambia: \nombre de operador {Var} (X+a)=\nombre de operador {Var} (X).

Si todos los valores están escalados por una constante, la varianza se escala por el cuadrado de esa constante: \nombre de operador {Var} (aX)=a^{2}\nombre de operador {Var} (X).

La varianza de una suma de dos variables aleatorias está dada por \operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X, Y), \operatorname {Var} (aX-bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)-2ab\,\operatorname {Cov} (X, Y),

donde {\ estilo de visualización \ nombre del operador {Cov} (X, Y)}es la covarianza.

Combinaciones lineales

En general, por la suma de nortevariables aleatorias \{X_{1},\puntos,X_{N}\}, la varianza se convierte en: {\displaystyle \operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum_{i=1}^{N}\nombre del operador {Var} (X_{i})+\sum_{i\neq j}\nombre del operador {Cov} (X_{i},X_{j}),}

véase también la identidad del general Bienaymé.

Estos resultados conducen a la varianza de una combinación lineal como: <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c91273fd3499f6172ed9baf853d3d3ae8d02c62d" alt="{\begin{alineado}\nombre del operador {Var} \left(\sum_{i=1}^{N}a_{i}X_{i}\right)&=\sum_{i,j=1}^ {N}a_{i}a_{j}\nombre del operador {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2 }\nombre de operador {Var} (X_{i})+\sum _{i\not =j}a_{i}a_{j}\nombre de operador {Cov} (X_{i},X_{j})\\& =\sum_{i=1}^{N}a_{i}^{2}\nombre del operador {Var} (X_{i})+2\sum_{1\leq i

Si las variables aleatorias X_{1},\puntos,X_{N}son tales que \nombre del operador {Cov} (X_{i},X_{j})=0\ ,\ \forall \ (i\neq j),

entonces se dice que no están correlacionados. De la expresión anterior se sigue inmediatamente que si las variables aleatorias X_{1},\puntos,X_{N}no están correlacionados, entonces la varianza de su suma es igual a la suma de sus varianzas o, expresado simbólicamente: \nombre de operador {Var} \left(\sum_{i=1}^{N}X_{i}\right)=\sum_{i=1}^{N}\nombre de operador {Var} (X_{i} ).

Dado que las variables aleatorias independientes siempre no están correlacionadas (ver Covarianza § Falta de correlación e independencia), la ecuación anterior se cumple en particular cuando las variables aleatorias X_{1},\puntos,X_{n}son independientes Así, la independencia es suficiente pero no necesaria para que la varianza de la suma sea igual a la suma de las varianzas.

Cuestiones de finitud

Si una distribución no tiene un valor esperado finito, como es el caso de la distribución de Cauchy, entonces la varianza tampoco puede ser finita. Sin embargo, algunas distribuciones pueden no tener una varianza finita, a pesar de que su valor esperado sea finito. Un ejemplo es una distribución de Pareto cuyo índice ksatisface <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/bf79d6da876de8456bae1cf1c777e058750c1091" alt="{\displaystyle 1

Suma de variables no correlacionadas (fórmula de Bienaymé)

Una razón para el uso de la varianza con preferencia a otras medidas de dispersión es que la varianza de la suma (o la diferencia) de variables aleatorias no correlacionadas es la suma de sus varianzas: {\displaystyle \operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\operatorname {Var} (X_ {I}).}

Esta declaración se llama la fórmula de Bienaymé y fue descubierta en 1853. A menudo se hace con la condición más estricta de que las variables sean independientes, pero basta con que no estén correlacionadas. Entonces, si todas las variables tienen la misma varianza σ , entonces, dado que la división por n es una transformación lineal, esta fórmula implica inmediatamente que la varianza de su media es {\displaystyle \operatorname {Var} \left({\overline {X}}\right)=\operatorname {Var} \left({\frac {1}{n}}\sum _{i=1}^{ n}X_{i}\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\nombre del operador {Var} \left(X_{i}\right )={\frac {1}{n^{2}}}n\sigma ^{2}={\frac {\sigma ^{2}}{n}}.}

Es decir, la varianza de la media disminuye cuando n aumenta. Esta fórmula para la varianza de la media se usa en la definición del error estándar de la media muestral, que se usa en el teorema del límite central.

Para probar la afirmación inicial, basta demostrar que {\displaystyle \operatorname {Var} (X+Y)=\operatorname {Var} (X)+\operatorname {Var} (Y).}

El resultado general se sigue entonces por inducción. Comenzando con la definición, {\displaystyle {\begin{alineado}\operatorname {Var} (X+Y)&=\operatorname {E} \left[(X+Y)^{2}\right]-(\operatorname {E} [X +Y])^{2}\\[5pt]&=\nombre del operador {E} \left[X^{2}+2XY+Y^{2}\right]-(\nombre del operador {E} [X]+ \nombre del operador {E} [Y])^{2}.\end{alineado}}}

Usando la linealidad del operador de expectativa y la suposición de independencia (o falta de correlación) de X e Y , esto se simplifica aún más de la siguiente manera: {\displaystyle {\begin{alineado}\operatorname {Var} (X+Y)&=\operatorname {E} \left[X^{2}\right]+2\operatorname {E} [XY]+\operatorname {E} \left[Y^{2}\right]-\left(\operatorname {E} [X]^{2}+2\operatorname {E} [X]\operatorname {E} [Y]+\ nombre del operador {E} [Y]^{2}\right)\\[5pt]&=\nombre del operador {E} \left[X^{2}\right]+\nombre del operador {E} \left[Y^{2 }\right]-\nombre de operador {E} [X]^{2}-\nombre de operador {E} [Y]^{2}\\[5pt]&=\nombre de operador {Var} (X)+\nombre de operador {Var } (Y).\end{alineado}}}

Suma de variables correlacionadas

Con correlación y tamaño de muestra fijo

En general, la varianza de la suma de n variables es la suma de sus covarianzas: <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/974c9cacd4371f83a7ef278601631041e4a42af1" alt="{\displaystyle \operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\sum _{j=1 }^{n}\nombre del operador {Cov} \left(X_{i},X_{j}\right)=\sum _{i=1}^{n}\nombre del operador {Var} \left(X_{i} \right)+2\sum _{1\leq i

(Nota: la segunda igualdad proviene del hecho de que Cov( i , i ) = Var( i ) .)

Aquí, {\ estilo de visualización \ nombre del operador {Cov} (\ cdot, \ cdot)}es la covarianza, que es cero para variables aleatorias independientes (si existe). La fórmula establece que la varianza de una suma es igual a la suma de todos los elementos en la matriz de covarianza de los componentes. La siguiente expresión establece de manera equivalente que la varianza de la suma es la suma de la diagonal de la matriz de covarianza más dos veces la suma de sus elementos triangulares superiores (o sus elementos triangulares inferiores); esto enfatiza que la matriz de covarianza es simétrica. Esta fórmula se utiliza en la teoría del alfa de Cronbach en la teoría de pruebas clásica.

Entonces, si las variables tienen la misma varianza σ y la correlación promedio de distintas variables es ρ , entonces la varianza de su media es {\displaystyle \operatorname {Var} \left({\overline {X}}\right)={\frac {\sigma ^{2}}{n}}+{\frac {n-1}{n}} \rho\sigma^{2}.}

Esto implica que la varianza de la media aumenta con el promedio de las correlaciones. En otras palabras, las observaciones correlacionadas adicionales no son tan efectivas como las observaciones independientes adicionales para reducir la incertidumbre de la media. Además, si las variables tienen varianza unitaria, por ejemplo si están estandarizadas, entonces esto se simplifica a {\displaystyle \operatorname {Var} \left({\overline {X}}\right)={\frac {1}{n}}+{\frac {n-1}{n}}\rho .}

Esta fórmula se utiliza en la fórmula de predicción de Spearman-Brown de la teoría de prueba clásica. Esta converge a ρ si n tiende a infinito, siempre que la correlación promedio permanezca constante o también converja. Entonces, para la varianza de la media de variables estandarizadas con correlaciones iguales o correlación promedio convergente, tenemos {\displaystyle \lim _{n\to \infty }\operatorname {Var} \left({\overline {X}}\right)=\rho .}

Por tanto, la varianza de la media de un gran número de variables estandarizadas es aproximadamente igual a su correlación media. Esto deja en claro que la media muestral de las variables correlacionadas generalmente no converge a la media poblacional, aunque la ley de los grandes números establece que la media muestral convergerá para las variables independientes.

Lid con tamaño de muestra aleatorio

Hay casos en que se toma una muestra sin saber, de antemano, cuántas observaciones serán aceptables según algún criterio. En tales casos, el tamaño de la muestra N es una variable aleatoria cuya variación se suma a la variación de X , tal que,Var(Σ X ) = E( norte )Var( X ) + Var( norte )E ( X ),

que se sigue de la ley de la varianza total.

Si N tiene una distribución de Poisson, entonces E( N ) = Var( N ) con estimador N = n . Entonces, el estimador de Var(Σ X ) se convierte en nS X + X dandoerror estándar( X ) = √[( X + X )/ n ].

Notación matricial para la varianza de una combinación lineal

Definir Xcomo vector columna de nortevariables aleatorias X_{1},\ldots,X_{n}, y Ccomo vector columna de norteescalares c_{1},\ldots,c_{n}. Por lo tanto, {\displaystyle c^{\mathsf {T}}X}es una combinación lineal de estas variables aleatorias, donde {\displaystyle c^{\mathsf{T}}}denota la transposición de C. también deja \Sigmasea ​​la matriz de covarianza de X. la varianza de {\displaystyle c^{\mathsf {T}}X}entonces viene dado por: {\displaystyle \operatorname {Var} \left(c^{\mathsf {T}}X\right)=c^{\mathsf {T}}\Sigma c.}

Esto implica que la varianza de la media se puede escribir como (con un vector columna de unos) {\displaystyle \operatorname {Var} \left({\bar {x}}\right)=\operatorname {Var} \left({\frac {1}{n}}1'X\right)={\frac {1}{n^{2}}}1'\Sigma 1.}

Suma ponderada de variables

La propiedad de escala y la fórmula de Bienaymé, junto con la propiedad de la covarianza Cov( aX ,  bY ) = ab Cov( X ,  Y ) en conjunto implican que {\displaystyle \operatorname {Var} (aX\pm bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)\pm 2ab\,\operatorname { Cov} (X,Y).}

Esto implica que en una suma ponderada de variables, la variable con mayor peso tendrá un peso desproporcionadamente grande en la varianza del total. Por ejemplo, si X e Y no están correlacionados y el peso de X es dos veces el peso de Y , entonces el peso de la varianza de X será cuatro veces el peso de la varianza de Y.

La expresión anterior se puede extender a una suma ponderada de múltiples variables: <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/531e86a8cfc325ce7d97a0e849d82c9469934099" alt="\nombre del operador {Var} \left(\sum_{i}^{n}a_{i}X_{i}\right)=\sum_{i=1}^{n}a_{i}^{2} \operatorname {Var} (X_{i})+2\sum _{1\leq i}\sum _{

Producto de variables independientes

Si dos variables X e Y son independientes, la varianza de su producto viene dada por {\displaystyle \operatorname {Var} (XY)=[\operatorname {E} (X)]^{2}\operatorname {Var} (Y)+[\operatorname {E} (Y)]^{2}\ nombreoperador {Var} (X)+\nombreoperador {Var} (X)\nombreoperador {Var} (Y).}

De manera equivalente, usando las propiedades básicas de la expectativa, está dada por {\displaystyle \operatorname {Var} (XY)=\operatorname {E} \left(X^{2}\right)\operatorname {E} \left(Y^{2}\right)-[\operatorname {E } (X)]^{2}[\nombre del operador {E} (Y)]^{2}.}

Producto de variables estadísticamente dependientes

En general, si dos variables son estadísticamente dependientes, es decir, tienen una covarianza distinta de cero, entonces la varianza de su producto viene dada por: {\displaystyle {\begin{alineado}\operatorname {Var} (XY)={}&\operatorname {E} \left[X^{2}Y^{2}\right]-[\operatorname {E} ( XY)]^{2}\\[5pt]={}&\nombre del operador {Cov} \left(X^{2},Y^{2}\right)+\nombre del operador {E} (X^{2} )\nombre del operador {E} \left(Y^{2}\right)-[\nombre del operador {E} (XY)]^{2}\\[5pt]={}&\nombre del operador {Cov} \left(X) ^{2},Y^{2}\right)+\left(\operatorname {Var} (X)+[\operatorname {E} (X)]^{2}\right)\left(\operatorname {Var } (Y)+[\nombre del operador {E} (Y)]^{2}\right)\\[5pt]&-[\nombre del operador {Cov} (X,Y)+\nombre del operador {E} (X)\ nombre del operador {E} (Y)]^{2}\end{alineado}}}

Descomposición

La fórmula general para la descomposición de la varianza o la ley de la varianza total es: Si Xy Yson dos variables aleatorias, y la varianza de Xexiste, entonces {\displaystyle \operatorname {Var} [X]=\operatorname {E} (\operatorname {Var} [X\mid Y])+\operatorname {Var} (\operatorname {E} [X\mid Y]). }

La expectativa condicional {\ estilo de visualización \ nombre del operador {E} (X \ mid Y)}de Xdado Y, y la varianza condicional {\ estilo de visualización \ nombre del operador {Var} (X \ mid Y)}puede entenderse de la siguiente manera. Dado cualquier valor particular y de la variable aleatoria  Y , existe una expectativa condicional {\ estilo de visualización \ nombre del operador {E} (X \ mid Y = y)} dado el evento  Y  =  y . Esta cantidad depende del valor particular  y ; es una funcion {\displaystyle g(y)=\operatorname {E} (X\mid Y=y)}. Esa misma función evaluada en la variable aleatoria Y es la esperanza condicional {\displaystyle \operatorname {E} (X\mid Y)=g(Y).}

En particular, si Yes una variable aleatoria discreta que asume posibles valores {\displaystyle y_{1},y_{2},y_{3}\ldots}con las probabilidades correspondientes {\displaystyle p_{1},p_{2},p_{3}\ldots,}, entonces en la fórmula para la varianza total, el primer término del lado derecho se convierte en {\displaystyle \operatorname {E} (\operatorname {Var} [X\mid Y])=\sum _{i}p_{i}\sigma _{i}^{2},}

donde {\displaystyle \sigma _{i}^{2}=\operatorname {Var} [X\mid Y=y_{i}]}. De manera similar, el segundo término del lado derecho se convierte en {\displaystyle \operatorname {Var} (\operatorname {E} [X\mid Y])=\sum_{i}p_{i}\mu_{i}^{2}-\left(\sum_{ i}p_{i}\mu _{i}\right)^{2}=\sum_{i}p_{i}\mu _{i}^{2}-\mu ^{2},}

donde {\displaystyle \mu _{i}=\nombre del operador {E} [X\mid Y=y_{i}]}y {\ estilo de visualización \ mu = \ suma _ {i} p_ {i} \ mu _ {i}}. Así, la varianza total está dada por {\displaystyle \operatorname {Var} [X]=\sum_{i}p_{i}\sigma_{i}^{2}+\left(\sum_{i}p_{i}\mu_{ yo}^{2}-\mu^{2}\derecha).}

Se aplica una fórmula similar en el análisis de varianza, donde la fórmula correspondiente es {\mathit {MS}}_{\text{total}}={\mathit {MS}}_{\text{entre}}+{\mathit {MS}}_{\text{dentro de}};

aquí {\ matemáticas {MS}}se refiere a la media de los cuadrados. En el análisis de regresión lineal, la fórmula correspondiente es {\mathit {MS}}_{\text{total}}={\mathit {MS}}_{\text{regresión}}+{\mathit {MS}}_{\text{residual}}.

Esto también se puede derivar de la aditividad de las varianzas, ya que la puntuación total (observada) es la suma de la puntuación predicha y la puntuación del error, donde las dos últimas no están correlacionadas.

Son posibles descomposiciones similares para la suma de las desviaciones al cuadrado (suma de cuadrados, {\ matemáticas {SS}}): {\mathit {SS}}_{\text{total}}={\mathit {SS}}_{\text{entre}}+{\mathit {SS}}_{\text{dentro de}}, {\mathit {SS}}_{\text{total}}={\mathit {SS}}_{\text{regresión}}+{\mathit {SS}}_{\text{residual}}.

Cálculo de la CDF

La varianza de la población para una variable aleatoria no negativa se puede expresar en términos de la función de distribución acumulativa F usando {\displaystyle 2\int_{0}^{\infty}u(1-F(u))\,du-\left(\int_{0}^{\infty}(1-F(u)) \,du\right)^{2}.}

Esta expresión se puede utilizar para calcular la varianza en situaciones en las que se puede expresar convenientemente la CDF, pero no la densidad.

Propiedad característica

El segundo momento de una variable aleatoria alcanza el valor mínimo cuando se toma alrededor del primer momento (es decir, la media) de la variable aleatoria, es decir {\displaystyle \mathrm {argmin} _{m}\,\mathrm {E} \left(\left(Xm\right)^{2}\right)=\mathrm {E} (X)}. Por el contrario, si una función continua \varphisatisface {\displaystyle \mathrm {argmin} _{m}\,\mathrm {E} (\varphi (Xm))=\mathrm {E} (X)}para todas las variables aleatorias X , entonces es necesariamente de la forma \varphi (x)=ax^{2}+b, donde a > 0 . Esto también es válido en el caso multidimensional.

Unidades de medida

A diferencia de la desviación absoluta esperada, la varianza de una variable tiene unidades que son el cuadrado de las unidades de la propia variable. Por ejemplo, una variable medida en metros tendrá una varianza medida en metros al cuadrado. Por esta razón, a menudo se prefiere describir conjuntos de datos a través de su desviación estándar o desviación cuadrática media en lugar de usar la varianza. En el ejemplo de los dados, la desviación estándar es √ 2,9 ≈ 1,7 , ligeramente mayor que la desviación absoluta esperada de 1,5.

La desviación estándar y la desviación absoluta esperada se pueden utilizar como indicador de la "propagación" de una distribución. La desviación estándar es más susceptible de manipulación algebraica que la desviación absoluta esperada y, junto con la varianza y su covarianza de generalización, se usa con frecuencia en estadística teórica; sin embargo, la desviación absoluta esperada tiende a ser más robusta, ya que es menos sensible a los valores atípicos que surgen de las anomalías de medición o una distribución de colas indebidamente pesadas.

Aproximar la varianza de una función

El método delta utiliza expansiones de Taylor de segundo orden para aproximar la varianza de una función de una o más variables aleatorias: consulte las expansiones de Taylor para los momentos de funciones de variables aleatorias. Por ejemplo, la varianza aproximada de una función de una variable está dada por {\displaystyle \operatorname {Var} \left[f(X)\right]\approx \left(f'(\operatorname {E} \left[X\right])\right)^{2}\operatorname {Var } \izquierda[X\derecha]}

siempre que f sea ​​dos veces diferenciable y que la media y la varianza de X sean finitas.

Varianza poblacional y varianza muestral

Las observaciones del mundo real, como las mediciones de la lluvia de ayer a lo largo del día, normalmente no pueden ser conjuntos completos de todas las observaciones posibles que se podrían realizar. Como tal, la varianza calculada a partir del conjunto finito, en general, no coincidirá con la varianza que se habría calculado a partir de la población total de posibles observaciones. Esto significa que uno estima la media y la varianza de un conjunto limitado de observaciones usando una ecuación de estimador. El estimador es una función de la muestra de n observaciones extraída sin sesgo de observación de la población total de observaciones potenciales. En este ejemplo, esa muestra sería el conjunto de mediciones reales de la lluvia de ayer de los pluviómetros disponibles dentro de la geografía de interés.

Los estimadores más simples para la media de la población y la varianza de la población son simplemente la media y la varianza de la muestra, la media de la muestra y la varianza de la muestra (no corregida) : estos son estimadores consistentes (convergen al valor correcto a medida que aumenta el número de muestras), pero pueden Ser mejorado. Estimar la varianza de la población tomando la varianza de la muestra es casi óptimo en general, pero se puede mejorar de dos maneras. Más simplemente, la varianza de la muestra se calcula como un promedio de las desviaciones al cuadrado sobre la media (de la muestra), dividiéndola por n. Sin embargo, el uso de valores distintos de n mejora el estimador de varias formas. Cuatro valores comunes para el denominador son n, n  − 1, n + 1, y n  − 1.5: n es la más simple (varianza de la población de la muestra), n  − 1 elimina el sesgo, n  + 1 minimiza el error cuadrático medio para la distribución normal y n  − 1.5 elimina principalmente el sesgo en la estimación no sesgada de la distribución estándar desviación de la distribución normal.

En primer lugar, si se desconoce la verdadera media poblacional, entonces la varianza muestral (que usa la media muestral en lugar de la verdadera media) es un estimador sesgado: subestima la varianza por un factor de ( n  − 1) / n ; corregir por este factor (dividir por n  − 1 en lugar de n ) se llama corrección de Bessel. El estimador resultante no tiene sesgo y se denomina varianza muestral (corregida) o varianza muestral no sesgada . Por ejemplo, cuando n = 1 la varianza de una sola observación sobre la media de la muestra (en sí misma) es obviamente cero independientemente de la varianza de la población. Si la media se determina de alguna otra manera que no sea a partir de las mismas muestras utilizadas para estimar la varianza, entonces este sesgo no surge y la varianza se puede estimar con seguridad como la de las muestras sobre la media (conocida de forma independiente).

En segundo lugar, la varianza muestral generalmente no minimiza el error cuadrático medio entre la varianza muestral y la varianza poblacional. Corregir el sesgo a menudo empeora esto: siempre se puede elegir un factor de escala que funcione mejor que la varianza de la muestra corregida, aunque el factor de escala óptimo depende del exceso de curtosis de la población (ver error cuadrático medio: varianza) e introduce sesgo. Esto siempre consiste en reducir el estimador insesgado (dividiendo por un número mayor que n  - 1), y es un ejemplo simple de un estimador de contracción: uno "reduce" el estimador insesgado hacia cero. Para la distribución normal, dividir por n  + 1 (en lugar de n  − 1 o n) minimiza el error cuadrático medio. Sin embargo, el estimador resultante está sesgado y se conoce como variación muestral sesgada .

Varianza de la población

En general, la varianza poblacional de una población finita de tamaño N con valores i viene dada por

{\displaystyle {\begin{alineado}\sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \ derecha)^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\ mu ^{2}\right)\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right )-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}\\[5pt]& =\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\mu ^{2}\end{alineado}} }

donde la media poblacional es {\displaystyle \mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}.}

La varianza de la población también se puede calcular usando <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/942579caf5952caa0d1b8de2693b71fd5d5c0420" alt="{\displaystyle \sigma ^{2}={\frac {1}{N^{2}}}\sum _{i

Esto es cierto porque

{\displaystyle {\begin{alineado}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j} \right)^{2}\\[5pt]={}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i }^{2}-2x_{i}x_{j}+x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2N}}\sum_{j =1}^{N}\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\left({\frac {1}{N}}\sum_{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum_{j=1}^{N }x_{j}\right)+{\frac {1}{2N}}\sum_{i=1}^{N}\left({\frac {1}{N}}\sum_{j= 1}^{N}x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{ 2}\right)-\mu ^{2}+{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)\\[5pt]={} &\sigma ^{2}\end{alineado}}}

La varianza de la población coincide con la varianza de la distribución de probabilidad generadora. En este sentido, el concepto de población puede extenderse a variables aleatorias continuas con poblaciones infinitas.

Varianza de la muestra

Varianza muestral sesgada

En muchas situaciones prácticas, la verdadera varianza de una población no se conoce a priori y debe calcularse de alguna manera. Cuando se trata de poblaciones extremadamente grandes, no es posible contar todos los objetos de la población, por lo que el cálculo debe realizarse en una muestra de la población. La varianza muestral también se puede aplicar a la estimación de la varianza de una distribución continua a partir de una muestra de esa distribución.

Tomamos una muestra con reemplazo de n valores 1 , ...,  n de la población, donde n  <  N , y estimamos la varianza sobre la base de esta muestra. Tomando directamente la varianza de los datos de la muestra se obtiene el promedio de las desviaciones al cuadrado: <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/d1b5aaef2825f1035cfa141e0467471cdf30cdb3" alt="{\displaystyle \sigma _{Y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y} }\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}Y_{i}^{2}\right)-{\overline { Y}}^{2}={\frac{1}{n^{2}}}\sum_{i,j\,:\,i

Aquí, {\sobrelínea {Y}}denota la media muestral: {\displaystyle {\overline {Y}}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}.}

Dado que los i se seleccionan aleatoriamente, ambos {\sobrelínea {Y}}y {\ estilo de visualización \ sigma _ {Y} ^ {2}}son variables aleatorias. Sus valores esperados se pueden evaluar promediando el conjunto de todas las muestras posibles { i } de tamaño n de la población. Para {\ estilo de visualización \ sigma _ {Y} ^ {2}}esto da: {\displaystyle {\begin{alineado}\operatorname {E} [\sigma _{Y}^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum_{ i=1}^{n}\left(Y_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j}\right)^{2}\ derecha]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\nombre del operador {E} \left[Y_{i}^{2}-{\ fracción {2}{n}}Y_{i}\sum _{j=1}^{n}Y_{j}+{\frac {1}{n^{2}}}\sum_{j=1 }^{n}Y_{j}\sum _{k=1}^{n}Y_{k}\right]\\[5pt]&={\frac {1}{n}}\sum_{i =1}^{n}\left({\frac {n-2}{n}}\nombre del operador {E} \left[Y_{i}^{2}\right]-{\frac {2}{n }}\sum_{j\neq i}\nombre_operador {E} \left[Y_{i}Y_{j}\right]+{\frac {1}{n^{2}}}\sum_{j =1}^{n}\sum_{k\neq j}^{n}\nombre del operador {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{ 2}}}\sum _{j=1}^{n}\nombre del operador {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}\left(\sigma ^{2}+\mu ^{2}\right)-{\frac {2}{n}}(n-1)\mu ^{2}+{\frac {1}{n^{2}}}n(n-1) \mu ^{2}+{\frac {1}{n}}\left(\sigma ^{2}+\mu ^{2}\right)\right]\\[5pt]&={\frac { n-1}{n}}\sigma ^{2}.\end{alineado}}}

Por eso {\ estilo de visualización \ sigma _ {Y} ^ {2}}da una estimación de la varianza de la población que está sesgada por un factor de {\displaystyle {\frac{n-1}{n}}}. Por esta razón, {\ estilo de visualización \ sigma _ {Y} ^ {2}}se conoce como la varianza de la muestra sesgada .

Varianza de muestra imparcial

La corrección de este sesgo produce la varianza de la muestra no sesgada , denotada ^{2}: {\displaystyle s^{2}={\frac {n}{n-1}}\sigma _{Y}^{2}={\frac {n}{n-1}}\left[{\frac {1}{n}}\sum_{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}\right]={\frac {1 {n-1}}\sum_{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}}

Cualquiera de los estimadores puede denominarse simplemente la varianza de la muestra cuando la versión puede determinarse por contexto. La misma prueba también es aplicable para muestras tomadas de una distribución de probabilidad continua.

El uso del término n  − 1 se denomina corrección de Bessel y también se usa en la covarianza muestral y la desviación estándar muestral (la raíz cuadrada de la varianza). La raíz cuadrada es una función cóncava y, por lo tanto, introduce un sesgo negativo (por la desigualdad de Jensen), que depende de la distribución y, por lo tanto, la desviación estándar de la muestra corregida (usando la corrección de Bessel) está sesgada. La estimación insesgada de la desviación estándar es un problema técnicamente complicado, aunque para la distribución normal, usar el término n  − 1.5 produce un estimador casi insesgado.

La varianza muestral no sesgada es un estadístico U para la función ƒ ( 1 ,  2 ) = ( 1  −  2 ) /2, lo que significa que se obtiene promediando un estadístico de 2 muestras sobre subconjuntos de 2 elementos del población.

Distribución de la varianza muestral

Al ser una función de variables aleatorias, la varianza de la muestra es en sí misma una variable aleatoria, y es natural estudiar su distribución. En el caso de que i sean observaciones independientes de una distribución normal, el teorema de Cochran muestra que s sigue una distribución chi-cuadrada escalada: {\displaystyle (n-1){\frac {s^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.}

Como consecuencia directa, se sigue que {\displaystyle \operatorname {E} \left(s^{2}\right)=\operatorname {E} \left({\frac {\sigma ^{2}}{n-1}}\chi _{n -1}^{2}\right)=\sigma^{2},}

y {\displaystyle \operatorname {Var} \left[s^{2}\right]=\operatorname {Var} \left({\frac {\sigma ^{2}}{n-1}}\chi _{n -1}^{2}\right)={\frac {\sigma ^{4}}{(n-1)^{2}}}\operatorname {Var} \left(\chi _{n-1} ^{2}\right)={\frac {2\sigma ^{4}}{n-1}}.}

Si los i son independientes e idénticamente distribuidos, pero no necesariamente normalmente distribuidos, entonces {\displaystyle \operatorname {E} \left[s^{2}\right]=\sigma ^{2},\quad \operatorname {Var} \left[s^{2}\right]={\frac { \sigma ^{4}}{n}}\left(\kappa -1+{\frac {2}{n-1}}\right)={\frac {1}{n}}\left(\mu _ {4}-{\frac {n-3}{n-1}}\sigma ^{4}\right),}

donde κ es la curtosis de la distribución y μ 4 es el cuarto momento central.

Si las condiciones de la ley de los grandes números se cumplen para las observaciones al cuadrado, s es un estimador consistente de  σ . De hecho, se puede ver que la varianza del estimador tiende asintóticamente a cero. Kenney y Keeping (1951: 164), Rose y Smith (2002: 264) y Weisstein (nd) dieron una fórmula asintóticamente equivalente.

desigualdad de Samuelson

La desigualdad de Samuelson es un resultado que establece límites en los valores que pueden tomar las observaciones individuales en una muestra, dado que se han calculado la media de la muestra y la varianza (sesgada). Los valores deben estar dentro de los límites {\displaystyle {\bar {y}}\pm \sigma_{Y}(n-1)^{1/2}.}

Relaciones con las medias armónicas y aritméticas

Se ha demostrado que para una muestra { i } de números reales positivos, \sigma _{y}^{2}\leq 2y_{\max}(AH),

donde max es el máximo de la muestra, A es la media aritmética, H es la media armónica de la muestra y \sigma _{y}^{2}es la varianza (sesgada) de la muestra.

Este límite se ha mejorado y se sabe que la varianza está limitada por \sigma _{y}^{2}\leq {\frac {y_{\max }(AH)(y_{\max }-A)}{y_{\max }-H}}, \sigma _{y}^{2}\geq {\frac {y_{\min }(AH)(A-y_{\min })}{H-y_{\min }}},

donde min es el mínimo de la muestra.

Pruebas de igualdad de varianzas

Es difícil probar la igualdad de dos o más varianzas. La prueba F y las pruebas de chi cuadrado se ven afectadas negativamente por la falta de normalidad y no se recomiendan para este propósito.

Se han propuesto varias pruebas no paramétricas: estas incluyen la prueba de Barton-David-Ansari-Freund-Siegel-Tukey, la prueba de Capon, la prueba de Mood, la prueba de Klotz y la prueba de Sukhatme. La prueba de Sukhatme se aplica a dos varianzas y requiere que ambas medianas sean conocidas e iguales a cero. Las pruebas de Mood, Klotz, Capon y Barton-David-Ansari-Freund-Siegel-Tukey también se aplican a dos varianzas. Permiten que la mediana sea desconocida pero requieren que las dos medianas sean iguales.

La prueba de Lehmann es una prueba paramétrica de dos varianzas. De esta prueba se conocen varias variantes. Otras pruebas de igualdad de varianzas incluyen la prueba de Box, la prueba de Box-Anderson y la prueba de Moses.

Los métodos de remuestreo, que incluyen bootstrap y jackknife, pueden usarse para probar la igualdad de varianzas.

Historia

El término varianza fue introducido por primera vez por Ronald Fisher en su artículo de 1918 The Correlation Between Relatives on the Supposition of Mendelian Inheritance :

La gran cantidad de estadísticas disponibles nos muestra que las desviaciones de una medida humana de su media siguen muy de cerca la Ley Normal de Errores y, por lo tanto, que la variabilidad puede medirse uniformemente por la desviación estándar correspondiente a la raíz cuadrada de la media. error de cuadrado Cuando hay dos causas independientes de variabilidad capaces de producir en una población por lo demás uniforme distribuciones con desviaciones estándar \sigma _{1}y \sigma _{2}, se encuentra que la distribución, cuando ambas causas actúan juntas, tiene una desviación estándar {\sqrt {\sigma _{1}^{2}+\sigma _{2}^{2}}}. Por lo tanto, al analizar las causas de la variabilidad es deseable tratar con el cuadrado de la desviación estándar como medida de la variabilidad. Llamaremos a esta cantidad la Varianza...

Momento de inercia

La varianza de una distribución de probabilidad es análoga al momento de inercia en la mecánica clásica de una distribución de masa correspondiente a lo largo de una línea, con respecto a la rotación alrededor de su centro de masa. Es por esta analogía que cosas como la varianza se denominan momentos de distribuciones de probabilidad. La matriz de covarianza está relacionada con el tensor del momento de inercia para distribuciones multivariadas. El momento de inercia de una nube de n puntos con una matriz de covarianza de \Sigmaes dado por {\displaystyle I=n\left(\mathbf {1} _{3\times 3}\operatorname {tr} (\Sigma )-\Sigma \right).}

Esta diferencia entre el momento de inercia en física y en estadística es clara para los puntos que se agrupan a lo largo de una línea. Supongamos que muchos puntos están cerca del eje x y se distribuyen a lo largo de él. La matriz de covarianza podría verse como {\displaystyle \Sigma ={\begin{bmatrix}10&0&0\\0&0.1&0\\0&0&0.1\end{bmatrix}}.}

Es decir, existe la mayor variación en la dirección x . Los físicos considerarían que esto tiene un momento bajo con respecto al eje x , por lo que el tensor del momento de inercia es {\displaystyle I=n{\begin{bmatrix}0.2&0&0\\0&10.1&0\\0&0&10.1\end{bmatrix}}.}

Semivarianza

La semivarianza se calcula de la misma manera que la varianza, pero solo se incluyen en el cálculo aquellas observaciones que caen por debajo de la media:

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/6e82c53257186179e1aa4e6017b06974392fe4f6" alt="{\displaystyle {\text{Semivarianza}}={1 \over {n}}\sum _{i:x_{i}También se describe como una medida específica en diferentes campos de aplicación. Para distribuciones asimétricas, la semivarianza puede proporcionar información adicional que una varianza no proporciona.

Para desigualdades asociadas con la semivarianza, consulte la desigualdad de Chebyshev § Semivarianzas.

Generalizaciones

Para variables complejas

Si Xes una variable aleatoria escalar de valor complejo, con valores en {\ estilo de visualización \ mathbb {C},}entonces su varianza es {\displaystyle \operatorname {E} \left[(x-\mu )(x-\mu )^{*}\right],}donde x^{*}es el complejo conjugado de X. Esta varianza es un escalar real.

Para variables aleatorias con valores vectoriales

Como matriz

Si Xes una variable aleatoria con valores vectoriales, con valores en {\ estilo de visualización \ mathbb {R} ^ {n},}y considerado como un vector columna, entonces una generalización natural de la varianza es {\displaystyle \operatorname {E} \left[(X-\mu )(X-\mu )^{\operatorname {T} }\right],}donde \mu =\nombre del operador {E} (X)y X^{\nombre del operador {T} }es la transposición de X,y también lo es un vector fila. El resultado es una matriz cuadrada semidefinida positiva, comúnmente conocida como matriz de varianza-covarianza (o simplemente como matriz de covarianza ).

Como un escalar

Otra generalización de la varianza para variables aleatorias con valores vectoriales X, que da como resultado un valor escalar en lugar de una matriz, es la varianza generalizada {\ estilo de visualización \ det (C)}, el determinante de la matriz de covarianza. Se puede demostrar que la varianza generalizada está relacionada con la dispersión multidimensional de puntos alrededor de su media.

Se obtiene una generalización diferente considerando la distancia euclidiana entre la variable aleatoria y su media. Esto resulta en {\displaystyle \operatorname {E} \left[(X-\mu )^{\operatorname {T} }(X-\mu )\right]=\operatorname {tr} (C),}que es la traza de la matriz de covarianza.

Contenido relacionado

Ciencias formales

La ciencia formal es una rama de la ciencia que estudia las disciplinas del lenguaje formal relacionadas con los sistemas formales, como la lógica, las...

Estadística matemática

La estadística matemática es la aplicación de la teoría de la probabilidad, una rama de las matemáticas, a la estadística, a diferencia de las técnicas...

Teoría estadística

La teoría de la estadística proporciona una base para toda la gama de técnicas, tanto en el diseño de estudios como en el análisis de datos, que se...

Distribución logarítmica normal

La distribución logarítmica normal o log-normal, es la representación estadística de una variable aleatoria cuya transformación logarítmica sigue una...

Historia de la medición

Los primeros sistemas registrados de pesos y medidas se originan en el tercer o cuarto milenio antes de Cristo. Incluso las civilizaciones más antiguas...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save