Corrección para el sesgo de la varianza muestral
En estadística, la corrección de Bessel consiste en usar
n − 1 en lugar de
n en la fórmula para la varianza y la desviación estándar muestrales, donde
n es el número de observaciones en una muestra. Este método corrige el sesgo en la estimación de la varianza poblacional. También corrige parcialmente el sesgo en la estimación de la desviación estándar poblacional. Sin embargo, la corrección suele aumentar el error cuadrático medio en estas estimaciones. Esta técnica recibe su nombre de Friedrich Bessel.
Al estimar la varianza poblacional de una muestra cuando se desconoce la media poblacional, la varianza muestral sin corregir es la media de los cuadrados de las desviaciones de los valores muestrales con respecto a la media muestral (es decir, utilizando un factor multiplicativo 1/n). En este caso, la varianza muestral es un estimador sesgado de la varianza poblacional.
Multiplicar la varianza muestral sin corregir por el factor

proporciona un estimador imparcial de la varianza poblacional. En la literatura, este factor se denomina corrección de Bessel.
La corrección de Bessel se puede entender como los grados de libertad en el vector de residuos (residuos, no errores, ya que se desconoce la media poblacional):

Donde
es la muestra media. Mientras que hay n observaciones independientes en la muestra, sólo hay n − 1 residuos independientes, como suma a 0. Para una explicación más intuitiva de la necesidad de corrección de Bessel, véase § Fuente de sesgo.
Generalmente, la corrección de Bessel es un método para reducir el sesgo debido al tamaño finito de la muestra. Esta corrección del sesgo de muestra finita también es necesaria para otras estimaciones, como la asimetría y la curtosis, pero en estas, las inexactitudes suelen ser significativamente mayores. Para eliminar completamente este sesgo, es necesario realizar una estimación multiparamétrica más compleja. Por ejemplo, una corrección correcta de la desviación estándar depende de la curtosis (cuarto momento central normalizado), pero esta, a su vez, presenta un sesgo de muestra finita y depende de la desviación estándar; es decir, ambas estimaciones deben fusionarse.
Caveats
Hay tres advertencias que considerar con respecto a la corrección de Bessel:
- No produce un estimador imparcial de estándar desviación.
- El estimador corregido a menudo tiene un error medio cuadrado superior (MSE) que el estimador no corregido. Además, no hay distribución de la población para la cual tiene el mínimo MSE porque siempre se puede elegir un factor de escala diferente para minimizar el MSE.
- Sólo es necesario cuando se desconoce la población (y se estima como la media de la muestra). En la práctica, esto generalmente sucede.
En primer lugar, si bien la varianza muestral (utilizando la corrección de Bessel) es un estimador insesgado de la varianza poblacional, su raíz cuadrada, la desviación típica muestral, es una estimación sesgada de la desviación típica poblacional. Dado que la raíz cuadrada es una función cóncava, el sesgo es descendente, según la desigualdad de Jensen. No existe una fórmula general para un estimador insesgado de la desviación típica poblacional, aunque existen factores de corrección para distribuciones particulares, como la normal; véase la estimación insesgada de la desviación típica para más detalles. Una aproximación del factor de corrección exacto para la distribución normal se obtiene utilizando n − 1,5 en la fórmula: el sesgo decae cuadráticamente (en lugar de linealmente, como en la forma sin corregir y la forma corregida de Bessel).En segundo lugar, el estimador insesgado no minimiza el error cuadrático medio (EMM) y, por lo general, presenta un EMM peor que el estimador sin corregir (esto varía con el exceso de curtosis). El EMM puede minimizarse utilizando un factor diferente. El valor óptimo depende del exceso de curtosis, como se explica en Error cuadrático medio: varianza; para la distribución normal, esto se optimiza dividiendo entre
n + 1 (en lugar de
n - 1 o
n).
En tercer lugar, la corrección de Bessel solo es necesaria cuando se desconoce la media poblacional y se estiman tanto la media poblacional como la varianza poblacional de una muestra dada, utilizando la media muestral para estimar la media poblacional. En ese caso, hay n grados de libertad en una muestra de n puntos, y la estimación simultánea de la media y la varianza implica que un grado de libertad corresponde a la media muestral y los n - 1 grados de libertad restantes (los residuos) a la varianza muestral. Sin embargo, si se conoce la media poblacional, las desviaciones de las observaciones con respecto a la media poblacional tienen n grados de libertad (ya que no se estima la media; las desviaciones no son residuos, sino errores) y la corrección de Bessel no es aplicable.
Fuente de sesgo
Simplemente, para entender el sesgo que necesita corregir, piensa en un caso extremo. Supongamos que la población es (0,0,1,2,9), que tiene una media de población de 2 y una varianza de población
. Una muestra de n = 1 es dibujado, y resulta ser
La mejor estimación de la media poblacional es
Pero si usamos la fórmula
para estimar la varianza? La estimación de la diferencia sería cero y la estimación sería cero para cualquier población y cualquier muestra de n 1. El problema es que al estimar el medio de la muestra, el proceso ya ha hecho nuestra estimación de la media cercana al valor que mostramos, identical, para n 1. En el caso de n = 1, la varianza simplemente no se puede estimar, porque no hay variabilidad en la muestra.
Pero considerar n = 2. Supongamos que la muestra fue (0, 2). Entonces...
y
pero con la corrección de Bessel,
, que es una estimación imparcial (si todas las muestras posibles de n = 2 se toman y este método se utiliza, la estimación promedio será 12.4, igual que la variación de la muestra con la corrección de Bessel.)
Para comprender esto con más detalle, considere el siguiente ejemplo. Supongamos que la media de toda la población es 2050, pero el estadístico no lo sabe y debe estimarla basándose en esta pequeña muestra elegida aleatoriamente de la población:

Se puede calcular el promedio de la muestra:

Esto puede servir como una estimación observable del promedio poblacional no observable, que es 2050. Ahora nos enfrentamos al problema de estimar la varianza poblacional. Esta es el promedio de los cuadrados de las desviaciones con respecto a 2050. Si supiéramos que el promedio poblacional es 2050, podríamos proceder de la siguiente manera:
![{\displaystyle {\begin{aligned}{}&{\frac {1}{5}}\left[(2051-2050)^{2}+(2053-2050)^{2}+(2055-2050)^{2}+(2050-2050)^{2}+(2051-2050)^{2}\right]\\[6pt]={}&{\frac {36}{5}}=7.2\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/64237ffeb4c0af01a14f17d0253719759d9ec8d5)
Pero nuestra estimación del promedio poblacional es el promedio muestral, 2052. Se desconoce el promedio real, 2050. Por lo tanto, se debe usar el promedio muestral, 2052.
![{\displaystyle {\begin{aligned}{}&{\frac {1}{5}}\left[(2051-2052)^{2}+(2053-2052)^{2}+(2055-2052)^{2}+(2050-2052)^{2}+(2051-2052)^{2}\right]\\[6pt]={}&{\frac {16}{5}}=3.2\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/36f2fa698056d95a9288f35edf7073d715f772be)
La varianza ahora es menor, y (casi) siempre lo es. La única excepción ocurre cuando el promedio de la muestra y el promedio de la población son iguales. Para entender por qué, considere que la varianza mide la distancia desde un punto, y dentro de una muestra dada, el promedio es precisamente el punto que minimiza las distancias. Un cálculo de varianza utilizando cualquier otro valor promedio debe producir un resultado mayor.Para ver esto algebraicamente, usamos una identidad simple:

Con
representando la desviación de una muestra individual del medio de la muestra, y
representando la desviación de la muestra significa de la población media. Tenga en cuenta que simplemente hemos descompuesto la desviación real de una muestra individual de la población (no conocida) significa en dos componentes: la desviación de la muestra única del medio de muestra, que podemos calcular, y la desviación adicional de la muestra significa de la media de población, que no podemos. Ahora, aplicamos esta identidad a los cuadrados de desviaciones de la población significan:
![{\displaystyle {\begin{aligned}{[}\,\underbrace {2053-2050} _{\begin{smallmatrix}{\text{Deviation from}}\\{\text{the population}}\\{\text{mean}}\end{smallmatrix}}\,]^{2}&=[\,\overbrace {(\,\underbrace {2053-2052} _{\begin{smallmatrix}{\text{Deviation from}}\\{\text{the sample mean}}\end{smallmatrix}}\,)} ^{{\text{This is }}a.}+\overbrace {(2052-2050)} ^{{\text{This is }}b.}\,]^{2}\\&=\overbrace {(2053-2052)^{2}} ^{{\text{This is }}a^{2}.}+\overbrace {2(2053-2052)(2052-2050)} ^{{\text{This is }}2ab.}+\overbrace {(2052-2050)^{2}} ^{{\text{This is }}b^{2}.}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/68be98a15fe4d4df14d7e40c381e13345d48f408)
Ahora aplique esto a las cinco observaciones y observe ciertos patrones:

La suma de las entradas en la columna central debe ser cero porque el término
a se sumará en las 5 filas, lo que a su vez debe ser igual a cero. Esto se debe a que
a contiene las 5 muestras individuales (lado izquierdo entre paréntesis) que, al sumarse, naturalmente suman lo mismo que sumar 5 veces la media muestral de esos 5 números (2052). Esto significa que la resta de estas dos sumas debe ser igual a cero. El factor 2 y el término b en la columna central son iguales en todas las filas, lo que significa que la diferencia relativa entre todas las filas de la columna central permanece igual y, por lo tanto, puede ignorarse. Las siguientes afirmaciones explican el significado de las columnas restantes:
- La suma de las entradas en la primera columna (a2) es la suma de los cuadrados de la distancia de la muestra a la media muestra;
- La suma de las entradas en la última columna (b2) es la suma de distancias cuadradas entre la media de la muestra medida y la media de la población correcta
- Cada fila consta ahora de pares de a2 (secuestrado, porque se utiliza la media de la muestra) y b2 (corrección del sesgo, porque tiene en cuenta la diferencia entre la media "real" y la muestra inexacta). Por lo tanto, la suma de todas las entradas de la primera y última columna representa ahora la varianza correcta, lo que significa que ahora se utiliza la suma de distancia cuadrada entre muestras y medios de población
- La suma de la a2- columna y b2-column debe ser más grande que la suma dentro de las entradas del a2-columna, ya que todas las entradas dentro del b2-column son positivos (excepto cuando la población significa es la misma que la muestra significa, en cuyo caso todos los números de la última columna serán 0).
Por lo tanto:
- La suma de cuadrados de la distancia de las muestras a la población significa siempre será más grande que la suma de cuadrados de la distancia a la muestra Quiero decir, excepto cuando la muestra significa ser la misma que la población significa, en cuyo caso los dos son iguales.
Por esta razón, la suma de los cuadrados de las desviaciones respecto a la media muestral es demasiado pequeña para proporcionar una estimación insesgada de la varianza poblacional cuando se calcula el promedio de esos cuadrados. Cuanto menor sea el tamaño de la muestra, mayor será la diferencia entre la varianza muestral y la poblacional.
Terminología
Esta corrección es tan común que los términos «varianza muestral» y «desviación estándar muestral» se utilizan con frecuencia para referirse a los estimadores corregidos (variación muestral insesgada, desviación estándar muestral menos sesgada), utilizando
n − 1. Sin embargo, es necesario tener cuidado: algunas calculadoras y programas informáticos pueden ofrecer ambas opciones o solo la formulación más inusual. Este artículo utiliza los siguientes símbolos y definiciones:
- μ es la población media
es la muestra media- σ2 es la diferencia de población
- sn2 es la varianza de muestra sesgada (es decir, sin la corrección de Bessel)
- s2 es la varianza de muestra imparcial (es decir, con la corrección de Bessel)
Las desviaciones estándar serán entonces las raíces cuadradas de las varianzas respectivas. Dado que la raíz cuadrada introduce sesgo, se prefiere la terminología «sin corregir» y «corregida» para los estimadores de la desviación estándar:
- sn es la desviación estándar de muestra no corregida (es decir, sin la corrección de Bessel)
- s es la desviación estándar de la muestra corregida (es decir, con la corrección de Bessel), que es menos parcial, pero todavía sesgada
La media muestra es dada por

A continuación, se escribe la varianza de muestra sesgada:

y la varianza de muestra imparcial está escrita:

Prueba
Supongamos así que
son variables aleatorias independientes y distribuidas idénticamente con expectativa
y diferencia
.
Conocer los valores de los
en un resultado
del espacio de muestra subyacente, nos gustaría obtener una buena estimación para la varianza
, que es desconocido. Con este fin, construimos una fórmula matemática que contiene el
tal que la expectativa de esta fórmula es precisamente
. Esto significa que en promedio, esta fórmula debe producir la respuesta correcta.
La forma educada, pero ingenua, de adivinar la fórmula de la varianza sería:
,
Donde
. Esta sería la diferencia si tuviéramos una variable discreta al azar en el espacio de probabilidad discreta
que tenía valor
a
. Pero calculemos el valor esperado de esta expresión:
![{\displaystyle {\begin{aligned}\mathbb {E} \left[{\frac {1}{n}}\sum _{k=1}^{n}(x_{k}-{\overline {x}})^{2}\right]&={\frac {1}{n}}\sum _{k=1}^{n}\mathbb {E} \left[\left(x_{k}-{\frac {1}{n}}\sum _{j=1}^{n}x_{j}\right)^{2}\right]\\&={\frac {1}{n^{3}}}\sum _{k=1}^{n}\mathbb {E} \left[\left(\sum _{j=1}^{n}(x_{k}-x_{j})\right)^{2}\right]\\&={\frac {n-1}{n}}\operatorname {Var} (X_{1})\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bf6f6b9d0576aed5a924e7162e4e818e19bcdf60)
Por lo tanto, nuestra suposición inicial estaba equivocada por un factor de
. Esto es precisamente la corrección de Bessel.
El último paso utilizó que la suma en cuestión se divide en uno con índices iguales de resp. desiguales. Para variables independientes e idénticamente distribuidas esto resulta en múltiples
Resp.
:
![{\displaystyle \mathbb {E} \left[\left(\sum _{j=1}^{n}(X_{k}-X_{j})\right)^{2}\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ee01d09257f53990c96aee6f2bffed637fc1e7ce)
![{\displaystyle =\mathbb {E} \left[\sum _{j=1}^{n}\sum _{l=1}^{n}(X_{k}-X_{j})(X_{k}-X_{l})\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0203e2cdae73b9f74574584cdc59a9edc520aee5)
![{\displaystyle =\mathbb {E} [X_{1}^{2}]\cdot (n^{2}+2n\cdot (-1)+n\cdot (-1)^{2})+\mathbb {E} [X_{1}]^{2}\cdot (2n(n-1)\cdot (-1)+n(n-1)\cdot (-1)^{2})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7f2aae856cac272ac3a048619aa09e0d81e841ae)
![{\displaystyle =n(n-1){\big (}\mathbb {E} [X_{1}^{2}]-\mathbb {E} [X_{1}]^{2}{\big)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7cffdc4a95fee720b82f4c3b08c95709cf3bb0c2)

Véase también
- Teorema de Cochran
- Bias of an estimator
- Desviación estándar
- Estimación imparcial de la desviación estándar
- La desigualdad de Jensen
Notas
- ^ Radziwill, Nicole M (2017). Estadísticas (la manera más fácil) con R. Lapis Lucera. ISBN 9780996916059. OCLC 1030532622.
- ^ W. J. Reichmann, W. J. (1961) Utilización y abuso de estadísticasMethuen. Reimpreso 1964-1970 por Pelican. Apéndice 8.
- ^ Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4 (entrada para "Variancia (datos)")
- ^ Rosenthal, Jeffrey S. (2015). "Los niños están bien: Divide por n al estimar la varianza". Boletín del Instituto de Estadística Matemática. Diciembre 2015: 9.
Enlaces externos
- Weisstein, Eric W. "Bessel's Correction". MathWorld.
- Experimento animado que demuestra la corrección, en la Academia Khan
Más resultados...