Error estándar

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

El error estándar (SE) de una estadística (generalmente una estimación de un parámetro) es la desviación estándar de su distribución de muestreo o una estimación de esa desviación estándar. Si la estadística es la media muestral, se denomina error estándar de la media (SEM).

La distribución muestral de una media se genera mediante un muestreo repetido de la misma población y el registro de las medias muestrales obtenidas. Esto forma una distribución de diferentes medias, y esta distribución tiene su propia media y varianza. Matemáticamente, la varianza de la distribución muestral obtenida es igual a la varianza de la población dividida por el tamaño de la muestra. Esto se debe a que a medida que aumenta el tamaño de la muestra, las medias muestrales se agrupan más cerca de la media poblacional.

Por lo tanto, la relación entre el error estándar de la media y la desviación estándar es tal que, para un tamaño de muestra dado, el error estándar de la media es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra. En otras palabras, el error estándar de la media es una medida de la dispersión de las medias muestrales alrededor de la media poblacional.

En el análisis de regresión, el término "error estándar" se refiere a la raíz cuadrada de la estadística chi-cuadrada reducida o al error estándar para un coeficiente de regresión particular (como se usa, por ejemplo, en los intervalos de confianza).

Error estandar de la media

Valor exacto

$norte$ Si se toma una muestra de observaciones estadísticamente independiente ${displaystyle x_{1},x_{2},ldots,x_{n}}$ de una población estadística con una desviación estándar de $sigma$ , entonces el valor medio calculado a partir de la muestra ${ barra {x}}$ tendrá un error estándar asociado en la media ${displaystyle {sigma}_{bar{x}}}$ dado por: ${displaystyle {sigma }_{bar {x}} ={frac {sigma }{sqrt {n}}}}$ .

Prácticamente esto nos dice que cuando se trata de estimar el valor de una media poblacional, debido al factor $1/{sqrt {n}}$ , reducir el error en la estimación por un factor de dos requiere adquirir cuatro veces más observaciones en la muestra; reducirlo por un factor de diez requiere cien veces más observaciones.

Estimar

$sigma$ Rara vez se conoce la desviación estándar de la población muestreada. Por lo tanto, el error estándar de la media generalmente se estima reemplazando $sigma$ con la desviación estándar de la muestra $sigma _{x}$ : ${displaystyle {sigma }_{bar {x}} approx {frac {sigma _{x}}{sqrt {n}}}}$ .

Como este es solo un estimador del verdadero "error estándar", es común ver otras notaciones aquí, como: ${displaystyle {widehat {sigma }}_{bar {x}}={frac {sigma _{x}}{sqrt {n}}}}$ o alternativamente. ${displaystyle {s}_{bar {x}} ={frac {s}{sqrt {n}}}}$

Una fuente común de confusión ocurre cuando no se distingue claramente entre la desviación estándar de la población ( $sigma$ ), la desviación estándar de la muestra ( $sigma _{x}$ ), la desviación estándar de la media misma ( ${ estilo de visualización sigma _ { bar {x}}}$ , que es el error estándar) y el estimador de la desviación estándar de la media ( ${displaystyle {sombrero ancho {sigma}}_{bar {x}}}$ , que es la cantidad calculada con más frecuencia, y también se suele llamar coloquialmente el error estándar).

Precisión del estimador

Cuando el tamaño de la muestra es pequeño, usar la desviación estándar de la muestra en lugar de la verdadera desviación estándar de la población tenderá a subestimar sistemáticamente la desviación estándar de la población y, por lo tanto, también el error estándar. Con n = 2, la subestimación es de alrededor del 25 %, pero para n = 6, la subestimación es solo del 5 %. Gurland y Tripathi (1971) proporcionan una corrección y una ecuación para este efecto. Sokal y Rohlf (1981) dan una ecuación del factor de corrección para muestras pequeñas de n < 20. Consulte la estimación imparcial de la desviación estándar para obtener más información.

Derivación

El error estándar de la media puede derivarse de la varianza de una suma de variables aleatorias independientes, dada la definición de varianza y algunas propiedades simples de la misma. Si ${displaystyle x_{1},x_{2},ldots,x_{n}}$ son $norte$ observaciones independientes de una población con media ${ barra {x}}$ y desviación estándar $sigma$ , entonces podemos definir el total ${displaystyle T=(x_{1}+x_{2}+cdots +x_{n})}$

que por la fórmula de Bienaymé, tendrá varianza ${displaystyle operatorname {Var} (T)={big (}operatorname {Var} (x_{1})+operatorname {Var} (x_{2})+cdots +operatorname {Var} (x_{n}){grande)}=nsigma^{2}.}$

La media de estas medidas ${ barra {x}}$ viene dada simplemente por ${ estilo de visualización { barra {x}} = T/n}$ .

La varianza de la media es entonces ${displaystyle operatorname {Var} ({bar {x}})=operatorname {Var} left({frac {T}{n}}right)={frac {1}{n^{ 2}}}nombre del operador {Var} (T)={frac {1}{n^{2}}}nsigma ^{2}={frac {sigma ^{2}}{n}}.}$

El error estándar es, por definición, cuya desviación estándar ${ barra {x}}$ es simplemente la raíz cuadrada de la varianza: ${displaystyle sigma_{bar {x}}={sqrt {frac {sigma ^{2}}{n}}}={frac {sigma }{sqrt {n}}}}$ .

Para variables aleatorias correlacionadas, la varianza de la muestra debe calcularse de acuerdo con el teorema del límite central de la cadena de Markov.

Variables aleatorias independientes e idénticamente distribuidas con tamaño de muestra aleatorio

Hay casos en que se toma una muestra sin saber, de antemano, cuántas observaciones serán aceptables según algún criterio. En tales casos, el tamaño de la muestra $norte$ es una variable aleatoria cuya variación se suma a la variación de $X$ tal que, ${displaystyle operatorname {Var} (T)=operatorname {E} (N)operatorname {Var} (X)+operatorname {Var} (N){big (}operatorname {E} (X) {grande)}^{2}}$

Si $norte$ tiene una distribución de Poisson, entonces ${ estilo de visualización nombre del operador {E} (N) = nombre del operador {Var} (N)}$ con estimador ${ estilo de visualización N = n}$ . Por lo tanto, el estimador de ${ estilo de visualización nombre del operador {Var} (T)}$ se convierte en ${displaystyle nS_{X}^{2}+n{bar {X}}^{2}}$ , dando lugar a la siguiente fórmula para el error estándar: ${displaystyle operatorname {Estándar~Error} ({bar {X}})={sqrt {frac {S_{X}^{2}+{bar {X}}^{2}}{n }}}}$

(ya que la desviación estándar es la raíz cuadrada de la varianza)

Aproximación de Student cuando se desconoce el valor de σ

En muchas aplicaciones prácticas, se desconoce el verdadero valor de σ. Como resultado, necesitamos usar una distribución que tenga en cuenta la dispersión de posibles σ's. Cuando se sabe que la verdadera distribución subyacente es gaussiana, aunque con σ desconocido, la distribución estimada resultante sigue la distribución t de Student. El error estándar es la desviación estándar de la distribución t de Student. Las distribuciones T son ligeramente diferentes de las gaussianas y varían según el tamaño de la muestra. Es más probable que las muestras pequeñas subestimen la desviación estándar de la población y tengan una media que difiera de la verdadera media de la población, y la distribución t de Student explica la probabilidad de estos eventos con colas algo más pesadas en comparación con una Gaussiana. Para estimar el error estándar de una distribución t de Student, es suficiente usar la desviación estándar de la muestra "s" en lugar de σ, y podríamos usar este valor para calcular los intervalos de confianza.

Nota: la distribución de probabilidad de Student se aproxima bien mediante la distribución gaussiana cuando el tamaño de la muestra es superior a 100. Para tales muestras se puede utilizar la última distribución, que es mucho más simple.

Suposiciones y uso

Un ejemplo de cómo ${ estilo de visualización nombre del operador {SE}}$ se usa es hacer que los intervalos de confianza de la población desconocida sean medias. Si la distribución muestral tiene una distribución normal, la media muestral, el error estándar y los cuantiles de la distribución normal pueden usarse para calcular los intervalos de confianza para la media poblacional real. Las siguientes expresiones se pueden utilizar para calcular los límites de confianza superior e inferior del 95 %, donde ${ barra {x}}$ es igual a la media muestral, ${ estilo de visualización nombre del operador {SE}}$ es igual al error estándar de la media muestral y 1,96 es el valor aproximado del punto percentil 97,5 de la normal. distribución:Límite superior del 95% ${displaystyle ={bar {x}}+(operatorname {SE} times 1.96),}$ yLímite inferior del 95 % ${displaystyle ={bar {x}}-(operatorname {SE} times 1,96).}$

En particular, el error estándar de una estadística muestral (como la media muestral) es la desviación estándar real o estimada de la media muestral en el proceso por el cual se generó. En otras palabras, es la desviación estándar real o estimada de la distribución muestral de la estadística muestral. La notación para el error estándar puede ser cualquiera de SE, SEM (para error estándar de medición o media), o S _E.

Los errores estándar proporcionan medidas simples de incertidumbre en un valor y se utilizan a menudo porque:

en muchos casos, si se conoce el error estándar de varias cantidades individuales, se puede calcular fácilmente el error estándar de alguna función de las cantidades;
cuando se conoce la distribución de probabilidad del valor, se puede utilizar para calcular un intervalo de confianza exacto;
cuando se desconoce la distribución de probabilidad, se pueden utilizar las desigualdades de Chebyshev o Vysochanskiï-Petunin para calcular un intervalo de confianza conservador; y
como el tamaño de la muestra tiende al infinito, el teorema del límite central garantiza que la distribución muestral de la media sea asintóticamente normal.

Error estándar de media versus desviación estándar

En la literatura científica y técnica, los datos experimentales a menudo se resumen utilizando la media y la desviación estándar de los datos de la muestra o la media con el error estándar. Esto a menudo conduce a confusión acerca de su intercambiabilidad. Sin embargo, la media y la desviación estándar son estadísticas descriptivas, mientras que el error estándar de la media es descriptivo del proceso de muestreo aleatorio. La desviación estándar de los datos de la muestra es una descripción de la variación en las mediciones, mientras que el error estándar de la media es una declaración probabilística sobre cómo el tamaño de la muestra proporcionará un mejor límite en las estimaciones de la media de la población, a la luz del límite central. teorema.

En pocas palabras, el error estándar de la media de la muestra es una estimación de qué tan lejos es probable que la media de la muestra esté de la media de la población, mientras que la desviación estándar de la muestra es el grado en que los individuos dentro de la muestra difieren de la media de la muestra. Si la desviación estándar de la población es finita, el error estándar de la media de la muestra tenderá a cero al aumentar el tamaño de la muestra, porque la estimación de la media de la población mejorará, mientras que la desviación estándar de la muestra tenderá a aproximarse al estándar de la población. desviación a medida que aumenta el tamaño de la muestra.

Extensiones

Corrección de población finita (FPC)

La fórmula dada arriba para el error estándar asume que la población es infinita. No obstante, a menudo se usa para poblaciones finitas cuando las personas están interesadas en medir el proceso que creó la población finita existente (esto se denomina estudio analítico). Aunque la fórmula anterior no es exactamente correcta cuando la población es finita, la diferencia entre las versiones de población finita e infinita será pequeña cuando la fracción de muestreo es pequeña (por ejemplo, se estudia una pequeña proporción de una población finita). En este caso, las personas a menudo no corrigen la población finita, esencialmente tratándola como una población "aproximadamente infinita".

Si uno está interesado en medir una población finita existente que no cambiará con el tiempo, entonces es necesario ajustar el tamaño de la población (llamado estudio enumerativo). Cuando la fracción de muestreo (a menudo denominada f) es grande (aproximadamente un 5 % o más) en un estudio enumerativo, la estimación del error estándar debe corregirse multiplicando por una "corrección de población finita" (también conocida como FPC): ${displaystyle operatorname {FPC} ={sqrt {frac {Nn}{N-1}}}}$

que, para N grande: ${displaystyle operatorname {FPC} approx {sqrt {1-{frac {n}{N}}}}={sqrt {1-f}}}$

para tener en cuenta la precisión añadida obtenida al muestrear cerca de un porcentaje mayor de la población. El efecto de la FPC es que el error se convierte en cero cuando el tamaño de la muestra n es igual al tamaño de la población N.

Esto sucede en la metodología de encuestas cuando se realiza un muestreo sin reemplazo. Si se muestrea con reemplazo, entonces FPC no entra en juego.

Corrección por correlación en la muestra

Si los valores de la cantidad medida A no son estadísticamente independientes pero se han obtenido de ubicaciones conocidas en el espacio de parámetros x, se puede obtener una estimación no sesgada del verdadero error estándar de la media (en realidad, una corrección en la parte de la desviación estándar) multiplicando el error estándar calculado de la muestra por el factor f: $f={sqrt {frac {1+rho}}{1-rho}}},$

donde el coeficiente de sesgo de la muestra ρ es la estimación Prais-Winsten ampliamente utilizada del coeficiente de autocorrelación (una cantidad entre -1 y +1) para todos los pares de puntos de la muestra. Esta fórmula aproximada es para tamaños de muestra moderados a grandes; la referencia proporciona las fórmulas exactas para cualquier tamaño de muestra y se puede aplicar a series de tiempo altamente autocorrelacionadas, como las cotizaciones de las acciones de Wall Street. Además, esta fórmula funciona para ρ positivo y negativo por igual. Consulte también la estimación imparcial de la desviación estándar para obtener más información.

Contenido relacionado

Más resultados...