Errores y residuos

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Concepto estadístico

En estadística y optimización, los errores y los residuales son dos medidas estrechamente relacionadas y fácilmente confusas de la desviación de un valor observado de un elemento de una muestra estadística de su & #34;valor real" (no necesariamente observable). El error de una observación es la desviación del valor observado del valor verdadero de una cantidad de interés (por ejemplo, una media poblacional). El residual es la diferencia entre el valor observado y el valor estimado de la cantidad de interés (por ejemplo, una media muestral). La distinción es más importante en el análisis de regresión, donde los conceptos a veces se denominan errores de regresión y residuos de regresión y donde conducen al concepto de residuos estudentizados. En econometría, los "errores" También se denominan perturbaciones.

Introducción

Supongamos que hay una serie de observaciones de una distribución univariada y queremos estimar la media de esa distribución (el llamado modelo de ubicación). En este caso, los errores son las desviaciones de las observaciones de la media poblacional, mientras que los residuos son las desviaciones de las observaciones de la media muestral.

Un error estadístico (o perturbación) es la cantidad en la que una observación difiere de su valor esperado, basándose este último en toda la población de la que se extrae la unidad estadística. fue elegido al azar. Por ejemplo, si la altura media en una población de hombres de 21 años es de 1,75 metros y un hombre elegido al azar mide 1,80 metros, entonces el "error" es de 0,05 metros; Si el hombre elegido al azar mide 1,70 metros, entonces el "error" es −0,05 metros. El valor esperado, al ser la media de toda la población, normalmente no es observable y, por tanto, el error estadístico tampoco puede observarse.

Un residual (o desviación de ajuste), por otro lado, es una estimación observable del error estadístico no observable. Considere el ejemplo anterior con la altura de los hombres y supongamos que tenemos una muestra aleatoria de n personas. La media muestral podría servir como un buen estimador de la media poblacional. Entonces nosotros tenemos:

  • La diferencia entre la altura de cada hombre en la muestra y la inmejorable población es un Error estadístico, mientras
  • La diferencia entre la altura de cada hombre en la muestra y el observable muestra es un residual.

Tenga en cuenta que, debido a la definición de la media muestral, la suma de los residuos dentro de una muestra aleatoria es necesariamente cero y, por lo tanto, los residuos necesariamente no son independientes. Los errores estadísticos, por otra parte, son independientes y es casi seguro que su suma dentro de la muestra aleatoria no sea cero.

Se pueden estandarizar los errores estadísticos (especialmente los de una distribución normal) en una puntuación z (o "puntuación estándar") y estandarizar los residuos en una estadística t, o más generalmente, residuos estudentizados.

En distribuciones univariadas

Si asumimos una población distribuida normalmente con media μ y desviación estándar σ, y elegimos individuos de forma independiente, entonces tenemos

X1,...... ,Xn♪ ♪ N()μ μ ,σ σ 2){displaystyle X_{1},dotsX_{n}sim Nleft(musigma ^{2}right),}

y la media muestral

X̄ ̄ =X1+⋯ ⋯ +Xnn{displaystyle {cdots}={X_{1}+cdots ¿Qué?

es una variable aleatoria distribuida de manera que:

X̄ ̄ ♪ ♪ N()μ μ ,σ σ 2n).{displaystyle {overline {X}sim Nleft(mu{frac {sigma ^{2}{n}}right).}

Los errores estadísticos son entonces

ei=Xi− − μ μ ,{displaystyle E_{i}=X_{i}-mu,}

con valores esperados de cero, mientras que los residuales son

ri=Xi− − X̄ ̄ .{displaystyle r_{i}=X_{i}-{overline {X}}

La suma de los cuadrados de los errores estadísticos, dividida por σ2, tiene una distribución chi-cuadrado con n grados de libertad:

1σ σ 2.. i=1nei2♪ ♪ χ χ n2.{displaystyle {frac}{sigma }}sum} ¿Qué? chi _{n} {2}

Sin embargo, esta cantidad no es observable ya que se desconoce la media poblacional. La suma de los cuadrados de los residuales, por otra parte, es observable. El cociente de esa suma por σ2 tiene una distribución chi-cuadrado con solo n − 1 grados de libertad:

1σ σ 2.. i=1nri2♪ ♪ χ χ n− − 12.{displaystyle {frac}{sigma }}sum} ¿Qué? chi _{n-1} {2}

Esta diferencia entre n y n − 1 grados de libertad da como resultado la corrección de Bessel para la estimación de la varianza muestral de una población con media desconocida y valores desconocidos. diferencia. No es necesaria ninguna corrección si se conoce la media poblacional.

Observación

Es notable que se pueda demostrar que la suma de los cuadrados de los residuos y la media muestral son independientes entre sí, utilizando, por ejemplo, Teorema de Basu. Ese hecho, y las distribuciones normal y chi-cuadrado dadas anteriormente forman la base de los cálculos que involucran el estadístico t:

T=X̄ ̄ n− − μ μ 0Sn/n,{displaystyle T={frac {fnMicrosoft Sans Serif} {X}_{n}-mu} ¿Qué? {n}}}}

Donde X̄ ̄ n− − μ μ 0{displaystyle {fnK} {fn}-mu} ¿Qué? representa los errores, Sn{displaystyle S_{n} representa la desviación estándar de la muestra para una muestra de tamaño n, y desconocido σ, y el término denominador Sn/n{displaystyle S_{n}/{sqrt {n} representa la desviación estándar de los errores según:

Var⁡ ⁡ ()X̄ ̄ n)=σ σ 2n{displaystyle operatorname {Var} left({overline {X} {fn} {fn} {fn}} {fn}} {fn}} {fn}}} {fn}} {fn}}} {fn}}} {fn}}}}}} {fn}} {fn}}}}}} {fn}}}} {f}}}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f}}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f} {f}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

Las distribuciones de probabilidad del numerador y el denominador dependen por separado del valor de la desviación estándar de la población no observable σ, pero σ aparece tanto en el numerador como en el denominador y cancela. Esto es una suerte porque significa que aunque no conocemos σ, conocemos la distribución de probabilidad de este cociente: tiene una distribución t de Student con n − 1 grado de libertad. Por lo tanto, podemos usar este cociente para encontrar un intervalo de confianza para μ. Este estadístico t se puede interpretar como "el número de errores estándar alejados de la línea de regresión".

Regresiones

En el análisis de regresión, la distinción entre errores y residuales es sutil e importante, y conduce al concepto de residuos estudentizados. Dada una función no observable que relaciona la variable independiente con la variable dependiente (digamos, una línea), las desviaciones de las observaciones de la variable dependiente de esta función son los errores no observables. Si se ejecuta una regresión sobre algunos datos, entonces las desviaciones de las observaciones de la variable dependiente de la función ajustada son los residuos. Si el modelo lineal es aplicable, un diagrama de dispersión de residuos trazados contra la variable independiente debe ser aleatorio alrededor de cero sin tendencia hacia los residuos. Si los datos muestran una tendencia, es probable que el modelo de regresión sea incorrecto; por ejemplo, la función verdadera puede ser un polinomio cuadrático o de orden superior. Si son aleatorios o no tienen tendencia, pero se "se abren en abanico" - exhiben un fenómeno llamado heterocedasticidad. Si todos los residuos son iguales o no se abren en abanico, exhiben homocedasticidad.

Sin embargo, surge una diferencia terminológica en la expresión error cuadrático medio (MSE). El error cuadrático medio de una regresión es un número calculado a partir de la suma de los cuadrados de los residuales calculados, y no de los errores no observables. Si esa suma de cuadrados se divide por n, el número de observaciones, el resultado es la media de los residuos al cuadrado. Dado que se trata de una estimación sesgada de la varianza de los errores no observados, el sesgo se elimina dividiendo la suma de los residuos al cuadrado por df = np − 1, en lugar de n, donde df es el número de grados de libertad (n menos el número de parámetros (excluyendo el intercepto) p siendo estimado - 1). Esto forma una estimación insesgada de la varianza de los errores no observados y se denomina error cuadrático medio.

Otro método para calcular el cuadrado medio del error al analizar la varianza de la regresión lineal usando una técnica como la que se usa en ANOVA (son iguales porque ANOVA es un tipo de regresión), la suma de los cuadrados de los residuos (también conocidos como suma de cuadrados del error) se divide por los grados de libertad (donde los grados de libertad son iguales a np − 1, donde p es el número de parámetros estimados en el modelo (uno para cada variable en la ecuación de regresión, sin incluir el intercepto)). Luego también se puede calcular el cuadrado medio del modelo dividiendo la suma de los cuadrados del modelo menos los grados de libertad, que es solo el número de parámetros. Luego, el valor F se puede calcular dividiendo el cuadrado medio del modelo por el cuadrado medio del error, y luego podemos determinar la significancia (razón por la cual desea comenzar con los cuadrados medios).

Sin embargo, debido al comportamiento del proceso de regresión, las distribuciones de los residuos en diferentes puntos de datos (de la variable de entrada) pueden variar incluso si los errores mismos están distribuidos idénticamente. Concretamente, en una regresión lineal donde los errores se distribuyen idénticamente, la variabilidad de los residuos de los insumos en el medio del dominio será mayor que la variabilidad de los residuos en los extremos del dominio: las regresiones lineales se ajustan puntos finales mejores que el medio. Esto también se refleja en las funciones de influencia de varios puntos de datos sobre los coeficientes de regresión: los puntos finales tienen más influencia.

Por lo tanto, para comparar los residuos en diferentes entradas, es necesario ajustar los residuos por la variabilidad esperada de los residuales, lo que se denomina estudentización. Esto es particularmente importante en el caso de detectar valores atípicos, donde el caso en cuestión es de alguna manera diferente de los demás en un conjunto de datos. Por ejemplo, se puede esperar un residuo grande en el medio del dominio, pero considerarse un valor atípico al final del dominio.

Did you mean:

Other uses of the word "error#34; in statistics

El uso del término "error" como se discutió en las secciones anteriores es en el sentido de una desviación de un valor de un valor hipotético no observado. Al menos otros dos usos también ocurren en estadística, ambos referidos a errores de predicción observables:

El error cuadrático medio (MSE) se refiere a la cantidad en la que los valores predichos por un estimador difieren de las cantidades que se estiman (normalmente fuera de la muestra a partir de la cual se estimó el modelo). El error cuadrático medio (RMSE) es la raíz cuadrada del MSE. La suma de cuadrados de errores (SSE) es el MSE multiplicado por el tamaño de la muestra.

Suma de cuadrados de residuos (SSR) es la suma de los cuadrados de las desviaciones de los valores reales de los valores predichos, dentro de la muestra utilizada para la estimación. Esta es la base para la estimación de mínimos cuadrados, donde los coeficientes de regresión se eligen de manera que la SSR sea mínima (es decir, su derivada sea cero).

Del mismo modo, la suma de errores absolutos (SAE) es la suma de los valores absolutos de los residuos, que se minimiza en el enfoque de regresión de mínimas desviaciones absolutas.

Did you mean:

The mean error (ME) is the bias. The mean residual</iN R) is always zero for least-squares estimators.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save