Error medio cuadrado

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Medición del error de un estimador

En estadística, el error cuadrático medio (MSE) o desviación cuadrática media (MSD) de un El estimador (de un procedimiento para estimar una cantidad no observada) mide el promedio de los cuadrados de los errores, es decir, la diferencia promedio al cuadrado entre los valores estimados y el valor real. MSE es una función de riesgo, correspondiente al valor esperado de la pérdida por error al cuadrado. El hecho de que MSE sea casi siempre estrictamente positivo (y no cero) se debe a la aleatoriedad o porque el estimador no tiene en cuenta la información que podría producir una estimación más precisa. En el aprendizaje automático, específicamente en la minimización del riesgo empírico, el MSE puede referirse al riesgo empírico (la pérdida promedio en un conjunto de datos observado), como una estimación del verdadero MSE (el riesgo real: la pérdida promedio en la distribución real de la población).

El MSE es una medida de la calidad de un estimador. Como se deriva del cuadrado de la distancia euclidiana, siempre es un valor positivo que disminuye a medida que el error se aproxima a cero.

El MSE es el segundo momento (sobre el origen) del error y, por lo tanto, incorpora tanto la varianza del estimador (qué tan extendidas están las estimaciones de una muestra de datos a otra) y su sesgo (qué tan lejos del promedio valor estimado es del valor real). Para un estimador insesgado, el MSE es la varianza del estimador. Al igual que la varianza, MSE tiene las mismas unidades de medida que el cuadrado de la cantidad que se estima. En una analogía con la desviación estándar, tomar la raíz cuadrada de MSE produce el error cuadrático medio o desviación cuadrática media (RMSE o RMSD), que tiene las mismas unidades que la cantidad que se estima; para un estimador insesgado, el RMSE es la raíz cuadrada de la varianza, conocida como error estándar.

Definición y propiedades básicas

El MSE evalúa la calidad de un predictor (es decir, una función que asigna entradas arbitrarias a una muestra de valores de alguna variable aleatoria), o de un estimador (es decir, una función matemática que asigna una muestra de datos a una estimación de un parámetro de la población de la que se muestrean los datos). La definición de un MSE difiere según se esté describiendo un predictor o un estimador.

Predictor

Si un vector de $n$ las predicciones se generan a partir de una muestra de $n$ puntos de datos sobre todas las variables, y $Y$ es el vector de valores observados de la variable que se predice, con $hat{Y}$ siendo los valores predichos (p. ej. como de un ajuste mínimo-squares), entonces el MSE dentro del muestreo del predictor se calcula como

{displaystyle operatorname {MSE} ={frac {1}{n}}sum _{i=1}^{n}left(Y_{i}-{hat {Y_{i}}}right)^{2}.}

En otras palabras, el MSE es el # ${textstyle left({frac {1}{n}}sum _{i=1}^{n}right)}$ de la cuadrados de los errores ${textstyle left(Y_{i}-{hat {Y_{i}}}right)^{2}}$ . Esta es una cantidad fácilmente computable para una muestra particular (y por lo tanto es dependiente de la muestra).

En notación matricial,

{displaystyle operatorname {MSE} ={frac {1}{n}}sum _{i=1}^{n}(e_{i})^{2}={frac {1}{n}}mathbf {e} ^{mathsf {T}}mathbf {e} }

Donde $e_{i}$ es ${displaystyle (Y_{i}-{hat {Y_{i}}})}$ y ${displaystyle mathbf {e} }$ es ${displaystyle ntimes 1}$ vector de columna.

El MSE también se puede calcular en q puntos de datos que no se usaron en la estimación del modelo, ya sea porque se retuvieron para este propósito o porque estos datos se obtuvieron recientemente. Dentro de este proceso, conocido como aprendizaje estadístico, el MSE a menudo se denomina MSE de prueba y se calcula como

{displaystyle operatorname {MSE} ={frac {1}{q}}sum _{i=n+1}^{n+q}left(Y_{i}-{hat {Y_{i}}}right)^{2}.}

Estimadora

(feminine)

El MSE de un estimador $hat{theta}$ con respecto a un parámetro desconocido $theta$ se define como

{displaystyle operatorname {MSE} ({hat {theta }})=operatorname {E} _{theta }left[({hat {theta }}-theta)^{2}right].}

Esta definición depende del parámetro desconocido, pero el MSE es a priori una propiedad de un estimador. El MSE podría ser una función de parámetros desconocidos, en cuyo caso cualquier estimador del MSE basado en estimaciones de estos parámetros sería una función de los datos (y por lo tanto una variable aleatoria). Si el estimador $hat{theta}$ se deriva como una estadística de muestra y se utiliza para estimar algún parámetro de población, entonces la expectativa es con respecto a la distribución de muestreo de la estadística de muestra.

El MSE se puede escribir como la suma de la varianza del estimador y el sesgo al cuadrado del estimador, lo que proporciona una forma útil de calcular el MSE e implica que, en el caso de estimadores no sesgados, el MSE y la varianza son equivalentes.

{displaystyle operatorname {MSE} ({hat {theta }})=operatorname {Var} _{theta }({hat {theta }})+operatorname {Bias} ({hat {theta }},theta)^{2}.}

Prueba de varianza y relación de sesgo

{displaystyle {begin{aligned}operatorname {MSE} ({hat {theta }})&=operatorname {E} _{theta }left[({hat {theta }}-theta)^{2}right]\&=operatorname {E} _{theta }left[left({hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]+operatorname {E} _{theta }[{hat {theta }}]-theta right)^{2}right]\&=operatorname {E} _{theta }left[left({hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]right)^{2}+2left({hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]right)left(operatorname {E} _{theta }[{hat {theta }}]-theta right)+left(operatorname {E} _{theta }[{hat {theta }}]-theta right)^{2}right]\&=operatorname {E} _{theta }left[left({hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]right)^{2}right]+operatorname {E} _{theta }left[2left({hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]right)left(operatorname {E} _{theta }[{hat {theta }}]-theta right)right]+operatorname {E} _{theta }left[left(operatorname {E} _{theta }[{hat {theta }}]-theta right)^{2}right]\&=operatorname {E} _{theta }left[left({hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]right)^{2}right]+2left(operatorname {E} _{theta }[{hat {theta }}]-theta right)operatorname {E} _{theta }left[{hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]right]+left(operatorname {E} _{theta }[{hat {theta }}]-theta right)^{2}&&operatorname {E} _{theta }[{hat {theta }}]-theta ={text{const.}}\&=operatorname {E} _{theta }left[left({hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]right)^{2}right]+2left(operatorname {E} _{theta }[{hat {theta }}]-theta right)left(operatorname {E} _{theta }[{hat {theta }}]-operatorname {E} _{theta }[{hat {theta }}]right)+left(operatorname {E} _{theta }[{hat {theta }}]-theta right)^{2}&&operatorname {E} _{theta }[{hat {theta }}]={text{const.}}\&=operatorname {E} _{theta }left[left({hat {theta }}-operatorname {E} _{theta }[{hat {theta }}]right)^{2}right]+left(operatorname {E} _{theta }[{hat {theta }}]-theta right)^{2}\&=operatorname {Var} _{theta }({hat {theta }})+operatorname {Bias} _{theta }({hat {theta }},theta)^{2}end{aligned}}}

Una prueba aún más corta se puede lograr utilizando la fórmula conocida que para una variable aleatoria ${textstyle X}$ , ${textstyle mathbb {E} (X^{2})=operatorname {Var} (X)+(mathbb {E} (X))^{2}}$ . Por sustitución ${textstyle X}$ con, ${textstyle {hat {theta }}-theta }$ , tenemos

{displaystyle {begin{aligned}operatorname {MSE} ({hat {theta }})&=mathbb {E} [({hat {theta }}-theta)^{2}]\&=operatorname {Var} ({hat {theta }}-theta)+(mathbb {E} [{hat {theta }}-theta ])^{2}\&=operatorname {Var} ({hat {theta }})+operatorname {Bias} ^{2}({hat {theta }})end{aligned}}}

En regresión

En el análisis de regresión, el trazado es una forma más natural de ver la tendencia general de todos los datos. La media de la distancia desde cada punto hasta el modelo de regresión pronosticado puede calcularse y mostrarse como el error cuadrático medio. La cuadratura es crítica para reducir la complejidad con signos negativos. Para minimizar el MSE, el modelo podría ser más preciso, lo que significaría que el modelo está más cerca de los datos reales. Un ejemplo de una regresión lineal que utiliza este método es el método de mínimos cuadrados, que evalúa la idoneidad del modelo de regresión lineal para modelar un conjunto de datos bivariado, pero cuya limitación está relacionada con la distribución conocida de los datos.

El término error cuadrático medio se usa a veces para referirse a la estimación no sesgada de la varianza del error: la suma residual de los cuadrados dividida por el número de grados de libertad. Esta definición para una cantidad calculada conocida difiere de la definición anterior para el MSE calculado de un predictor, en que se usa un denominador diferente. El denominador es el tamaño de la muestra reducido por el número de parámetros del modelo estimados a partir de los mismos datos, (n−p) para regresores p o (n−p−1) si se usa una intercepción (ver errores y residuos en estadísticas para más detalles). Aunque el MSE (como se define en este artículo) no es un estimador imparcial de la varianza del error, es consistente, dada la consistencia del predictor.

En el análisis de regresión, el "error cuadrático medio", a menudo denominado error cuadrático medio de predicción o "error cuadrático medio fuera de muestra", también puede referirse al valor medio. de las desviaciones al cuadrado de las predicciones de los valores verdaderos, sobre un espacio de prueba fuera de la muestra, generado por un modelo estimado sobre un espacio de muestra particular. Esta también es una cantidad calculada conocida, y varía según la muestra y el espacio de prueba fuera de la muestra.

Ejemplos

Media

Supongamos que tenemos una muestra al azar del tamaño $n$ de una población, $X_{1},dotsX_{n}$ . Supongamos que las unidades de muestra fueron elegidas con reemplazo. Es decir, el $n$ las unidades son seleccionadas una a la vez, y las unidades previamente seleccionadas todavía son elegibles para la selección para todos $n$ dibuja. El estimador habitual para el $mu$ es el promedio de la muestra

overline{X}=frac{1}{n}sum_{i=1}^n X_i

que tiene un valor esperado igual al verdadero medio $mu$ (así que es imparcial) y un error cuadrado medio de

{displaystyle operatorname {MSE} left({overline {X}}right)=operatorname {E} left[left({overline {X}}-mu right)^{2}right]=left({frac {sigma }{sqrt {n}}}right)^{2}={frac {sigma ^{2}}{n}}}

Donde $sigma ^{2}$ es la diferencia de población.

Para una distribución gaussiana, este es el mejor estimador insesgado (es decir, uno con el MSE más bajo entre todos los estimadores insesgados), pero no, digamos, para una distribución uniforme.

Variación

El estimador habitual de la varianza es la varianza muestral corregida:

{displaystyle S_{n-1}^{2}={frac {1}{n-1}}sum _{i=1}^{n}left(X_{i}-{overline {X}}right)^{2}={frac {1}{n-1}}left(sum _{i=1}^{n}X_{i}^{2}-n{overline {X}}^{2}right).}

Esto es imparcial (su valor esperado es $sigma ^{2}$ ), por lo tanto también llamado el varianza de muestra imparcial, y su MSE

{displaystyle operatorname {MSE} (S_{n-1}^{2})={frac {1}{n}}left(mu _{4}-{frac {n-3}{n-1}}sigma ^{4}right)={frac {1}{n}}left(gamma _{2}+{frac {2n}{n-1}}right)sigma ^{4},}

Donde $mu _{4}$ es el cuarto momento central de la distribución o población, y $gamma_2=mu_4/sigma^4-3$ es el exceso de kurtosis.

Sin embargo, uno puede utilizar otros estimadores para $sigma ^{2}$ que son proporcionales a $S^2_{n-1}$ , y una elección adecuada siempre puede dar un error medio cuadrado inferior. Si definimos

{displaystyle S_{a}^{2}={frac {n-1}{a}}S_{n-1}^{2}={frac {1}{a}}sum _{i=1}^{n}left(X_{i}-{overline {X}},right)^{2}}

luego calculamos:

{displaystyle {begin{aligned}operatorname {MSE} (S_{a}^{2})&=operatorname {E} left[left({frac {n-1}{a}}S_{n-1}^{2}-sigma ^{2}right)^{2}right]\&=operatorname {E} left[{frac {(n-1)^{2}}{a^{2}}}S_{n-1}^{4}-2left({frac {n-1}{a}}S_{n-1}^{2}right)sigma ^{2}+sigma ^{4}right]\&={frac {(n-1)^{2}}{a^{2}}}operatorname {E} left[S_{n-1}^{4}right]-2left({frac {n-1}{a}}right)operatorname {E} left[S_{n-1}^{2}right]sigma ^{2}+sigma ^{4}\&={frac {(n-1)^{2}}{a^{2}}}operatorname {E} left[S_{n-1}^{4}right]-2left({frac {n-1}{a}}right)sigma ^{4}+sigma ^{4}&&operatorname {E} left[S_{n-1}^{2}right]=sigma ^{2}\&={frac {(n-1)^{2}}{a^{2}}}left({frac {gamma _{2}}{n}}+{frac {n+1}{n-1}}right)sigma ^{4}-2left({frac {n-1}{a}}right)sigma ^{4}+sigma ^{4}&&operatorname {E} left[S_{n-1}^{4}right]=operatorname {MSE} (S_{n-1}^{2})+sigma ^{4}\&={frac {n-1}{na^{2}}}left((n-1)gamma _{2}+n^{2}+nright)sigma ^{4}-2left({frac {n-1}{a}}right)sigma ^{4}+sigma ^{4}end{aligned}}}

Esto se minimiza cuando

a=frac{(n-1)gamma_2+n^2+n}{n} = n+1+frac{n-1}{n}gamma_2.

Para una distribución Gaussiana, donde $gamma_2=0$ , esto significa que el MSE se minimiza al dividir la suma por $a=n+1$ . El exceso mínimo de kurtosis es $gamma_2=-2$ , que se logra mediante una distribución de Bernoulli p= 1/2 (una moneda flip), y el MSE se minimiza para ${displaystyle a=n-1+{tfrac {2}{n}}.}$ Por lo tanto, independientemente de la kurtosis, obtenemos una estimación "mejor" (en el sentido de tener un MSE inferior) al escalar un poco el estimador imparcial; este es un simple ejemplo de un calculador de encogimiento: uno "bebidas" el estimador hacia cero (escala abajo el estimador imparcial).

Además, si bien la varianza de muestra corregida es el mejor estimador imparcial (mínimo error medio cuadrado entre los estimadores imparciales) de varianza para las distribuciones gausianas, si la distribución no es gausiana, incluso entre los estimadores imparciales, el mejor estimador imparcial de la varianza puede no ser $S^2_{n-1}.$

Distribución gaussiana

La siguiente tabla proporciona varios estimadores de los verdaderos parámetros de la población, μ y σ², para el caso Gaussiano.

Valor verdadero	Estimator	Error cuadrado medio
${displaystyle theta =mu }$	$hat{theta}$ = el estimador imparcial de la población significa, $overline{X}=frac{1}{n}sum_{i=1}^n(X_i)$	$operatorname{MSE}(overline{X})=operatorname{E}((overline{X}-mu)^2)=left(frac{sigma}{sqrt{n}}right)^2$
${displaystyle theta =sigma ^{2}}$	$hat{theta}$ = el estimador imparcial de la diferencia de población, $S^2_{n-1} = frac{1}{n-1}sum_{i=1}^nleft(X_i-overline{X},right)^2$	$operatorname{MSE}(S^2_{n-1})=operatorname{E}((S^2_{n-1}-sigma^2)^2)=frac{2}{n - 1}sigma^4$
${displaystyle theta =sigma ^{2}}$	$hat{theta}$ = el estimador parcial de la diferencia de población, $S^2_{n} = frac{1}{n}sum_{i=1}^nleft(X_i-overline{X},right)^2$	$operatorname{MSE}(S^2_{n})=operatorname{E}((S^2_{n}-sigma^2)^2)=frac{2n - 1}{n^2}sigma^4$
${displaystyle theta =sigma ^{2}}$	$hat{theta}$ = el estimador parcial de la diferencia de población, $S^2_{n+1} = frac{1}{n+1}sum_{i=1}^nleft(X_i-overline{X},right)^2$	$operatorname{MSE}(S^2_{n+1})=operatorname{E}((S^2_{n+1}-sigma^2)^2)=frac{2}{n + 1}sigma^4$

Interpretación

Un MSE de cero, que significa que el estimador $hat{theta}$ predice las observaciones del parámetro $theta$ con precisión perfecta, es ideal (pero normalmente no es posible).

Los valores de MSE se pueden utilizar con fines comparativos. Se pueden comparar dos o más modelos estadísticos utilizando sus MSE, como una medida de qué tan bien explican un conjunto dado de observaciones: Un estimador insesgado (estimado a partir de un modelo estadístico) con la varianza más pequeña entre todos los estimadores insesgados es el mejor estimador insesgado o MVUE (estimador insesgado de varianza mínima).

Tanto el análisis de varianza como las técnicas de regresión lineal estiman el MSE como parte del análisis y utilizan el MSE estimado para determinar la significación estadística de los factores o predictores en estudio. El objetivo del diseño experimental es construir experimentos de tal manera que cuando se analicen las observaciones, el MSE sea cercano a cero en relación con la magnitud de al menos uno de los efectos de tratamiento estimados.

En el análisis de varianza unidireccional, el MSE se puede calcular dividiendo la suma de los errores al cuadrado y el grado de libertad. Además, el valor f es la relación entre el tratamiento cuadrático medio y el MSE.

MSE también se utiliza en varias técnicas de regresión por pasos como parte de la determinación de cuántos predictores de un conjunto de candidatos se incluirán en un modelo para un conjunto de observaciones dado.

Aplicaciones

Minimizar MSE es un criterio clave en la selección de estimadores: vea el error mínimo medio cuadrado. Entre los estimadores imparciales, minimizar el MSE es equivalente a minimizar la varianza, y el estimador que lo hace es el estimador de varianza mínima sin prejuicios. Sin embargo, un estimador sesgado puede tener menor MSE; vea sesgo del estimador.
En el modelado estadístico el MSE puede representar la diferencia entre las observaciones reales y los valores de observación predichos por el modelo. En este contexto, se utiliza para determinar la medida en que el modelo se ajusta a los datos, así como si la eliminación de algunas variables explicativas es posible sin dañar significativamente la capacidad predictiva del modelo.
En previsión y predicción, la puntuación de Brier es una medida de habilidad pronosticada basada en MSE.

Función de pérdida

La pérdida de error al cuadrado es una de las funciones de pérdida más utilizadas en estadística, aunque su uso generalizado se deriva más de la comodidad matemática que de consideraciones de pérdida real en las aplicaciones. Carl Friedrich Gauss, quien introdujo el uso del error cuadrático medio, era consciente de su arbitrariedad y estaba de acuerdo con las objeciones por este motivo. Los beneficios matemáticos del error cuadrático medio son particularmente evidentes en su uso para analizar el rendimiento de la regresión lineal, ya que permite dividir la variación en un conjunto de datos en variación explicada por el modelo y variación explicada por aleatoriedad.

Crítica

El uso del error cuadrático medio sin duda ha sido criticado por el teórico de la decisión James Berger. El error cuadrático medio es el negativo del valor esperado de una función de utilidad específica, la función de utilidad cuadrática, que puede no ser la función de utilidad adecuada para usar en un conjunto dado de circunstancias. Sin embargo, existen algunos escenarios en los que el error cuadrático medio puede servir como una buena aproximación a una función de pérdida que se produce naturalmente en una aplicación.

Al igual que la varianza, el error cuadrático medio tiene la desventaja de ponderar mucho los valores atípicos. Este es el resultado de la elevación al cuadrado de cada término, que efectivamente pondera más los errores grandes que los pequeños. Esta propiedad, indeseable en muchas aplicaciones, ha llevado a los investigadores a utilizar alternativas como el error absoluto medio o las basadas en la mediana.

Contenido relacionado

Más resultados...