Error medio cuadrado
En estadística, el error cuadrático medio (MSE) o desviación cuadrática media (MSD) de un El estimador (de un procedimiento para estimar una cantidad no observada) mide el promedio de los cuadrados de los errores, es decir, la diferencia promedio al cuadrado entre los valores estimados y el valor real. MSE es una función de riesgo, correspondiente al valor esperado de la pérdida por error al cuadrado. El hecho de que MSE sea casi siempre estrictamente positivo (y no cero) se debe a la aleatoriedad o porque el estimador no tiene en cuenta la información que podría producir una estimación más precisa. En el aprendizaje automático, específicamente en la minimización del riesgo empírico, el MSE puede referirse al riesgo empírico (la pérdida promedio en un conjunto de datos observado), como una estimación del verdadero MSE (el riesgo real: la pérdida promedio en la distribución real de la población).
El MSE es una medida de la calidad de un estimador. Como se deriva del cuadrado de la distancia euclidiana, siempre es un valor positivo que disminuye a medida que el error se aproxima a cero.
El MSE es el segundo momento (sobre el origen) del error y, por lo tanto, incorpora tanto la varianza del estimador (qué tan extendidas están las estimaciones de una muestra de datos a otra) y su sesgo (qué tan lejos del promedio valor estimado es del valor real). Para un estimador insesgado, el MSE es la varianza del estimador. Al igual que la varianza, MSE tiene las mismas unidades de medida que el cuadrado de la cantidad que se estima. En una analogía con la desviación estándar, tomar la raíz cuadrada de MSE produce el error cuadrático medio o desviación cuadrática media (RMSE o RMSD), que tiene las mismas unidades que la cantidad que se estima; para un estimador insesgado, el RMSE es la raíz cuadrada de la varianza, conocida como error estándar.
Definición y propiedades básicas
El MSE evalúa la calidad de un predictor (es decir, una función que asigna entradas arbitrarias a una muestra de valores de alguna variable aleatoria), o de un estimador (es decir, una función matemática que asigna una muestra de datos a una estimación de un parámetro de la población de la que se muestrean los datos). La definición de un MSE difiere según se esté describiendo un predictor o un estimador.
Predictor
Si un vector de n{displaystyle n} las predicciones se generan a partir de una muestra de n{displaystyle n} puntos de datos sobre todas las variables, y Y{displaystyle Sí. es el vector de valores observados de la variable que se predice, con Y^ ^ {displaystyle {hat {}}} siendo los valores predichos (p. ej. como de un ajuste mínimo-squares), entonces el MSE dentro del muestreo del predictor se calcula como
- MSE=1n.. i=1n()Yi− − Yi^ ^ )2.{displaystyle operatorname {MSE} ={frac {1}{n}sum ¿Por qué? Bien.
En otras palabras, el MSE es el # ()1n.. i=1n){textstyle left {fn}sum} ¿Qué? de la cuadrados de los errores ()Yi− − Yi^ ^ )2{textstyle left(Y_{i}-{hat {Y_{i}}right)} {2}}. Esta es una cantidad fácilmente computable para una muestra particular (y por lo tanto es dependiente de la muestra).
En notación matricial,
- MSE=1n.. i=1n()ei)2=1neTe{displaystyle operatorname {MSE} ={frac {1}{n}sum ¿Qué? Mathbf...
Donde ei{displaystyle E_{i} es ()Yi− − Yi^ ^ ){displaystyle (Y_{i}-{hat {Y_{i}}}} y e{displaystyle mathbf {e} es n× × 1{displaystyle ntimes 1} vector de columna.
El MSE también se puede calcular en q puntos de datos que no se usaron en la estimación del modelo, ya sea porque se retuvieron para este propósito o porque estos datos se obtuvieron recientemente. Dentro de este proceso, conocido como aprendizaje estadístico, el MSE a menudo se denomina MSE de prueba y se calcula como
- MSE=1q.. i=n+1n+q()Yi− − Yi^ ^ )2.{displaystyle operatorname {MSE} ={frac {1}{q}sum - ¿Por qué? Bien.
Estimadora
(feminine)El MSE de un estimador Silencio Silencio ^ ^ {displaystyle {hat {theta } con respecto a un parámetro desconocido Silencio Silencio {displaystyle theta } se define como
- MSE ()Silencio Silencio ^ ^ )=ESilencio Silencio [()Silencio Silencio ^ ^ − − Silencio Silencio )2].{displaystyle operatorname {fnh}=fnuncio {theta}fnuncio {fnh}theta }left[({hat {theta }-theta)}{2}derecha].
Esta definición depende del parámetro desconocido, pero el MSE es a priori una propiedad de un estimador. El MSE podría ser una función de parámetros desconocidos, en cuyo caso cualquier estimador del MSE basado en estimaciones de estos parámetros sería una función de los datos (y por lo tanto una variable aleatoria). Si el estimador Silencio Silencio ^ ^ {displaystyle {hat {theta } se deriva como una estadística de muestra y se utiliza para estimar algún parámetro de población, entonces la expectativa es con respecto a la distribución de muestreo de la estadística de muestra.
El MSE se puede escribir como la suma de la varianza del estimador y el sesgo al cuadrado del estimador, lo que proporciona una forma útil de calcular el MSE e implica que, en el caso de estimadores no sesgados, el MSE y la varianza son equivalentes.
- MSE ()Silencio Silencio ^ ^ )=VarSilencio Silencio ()Silencio Silencio ^ ^ )+Bias ()Silencio Silencio ^ ^ ,Silencio Silencio )2.{displaystyle operatorname {MSE} ({hat {theta ♪♪♪ [Var] _{theta }({hat {theta })+operatorname {Bias} ({hat {theta}},theta)} {2}
Prueba de varianza y relación de sesgo
- MSE ()Silencio Silencio ^ ^ )=ESilencio Silencio [()Silencio Silencio ^ ^ − − Silencio Silencio )2]=ESilencio Silencio [()Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ]+ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )2]=ESilencio Silencio [()Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ])2+2()Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ])()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )+()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )2]=ESilencio Silencio [()Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ])2]+ESilencio Silencio [2()Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ])()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )]+ESilencio Silencio [()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )2]=ESilencio Silencio [()Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ])2]+2()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )ESilencio Silencio [Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ]]+()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )2ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio =Const.=ESilencio Silencio [()Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ])2]+2()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )()ESilencio Silencio [Silencio Silencio ^ ^ ]− − ESilencio Silencio [Silencio Silencio ^ ^ ])+()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )2ESilencio Silencio [Silencio Silencio ^ ^ ]=Const.=ESilencio Silencio [()Silencio Silencio ^ ^ − − ESilencio Silencio [Silencio Silencio ^ ^ ])2]+()ESilencio Silencio [Silencio Silencio ^ ^ ]− − Silencio Silencio )2=VarSilencio Silencio ()Silencio Silencio ^ ^ )+BiasSilencio Silencio ()Silencio Silencio ^ ^ ,Silencio Silencio )2{displaystyle {begin{aligned}operatorname {f} {hat {theta }} {f}}} {f}Theta }left[ {hat {theta {theta}) ################################################################################################################################################################################################################################################################ ¿Qué? #### Operatorname {fnMicrosoft Sans} {fnMicrosoft Sans Serif} ###operatorname {E} _{theta } [{hat {theta }]-theta right)^{2}right]\\\fnuncio=operatorname ¿Qué? #### Operatorname {fnK} {fnK}fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fn}fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f}fnMicrosoft Principi} {f}f}f}f}}f}f}f}f}f}fnKf}fnKfnKf}fnKf}f}fnKfnKf}fnKf}fnKf}f}fnKfnKfnKf}fnKf}fnKf}fnKfnKfnKfnKfnKfnKfnKf}fnKf}f}f}f}fnK #### Operatorname {E} _{theta }[{hat {theta}]right)left(operatorname) {E} _{theta } [{hat {theta }]-theta right)+left(operatorname {E} _{theta } [{hat {theta }]-theta right)^{2}right]\\\fnuncio=operatorname ¿Qué? #### Operatorname [E] _{theta } [{hat {theta}]right)^{2}right]+operatorname {fnMicrosoft Sans Serif} {fnMicrosoft {fnMicrosoft Sans Serif} #### Operatorname {E} _{theta }[{hat {theta}]right)left(operatorname) [E] _{theta } [{hat {theta }]-theta right]right]+operatorname {E} _{theta }left[left(operatorname) {E} _{theta } [{hat {theta }]-theta right)^{2}right]\\\fnuncio=operatorname ¿Qué? #### Operatorname [E] _{theta } [{hat {theta }]right)^{2}right]+2left(operatorname [E] _{theta } [{hat {theta }]-theta right)operatorname ¿Qué? #### Operatorname [E] _{theta } [{hat {theta }]right]+left(operatorname {E} _{theta }[{hat {theta }]-theta right)^{2} limitándoseoperatorname {E} {theta} {theta}}-theta ################################################################################################################################################################################################################################################################ ¿Qué? #### Operatorname [E] _{theta } [{hat {theta }]right)^{2}right]+2left(operatorname {E} _{theta }[{hat {theta }]-theta right)left(operatorname {fnMicrosoft Sans} {fnMicrosoft Sans Serif} ♪♪♪ [E] _{theta } [{hat {theta }]right)+left(operatorname {E} _{theta }[{hat {theta }]-theta right)^{2} limitándoseoperatorname {fnMicrosoft Sans} {fnMicrosoft Sans Serif} }={text{const.}\\\cH00=operatorname ¿Qué? #### Operatorname {E} _{theta } [{hat {theta}]right)^{2}right]+left(operatorname {E} _{theta }[{hat {theta }]-theta right)^{2}\\\fnuncio de operador [Var] _{theta } {hat {theta] })+ nombre del operador {Bias} _{theta } {hat {theta}} {2}end{aligned}}}
Una prueba aún más corta se puede lograr utilizando la fórmula conocida que para una variable aleatoria X{textstyle X}, E()X2)=Var ()X)+()E()X))2{textstyle mathbb [E] (X^{2}=operatorname {Var} (X)+(mathbb {E} (X)} {2}}. Por sustitución X{textstyle X} con, Silencio Silencio ^ ^ − − Silencio Silencio {fnMicrosoft {fnMicrosoft {fnMicrosoft Sans Serif} {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}f}fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft }-theta }, tenemos
En regresión
En el análisis de regresión, el trazado es una forma más natural de ver la tendencia general de todos los datos. La media de la distancia desde cada punto hasta el modelo de regresión pronosticado puede calcularse y mostrarse como el error cuadrático medio. La cuadratura es crítica para reducir la complejidad con signos negativos. Para minimizar el MSE, el modelo podría ser más preciso, lo que significaría que el modelo está más cerca de los datos reales. Un ejemplo de una regresión lineal que utiliza este método es el método de mínimos cuadrados, que evalúa la idoneidad del modelo de regresión lineal para modelar un conjunto de datos bivariado, pero cuya limitación está relacionada con la distribución conocida de los datos.
El término error cuadrático medio se usa a veces para referirse a la estimación no sesgada de la varianza del error: la suma residual de los cuadrados dividida por el número de grados de libertad. Esta definición para una cantidad calculada conocida difiere de la definición anterior para el MSE calculado de un predictor, en que se usa un denominador diferente. El denominador es el tamaño de la muestra reducido por el número de parámetros del modelo estimados a partir de los mismos datos, (n−p) para regresores p o (n−p−1) si se usa una intercepción (ver errores y residuos en estadísticas para más detalles). Aunque el MSE (como se define en este artículo) no es un estimador imparcial de la varianza del error, es consistente, dada la consistencia del predictor.
En el análisis de regresión, el "error cuadrático medio", a menudo denominado error cuadrático medio de predicción o "error cuadrático medio fuera de muestra", también puede referirse al valor medio. de las desviaciones al cuadrado de las predicciones de los valores verdaderos, sobre un espacio de prueba fuera de la muestra, generado por un modelo estimado sobre un espacio de muestra particular. Esta también es una cantidad calculada conocida, y varía según la muestra y el espacio de prueba fuera de la muestra.
Ejemplos
Media
Supongamos que tenemos una muestra al azar del tamaño n{displaystyle n} de una población, X1,...... ,Xn{displaystyle X_{1},dots X_{n}. Supongamos que las unidades de muestra fueron elegidas con reemplazo. Es decir, el n{displaystyle n} las unidades son seleccionadas una a la vez, y las unidades previamente seleccionadas todavía son elegibles para la selección para todos n{displaystyle n} dibuja. El estimador habitual para el μ μ {displaystyle mu } es el promedio de la muestra
- X̄ ̄ =1n.. i=1nXi{displaystyle {fnK}= {fn} {fnK}}}} {fn}}} {fn}} {fn}} {fn}} {fn} {fn}} {fn}}} {fn}}}}}} {fn}} {fn}}}}}}}}}}}}}} { ¿Qué?
que tiene un valor esperado igual al verdadero medio μ μ {displaystyle mu } (así que es imparcial) y un error cuadrado medio de
- MSE ()X̄ ̄ )=E [()X̄ ̄ − − μ μ )2]=()σ σ n)2=σ σ 2n{displaystyle operatorname {MSE} left({overline {X}right)=operatorname {E} left[left {fnK}-muright)}=left({frac {sigma }{sqrt {n}}}right)}={2}={frac {sigma }} {n}} {n}}}}} {n}}}}} {n}}}}}}}}}}}}}} {n}}}}}} {n}}}}}}}} {n}}}}}}}}}}}}}}}}}} {n}}}}}}}}}}}}}}}}}}}}}}}}}} {n} {n} {n}}}}} {n}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}
Donde σ σ 2{displaystyle sigma ^{2} es la diferencia de población.
Para una distribución gaussiana, este es el mejor estimador insesgado (es decir, uno con el MSE más bajo entre todos los estimadores insesgados), pero no, digamos, para una distribución uniforme.
Variación
El estimador habitual de la varianza es la varianza muestral corregida:
- Sn− − 12=1n− − 1.. i=1n()Xi− − X̄ ̄ )2=1n− − 1().. i=1nXi2− − nX̄ ̄ 2).{displaystyle S_{n-1}{2}={frac {1}{n-1}sum ¿Por qué? {X}right)}{2}={frac {1}left(sum) ¿Qué? {X}} {2}derecha).}
Esto es imparcial (su valor esperado es σ σ 2{displaystyle sigma ^{2}), por lo tanto también llamado el varianza de muestra imparcial, y su MSE
- MSE ()Sn− − 12)=1n()μ μ 4− − n− − 3n− − 1σ σ 4)=1n()γ γ 2+2nn− − 1)σ σ 4,{displaystyle operatorname {MSE} (S_{n-1}{2}={frac {1}{n}}left(mun-1})={i} {fn} {fn}} {fn}}m} {m} {m}} {m}}}}}}m} { ¿Qué? {n-3}{n-1}sigma ^{4}right)={frac {1}{n}left(gamma) ¿Qué?
Donde μ μ 4{displaystyle mu _{4}} es el cuarto momento central de la distribución o población, y γ γ 2=μ μ 4/σ σ 4− − 3{displaystyle gamma ¿Qué? _{4}/sigma ^{4}-3} es el exceso de kurtosis.
Sin embargo, uno puede utilizar otros estimadores para σ σ 2{displaystyle sigma ^{2} que son proporcionales a Sn− − 12{displaystyle S_{n-1} {2}, y una elección adecuada siempre puede dar un error medio cuadrado inferior. Si definimos
- Sa2=n− − 1aSn− − 12=1a.. i=1n()Xi− − X̄ ̄ )2{displaystyle S_{a}{2}={frac {n-1}{n-1} {2}={frac} {1}{a}sum ¿Por qué?
luego calculamos:
- MSE ()Sa2)=E [()n− − 1aSn− − 12− − σ σ 2)2]=E [()n− − 1)2a2Sn− − 14− − 2()n− − 1aSn− − 12)σ σ 2+σ σ 4]=()n− − 1)2a2E [Sn− − 14]− − 2()n− − 1a)E [Sn− − 12]σ σ 2+σ σ 4=()n− − 1)2a2E [Sn− − 14]− − 2()n− − 1a)σ σ 4+σ σ 4E [Sn− − 12]=σ σ 2=()n− − 1)2a2()γ γ 2n+n+1n− − 1)σ σ 4− − 2()n− − 1a)σ σ 4+σ σ 4E [Sn− − 14]=MSE ()Sn− − 12)+σ σ 4=n− − 1na2()()n− − 1)γ γ 2+n2+n)σ σ 4− − 2()n− − 1a)σ σ 4+σ σ 4{displaystyle {begin{aligned}operatorname {MSE} (S_{a} {2}) {E} left[left({frac] {n-1}{n-1} {2}sigma ################################################################################################################################################################################################################################################################ {n-1}{n-1} {2}derecha)sigma ^{2}+sigma ¿Qué? {E} left [S_{n-1}{4}right]-2left({frac {n-1}{a}right)operatorname {E} left [S_{n-1} {2}sigma ^{2}+sigma ################################################################################################################################################################################################################################################################ {E} left [S_{n-1}{4}right]-2left({frac {n-1}{a}right)sigma ^{4}+sigma ↑ {E} left [S_{n-1} {2}right]=sigma ¿Qué? {gamma} ¿Qué? {n+1}{n-1}right)sigma ¿Qué? ^{4}+sigma ↑ {E} left [S_{n-1} {4}right]=operatorname {MSE} (S_{n-1} {2})+sigma ^{4}\\fn1}}left(n-1)gamma ¿Por qué? ^{4}+sigma ^{4}end{aligned}}
Esto se minimiza cuando
- a=()n− − 1)γ γ 2+n2+nn=n+1+n− − 1nγ γ 2.{displaystyle a={frac {(n-1)gamma ¿Qué? {n-1}{n}gamma _{2}.
Para una distribución Gaussiana, donde γ γ 2=0{displaystyle gamma _{2}=0}, esto significa que el MSE se minimiza al dividir la suma por a=n+1{displaystyle a=n+1}. El exceso mínimo de kurtosis es γ γ 2=− − 2{displaystyle gamma ¿Qué?, que se logra mediante una distribución de Bernoulli p= 1/2 (una moneda flip), y el MSE se minimiza para a=n− − 1+2n.{displaystyle a=n-1+{tfrac {2} {n}} Por lo tanto, independientemente de la kurtosis, obtenemos una estimación "mejor" (en el sentido de tener un MSE inferior) al escalar un poco el estimador imparcial; este es un simple ejemplo de un calculador de encogimiento: uno "bebidas" el estimador hacia cero (escala abajo el estimador imparcial).
Además, si bien la varianza de muestra corregida es el mejor estimador imparcial (mínimo error medio cuadrado entre los estimadores imparciales) de varianza para las distribuciones gausianas, si la distribución no es gausiana, incluso entre los estimadores imparciales, el mejor estimador imparcial de la varianza puede no ser Sn− − 12.{displaystyle S_{n-1} {2}
Distribución gaussiana
La siguiente tabla proporciona varios estimadores de los verdaderos parámetros de la población, μ y σ2, para el caso Gaussiano.
Valor verdadero | Estimator | Error cuadrado medio |
---|---|---|
Silencio Silencio =μ μ {displaystyle theta =mu} | Silencio Silencio ^ ^ {displaystyle {hat {theta } = el estimador imparcial de la población significa, X̄ ̄ =1n.. i=1n()Xi){displaystyle {fnK}= {fn} {fnK}}}} {fn}}} {fn}} {fn}} {fn}} {fn} {fn}} {fn}}} {fn}}}}}} {fn}} {fn}}}}}}}}}}}}}} { ¿Qué? | MSE ()X̄ ̄ )=E ()()X̄ ̄ − − μ μ )2)=()σ σ n)2{displaystyle operatorname {MSE} ({overline {X})=operatorname {E} ({overline {X}-mu)^{2})=left({frac {sigma}{sqrt {}}right)} {2}} |
Silencio Silencio =σ σ 2{displaystyle theta =sigma ^{2} | Silencio Silencio ^ ^ {displaystyle {hat {theta } = el estimador imparcial de la diferencia de población, Sn− − 12=1n− − 1.. i=1n()Xi− − X̄ ̄ )2{displaystyle S_{n-1}{2}={frac {1}{n-1}sum ¿Por qué? | MSE ()Sn− − 12)=E ()()Sn− − 12− − σ σ 2)2)=2n− − 1σ σ 4{displaystyle operatorname {MSE} (S_{n-1}^{2}=operatorname (S_{n-1} {2}-sigma ^{2})={2} frac {2}{n-1}sigma } {4} |
Silencio Silencio =σ σ 2{displaystyle theta =sigma ^{2} | Silencio Silencio ^ ^ {displaystyle {hat {theta } = el estimador parcial de la diferencia de población, Sn2=1n.. i=1n()Xi− − X̄ ̄ )2{displaystyle S_{n}{2}={frac {1}{n}sum ¿Por qué? | MSE ()Sn2)=E ()()Sn2− − σ σ 2)2)=2n− − 1n2σ σ 4{displaystyle operatorname {MSE} (S_{n}^{2}=operatorname {fn}= {2n-1}}sigma ^{4}} |
Silencio Silencio =σ σ 2{displaystyle theta =sigma ^{2} | Silencio Silencio ^ ^ {displaystyle {hat {theta } = el estimador parcial de la diferencia de población, Sn+12=1n+1.. i=1n()Xi− − X̄ ̄ )2{displaystyle S_{n+1}{2}={frac {1}{n+1}sum ¿Por qué? | MSE ()Sn+12)=E ()()Sn+12− − σ σ 2)2)=2n+1σ σ 4{displaystyle operatorname {MSE} (S_{n+1}^{2}=operatorname (S_{n+1} {2}-sigma ^{2})={2} Frac {2}{n+1}sigma |
Interpretación
Un MSE de cero, que significa que el estimador Silencio Silencio ^ ^ {displaystyle {hat {theta } predice las observaciones del parámetro Silencio Silencio {displaystyle theta } con precisión perfecta, es ideal (pero normalmente no es posible).
Los valores de MSE se pueden utilizar con fines comparativos. Se pueden comparar dos o más modelos estadísticos utilizando sus MSE, como una medida de qué tan bien explican un conjunto dado de observaciones: Un estimador insesgado (estimado a partir de un modelo estadístico) con la varianza más pequeña entre todos los estimadores insesgados es el mejor estimador insesgado o MVUE (estimador insesgado de varianza mínima).
Tanto el análisis de varianza como las técnicas de regresión lineal estiman el MSE como parte del análisis y utilizan el MSE estimado para determinar la significación estadística de los factores o predictores en estudio. El objetivo del diseño experimental es construir experimentos de tal manera que cuando se analicen las observaciones, el MSE sea cercano a cero en relación con la magnitud de al menos uno de los efectos de tratamiento estimados.
En el análisis de varianza unidireccional, el MSE se puede calcular dividiendo la suma de los errores al cuadrado y el grado de libertad. Además, el valor f es la relación entre el tratamiento cuadrático medio y el MSE.
MSE también se utiliza en varias técnicas de regresión por pasos como parte de la determinación de cuántos predictores de un conjunto de candidatos se incluirán en un modelo para un conjunto de observaciones dado.
Aplicaciones
- Minimizar MSE es un criterio clave en la selección de estimadores: vea el error mínimo medio cuadrado. Entre los estimadores imparciales, minimizar el MSE es equivalente a minimizar la varianza, y el estimador que lo hace es el estimador de varianza mínima sin prejuicios. Sin embargo, un estimador sesgado puede tener menor MSE; vea sesgo del estimador.
- En el modelado estadístico el MSE puede representar la diferencia entre las observaciones reales y los valores de observación predichos por el modelo. En este contexto, se utiliza para determinar la medida en que el modelo se ajusta a los datos, así como si la eliminación de algunas variables explicativas es posible sin dañar significativamente la capacidad predictiva del modelo.
- En previsión y predicción, la puntuación de Brier es una medida de habilidad pronosticada basada en MSE.
Función de pérdida
La pérdida de error al cuadrado es una de las funciones de pérdida más utilizadas en estadística, aunque su uso generalizado se deriva más de la comodidad matemática que de consideraciones de pérdida real en las aplicaciones. Carl Friedrich Gauss, quien introdujo el uso del error cuadrático medio, era consciente de su arbitrariedad y estaba de acuerdo con las objeciones por este motivo. Los beneficios matemáticos del error cuadrático medio son particularmente evidentes en su uso para analizar el rendimiento de la regresión lineal, ya que permite dividir la variación en un conjunto de datos en variación explicada por el modelo y variación explicada por aleatoriedad.
Crítica
El uso del error cuadrático medio sin duda ha sido criticado por el teórico de la decisión James Berger. El error cuadrático medio es el negativo del valor esperado de una función de utilidad específica, la función de utilidad cuadrática, que puede no ser la función de utilidad adecuada para usar en un conjunto dado de circunstancias. Sin embargo, existen algunos escenarios en los que el error cuadrático medio puede servir como una buena aproximación a una función de pérdida que se produce naturalmente en una aplicación.
Al igual que la varianza, el error cuadrático medio tiene la desventaja de ponderar mucho los valores atípicos. Este es el resultado de la elevación al cuadrado de cada término, que efectivamente pondera más los errores grandes que los pequeños. Esta propiedad, indeseable en muchas aplicaciones, ha llevado a los investigadores a utilizar alternativas como el error absoluto medio o las basadas en la mediana.
Contenido relacionado
Media generalizada
Validación de modelos estadísticos
Distribución a priori conjugada