Desviación cuadrática media

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

La desviación cuadrática media (RMSD) o el error cuadrático medio (RMSE) es una de dos medidas estrechamente relacionadas y frecuentemente utilizadas de las diferencias entre valores verdaderos o predichos por un lado y valores observados o un estimador por el otro. La desviación es típicamente simplemente una diferencia de escalares; también puede generalizarse a las longitudes vectoriales de un desplazamiento, como en el concepto bioinformático de desviación cuadrática media de posiciones atómicas.

RMSD de una muestra

La desviación estándar relativa (RMSD) de una muestra es la media cuadrática de las diferencias entre los valores observados y los predichos. Estas desviaciones se denominan residuales cuando los cálculos se realizan sobre la muestra de datos que se utilizó para la estimación (y, por lo tanto, siempre se refieren a una estimación) y se denominan errores (o errores de predicción) cuando se calculan fuera de la muestra (es decir, sobre el conjunto completo, haciendo referencia a un valor verdadero en lugar de a una estimación). La RMSD sirve para agregar las magnitudes de los errores en las predicciones para varios puntos de datos en una única medida de poder predictivo. La RMSD es una medida de precisión, para comparar los errores de predicción de diferentes modelos para un conjunto de datos en particular y no entre conjuntos de datos, ya que depende de la escala.

El RMSD siempre es no negativo y un valor de 0 (que casi nunca se alcanza en la práctica) indicaría un ajuste perfecto a los datos. En general, un RMSD más bajo es mejor que uno más alto. Sin embargo, las comparaciones entre diferentes tipos de datos no serían válidas porque la medida depende de la escala de los números utilizados.

RMSD es la raíz cuadrada del promedio de los errores al cuadrado. El efecto de cada error en RMSD es proporcional al tamaño del error al cuadrado; por lo tanto, los errores mayores tienen un efecto desproporcionadamente grande en RMSD. En consecuencia, RMSD es sensible a los valores atípicos.

Formulas

Estimator

El RMSD de un estimador con respecto a un parámetro estimado se define como la raíz cuadrada del error cuadrado medio:

Para un estimador imparcial, la desviación estándar media (RMSD) es la raíz cuadrada de la varianza, conocida como desviación estándar.

Muestras

Si X1,... Xn es una muestra de una población con verdadero valor medio , entonces el RMSD de la muestra es

.

El RMSD de valores predichos por momentos t de la variable dependiente de la regresión con variables observadas T tiempos, se calcula para T diferentes predicciones como la raíz cuadrada de la media de los cuadrados de las desviaciones:

(Para las regresiones sobre datos transversales, el subíndice t se reemplaza por i y T se reemplaza por n.)

En algunas disciplinas, el RMSD se utiliza para comparar las diferencias entre dos cosas que pueden variar, ninguna de las cuales es aceptada como el "estándar". Por ejemplo, al medir la diferencia media entre dos series temporales y , la fórmula se convierte

Normalización

La normalización de la desviación estándar media facilita la comparación entre conjuntos de datos o modelos con diferentes escalas. Aunque no existe un método de normalización consistente en la literatura, las opciones más comunes son la media o el rango (definido como el valor máximo menos el valor mínimo) de los datos medidos:

o .

Este valor se conoce comúnmente como la desviación cuadrática media normalizada o error (NRMSD o NRMSE), y a menudo se expresa como un porcentaje, donde los valores más bajos indican una menor varianza residual. Esto también se denomina coeficiente de variación o porcentaje RMS. En muchos casos, especialmente para muestras más pequeñas, es probable que el rango de la muestra se vea afectado por el tamaño de la muestra, lo que dificultaría las comparaciones.

Otro método posible para hacer que la desviación estándar media sea una medida de comparación más útil es dividir la desviación estándar media por el rango intercuartil (RIC). Al dividir la desviación estándar media por el RIC, el valor normalizado se vuelve menos sensible a los valores extremos de la variable objetivo.

Donde

con y donde el CDF−1 es la función cuántil.

Al normalizar por el valor medio de las mediciones, se puede utilizar el término coeficiente de variación de la desviación estándar media, CV(RMSD) para evitar ambigüedades. Esto es análogo al coeficiente de variación, en el que la desviación estándar media media toma el lugar de la desviación estándar.

Un error absoluto

Algunos investigadores han recomendado el uso del error absoluto medio (MAE) en lugar de la desviación cuadrática media. El MAE posee ventajas en cuanto a interpretación sobre el RMSD. El MAE es el promedio de los valores absolutos de los errores. El MAE es fundamentalmente más fácil de entender que la raíz cuadrada del promedio de los errores al cuadrado. Además, cada error influye en el MAE en proporción directa al valor absoluto del error, lo que no sucede con el RMSD.

Aplicaciones

  • En la meteorología, para ver lo eficaz que un modelo matemático predice el comportamiento de la atmósfera.
  • En bioinformática, la desviación cuadrada de las posiciones atómicas es la medida de la distancia media entre los átomos de proteínas superpuestas.
  • En el diseño de fármacos basados en la estructura, el RMSD es una medida de la diferencia entre una conformación de cristal de la conformación de ligando y una predicción de docking.
  • En economía, el RMSD se utiliza para determinar si un modelo económico se ajusta a los indicadores económicos. Algunos expertos han argumentado que RMSD es menos confiable que el Error Absoluto Relativo.
  • En psicología experimental, el RMSD se utiliza para evaluar qué bien los modelos matemáticos o computacionales de comportamiento explican el comportamiento observado empíricamente.
  • En el SIG, el RMSD es una medida utilizada para evaluar la exactitud del análisis espacial y la teleobservación.
  • En hidrogeología, RMSD y NRMSD se utilizan para evaluar la calibración de un modelo de aguas subterráneas.
  • En la ciencia de imágenes, el RMSD es parte de la relación de señal-noise pico, medida utilizada para evaluar qué tan bien funciona un método para reconstruir una imagen en relación con la imagen original.
  • En neurociencia computacional, el RMSD se utiliza para evaluar lo bien que un sistema aprende un modelo dado.
  • En la espectroscopia de resonancia magnética nuclear de proteína, el RMSD se utiliza como medida para estimar la calidad del conjunto de estructuras obtenidas.
  • Los envíos para el Premio Netflix fueron juzgados usando el RMSD de los valores "verdaderos" no revelados del conjunto de datos.
  • En la simulación del consumo energético de los edificios, el RMSE y CV(RMSE) se utilizan para calibrar modelos para medir el rendimiento del edificio.
  • En la cristalografía de rayos X, RMSD (y RMSZ) se utiliza para medir la desviación de las coordenadas internas moleculares desviadas de los valores de la biblioteca de restricciones.
  • En teoría de control, el RMSE se utiliza como medida de calidad para evaluar el desempeño de un observador estatal.
  • En la dinámica de fluidos, la desviación cuadrada normalizada de raíz media (NRMSD), el coeficiente de variación (CV) y el porcentaje RMS se utilizan para cuantificar la uniformidad del comportamiento de flujo como el perfil de velocidad, la distribución de temperatura o la concentración de especies de gas. El valor se compara con los estándares de la industria para optimizar el diseño de caudales y equipos y procesos térmicos.

Véase también

  • Root media cuadrado
  • Un error absoluto
  • Media absoluta desviación
  • Medio de desviación firmado
  • Desviación cuadrada
  • Desviaciones cuadradas
  • Errores y residuos en las estadísticas
  • Coeficiente de Variación
  • Error de estimación normalizado cuadrado

Referencias

  1. ^ Hyndman, Rob J.; Koehler, Anne B. (2006). "Otra mirada a las medidas de precisión del pronóstico". International Journal of Forecasting. 22 (4): 679-688. CiteSeerX 10.1.1.154.9771. doi:10.1016/j.ijforecast.2006.03.001. S2CID 15947215.
  2. ^ a b Pontius, Robert; Thontteh, Olufunmilayo; Chen, Hao (2008). "Componentes de información para la comparación de resolución múltiple entre mapas que comparten una variable real" (PDF). Environmental Ecological Statistics. 15 (2): 111-142. Código:2008 EnvES..15..111P. doi:10.1007/s10651-007-0043-y. S2CID 21427573.
  3. ^ Willmott, Cort; Matsuura, Kenji (2006). "Sobre el uso de medidas dimensionadas de error para evaluar el desempeño de interpoladores espaciales". International Journal of Geographical Information Science. 20 (1): 89-102. Código:2006IJGIS..20...89W. doi:10.1080/13658810500286976. S2CID 15407960.
  4. ^ "Coastal Inlets Research Program (CIRP) Wiki - Estadísticas". Retrieved 4 de febrero 2015.
  5. ^ "FAQ: ¿Cuál es el coeficiente de variación?". Retrieved 19 de febrero 2019.
  6. ^ Armstrong, J. Scott; Collopy, Fred (1992). "Medidas Error para generalizar los métodos de predicción: Comparaciones empíricas" (PDF). International Journal of Forecasting. 8 (1): 69–80. CiteSeerX 10.1.1.423.508. doi:10.1016/0169-2070(92)90008-w. S2CID 11034360.
  7. ^ Anderson, M.P.; Woessner, W.W. (1992). Agua subterránea aplicada Modelado: Simulación de Flujo y Transporte Avanzado (2a edición). Prensa Académica.
  8. ^ Ensemble Neural Network Model
  9. ^ ANSI/BPI-2400-S-2012: Standard Practice for Standardized Qualification of Whole-House Energy Savings Predictions by Calibration to Energy Use History
  10. ^ https://kalman-filter.com/root-mean-square-error
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save