Desviación (estadística)

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Parcela de desviación estándar de una distribución aleatoria

En matemáticas y estadística, la desviación sirve como medida para cuantificar la disparidad entre un valor observado de una variable y otro valor designado, frecuentemente la media de esa variable. Las desviaciones con respecto a la media de la muestra y la media de la población (o "valor verdadero") se denominan errores y residuos, respectivamente. El signo de la desviación informa la dirección de esa diferencia: la desviación es positiva cuando el valor observado excede el valor de referencia. El valor absoluto de la desviación indica el tamaño o magnitud de la diferencia. En una muestra dada, hay tantas desviaciones como puntos de muestra. Las estadísticas de resumen se pueden derivar de un conjunto de desviaciones, como la desviación estándar y la desviación absoluta media, medidas de dispersión, y la desviación media con signo, una medida de sesgo.

La desviación de cada punto de datos se calcula restando la media del conjunto de datos del punto de datos individual. Matemáticamente, la desviación d de un punto de datos x en un conjunto de datos con respecto a la media m se obtiene mediante la diferencia:

Este cálculo representa la "distancia" de un punto de datos con respecto a la media y brinda información sobre cuánto varían los valores individuales con respecto al promedio. Las desviaciones positivas indican valores superiores a la media, mientras que las desviaciones negativas indican valores inferiores a la media.

La suma de las desviaciones al cuadrado es un componente clave en el cálculo de la varianza, otra medida de la dispersión de un conjunto de datos. La varianza se calcula promediando las desviaciones al cuadrado. La desviación es un concepto fundamental para comprender la distribución y variabilidad de los puntos de datos en el análisis estadístico.

Tipos

Una desviación, que es una diferencia entre un valor observado y el valor verdadero de una cantidad de interés (donde el valor verdadero denota el valor esperado, como la media de la población) es un error.

Desviaciones firmadas

Una desviación, que es la diferencia entre el valor observado y una estimación del valor verdadero (por ejemplo, la media de la muestra), es un residuo. Estos conceptos son aplicables a los datos en los niveles de medición de intervalo y de razón.

Desviación no firmada o absoluta

  • La desviación absoluta en las estadísticas es una métrica que mide la diferencia general entre puntos de datos individuales y un valor central, típicamente la media o mediana de un conjunto de datos. Se determina tomando el valor absoluto de la diferencia entre cada punto de datos y el valor central y luego promediando estas diferencias absolutas. La fórmula se expresa de la siguiente manera:

Donde

  • Di es la desviación absoluta,
  • xi es el elemento de datos,
  • m()X) es la medida elegida de la tendencia central del conjunto de datos, a veces el medio (), pero más a menudo la mediana.


La desviación absoluta promedio (DAP) en estadística es una medida de la dispersión o dispersión de un conjunto de puntos de datos en torno a un valor central, normalmente la media o la mediana. Se calcula tomando el promedio de las diferencias absolutas entre cada punto de datos y el valor central elegido. La DAP proporciona una medida de la magnitud típica de las desviaciones respecto del valor central en un conjunto de datos, lo que proporciona información sobre la variabilidad general de los datos.

La desviación mínima absoluta (LAD) es un método estadístico utilizado en el análisis de regresión para estimar los coeficientes de un modelo lineal. A diferencia del método de mínimos cuadrados más común, que minimiza la suma de las distancias verticales al cuadrado (residuos) entre los valores observados y predichos, el método LAD minimiza la suma de las distancias verticales absolutas.

En el contexto de la regresión lineal, si (x1,y1), (x2,y2),... son los puntos de datos, y a y b son los coeficientes que se deben estimar para el modelo lineal

Las estimaciones de desviación mínima absoluta (a y b) se obtienen minimizando la suma.

El método LAD es menos sensible a los valores atípicos en comparación con el método de mínimos cuadrados, lo que lo convierte en una técnica de regresión robusta en presencia de distribuciones residuales sesgadas o de cola pesada.

Estadísticas resumidas

Medio de desviación firmado

Para un estimador insesgado, el promedio de las desviaciones con signo en todo el conjunto de todas las observaciones con respecto al valor del parámetro de población no observado promedia cero en una cantidad arbitrariamente grande de muestras. Sin embargo, por construcción, el promedio de las desviaciones con signo de los valores con respecto al valor medio de la muestra siempre es cero, aunque la desviación con signo promedio con respecto a otra medida de tendencia central, como la mediana de la muestra, no necesariamente debe ser cero.

La desviación media con signo es una medida estadística que se utiliza para evaluar la desviación media de un conjunto de valores con respecto a un punto central, normalmente la media. Se calcula tomando la media aritmética de las diferencias con signo entre cada punto de datos y la media del conjunto de datos.

El término "con signo" indica que las desviaciones se consideran con sus respectivos signos, es decir, si están por encima o por debajo de la media. Las desviaciones positivas (por encima de la media) y las desviaciones negativas (por debajo de la media) se incluyen en el cálculo. La desviación media con signo proporciona una medida de la distancia y la dirección promedio de los puntos de datos con respecto a la media, lo que ofrece información sobre la tendencia general y la distribución de los datos.

Dispersión

Las estadísticas de distribución de desviaciones se utilizan como medidas de dispersión estadística.

Una distribución con diferentes desviaciones estándar refleja diversos grados de dispersión entre sus puntos de datos. La primera desviación estándar de la media en una distribución normal abarca aproximadamente el 68% de los datos. La segunda desviación estándar de la media en una distribución normal abarca una mayor parte de los datos, cubriendo aproximadamente el 95% de las observaciones.
  • La desviación estándar es una medida ampliamente utilizada de la difusión o dispersión de un conjunto de datos. Cuantifica la cantidad promedio de variación o desviación de puntos de datos individuales desde la media del conjunto de datos. Utiliza desviaciones cuadradas y tiene propiedades deseables. La desviación estándar es sensible a los valores extremos, por lo que no es robusta.
  • La desviación absoluta media es una medida de la dispersión en un conjunto de datos que está menos influenciada por valores extremos. Se calcula encontrando la diferencia absoluta entre cada punto de datos y el medio, resumiendo estas diferencias absolutas, y luego dividiendo por el número de observaciones. Esta métrica proporciona una estimación más robusta de variabilidad en comparación con la desviación estándar.
  • La desviación absoluta mediana es una estadística robusta que emplea al medio, en lugar del medio, para medir la difusión de un conjunto de datos. Se calcula encontrando la diferencia absoluta entre cada punto de datos y la mediana, luego computando la mediana de estas diferencias absolutas. Esto hace que la desviación absoluta mediana sea menos sensible a los outliers, ofreciendo una alternativa robusta a la desviación estándar.
  • La desviación absoluta máxima es una medida directa de la diferencia máxima entre cualquier punto de datos individual y la media del conjunto de datos. Sin embargo, es altamente no-robustible, ya que puede ser influenciado desproporcionadamente por un único valor extremo. Esta métrica puede no proporcionar una medida fiable de dispersión cuando se trata de conjuntos de datos que contienen atípicos.

Normalización

Las desviaciones, que miden la diferencia entre los valores observados y un punto de referencia, llevan inherentemente unidades correspondientes a la escala de medición utilizada. Por ejemplo, si se miden longitudes, las desviaciones se expresarían en unidades como metros o pies. Para que las desviaciones no tengan unidades y facilitar las comparaciones entre diferentes conjuntos de datos, se puede adimensionalizar.

Un método común consiste en dividir las desviaciones por una medida de escala (dispersión estadística), y se utiliza la desviación estándar de la población para estandarizar o la desviación estándar de la muestra para estudentizar (por ejemplo, residuo estudentizado).

Otro enfoque de la no dimensionalización se centra en la escala por ubicación en lugar de por dispersión. La desviación porcentual ofrece un ejemplo de este método, que se calcula como la diferencia entre el valor observado y el valor aceptado, dividido por el valor aceptado y luego multiplicado por 100 %. Al escalar la desviación en función del valor aceptado, esta técnica permite expresar las desviaciones en términos porcentuales, lo que proporciona una perspectiva clara de la diferencia relativa entre los valores observados y aceptados. Ambos métodos de no dimensionalización sirven para hacer que las desviaciones sean comparables e interpretables más allá de las unidades de medida específicas.

Ejemplos

En un ejemplo, se toman una serie de medidas de la velocidad del sonido en un medio determinado. El valor aceptado o esperado para la velocidad del sonido en este medio, según cálculos teóricos, es de 343 metros por segundo.

Ahora, durante un experimento, diferentes investigadores toman múltiples mediciones. El investigador A mide la velocidad del sonido como 340 metros por segundo, lo que da como resultado una desviación de -3 metros por segundo con respecto al valor esperado. El investigador B, por otro lado, mide la velocidad como 345 metros por segundo, lo que da como resultado una desviación de +2 metros por segundo.

En este contexto científico, la desviación ayuda a cuantificar en qué medida las mediciones individuales difieren del valor predicho o aceptado teóricamente. Proporciona información sobre la precisión y exactitud de los resultados experimentales, lo que permite a los investigadores evaluar la fiabilidad de sus datos e identificar potencialmente los factores que contribuyen a las discrepancias.

En otro ejemplo, supongamos que se espera que una reacción química produzca 100 gramos de un compuesto específico según la estequiometría. Sin embargo, en un experimento de laboratorio real, se realizan varios ensayos con diferentes condiciones.

En el ensayo 1, el rendimiento real medido es de 95 gramos, lo que da como resultado una desviación de -5 gramos con respecto al rendimiento esperado. En el ensayo 2, el rendimiento real medido es de 102 gramos, lo que da como resultado una desviación de +2 gramos. Estas desviaciones con respecto al valor esperado brindan información valiosa sobre la eficiencia y reproducibilidad de la reacción química en diferentes condiciones.

Los científicos pueden analizar estas desviaciones para optimizar las condiciones de reacción, identificar posibles fuentes de error y mejorar el rendimiento general y la confiabilidad del proceso. El concepto de desviación es crucial para evaluar la precisión de los resultados experimentales y tomar decisiones informadas para mejorar los resultados de los experimentos científicos.

Véase también

  • Anomalia (ciencias naturales)
  • Desviaciones cuadradas
  • Desviar (estadística)
  • Diferencia

Referencias

  1. ^ a b c Lee, Dong Kyu; En Junyong; Lee, Sangseok (2015). "Desviación estándar y error estándar del medio". Korean Journal of Anesthesiology. 68 (3): 220. doi:10.4097/kjae.2015.68.3.220. ISSN 2005-6419. PMC 4452664.
  2. ^ Livingston, Edward H. (junio de 2004). "La desviación media y estándar: ¿qué significa todo?". Journal of Surgical Research. 119 2): 117–123. doi:10.1016/j.jss.2004.02.008. ISSN 0022-4804.
  3. ^ a b Dodge, Yadolah, ed. (2003-08-07). Diccionario Oxford de Términos Estadísticos. Oxford University Press, Oxford. ISBN 978-0-19-850994-3.
  4. ^ Konno, Hiroshi; Koshizuka, Tomoyuki (2005-10-01). "Mean-absolute deviation model". Transacciones IIE. 37 (10): 893 –900. doi:10.1080/07408170591007786. ISSN 0740-817X.
  5. ^ Pham-Gia, T.; Hung, T. L. (2001-10-01). "La media y mediana desviaciones absolutas". Modelado matemático e informático. 34 (7): 921 –936. doi:10.1016/S0895-7177(01)00109-1. ISSN 0895-7177.
  6. ^ Chen, Kani; Ying, Zhiliang (1996-04-01). "Un contraejemplo a una conjetura relativa a la banda Hall-Wellner". Los Anales de Estadística. 24 2). doi:10.1214/aos/1032894456. ISSN 0090-5364.
  7. ^ "2. Significado y desviación estándar. El BMJ Silencio El BMJ: principal revista médica general. Investigación. Educación. Comentario. 2020-10-28. Retrieved 2022-11-02.
  8. ^ a b Pham-Gia, T.; Hung, T. L. (2001-10-01). "La media y mediana desviaciones absolutas". Modelado matemático e informático. 34 (7): 921 –936. doi:10.1016/S0895-7177(01)00109-1. ISSN 0895-7177.
  9. ^ Jones, Alan R. (2018-10-09). Probability, Statistics and Other Frightening Stuff. Routledge. p. 73. ISBN 978-1-351-66138-6.
  10. ^ Freedman, David; Pisani, Robert; Purves, Roger (2007). Estadísticas (4 ed.). Nueva York: Norton. ISBN 978-0-393-93043-6.
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save