Coeficiente de variación

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En teoría de probabilidad y estadísticas, coeficiente de variación ()CV), también conocido como Desviación Normalizada Root-Mean-Square (NRMSD), RMS porcentual, y relativa desviación estándar ()RSD), es una medida estandarizada de dispersión de una distribución de probabilidad o distribución de frecuencias. Se define como la relación de la desviación estándar a la media (o su valor absoluto, ), y a menudo expresado como un porcentaje ("%RSD"). El CV o RSD es ampliamente utilizado en la química analítica para expresar la precisión y repetibilidad de un ensayo. También se utiliza comúnmente en campos como la ingeniería o la física al realizar estudios de garantía de calidad y ANOVA gauge R divideR, por economistas e inversores en modelos económicos, y en psicología/neurociencia.

Definición

El coeficiente de variación (VC) se define como la relación de la desviación estándar a la media ,

Muestra el grado de variabilidad en relación con la media de la población. El coeficiente de variación debe calcularse sólo para datos medidos en escalas que tienen un cero significativo (escala de relación) y, por lo tanto, permiten la comparación relativa de dos mediciones (es decir, la división de una medición por la otra). Es posible que el coeficiente de variación no tenga ningún significado para los datos en una escala de intervalo. Por ejemplo, la mayoría de las escalas de temperatura (por ejemplo, Celsius, Fahrenheit, etc.) son escalas de intervalo con ceros arbitrarios, por lo que el coeficiente de variación calculado sería diferente según la escala utilizada. Por otro lado, la temperatura Kelvin tiene un valor cero significativo, la ausencia total de energía térmica y, por tanto, es una escala de relación. En lenguaje sencillo, tiene sentido decir que 20 Kelvin es el doble de caliente que 10 Kelvin, pero sólo en esta escala con un verdadero cero absoluto. Si bien una desviación estándar (SD) se puede medir en Kelvin, Celsius o Fahrenheit, el valor calculado solo es aplicable a esa escala. Sólo se puede utilizar la escala Kelvin para calcular un coeficiente de variabilidad válido.

Las mediciones que tienen una distribución logarítmica normal exhiben un CV estacionario; por el contrario, la DE varía según el valor esperado de las mediciones.

Una posibilidad más robusta es el coeficiente cuartil de dispersión, la mitad del rango intercuartil dividido por el promedio de los cuartiles (la mediana), .

En la mayoría de los casos, un CV se calcula para una sola variable independiente (por ejemplo, un solo producto de fábrica) con numerosas medidas repetidas de una variable dependiente (por ejemplo, error en el proceso de producción). Sin embargo, los datos que son lineales o incluso logarítmicamente no lineales e incluyen un rango continuo para la variable independiente con mediciones dispersas en cada valor (por ejemplo, diagrama de dispersión) pueden ser susceptibles de cálculo de CV único utilizando un enfoque de estimación de máxima verosimilitud.

Ejemplos

En los ejemplos siguientes, tomaremos los valores proporcionados como elegidos aleatoriamente de una población mayor de valores.

  • El conjunto de datos [100, 100, 100] tiene valores constantes. Su desviación estándar es 0 y promedio es 100, dando el coeficiente de variación como 0 / 100 = 0
  • El conjunto de datos [90, 100, 110] tiene más variabilidad. Su desviación estándar es 10 y su promedio es 100, dando el coeficiente de variación como 10 / 100 = 0.1
  • El conjunto de datos [1, 5, 6, 8, 10, 40, 65, 88] todavía tiene más variabilidad. Su desviación estándar es de 32.9 y su promedio es de 27.9, dando un coeficiente de variación de 32.9 / 27.9 = 1.18


En estos ejemplos, tomaremos los valores dados como la población completa de valores.

  • El conjunto de datos [100, 100, 100] tiene una desviación estándar de población de 0 y un coeficiente de variación de 0 / 100 = 0
  • El conjunto de datos [90, 100, 110] tiene una desviación estándar de población de 8.16 y un coeficiente de variación de 8.16 / 100 = 0,0816
  • El conjunto de datos [1, 5, 6, 8, 10, 40, 65, 88] tiene una desviación estándar de población de 30,8 y un coeficiente de variación de 30,8 / 27,9 = 1.10

Estimación

Cuando sólo se dispone de una muestra de datos de una población, se puede estimar el CV de población utilizando la proporción de la desviación estándar de la muestra a la muestra media :

Pero este estimador, cuando se aplica a una muestra pequeña o de tamaño moderado, tiende a ser demasiado bajo: es un estimador sesgado. Para datos distribuidos normalmente, un estimador insesgado para una muestra de tamaño n es:

Datos de registro normal

Muchos conjuntos de datos siguen una distribución aproximadamente log-normal. En tales casos, una estimación más precisa, derivada de las propiedades de la distribución log-normal, se define como:

Donde es la desviación estándar de la muestra de los datos después de una transformación de registro natural. (En caso de que las mediciones se registran utilizando cualquier otra base logarítmica, b, su desviación estándar se convierte en base e usando , y la fórmula sigue siendo el mismo.) Esta estimación se conoce a veces como el " CV geométrico" (GCV) para distinguirlo de la simple estimación anterior. Sin embargo, el coeficiente geométrico de variación también ha sido definido por Kirkwood como:

Este término tenía por objeto análogo al coeficiente de variación, para describir la variación multiplicativa de los datos log-normales, pero esta definición de GCV no tiene base teórica como estimación de en sí mismo.

Para muchos propósitos prácticos (como determinación del tamaño de la muestra y cálculo de intervalos de confianza) es que es de la mayoría de uso en el contexto de datos de distribución normal de registros. De ser necesario, esto puede derivarse de una estimación de o GCV invirtiendo la fórmula correspondiente.

Comparación con la desviación estándar

Ventajas

El coeficiente de variación es útil porque la desviación estándar de los datos siempre debe entenderse en el contexto de la media de los datos. Por el contrario, el valor real del CV es independiente de la unidad en la que se ha tomado la medida, por lo que es un número adimensional. Para comparar conjuntos de datos con diferentes unidades o medias muy diferentes, se debe utilizar el coeficiente de variación en lugar de la desviación estándar.

Desventajas

  • Cuando el valor medio está cerca de cero, el coeficiente de variación se acercará a la infinidad y por lo tanto es sensible a pequeños cambios en la media. Esto es a menudo el caso si los valores no se originan a partir de una escala de proporción.
  • A diferencia de la desviación estándar, no se puede utilizar directamente para construir intervalos de confianza para el medio.
  • Los CV no son un índice ideal de la certeza de la medición cuando el número de réplicas varía a través de muestras porque el CV es invariante al número de réplicas, mientras que la certeza del medio mejora con réplicas crecientes. En este caso, se sugiere que el error estándar en porcentaje sea superior.

Aplicaciones

El coeficiente de variación también es común en campos de probabilidad aplicada como la teoría de la renovación, la teoría de colas y la teoría de la confiabilidad. En estos campos, la distribución exponencial suele ser más importante que la distribución normal. La desviación estándar de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es igual a 1. Distribuciones con CV < 1 (como una distribución Erlang) se consideran de baja varianza, mientras que aquellos con CV> 1 (como una distribución hiperexponencial) se consideran de alta varianza. Algunas fórmulas en estos campos se expresan utilizando el coeficiente de variación al cuadrado, a menudo abreviado SCV. En modelado, una variación del CV es el CV (RMSD). Básicamente, el CV (RMSD) reemplaza el término de desviación estándar con la desviación cuadrática media (RMSD). Si bien muchos procesos naturales muestran una correlación entre el valor promedio y la cantidad de variación a su alrededor, los dispositivos sensores precisos deben diseñarse de tal manera que el coeficiente de variación sea cercano a cero, es decir, que produzca un error absoluto constante sobre su Rango de trabajo.

En ciencia actuarial, el CV se conoce como riesgo unitario.

En el procesamiento de sólidos industriales, el CV es particularmente importante para medir el grado de homogeneidad de una mezcla de polvo. Comparar el CV calculado con una especificación permitirá definir si se ha alcanzado un grado suficiente de mezcla.

En dinámica de fluidos, el CV, también conocido como Porcentaje RMS, %RMS, %uniformidad RMS, o Velocidad RMS, es una determinación útil de la uniformidad del flujo para procesos industriales. El término se utiliza ampliamente en el diseño de equipos de control de la contaminación, como precipitadores electrostáticos (ESP), reducción catalítica selectiva (SCR), depuradores y dispositivos similares. El Instituto de Empresas de Aire Limpio (ICAC) hace referencia a la desviación RMS de la velocidad en el diseño de filtros de tela (documento ICAC F-7). El principio rector es que muchos de estos dispositivos de control de la contaminación requieren un "flujo uniforme" entrar y atravesar la zona de control. Esto puede estar relacionado con la uniformidad del perfil de velocidad, la distribución de la temperatura, las especies de gas (como el amoníaco para un SCR o la inyección de carbón activado para la absorción de mercurio) y otros parámetros relacionados con el flujo. El Porcentaje RMS también se utiliza para evaluar la uniformidad del flujo en sistemas de combustión, sistemas HVAC, conductos, entradas a ventiladores y filtros, unidades de tratamiento de aire, etc., donde el rendimiento del equipo está influenciado por la distribución del flujo entrante..

Medidas de laboratorio de CV intraensayo e interensayo

Las medidas CV se utilizan a menudo como controles de calidad para ensayos cuantitativos de laboratorio. Si bien se puede suponer que los CV intraensayo e interensayo se calculan simplemente promediando los valores de CV de múltiples muestras dentro de un ensayo o promediando múltiples estimaciones de CV entre ensayos, se ha sugerido que estas prácticas son incorrectas y que Se requiere un proceso computacional más complejo. También se ha observado que los valores de CV no son un índice ideal de la certeza de una medición cuando el número de réplicas varía entre las muestras; en este caso, se sugiere que el error estándar en porcentaje es superior. Si las mediciones no tienen un punto cero natural, entonces el CV no es una medición válida y se recomiendan medidas alternativas como el coeficiente de correlación intraclase.

Como medida de la desigualdad económica

El coeficiente de variación cumple los requisitos para una medida de desigualdad económica. Si x (con entradas xi) es una lista de los valores de un indicador económico (por ejemplo, riqueza), siendo xi la riqueza del agente i, entonces se cumplen los siguientes requisitos:

  • Anonimato – cv es independiente del orden de la lista x. Esto se debe al hecho de que la varianza y la media son independientes del orden x.
  • Invariancia de escala: cv()x) cv(α)xDonde α es un número real.
  • Independencia de la población – Si {x,x} es la lista x apegado a sí mismo, entonces cv({x,x} = cv()x). Esto se debe al hecho de que la varianza y el significado de ambos obedecen a este principio.
  • Principio de transferencia de Pigou-Dalton: cuando la riqueza es transferida de un agente más rico i a un agente más pobre j (es decir. xixj) sin alterar su rango, entonces cv disminuciones y viceversa.

cv asume su valor mínimo de cero para una igualdad completa (todos xi son iguales). Su inconveniente más notable es que no está limitado desde arriba, por lo que no se puede normalizar para que esté dentro de un rango fijo (por ejemplo, como el coeficiente de Gini, que está restringido a estar entre 0 y 1). Sin embargo, es más manejable matemáticamente que el coeficiente de Gini.

Como medida de estandarización de los artefactos arqueológicos

Los arqueólogos suelen utilizar valores CV para comparar el grado de estandarización de artefactos antiguos. Se ha interpretado que la variación en los CV indica diferentes contextos de transmisión cultural para la adopción de nuevas tecnologías. También se han utilizado coeficientes de variación para investigar la estandarización de la cerámica relacionada con cambios en la organización social. Los arqueólogos también utilizan varios métodos para comparar valores de CV, por ejemplo, la prueba de índice de verosimilitud con signo modificado (MSLR) para la igualdad de CV.

Ejemplos de mal uso

La comparación de coeficientes de variación entre parámetros utilizando unidades relativas puede generar diferencias que pueden no ser reales. Si comparamos el mismo conjunto de temperaturas en Celsius y Fahrenheit (ambas unidades relativas, donde kelvin y la escala Rankine son sus valores absolutos asociados):

Celsios: [0, 10, 20, 30, 40]

Fahrenheit: [32, 50, 68, 86, 104]

Las desviaciones estándar muestrales son 15,81 y 28,46, respectivamente. El CV del primer set es 15,81/20 = 79%. Para el segundo conjunto (que son las mismas temperaturas) es 28,46/68 = 42%.

Si, por ejemplo, los conjuntos de datos son lecturas de temperatura de dos sensores diferentes (un sensor Celsius y un sensor Fahrenheit) y desea saber qué sensor es mejor eligiendo el que tiene la menor variación, entonces será engañado. si usa CV. El problema aquí es que has dividido por un valor relativo en lugar de uno absoluto.

Comparando el mismo conjunto de datos, ahora en unidades absolutas:

Kelvin: [273,15, 283,15, 293,15, 303,15, 313,15]

Rankine: [491,67, 509,67, 527,67, 545,67, 563,67]

Las desviaciones estándar de la muestra siguen siendo 15,81 y 28,46, respectivamente, porque la desviación estándar no se ve afectada por un desplazamiento constante. Sin embargo, los coeficientes de variación ahora son ambos iguales al 5,39%.

En términos matemáticos, el coeficiente de variación no es totalmente lineal. Es decir, para una variable aleatoria , el coeficiente de variación de es igual al coeficiente de variación de sólo cuando . En el ejemplo anterior, Celsius sólo puede convertirse a Fahrenheit a través de una transformación lineal de la forma con , mientras que Kelvins se puede convertir a Rankines a través de una transformación de la forma .

Distribución

Siempre que los valores negativos y pequeños positivos de la muestra se producen con frecuencia insignificante, la distribución de probabilidad del coeficiente de variación para una muestra de tamaño de i.i.d. variables aleatorias normales ha sido demostrado por Hendricks y Robey para ser

donde el símbolo indica que la suma está sobre solo valores , es decir, si es extraño, suma sobre los valores de y si es incluso, suma sólo sobre valores extraños .

Esto es útil, por ejemplo, en la construcción de pruebas de hipótesis o intervalos de confianza. La inferencia estadística para el coeficiente de variación en datos distribuidos normalmente se basa a menudo en la aproximación chi-cuadrado de McKay para el coeficiente de variación.

Alternativa

Según Liu (2012), Lehmann (1986). "también derivó la distribución muestral de CV para dar un método exacto para la construcción de un intervalo de confianza para CV;" se basa en una distribución t no central.

Proporciones similares

Los momentos estandarizados son ratios similares, Donde es kT momento sobre el medio, que también son invariantes de dimensión y escala. La relación entre la diferencia y la media, , es otra relación similar, pero no es indiferente, y por lo tanto no es invariante. Véase Normalización (estadística) para más ratios.

En el procesamiento de señales, en particular el procesamiento de imágenes, la relación recíproca (o su plaza) se conoce como la relación de señal a ruido en general y la relación de señal a ruido (imagen) en particular.

Otras proporciones relacionadas incluyen:

  • Eficiencia,
  • Hora estandarizada,
  • ratio de variación a media (o varianza relativa),
  • Factor Fano, (VMR con ventana)

Contenido relacionado

Conjunto vacío

En matemáticas, el conjunto vacío es el conjunto único que no tiene elementos; su tamaño o cardinalidad es cero. Algunas teorías axiomáticas de...

Historia de la lógica

La historia de la lógica se ocupa del estudio del desarrollo de la ciencia de la inferencia válida tal como se encuentran en el Organon, encontraron una...

Ley de los grandes números

En la teoría de la probabilidad, la ley de los grandes números es un teorema que describe el resultado de realizar el mismo experimento un gran número de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save