Rango intercuartil

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Medición de la dispersión estadística

Boxplot (con un rango intercuartil) y una función de densidad de probabilidad (pdf) de un Normal

N(0,σ 2)

Población

En estadística descriptiva, el rango intercuartílico (IQR) es una medida de dispersión estadística, que es la dispersión de los datos. El IQR también puede denominarse diferencial medio, 50 % medio, cuarto diferencial o diferencial H. se define como la diferencia entre los percentiles 75 y 25 de los datos. Para calcular el IQR, el conjunto de datos se divide en cuartiles, o cuatro partes pares ordenadas por rango mediante interpolación lineal. Estos cuartiles se denotan por Q₁ (también llamado cuartil inferior), Q₂ (la mediana) y Q₃ (también llamado el cuartil superior). El cuartil inferior se corresponde con el percentil 25 y el cuartil superior se corresponde con el percentil 75, por lo que IQR = Q₃ − Q₁_.

El IQR es un ejemplo de un estimador recortado, definido como el rango recortado del 25 %, que mejora la precisión de las estadísticas del conjunto de datos eliminando los puntos periféricos de menor contribución. También se utiliza como una medida robusta de escala. Se puede visualizar claramente mediante el cuadro en un diagrama de caja.

Usar

A diferencia del rango total, el rango intercuartílico tiene un punto de ruptura del 25 % y, por lo tanto, a menudo se prefiere al rango total.

El IQR se usa para construir diagramas de caja, representaciones gráficas simples de una distribución de probabilidad.

El IQR se utiliza en las empresas como marcador de sus tasas de ingresos.

Para una distribución simétrica (donde la mediana es igual a la bisagra media, el promedio de los cuartiles primero y tercero), la mitad del IQR es igual a la desviación absoluta mediana (MAD).

La mediana es la correspondiente medida de tendencia central.

El IQR se puede utilizar para identificar valores atípicos (ver más abajo). El IQR también puede indicar la asimetría del conjunto de datos.

La desviación del cuartil o rango semiintercuartílico se define como la mitad del IQR.

Algoritmo

El IQR de un conjunto de valores se calcula como la diferencia entre los cuartiles superior e inferior, Q₃ y Q₁. Cada cuartil es una mediana calculada de la siguiente manera.

Dado un número de valores par 2n o impar 2n+1

primer cuartil Q₁ = mediana de la n valores más pequeños

tercer cuartil Q₃ = mediana de la n valores más grandes

El segundo cuartil Q₂ es igual a la mediana ordinaria.

Ejemplos

Conjunto de datos en una tabla

La siguiente tabla tiene 13 filas y sigue las reglas para el número impar de entradas.

i	x[i]	Mediano	Cuartil
1	7	Q₂= 87 (mediana de mesa entera)	Q₁= 31 (mediana de la mitad superior, de la fila 1 a 6)
2	7
3	31
4	31
5	47
6	75
7	87
8	115
8	115		Q₃=119 (media de la mitad inferior, de la fila 8 a 13)
9	116
10	119
11	119
12	155
13	177

Para los datos de esta tabla, el rango intercuartílico es IQR = Q₃ − Q₁ = 119 - 31 = 88.

Conjunto de datos en un diagrama de cuadro de texto sin formato

 + – – – – –++
– – – – – – – –
+ – – – – –++

– – – – – – – – – – – – – – – – – – – – – – – – Número de línea
0 1 2 3 4 5 6 7 8 9 10 11 12

Para el conjunto de datos en este diagrama de caja:

inferior (primero) cuartil Q₁ = 7
mediana (segundo cuartil) Q₂ = 8,5
cuartil superior (tercer) Q₃ = 9
rango intercuartil, IQR = Q₃ - Q₁ = 2
inferior 1,5*IQR whisker = Q₁ - 1.5 * IQR = 7 - 3 = 4. (Si no hay punto de datos a 4, entonces el punto más bajo superior a 4.)
silbido superior 1,5*IQR = Q₃ + 1,5 * IQR = 9 + 3 = 12. (Si no hay punto de datos a 12, entonces el punto más alto menos de 12.)

Esto significa que los bigotes 1.5*IQR pueden tener longitudes desiguales. La mediana, el mínimo, el máximo y el primer y tercer cuartil constituyen el resumen de cinco números.

Distribuciones

El rango intercuartílico de una distribución continua se puede calcular integrando la función de densidad de probabilidad (que produce la función de distribución acumulativa; cualquier otro medio para calcular la CDF también funcionará). El cuartil inferior, Q₁, es un número tal que la integral de la PDF de -∞ a Q₁ es igual a 0,25, mientras que el cuartil superior, Q₃, es un número tal que la integral de -∞ a Q₃ es igual a 0,75; en términos de la CDF, los cuartiles se pueden definir de la siguiente manera:

Q_1 = text{CDF}^{-1}(0.25)

Q_3 = text{CDF}^{-1}(0.75)

donde CDF⁻¹ es la función cuantil.

El rango intercuartílico y la mediana de algunas distribuciones comunes se muestran a continuación

Distribución	Mediano	IQR
Normal	μ	2 CCPR⁻¹(0.75)σ ♥ 1.349σ ♥ (27/20)σ
Laplace	μ	2bln(2) ♥ 1.386b
Cauchy	μ	2γ

Prueba de rango intercuartílico para normalidad de distribución

El IQR, media y desviación estándar de una población P se puede utilizar en una prueba simple de si o no P se distribuye normalmente, o Gaussian. Si P se distribuye normalmente, luego la puntuación estándar del primer cuartil, z₁, es −0.67, y la puntuación estándar del tercer cuartil, z₃, es +0.67. Dado #= ${bar {P}}$ y Desviación estándar= σ para P, si P se distribuye normalmente, el primer cuartil

{displaystyle Q_{1}=(sigma ,z_{1})+{bar {P}}}

y el tercer cuartil

{displaystyle Q_{3}=(sigma ,z_{3})+{bar {P}}}

Si los valores reales del primer o tercer cuartil difieren sustancialmente de los valores calculados, P no tiene una distribución normal. Sin embargo, una distribución normal puede ser perturbada de forma trivial para mantener su estándar Q1 y Q2. puntuaciones de 0,67 y −0,67 y no se distribuyen normalmente (por lo que la prueba anterior produciría un falso positivo). Aquí se indicaría una mejor prueba de normalidad, como la gráfica Q-Q.

Valores atípicos

Parcela de box-y-whisker con cuatro alicates leves y un extremo. En este gráfico, los outliers se definen como leves por encima de Q3 + 1.5 IQR y extremo por encima de Q3 + 3 IQR.

El rango intercuartil se usa a menudo para encontrar valores atípicos en los datos. Los valores atípicos aquí se definen como observaciones que caen por debajo de Q1 − 1,5 IQR o por encima de Q3 + 1,5 IQR. En un diagrama de caja, el valor más alto y más bajo que se produce dentro de este límite se indica mediante bigotes de la caja (frecuentemente con una barra adicional al final de los bigotes) y cualquier valor atípico como puntos individuales.

Contenido relacionado

Más resultados...