Cuantil

Compartir Imprimir Citar

En estadística y probabilidad, los cuantiles son puntos de corte que dividen el rango de una distribución de probabilidad en intervalos continuos con probabilidades iguales, o dividen las observaciones en una muestra de la misma manera. Hay un cuantil menos que el número de grupos creados. Los cuantiles comunes tienen nombres especiales, como cuartiles (cuatro grupos), deciles (diez grupos) y percentiles (100 grupos). Los grupos creados se denominan mitades, tercios, cuartos, etc., aunque a veces los términos para el cuantil se utilizan para los grupos creados, en lugar de los puntos de corte.

q - los cuantiles son valores que dividen un conjunto finito de valores en q subconjuntos de tamaños (casi) iguales. Hay q − 1 particiones de los q -cuantiles, una para cada entero k que satisface 0 < k < q. En algunos casos, es posible que el valor de un cuantil no se determine de forma única, como puede ser el caso de la mediana (2 cuantiles) de una distribución de probabilidad uniforme en un conjunto de tamaño par. Los cuantiles también se pueden aplicar a distribuciones continuas, lo que proporciona una forma de generalizar las estadísticas de rango a las variables continuas (ver rango percentil). Cuando se conoce la función de distribución acumulada de una variable aleatoria, la q-los cuantiles son la aplicación de la función cuantil (la función inversa de la función de distribución acumulativa) a los valores {1/ q, 2/ q, …, (q − 1)/ q }.

Cuantiles especializados

Algunos q -cuantiles tienen nombres especiales:

Cuantiles de una población

Al igual que en el cálculo de, por ejemplo, la desviación estándar, la estimación de un cuantil depende de si se está operando con una población estadística o con una muestra extraída de ella. Para una población, de valores discretos o para una densidad de población continua, el k -ésimo q - cuantil es el valor del dato donde la función de distribución acumulada cruza k / q. Es decir, x es un k -ésimo q -cuantil para una variable X siPr[ X < x ] ≤ k / q o, de manera equivalente, Pr[ Xx ] ≥ 1 − k / q

yPr[ XX ] ≥ k / q.

Eso es equivalente a decir que x es el valor más pequeño tal que Pr[ Xx ] ≥ k / q. Para una población finita de N valores igualmente probables indexados 1, …, N de menor a mayor, el k -ésimo q - cuantil de esta población puede calcularse de manera equivalente a través del valor de I p = N k / q. Si I p no es un número entero, entonces redondee al siguiente número entero para obtener el índice apropiado; el valor de datos correspondiente es el k -ésimoq -cuantil. Por otro lado, si I p es un número entero, cualquier número desde el valor de datos en ese índice hasta el valor de datos del siguiente puede tomarse como el cuantil, y es convencional (aunque arbitrario) tomar el promedio de esos dos (consulte Estimación de cuantiles a partir de una muestra).

Si, en lugar de utilizar los números enteros k y q, el " p -cuantil" se basa en un número real p con 0 < p < 1, entonces p reemplaza a k / q en las fórmulas anteriores. Esta terminología más amplia se utiliza cuando se utilizan cuantiles para parametrizar distribuciones de probabilidad continuas. Además, algunos programas de software (incluido Microsoft Excel) consideran el mínimo y el máximo como el percentil 0 y 100, respectivamente. Sin embargo, esta terminología más amplia es una extensión más allá de las definiciones estadísticas tradicionales.

Ejemplos

Los siguientes dos ejemplos usan la definición de cuantil de rango más cercano con redondeo. Para obtener una explicación de esta definición, consulte percentiles.

Población de tamaño par

Considere una población ordenada de 10 valores de datos [3, 6, 7, 8, 8, 10, 13, 15, 16, 20]. ¿Cuáles son los 4 cuantiles (los "cuartiles") de este conjunto de datos?

CuartillaCálculoResultado
cuartil ceroAunque no es universalmente aceptado, también se puede hablar del cuartil cero. Este es el valor mínimo del conjunto, por lo que el cuartil cero en este ejemplo sería 3.3
primer cuartilEl rango del primer cuartil es 10×(1/4) = 2,5, que se redondea a 3, lo que significa que 3 es el rango en la población (de menor a mayor valor) en el que aproximadamente 1/4 de los valores son menores que el valor del primer cuartil. El tercer valor en la población es 7.7
segundo cuartilEl rango del segundo cuartil (igual que la mediana) es 10×(2/4) = 5, que es un número entero, mientras que el número de valores (10) es un número par, por lo que el promedio tanto del quinto como del sexto se toman valores, es decir (8+10)/2 = 9, aunque cualquier valor entre 8 y 10 podría tomarse como la mediana.9
tercer cuartilEl rango del tercer cuartil es 10×(3/4) = 7,5, que se redondea a 8. El octavo valor de la población es 15.15
cuarto cuartilAunque no universalmente aceptado, también se puede hablar del cuarto cuartil. Este es el valor máximo del conjunto, por lo que el cuarto cuartil en este ejemplo sería 20. Según la definición de cuantil de rango más cercano, el rango del cuarto cuartil es el rango del número más grande, por lo que el rango del cuarto cuartil sería ser 1020

Entonces, los 4 cuantiles primero, segundo y tercero (los "cuartiles") del conjunto de datos [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] son ​​[7, 9, 15]. Si también se requiere, el cuartil cero es 3 y el cuarto cuartil es 20.

Población de tamaño impar

Considere una población ordenada de 11 valores de datos [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20]. ¿Cuáles son los 4 cuantiles (los "cuartiles") de este conjunto de datos?

CuartillaCálculoResultado
cuartil ceroAunque no es universalmente aceptado, también se puede hablar del cuartil cero. Este es el valor mínimo del conjunto, por lo que el cuartil cero en este ejemplo sería 3.3
primer cuartilEl primer cuartil está determinado por 11×(1/4) = 2,75, que se redondea a 3, lo que significa que 3 es el rango en la población (de menor a mayor valor) en el que aproximadamente 1/4 de los valores son menores que el valor del primer cuartil. El tercer valor en la población es 7.7
segundo cuartilEl valor del segundo cuartil (igual que la mediana) está determinado por 11 × (2/4) = 5,5, que se redondea a 6. Por lo tanto, 6 es el rango en la población (de menor a mayor valor) en el que aproximadamente 2/ 4 de los valores son menores que el valor del segundo cuartil (o mediana). El sexto valor en la población es 9.9
tercer cuartilEl valor del tercer cuartil para el ejemplo original anterior está determinado por 11 × (3/4) = 8,25, que se redondea a 9. El noveno valor de la población es 15.15
cuarto cuartilAunque no universalmente aceptado, también se puede hablar del cuarto cuartil. Este es el valor máximo del conjunto, por lo que el cuarto cuartil en este ejemplo sería 20. Según la definición de cuantil de rango más cercano, el rango del cuarto cuartil es el rango del número más grande, por lo que el rango del cuarto cuartil sería ser 1120

Entonces, los 4 cuantiles primero, segundo y tercero (los "cuartiles") del conjunto de datos [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] son ​​[7, 9, 15]. Si también se requiere, el cuartil cero es 3 y el cuarto cuartil es 20.

Relación con la media

Para cualquier distribución de probabilidad de población sobre un número finito de valores y, en general, para cualquier distribución de probabilidad con media y varianza, se da el caso de que

{displaystyle mu -sigma cdot {sqrt {frac {1-p}{p}}}leq Q(p)leq mu +sigma cdot {sqrt {frac {p} {1-p}}},,}

donde Q(p) es el valor del cuantil p para 0 < p < 1 (o de manera equivalente es el k -ésimo q -cuantil para p = k / q), donde μ es la media aritmética de la distribución, y donde σ es la desviación estándar de la distribución. En particular, la mediana (p = k / q = 1/2) nunca está a más de una desviación estándar de la media.

La fórmula anterior se puede utilizar para acotar el valor μ + en términos de cuantiles. Cuando z ≥ 0, el valor que está z desviaciones estándar por encima de la media tiene un límite inferior

{displaystyle mu +zsigma geq Qleft({frac {z^{2}}{1+z^{2}}}right),,mathrm {~for~} z geq 0.}

Por ejemplo, el valor que es z = 1 desviación estándar por encima de la media siempre es mayor o igual que Q (p = 0,5), la mediana, y el valor que es z = 2 desviaciones estándar por encima de la media siempre es mayor o igual que igual a Q (p = 0,8), el cuarto quintil.

Cuando z ≤ 0, en cambio, hay un límite superior

{displaystyle mu +zsigma leq Qleft({frac {1}{1+z^{2}}}right),,mathrm {~for~} zleq 0.}

Por ejemplo, el valor μ + para z = −3 nunca excederá Q (p = 0.1), el primer decil.

Estimación de cuantiles a partir de una muestra

Un problema que surge con frecuencia es estimar un cuantil de una población (muy grande o infinita) a partir de una muestra finita de tamaño N.

La distribución asintótica del p -ésimo cuantil de muestra es bien conocida: es asintóticamente normal alrededor del p -ésimo cuantil de población con varianza igual a{displaystyle {frac {p(1-p)}{Nf(x_{p})^{2}}}}

donde f (x p) es el valor de la densidad de distribución en el p -ésimo cuantil de población. Sin embargo, esta distribución se basa en el conocimiento de la distribución de la población; ¡lo que equivale al conocimiento de los cuantiles de población, que estamos tratando de estimar! Por lo tanto, los paquetes estadísticos modernos se basan en una técnica diferente, o una selección de técnicas, para estimar los cuantiles.

Hyndman y Fan compilaron una taxonomía de nueve algoritmos utilizados por varios paquetes de software. Todos los métodos calculan Q p, la estimación del cuantil p (el cuantil k -ésimo q, donde p = k / q) a partir de una muestra de tamaño N mediante el cálculo de un índice de valor real h. Cuando h es un número entero, el h -ésimo menor de los N valores, x h, es la estimación del cuantil. De lo contrario, se utiliza un esquema de redondeo o interpolación para calcular la estimación del cuantil de h, xh, y x h. (Para notación, vea funciones de suelo y techo).

Los primeros tres son constantes por tramos, cambiando abruptamente en cada punto de datos, mientras que los últimos seis usan interpolación lineal entre puntos de datos, y difieren solo en cómo se elige el índice h usado para elegir el punto a lo largo de la curva de interpolación lineal por tramos.

Los lenguajes de programación Mathematica, Matlab, R y GNU Octave son compatibles con los nueve métodos de cuantiles de muestra. SAS incluye cinco métodos de cuantiles de muestra, SciPy y Maple incluyen ocho, EViews incluye las seis funciones lineales por partes, Stata incluye dos, Python incluye dos y Microsoft Excel incluye dos. Mathematica y SciPy admiten parámetros arbitrarios para métodos que permiten otros métodos no estándar.

Los tipos de estimación y los esquemas de interpolación utilizados incluyen:

TipohQ pagnotas
R‑1, SAS‑3, Arce‑1Notario públicox hInversa de la función de distribución empírica.
R‑2, SAS‑5, Arce‑2, Statanp + 1/2(x h – 1/2⌉ + x h + 1/2⌋) / 2Lo mismo que R-1, pero promediando las discontinuidades.
R‑3, SAS‑2Np − 1/2x hLa observación numerada más cercana a Np. Aquí, ⌊ h ⌉ indica redondeo al entero más próximo, eligiendo el entero par en caso de empate.
R‑4, SAS‑1, SciPy‑(0,1), Arce‑3Notario públicoX h + (h − ⌊ h ⌋) (X hX h)Interpolación lineal de la función de distribución empírica.
R‑5, SciPy‑(1/2,1/2), Arce‑4np + 1/2Función lineal por partes donde los nudos son los valores a la mitad de los pasos de la función de distribución empírica.
R‑6, Excel, Python, SAS‑4, SciPy‑(0,0), Maple‑5, Stata‑altdef(N + 1) pagInterpolación lineal de las expectativas de las estadísticas de orden para la distribución uniforme en [0,1]. Es decir, es la interpolación lineal entre puntos (p h, x h), donde p h = h /(N +1) es la probabilidad de que el último de (N +1) valores extraídos al azar no supere el h - el más pequeño de los primeros N valores extraídos aleatoriamente.
R‑7, Excel, Python, SciPy‑(1,1), Maple‑6, NumPy, Julia(norte - 1) pags + 1Interpolación lineal de las modas para las estadísticas de orden para la distribución uniforme en [0,1].
R‑8, SciPy‑(1/3,1/3), Arce‑7(norte + 1/3) p + 1/3Interpolación lineal de las medianas aproximadas para estadísticas de pedidos.
R‑9, SciPy‑(3/8,3/8), Arce‑8(norte + 1/4) p + 3/8Las estimaciones de cuantiles resultantes son aproximadamente imparciales para las estadísticas de orden esperadas si x se distribuye normalmente.

Notas:

De las técnicas, Hyndman y Fan recomiendan la R-8, pero la mayoría de los paquetes de software estadístico han elegido la R-6 o la R-7 como predeterminadas.

En general, el error estándar de una estimación de cuantiles se puede estimar a través de bootstrap. También se puede utilizar el método de Maritz-Jarrett.

Cuantiles aproximados de un flujo

El cálculo de los cuantiles aproximados de los datos que llegan de un flujo se puede hacer de manera eficiente utilizando estructuras de datos comprimidas. Los métodos más populares son t-digest y KLL. Estos métodos leen un flujo de valores de forma continua y pueden, en cualquier momento, ser consultados sobre el valor aproximado de un cuantil específico.

Ambos algoritmos se basan en una idea similar: comprimir el flujo de valores resumiendo valores idénticos o similares con un peso. Si el flujo está hecho de una repetición de 100 veces v1 y 100 veces v2, no hay razón para mantener una lista ordenada de 200 elementos, basta con mantener dos elementos y dos cuentas para poder recuperar los cuantiles. Con más valores, estos algoritmos mantienen un compromiso entre el número de valores únicos almacenados y la precisión de los cuantiles resultantes. Algunos valores pueden descartarse del flujo y contribuir al peso de un valor cercano sin cambiar demasiado los resultados del cuantil. El t-digest mantiene una estructura de datos de tamaño limitado utilizando un enfoque motivado por la agrupación de k-means para agrupar valores similares. El algoritmo KLL utiliza un "compactador" más sofisticadopág.

Ambos métodos pertenecen a la familia de bocetos de datos que son subconjuntos de algoritmos de transmisión con propiedades útiles: se pueden combinar bocetos t-digest o KLL. El cálculo del boceto para un vector de valores muy grande se puede dividir en procesos trivialmente paralelos en los que los bocetos se calculan para particiones del vector en paralelo y se fusionan más tarde.

Discusión

Los resultados de las pruebas estandarizadas se informan comúnmente como un estudiante con una puntuación "en el percentil 80", por ejemplo. Esto utiliza un significado alternativo de la palabra percentil como el intervalo entre (en este caso) el percentil escalar 80 y 81. Este significado separado de percentil también se usa en artículos de investigación científica revisados ​​por pares. El significado utilizado puede derivarse de su contexto.

Si una distribución es simétrica, entonces la mediana es la media (siempre que exista esta última). Pero, en general, la mediana y la media pueden diferir. Por ejemplo, con una variable aleatoria que tiene una distribución exponencial, cualquier muestra particular de esta variable aleatoria tendrá aproximadamente un 63 % de probabilidad de ser menor que la media. Esto se debe a que la distribución exponencial tiene una cola larga para valores positivos pero es cero para números negativos.

Los cuantiles son medidas útiles porque son menos susceptibles que las medias a las distribuciones de cola larga y los valores atípicos. Empíricamente, si los datos que se analizan no se distribuyen realmente de acuerdo con una distribución supuesta, o si existen otras fuentes potenciales de valores atípicos que están muy alejados de la media, entonces los cuantiles pueden ser estadísticas descriptivas más útiles que las medias y otras estadísticas relacionadas con momentos..

Estrechamente relacionado está el tema de las desviaciones mínimas absolutas, un método de regresión que es más resistente a los valores atípicos que los mínimos cuadrados, en el que se usa la suma del valor absoluto de los errores observados en lugar del error cuadrático. La conexión es que la media es la única estimación de una distribución que minimiza el error cuadrático esperado mientras que la mediana minimiza el error absoluto esperado. Las desviaciones mínimas absolutas comparten la capacidad de ser relativamente insensibles a las grandes desviaciones en las observaciones periféricas, aunque se encuentran disponibles métodos aún mejores de regresión robusta.

Los cuantiles de una variable aleatoria se conservan bajo transformaciones crecientes, en el sentido de que, por ejemplo, si m es la mediana de una variable aleatoria X, entonces 2 es la mediana de 2, a menos que se haya hecho una elección arbitraria de un rango de valores para especificar un cuantil particular. (Consulte la estimación de cuantiles, más arriba, para ver ejemplos de dicha interpolación). Los cuantiles también se pueden usar en casos en los que solo se dispone de datos ordinales.