Cuartilla

ImprimirCitar
Estadística que divide los datos en cuatro partes del mismo tamaño para el análisis

En estadística, un cuartil es un tipo de cuantil que divide el número de puntos de datos en cuatro partes, o cuartos, de tamaño más o menos igual. Los datos deben ordenarse de menor a mayor para calcular los cuartiles; como tales, los cuartiles son una forma de estadística de orden. Los tres cuartiles principales son los siguientes:

  • El primer cuartil (Q1) se define como el número medio entre el número más pequeño (mínimo) y la mediana del conjunto de datos. También se conoce como el inferior o 25o empírico cuartil, como 25% de los datos está por debajo de este punto.
  • El segundo cuartil (Q2) es la mediana de un conjunto de datos; por lo tanto el 50% de los datos se encuentra debajo de este punto.
  • El tercer cuartil (Q3) es el valor medio entre la mediana y el valor más alto (máximo) del conjunto de datos. Es conocido como superior o 75o empírico cuartil, como 75% de los datos se encuentra debajo de este punto.

Junto con el mínimo y el máximo de los datos (que también son cuartiles), los tres cuartiles descritos anteriormente brindan un resumen de cinco números de los datos. Este resumen es importante en estadística porque proporciona información sobre el centro y la dispersión de los datos. Conocer el cuartil inferior y superior proporciona información sobre qué tan grande es la dispersión y si el conjunto de datos está sesgado hacia un lado. Dado que los cuartiles dividen el número de puntos de datos de manera uniforme, el rango no es el mismo entre los cuartiles (es decir, Q3-Q2 Q2-Q1) y en su lugar se conoce como el rango intercuartil (IQR). Mientras que el máximo y el mínimo también muestran la dispersión de los datos, los cuartiles superior e inferior pueden proporcionar información más detallada sobre la ubicación de puntos de datos específicos, la presencia de valores atípicos en los datos y la diferencia en la dispersión entre el 50% medio de los datos y los puntos de datos externos.

Definiciones

Boxplot (con cuartiles y rango intercuartil) y una función de densidad de probabilidad (pdf) de un N(0,1σ normal2) población
Signatura Nombres Definición
Q1
  • primer cuartil
  • cuartil inferior
  • 25o percentil
separa el 25% más bajo de los datos del 75% más alto
Q2
  • segundo cuartil
  • mediana
  • 50 percentil
cortar datos en la mitad
Q3
  • tercer cuartil
  • cuartil superior
  • 75o percentil
separa el 25% más alto de los datos del 75% más bajo

Métodos de cálculo

Distribuciones discretas

Para distribuciones discretas, no existe un acuerdo universal sobre la selección de los valores del cuartil.

Método 1

  1. Utilice la mediana para dividir los datos ordenados en dos mitades.
    • Si hay un número impar de puntos de datos en el conjunto de datos ordenados original, no incluye la mediana (el valor central en la lista ordenada) en cualquiera de la mitad.
    • Si hay un número uniforme de puntos de datos en el conjunto de datos ordenados original, dividir este conjunto de datos exactamente en la mitad.
  2. El valor cuartil inferior es la mediana de la mitad inferior de los datos. El valor cuartil superior es la mediana de la mitad superior de los datos.

Esta regla se emplea en el diagrama de caja de la calculadora TI-83 y en "1-Var Stats" funciones

Método 2

  1. Utilice la mediana para dividir los datos ordenados en dos mitades.
    • Si hay un número impar de puntos de datos en el conjunto de datos ordenados original, incluir la mediana (el valor central en la lista ordenada) en ambas mitades.
    • Si hay un número uniforme de puntos de datos en el conjunto de datos ordenados original, dividir este conjunto de datos exactamente en la mitad.
  2. El valor cuartil inferior es la mediana de la mitad inferior de los datos. El valor cuartil superior es la mediana de la mitad superior de los datos.

Los valores encontrados por este método también se conocen como "bisagras de Tukey"; véase también bisagra media.

Método 3

  1. Si hay incluso números de puntos de datos, entonces el Método 3 comienza del mismo modo que el Método 1 o Método 2 arriba y puede elegir incluir o no incluir el medio como un punto de datos. Si elige incluir el medio como nuevo punto de datos, proceder al paso 2 o 3 del Método 3 porque ahora tiene un número impar de puntos de datos.
  2. Si hay (4n+1) puntos de datos, entonces el cuartil inferior es 25% del na valor de datos más el 75% del (n+1) valor de datos; el cuartil superior es 75% de los (3n+1) punto de datos más 25% del (3n+2o punto de datos.
  3. Si hay (4n+3) puntos de datos, entonces el cuartil inferior es el 75% del (n+1) valor de datos más 25% del (n+2o valor de datos; el cuartil superior es 25% del (3n+2o punto de datos más 75% del (3n+3) punto de datos.

Método 4

Si tenemos un conjunto de datos ordenado x1,x2,...,xn{displaystyle x_{1},x_{2},...,x_{n}, podemos interponer entre puntos de datos para encontrar p{displaystyle p}cuantil empírico si xi{displaystyle x_{i}} está en i/()n+1){displaystyle i/(n+1)} cuntil. Si denotamos la parte entero de un número a{displaystyle a} por ⌊ ⌊ a⌋ ⌋ {displaystyle lfloor arfloor }, entonces la función cuantitativa empírica es dada por,

q()p/4)=xk+α α ()xk+1− − xk){displaystyle q(p/4)=x_{k}+alpha (x_{k+1}-x_{k})},

Donde k=⌊ ⌊ p()n+1)/4⌋ ⌋ {displaystyle k=lfloor p(n+1)/4rfloor } y α α =p()n+1)/4− − ⌊ ⌊ p()n+1)/4⌋ ⌋ {displaystyle alpha =p(n+1)/4-lfloor p(n+1)/4rfloor }.

Para encontrar la primera, segunda y tercera cuartiles del conjunto de datos evaluaríamos q()0,25){displaystyle q(0.25)}, q()0.5){displaystyle q(0.5)}, y q()0,75){displaystyle q(0.75)} respectivamente.

Ejemplo 1

Conjunto de datos ordenado: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

Método 1 Método 2 Método 3 Método 4
Q115 25,5 20.25 15
Q240 40 40 40
Q343 42,5 42.75 43

Ejemplo 2

Conjunto de datos ordenado: 7, 15, 36, 39, 40, 41

Como hay un número par de puntos de datos, los primeros tres métodos dan los mismos resultados.

Método 1 Método 2 Método 3 Método 4
Q115 15 15 13
Q237,5 37,5 37,5 37,5
Q340 40 40 40.25

Distribuciones de probabilidad continua

Cuartiles sobre una función de distribución acumulativa de una distribución normal

Si definimos una distribución de probabilidad continua como P()X){displaystyle P(X)} Donde X{displaystyle X} es una variable aleatoria real valorada, su función de distribución acumulativa (CDF) es dada por,

FX()x)=P()X≤ ≤ x){displaystyle F_{X}(x)=P(Xleq x)}.

El CDF proporciona la probabilidad de que la variable aleatoria X{displaystyle X} es menos que el valor x{displaystyle x}. Por lo tanto, el primer cuartil es el valor de x{displaystyle x} cuando FX()x)=0,25{displaystyle F_{X}(x)=0.25}, el segundo cuartil es x{displaystyle x} cuando FX()x)=0.5{displaystyle F_{X}(x)=0.5}, y el tercer cuartil es x{displaystyle x} cuando FX()x)=0,75{displaystyle F_{X}(x)=0.75}. Los valores de x{displaystyle x} se puede encontrar con la función cuntil Q()p){displaystyle Q(p)} Donde p=0,25{displaystyle p=0.25} para el primer cuartil, p=0.5{displaystyle p=0.5} para el segundo cuartil, y p=0,75{displaystyle p=0.75} para el tercer cuartil. La función cuantitativa es la inversa de la función de distribución acumulativa si la función de distribución acumulada aumenta monotonicamente.

Valores atípicos

Existen métodos mediante los cuales comprobar los valores atípicos en la disciplina de la estadística y el análisis estadístico. Los valores atípicos pueden ser el resultado de un cambio en la ubicación (media) o en la escala (variabilidad) del proceso de interés. Los valores atípicos también podrían ser evidencia de una muestra de población que tiene una distribución no normal o de un conjunto de datos de población contaminados. En consecuencia, como es la idea básica de las estadísticas descriptivas, cuando encontramos un valor atípico, tenemos que explicar este valor mediante un análisis más detallado de la causa o el origen del valor atípico. En casos de observaciones extremas, que no son infrecuentes, se deben analizar los valores típicos. En el caso de los cuartiles, el Rango Intercuartílico (RIC) se puede utilizar para caracterizar los datos cuando puede haber extremos que sesgan los datos; el rango intercuartílico es una estadística relativamente robusta (a veces también llamada "resistencia") en comparación con el rango y la desviación estándar. También hay un método matemático para comprobar los valores atípicos y determinar las "vallas", los límites superior e inferior a partir de los cuales comprobar los valores atípicos.

Después de determinar el primer y el tercer cuartil y el rango intercuartil como se describe anteriormente, las vallas se calculan mediante la siguiente fórmula:

Cierre inferior=Q1− − 1,5()IQR){displaystyle {text{Lower fence}=Q_{1}-1.5(mathrm {IQR},}
Cierre superior=Q3+1,5()IQR),{displaystyle {text{Upper fence}=Q_{3}+1.5(mathrm {IQR}),,}
Diagrama de Boxplot con Aparatos

donde Q1 y Q3 son el primer y tercer cuartil, respectivamente. La valla inferior es el "límite inferior" y la valla superior es el "límite superior" de datos, y cualquier dato que se encuentre fuera de estos límites definidos puede considerarse un valor atípico. Cualquier cosa por debajo de la valla inferior o por encima de la valla superior puede considerarse un caso de este tipo. Las vallas proporcionan una guía para definir un valor atípico, que puede definirse de otras formas. Las vallas definen un "rango" fuera del cual existe un valor atípico; una forma de representar esto es el límite de una cerca, fuera de la cual hay "forasteros" a diferencia de los valores atípicos. Es común que las vallas inferior y superior junto con los valores atípicos se representen mediante un diagrama de caja. Para un diagrama de caja, solo las alturas verticales corresponden al conjunto de datos visualizados, mientras que el ancho horizontal de la caja es irrelevante. Los valores atípicos ubicados fuera de las vallas en un diagrama de caja se pueden marcar con cualquier elección de símbolo, como una "x" o 'o'. Las vallas a veces también se denominan "bigotes" mientras que toda la imagen de la trama se denomina "caja y bigotes" trama.

Al detectar un valor atípico en el conjunto de datos mediante el cálculo de los rangos intercuartílicos y las características del gráfico de caja, podría ser simple verlo erróneamente como evidencia de que la población no es normal o que la muestra está contaminada. Sin embargo, este método no debe reemplazar una prueba de hipótesis para determinar la normalidad de la población. La importancia de los valores atípicos varía según el tamaño de la muestra. Si la muestra es pequeña, es más probable que se obtengan rangos intercuartílicos poco representativos, lo que conduce a límites más estrechos. Por lo tanto, sería más probable encontrar datos marcados como atípicos.

Software informático para cuartiles

para el Medio Ambiente Función Método cuartil
Microsoft Excel QUARTILE.EXC Método 4
Microsoft Excel QUARTILE.INC Método 3
Calculadoras de serie TI-8X 1-Var Stats Método 1
R cinco años Método 2
Python numposo. percentil Método 3
Python pandas.DataFrame.describe Método 3

Excel:

La función de Excel CUARTIL(matriz, cuarto) proporciona el valor del cuartil deseado para una matriz de datos dada, utilizando el Método 3 anterior. En la función Cuartil, matriz es el conjunto de datos de números que se está analizando y cuarto es cualquiera de los siguientes 5 valores según el cuartil que se esté calculando.

Quart Producto Valor
0 Valor mínimo
1 Cuartil inferior (25o percentil)
2 Mediano
3 Cuartil superior (75o percentil)
4 Valor máximo

MATLAB:

Para calcular cuartiles en Matlab, se puede utilizar la función quantile(A,p). Donde A es el vector de datos que se analizan y p es el porcentaje que se relaciona con los cuartiles como se indica a continuación.

p Producto Valor
0 Valor mínimo
0,25 Cuartil inferior (25o percentil)
0.5 Mediano
0,75 Cuartil superior (75o percentil)
1 Valor máximo

Contenido relacionado

Hiperboloide

En geometría, un hiperboloide de revolución, a veces llamado hiperboloide circular, es la superficie generada al girar una hipérbola alrededor de uno de...

Transformada de Box-Muller

Espacio localmente compacto

Más resultados...
Tamaño del texto:
Copiar