Histograma

Compartir Imprimir Citar
Histograma simple
Histograma simple

Un histograma es una representación aproximada de la distribución de datos numéricos. El término fue introducido por primera vez por Karl Pearson. Para construir un histograma, el primer paso es "agrupar" (o "depositar") el rango de valores, es decir, dividir todo el rango de valores en una serie de intervalos, y luego contar cuántos valores caen en cada intervalo. Los contenedores generalmente se especifican como intervalos consecutivos que no se superponen de una variable. Los contenedores (intervalos) deben ser adyacentes y a menudo (pero no es obligatorio que lo sean) del mismo tamaño.

Si los contenedores son del mismo tamaño, se erige un rectángulo sobre el contenedor con una altura proporcional a la frecuencia: el número de casos en cada contenedor. También se puede normalizar un histograma para mostrar frecuencias "relativas". Luego muestra la proporción de casos que caen en cada una de varias categorías, con la suma de las alturas igual a 1.

Sin embargo, no es necesario que los contenedores tengan el mismo ancho; en ese caso, el rectángulo erigido se define para tener su área proporcional a la frecuencia de casos en el contenedor. Entonces, el eje vertical no es la frecuencia sino la densidad de frecuencia, el número de casos por unidad de la variable en el eje horizontal. Los ejemplos de ancho de bandeja variable se muestran en los datos de la oficina del censo a continuación.

Como los contenedores adyacentes no dejan espacios, los rectángulos de un histograma se tocan para indicar que la variable original es continua.

Los histogramas dan una idea aproximada de la densidad de la distribución subyacente de los datos y, a menudo, para la estimación de la densidad: estimación de la función de densidad de probabilidad de la variable subyacente. El área total de un histograma utilizado para la densidad de probabilidad siempre se normaliza a 1. Si la longitud de los intervalos en el eje x son todos 1, entonces un histograma es idéntico a una gráfica de frecuencia relativa.

Se puede pensar en un histograma como una estimación de densidad de kernel simplista, que utiliza un kernel para suavizar las frecuencias en los contenedores. Esto produce una función de densidad de probabilidad más suave, que en general reflejará con mayor precisión la distribución de la variable subyacente. La estimación de la densidad podría trazarse como una alternativa al histograma y, por lo general, se dibuja como una curva en lugar de un conjunto de cuadros. No obstante, los histogramas son los preferidos en las aplicaciones, cuando es necesario modelar sus propiedades estadísticas. La variación correlacionada de una estimación de densidad kernel es muy difícil de describir matemáticamente, mientras que es simple para un histograma en el que cada contenedor varía de forma independiente.

Una alternativa a la estimación de la densidad del kernel es el histograma desplazado promedio, que es rápido de calcular y brinda una estimación de curva suave de la densidad sin usar kernels.

El histograma es una de las siete herramientas básicas del control de calidad.

Los histogramas a veces se confunden con los gráficos de barras. Se usa un histograma para datos continuos, donde los contenedores representan rangos de datos, mientras que un gráfico de barras es un gráfico de variables categóricas. Algunos autores recomiendan que los gráficos de barras tengan espacios entre los rectángulos para aclarar la distinción.

Ejemplos

Línea de distribución con histograma
Línea de distribución con histograma

Estos son los datos del histograma de la derecha, utilizando 500 elementos:

Contenedor/IntervaloRecuento/Frecuencia
−3,5 a −2,519
−2,5 a −1,5132
−1,5 a −0,51109
−0,5 a 0,49180
0,5 a 1,49132
1,5 a 2,4934
2,5 a 3,494

Las palabras utilizadas para describir los patrones en un histograma son: "simétrico", "sesgado a la izquierda" o "a la derecha", "unimodal", "bimodal" o "multimodal".

Es una buena idea trazar los datos utilizando varios anchos de bandeja diferentes para obtener más información al respecto. Aquí hay un ejemplo de consejos dados en un restaurante.

La Oficina del Censo de EE. UU. descubrió que había 124 millones de personas que trabajaban fuera de sus hogares. Usando sus datos sobre el tiempo ocupado por el viaje al trabajo, la siguiente tabla muestra el número absoluto de personas que respondieron con tiempos de viaje "al menos 30 pero menos de 35 minutos" es más alto que los números de las categorías por encima y por debajo. Es probable que esto se deba a que las personas redondearon el tiempo de viaje informado. El problema de reportar valores como números redondeados arbitrariamente es un fenómeno común cuando se recopilan datos de personas.

IntervaloAnchoCantidadCantidad/ancho
054180836
55136872737
105186183723
155196343926
205179813596
25571901438
305163693273
3553212642
4054122824
45159200613
60306461215
9060343557

Este histograma muestra el número de casos por unidad de intervalo como la altura de cada bloque, de modo que el área de cada bloque es igual al número de personas de la encuesta que entran en su categoría. El área bajo la curva representa el número total de casos (124 millones). Este tipo de histograma muestra números absolutos, con Q en miles.

IntervaloAnchoCantidad (Q)Q/total/ancho
0541800.0067
55136870.0221
105186180.0300
155196340.0316
205179810.0290
25571900.0116
305163690.0264
35532120.0052
40541220.0066
451592000.0049
603064610.0017
906034350.0005

Este histograma difiere del primero solo en la escala vertical. El área de cada bloque es la fracción del total que representa cada categoría, y el área total de todas las barras es igual a 1 (la fracción significa "todas"). La curva que se muestra es una estimación de densidad simple. Esta versión muestra proporciones y también se conoce como histograma de unidad de área.

En otras palabras, un histograma representa una distribución de frecuencias por medio de rectángulos cuyos anchos representan intervalos de clase y cuyas áreas son proporcionales a las frecuencias correspondientes: la altura de cada uno es la densidad de frecuencia promedio del intervalo. Los intervalos se colocan juntos para mostrar que los datos representados por el histograma, aunque exclusivos, también son contiguos. (Por ejemplo, en un histograma es posible tener dos intervalos de conexión de 10,5 a 20,5 y de 20,5 a 33,5, pero no dos intervalos de conexión de 10,5 a 20,5 y 22,5 a 32,5. Los intervalos vacíos se representan como vacíos y no se saltan).

Histograma con etiquetas
Histograma con etiquetas

Definiciones matemáticas

Los datos utilizados para construir un histograma se generan a través de una función m i que cuenta el número de observaciones que caen en cada una de las categorías separadas (conocidas como bins). Por lo tanto, si hacemos que n sea el número total de observaciones y k sea el número total de bins, los datos del histograma m i cumplen las siguientes condiciones:n = sum_{i=1}^k{m_i}.

Histograma acumulativo

Un histograma acumulativo es un mapeo que cuenta el número acumulativo de observaciones en todos los contenedores hasta el contenedor especificado. Es decir, el histograma acumulativo M i de un histograma m j se define como:M_i = sum_{j=1}^i{m_j}.

Número de contenedores y ancho

No hay un número "mejor" de contenedores, y los diferentes tamaños de contenedores pueden revelar diferentes características de los datos. La agrupación de datos es al menos tan antigua como el trabajo de Graunt en el siglo XVII, pero no se dieron pautas sistemáticas hasta el trabajo de Sturges en 1926.

El uso de contenedores más anchos donde la densidad de los puntos de datos subyacentes es baja reduce el ruido debido a la aleatoriedad del muestreo; el uso de contenedores más estrechos donde la densidad es alta (para que la señal ahogue el ruido) da una mayor precisión a la estimación de la densidad. Por lo tanto, puede ser beneficioso variar el ancho del contenedor dentro de un histograma. No obstante, los contenedores de igual ancho son ampliamente utilizados.

Algunos teóricos han intentado determinar un número óptimo de contenedores, pero estos métodos generalmente hacen fuertes suposiciones sobre la forma de la distribución. Según la distribución real de los datos y los objetivos del análisis, pueden ser apropiados diferentes anchos de intervalo, por lo que generalmente se necesita experimentación para determinar un ancho apropiado. Sin embargo, existen varias pautas y reglas generales útiles.

El número de contenedores k puede asignarse directamente o puede calcularse a partir de un ancho de contenedor h sugerido como:k = left lceil frac{max x - min x}{h} right rceil.

Las llaves indican la función de techo.

Opción de raíz cuadrada

{displaystyle k=lceil {sqrt {n}}rceil,}

que toma la raíz cuadrada de la cantidad de puntos de datos en la muestra (utilizada por los histogramas de Analysis Toolpak de Excel y muchos otros) y redondea al siguiente número entero.

Fórmula de Sturges

La fórmula de Sturges se deriva de una distribución binomial e implícitamente supone una distribución aproximadamente normal.{displaystyle k=lceil log _{2}nrceil +1,,}

La fórmula de Sturges basa implícitamente los tamaños de los contenedores en el rango de los datos y puede tener un rendimiento deficiente si n < 30, porque el número de contenedores será pequeño (menos de siete) y es poco probable que muestre bien las tendencias en los datos. En el otro extremo, la fórmula de Sturges puede sobrestimar el ancho del contenedor para conjuntos de datos muy grandes, lo que da como resultado histogramas demasiado suavizados. También puede funcionar mal si los datos no se distribuyen normalmente.

Cuando se compara con la regla de Scott y la regla de Terrell-Scott, otras dos fórmulas ampliamente aceptadas para intervalos de histogramas, el resultado de la fórmula de Sturges es más cercano cuando n ≈ 100.

Regla del arroz

{displaystyle k=lceil 2{sqrt[{3}]{n}}rceil,}

La regla de Rice se presenta como una alternativa simple a la regla de Sturges.

Fórmula de Doane

La fórmula de Doane es una modificación de la fórmula de Sturges que intenta mejorar su rendimiento con datos no normales.k = 1 + log_2(norte) + log_2 left(1 + frac { |g_1| }{sigma_{g_1}} right)

donde g_{1}es la asimetría del tercer momento estimada de la distribución ysigma_{g_1} = sqrt { frac { 6(n-2) }{ (n+1)(n+3) } }

Regla de referencia normal de Scott

El ancho del contenedor hestá dado por{displaystyle h={frac {3,49{sombrero {sigma}}}{raíz cuadrada[{3}]{n}}},}

donde  que  sigmaes la desviación estándar de la muestra. La regla de referencia normal de Scott es óptima para muestras aleatorias de datos distribuidos normalmente, en el sentido de que minimiza el error cuadrático medio integrado de la estimación de densidad.

La elección de Freedman-Diaconis

La regla de Freedman-Diaconis da el ancho del contenedor hcomo:{displaystyle h=2{frac {operatorname {IQR} (x)}{sqrt[{3}]{n}}},}

que se basa en el rango intercuartílico, denotado por IQR. Reemplaza 3.5σ de la regla de Scott con 2 IQR, que es menos sensible que la desviación estándar a valores atípicos en los datos.

Minimización del error cuadrático estimado de validación cruzada

Este enfoque de minimizar el error cuadrático medio integrado de la regla de Scott se puede generalizar más allá de las distribuciones normales, mediante el uso de una validación cruzada de exclusión:{displaystyle {underset {h}{operatorname {arg,min} }}{hat {J}}(h)={underset {h}{operatorname {arg,min} }}left ({frac {2}{(n-1)h}}-{frac {n+1}{n^{2}(n-1)h}}sum_{k}N_{k}^ {2}derecho)}

Aquí, N_{k}es el número de puntos de datos en el k -ésimo contenedor, y elegir el valor de h que minimiza J minimizará el error cuadrático medio integrado.

La elección de Shimazaki y Shinomoto

La elección se basa en la minimización de una función de riesgo L estimadaunderset{h}{nombre del operador{arg,min}} frac{ 2 bar{m} - v } {h^2}

donde textstyle bar{m}y estilo de texto vson la varianza media y sesgada de un histograma con bin- width textstyle hy. textstyle bar{m}=frac{1}{k} sum_{i=1}^{k} m_itextstyle v= frac{1}{k} sum_{i=1}^{k} (m_i - bar{m})^2

Anchos de contenedores variables

En lugar de elegir contenedores espaciados uniformemente, para algunas aplicaciones es preferible variar el ancho del contenedor. Esto evita bins con conteos bajos. Un caso común es elegir contenedores equiprobables, donde se espera que el número de muestras en cada contenedor sea aproximadamente igual. Los contenedores se pueden elegir de acuerdo con alguna distribución conocida o se pueden elegir en función de los datos, de modo que cada contenedor tenga { estilo de visualización  aproximadamente n/k}muestras. Al trazar el histograma, la densidad de frecuencia se utiliza para el eje dependiente. Si bien todos los contenedores tienen aproximadamente el mismo área, las alturas del histograma se aproximan a la distribución de densidad.

Para bins equiprobables, se sugiere la siguiente regla para el número de bins:{displaystyle k=2n^{2/5}}

Esta elección de contenedores está motivada por maximizar el poder de una prueba de chi-cuadrado de Pearson que prueba si los contenedores contienen el mismo número de muestras. Más específicamente, para un intervalo de confianza dado, alfase recomienda elegir entre 1/2 y 1 vez la siguiente ecuación:{displaystyle k=4left({frac {2n^{2}}{Phi ^{-1}(alpha)}}right)^{frac {1}{5}}}

Donde phi ^{-1}está la función probit. Siguiendo esta regla para alfa = 0.05daría entre { estilo de visualización 1,88n^{2/5}}y { estilo de visualización 3,77n^{2/5}}; el coeficiente de 2 se elige como un valor fácil de recordar de este amplio óptimo.

Observación

Una buena razón por la que el número de contenedores debe ser proporcional a {raíz cuadrada[ {3}]{n}}es la siguiente: suponga que los datos se obtienen como norterealizaciones independientes de una distribución de probabilidad acotada con densidad uniforme. Luego, el histograma permanece igualmente "resistente" y nortetiende al infinito. Si ses el "ancho" de la distribución (p. ej., la desviación estándar o el rango intercuartílico), entonces el número de unidades en un contenedor (la frecuencia) es de orden nh/sy el error estándar relativosqrt{s/(nh)} es de orden. En comparación con el siguiente contenedor, el cambio relativo de la frecuencia es del orden h/ssiempre que la derivada de la densidad no sea cero. Estos dos son del mismo orden si hes de orden {displaystyle s/{sqrt[{3}]{n}}}, por lo que kes de orden{raíz cuadrada[ {3}]{n}}. Esta elección de raíz cúbica simple también se puede aplicar a contenedores con ancho no constante.

Aplicaciones