Distribución de frecuencias
En estadística, una distribución de frecuencia es una lista, tabla (es decir, tabla de frecuencias) o gráfico (es decir, diagrama de barras o histograma) que muestra la frecuencia de varios resultados en una muestra. Cada entrada de la tabla contiene la frecuencia o el recuento de las ocurrencias de valores dentro de un grupo o intervalo en particular.
Ejemplo
Aquí hay un ejemplo de una tabla de frecuencia univariada (=variable única). Se muestra la frecuencia de cada respuesta a una pregunta de la encuesta.
Rango | grado de acuerdo | Número |
---|---|---|
1 | Totalmente de acuerdo | 22 |
2 | algo de acuerdo | 30 |
3 | No estoy seguro | 20 |
4 | algo en desacuerdo | 15 |
5 | Muy en desacuerdo | 15 |
Un esquema de tabulación diferente agrega valores en contenedores, de modo que cada contenedor abarque un rango de valores. Por ejemplo, las estaturas de los estudiantes de una clase podrían organizarse en la siguiente tabla de frecuencias.
Rango de altura | Numero de estudiantes | número acumulativo |
---|---|---|
menos de 5.0 pies | 25 | 25 |
5,0 a 5,5 pies | 35 | 60 |
5,5 a 6,0 pies | 20 | 80 |
6.0–6.5 pies | 20 | 100 |
Una distribución de frecuencia nos muestra una agrupación resumida de datos divididos en clases mutuamente excluyentes y el número de ocurrencias en una clase. Es una forma de mostrar datos no organizados, en particular para mostrar los resultados de una elección, los ingresos de las personas de una determinada región, las ventas de un producto en un período determinado, los montos de los préstamos estudiantiles de los graduados, etc. Algunos de los gráficos que se pueden usar con Las distribuciones de frecuencia son histogramas, gráficos de líneas, gráficos de barras y gráficos circulares. Las distribuciones de frecuencia se utilizan tanto para datos cualitativos como cuantitativos.
Construcción
- Decidir el número de clases. Demasiadas clases o muy pocas clases pueden no revelar la forma básica del conjunto de datos, además será difícil interpretar dicha distribución de frecuencia. El número ideal de clases se puede determinar o estimar mediante la fórmula:
(base logarítmica 10), o mediante la fórmula de elección de la raíz cuadrada,
donde n es el número total de observaciones en los datos. (Este último será demasiado grande para grandes conjuntos de datos, como las estadísticas de población). Sin embargo, estas fórmulas no son una regla estricta y el número resultante de clases determinado por la fórmula puede no ser siempre exactamente adecuado para los datos que se manejan.
- Calcule el rango de los datos (Rango = Max – Min) encontrando los valores de datos mínimos y máximos. El rango se utilizará para determinar el intervalo de clase o el ancho de clase.
- Decida el ancho de las clases, indicado por h y obtenido por
(suponiendo que los intervalos de clase son los mismos para todas las clases).
Generalmente, el intervalo de clase o el ancho de clase es el mismo para todas las clases. Todas las clases juntas deben cubrir al menos la distancia desde el valor más bajo (mínimo) en los datos hasta el valor más alto (máximo). Se prefieren intervalos de clase iguales en la distribución de frecuencia, mientras que los intervalos de clase desiguales (por ejemplo, intervalos logarítmicos) pueden ser necesarios en ciertas situaciones para producir una buena distribución de observaciones entre las clases y evitar un gran número de clases vacías o casi vacías.
- Decida los límites de clase individuales y seleccione un punto de partida adecuado de la primera clase que sea arbitrario; puede ser menor o igual al valor mínimo. Por lo general, se inicia antes del valor mínimo de tal manera que el punto medio (el promedio de los límites de clase inferior y superior de la primera clase) se coloca correctamente.
- Tome una observación y marque una barra vertical (|) para una clase a la que pertenece. Se mantiene una cuenta corriente hasta la última observación.
- Encuentre las frecuencias, la frecuencia relativa, la frecuencia acumulada, etc., según sea necesario.
Distribuciones de frecuencia conjuntas
Las distribuciones de frecuencias conjuntas bivariadas a menudo se presentan como tablas de contingencia (bidireccionales):
Baile | Deportes | TELEVISOR | Total | |
---|---|---|---|---|
Hombres | 2 | 10 | 8 | 20 |
Mujeres | dieciséis | 6 | 8 | 30 |
Total | 18 | dieciséis | dieciséis | 50 |
La fila total y la columna total reportan las frecuencias marginales o distribución marginal, mientras que el cuerpo de la tabla reporta las frecuencias conjuntas.
Aplicaciones
Administrar y operar con datos tabulados de frecuencia es mucho más simple que operar con datos sin procesar. Existen algoritmos simples para calcular la mediana, la media, la desviación estándar, etc. a partir de estas tablas.
La prueba de hipótesis estadística se basa en la evaluación de las diferencias y similitudes entre las distribuciones de frecuencia. Esta evaluación involucra medidas de tendencia central o promedios, como la media y la mediana, y medidas de variabilidad o dispersión estadística, como la desviación estándar o la varianza.
Se dice que una distribución de frecuencias está sesgada cuando su media y su mediana son significativamente diferentes o, de manera más general, cuando es asimétrica. La curtosis de una distribución de frecuencias es una medida de la proporción de valores extremos (valores atípicos), que aparecen en cualquier extremo del histograma. Si la distribución es más propensa a valores atípicos que la distribución normal, se dice que es leptocúrtica; si es menos propenso a valores atípicos, se dice que es platicúrtico.
Las distribuciones de frecuencia de letras también se utilizan en el análisis de frecuencia para descifrar cifrados, y se utilizan para comparar las frecuencias relativas de las letras en diferentes idiomas y otros idiomas se utilizan a menudo como el griego, el latín, etc.
Contenido relacionado
Gráfico de control
Proceso de Bernoulli
Sistema determinista