Estadísticas descriptivas
Una estadística descriptiva (en el sentido de sustantivo contable) es una estadística resumida que describe cuantitativamente o resume características de una colección de información, mientras que las estadísticas descriptivas (en el sentido masivo sustantivo) es el proceso de usar y analizar esas estadísticas. La estadística descriptiva se distingue de la estadística inferencial (o estadística inductiva) por su objetivo de resumir una muestra, en lugar de utilizar los datos para aprender sobre la población que se cree que representa la muestra de datos. Esto generalmente significa que las estadísticas descriptivas, a diferencia de las estadísticas inferenciales, no se desarrollan sobre la base de la teoría de la probabilidad y, con frecuencia, son estadísticas no paramétricas. Incluso cuando un análisis de datos extrae sus principales conclusiones utilizando estadísticas inferenciales, generalmente también se presentan estadísticas descriptivas. Por ejemplo, en los artículos que informan sobre seres humanos, normalmente se incluye una tabla con el tamaño de la muestra general, los tamaños de la muestra en subgrupos importantes (p. ej., para cada grupo de tratamiento o exposición) y características demográficas o clínicas, como la edad promedio, la proporción de sujetos de cada sexo, la proporción de sujetos con comorbilidades relacionadas, etc.
Algunas medidas que se usan comúnmente para describir un conjunto de datos son medidas de tendencia central y medidas de variabilidad o dispersión. Las medidas de tendencia central incluyen la media, la mediana y la moda, mientras que las medidas de variabilidad incluyen la desviación estándar (o varianza), los valores mínimo y máximo de las variables, la curtosis y la asimetría.
Uso en análisis estadístico
Las estadísticas descriptivas proporcionan resúmenes simples sobre la muestra y sobre las observaciones que se han realizado. Dichos resúmenes pueden ser cuantitativos, es decir, estadísticas resumidas, o visuales, es decir, gráficos fáciles de entender. Estos resúmenes pueden formar la base de la descripción inicial de los datos como parte de un análisis estadístico más extenso, o pueden ser suficientes por sí mismos para una investigación en particular.
Por ejemplo, el porcentaje de tiros en baloncesto es una estadística descriptiva que resume el rendimiento de un jugador o un equipo. Este número es el número de disparos realizados dividido por el número de disparos realizados. Por ejemplo, un jugador que tira al 33% está acertando aproximadamente un tiro de cada tres. El porcentaje resume o describe múltiples eventos discretos. Considere también el promedio de calificaciones. Este número único describe el desempeño general de un estudiante en el rango de sus experiencias de curso.
El uso de estadísticas descriptivas y resumidas tiene una larga historia y, de hecho, la simple tabulación de poblaciones y de datos económicos fue la primera forma en que apareció el tema de las estadísticas. Más recientemente, se ha formulado una colección de técnicas de resumen bajo el título de análisis exploratorio de datos: un ejemplo de tal técnica es el diagrama de caja.
En el mundo de los negocios, las estadísticas descriptivas brindan un resumen útil de muchos tipos de datos. Por ejemplo, los inversores y los corredores pueden utilizar una cuenta histórica del comportamiento de la rentabilidad mediante la realización de análisis empíricos y analíticos de sus inversiones para tomar mejores decisiones de inversión en el futuro.
Análisis univariado
El análisis univariante implica describir la distribución de una sola variable, incluida su tendencia central (incluida la media, la mediana y la moda) y la dispersión (incluidos el rango y los cuartiles del conjunto de datos, y medidas de dispersión como la varianza y desviación estándar). La forma de la distribución también se puede describir mediante índices como la asimetría y la curtosis. Las características de la distribución de una variable también se pueden representar en formato gráfico o tabular, incluidos los histogramas y la visualización de tallo y hojas.
Análisis bivariado y multivariado
Cuando una muestra consta de más de una variable, se pueden usar estadísticas descriptivas para describir la relación entre pares de variables. En este caso, las estadísticas descriptivas incluyen:
- Mesas de enlace y contingencia
- Representación gráfica a través de dispersplots
- Medidas cuantitativas de la dependencia
- Descripciones de distribuciones condicionales
La razón principal para diferenciar el análisis univariado y bivariado es que el análisis bivariado no es solo un simple análisis descriptivo, sino que también describe la relación entre dos variables diferentes. Las medidas cuantitativas de dependencia incluyen la correlación (como la r de Pearson cuando ambas variables son continuas, o la rho de Spearman si una o ambas no lo son) y la covarianza (que refleja la escala en la que se miden las variables). La pendiente, en el análisis de regresión, también refleja la relación entre variables. La pendiente no estandarizada indica el cambio de unidad en la variable de criterio para un cambio de una unidad en el predictor. La pendiente estandarizada indica este cambio en unidades estandarizadas (puntuación z). Los datos altamente sesgados a menudo se transforman tomando logaritmos. El uso de logaritmos hace que los gráficos sean más simétricos y se parezcan más a la distribución normal, lo que facilita su interpretación intuitiva.
Contenido relacionado
Distribución zeta
Asociación Actuarial Internacional
Teorema del límite central