Análisis exploratorio de datos

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Enfoque de análisis de conjuntos de datos en estadísticas

En estadística, el análisis exploratorio de datos (EDA) es un enfoque que consiste en analizar conjuntos de datos para resumir sus características principales, a menudo utilizando gráficos estadísticos y otros métodos de visualización de datos. Se puede utilizar un modelo estadístico o no, pero principalmente EDA sirve para ver qué nos pueden decir los datos más allá del modelado formal y, por lo tanto, contrasta las pruebas de hipótesis tradicionales. John Tukey ha promovido el análisis de datos exploratorios desde 1970 para alentar a los estadísticos a explorar los datos y posiblemente formular hipótesis que podrían conducir a nuevos experimentos y recopilación de datos. EDA es diferente del análisis de datos iniciales (IDA), que se centra más específicamente en verificar los supuestos necesarios para el ajuste del modelo y la prueba de hipótesis, y en manejar los valores faltantes y realizar transformaciones de variables según sea necesario. La EDA engloba a la IDA.

Descripción general

Tukey definió el análisis de datos en 1961 como: "Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y todo la maquinaria y los resultados de las estadísticas (matemáticas) que se aplican al análisis de datos."

El análisis de datos exploratorio es una técnica de análisis para analizar e investigar el conjunto de datos y resume las principales características del conjunto de datos. La principal ventaja de EDA es proporcionar visualización de datos después de realizar el análisis. Este informe arrojará luz sobre la gestión organizacional con los diferentes factores como físicos, cognitivos y emocionales. Estos factores han sido juzgados por diferentes factores predictivos como la amenaza ambiental, la incapacidad para encontrar un respiro y la confianza afectiva y cognitiva. La defensa de EDA por parte de Tukey alentó el desarrollo de paquetes de computación estadística, especialmente S en Bell Labs. El lenguaje de programación S inspiró los sistemas S-PLUS y R. Esta familia de entornos de computación estadística presentaba capacidades de visualización dinámica enormemente mejoradas, lo que permitió a los estadísticos identificar valores atípicos, tendencias y patrones en los datos que merecían un estudio más detallado.

La EDA de Tukey estuvo relacionada con otros dos desarrollos en la teoría estadística: estadísticas robustas y estadísticas no paramétricas, las cuales intentaron reducir la sensibilidad de las inferencias estadísticas a los errores en la formulación de modelos estadísticos. Tukey promovió el uso de un resumen de cinco números de datos numéricos: los dos extremos (máximo y mínimo), la mediana y los cuartiles, porque esta mediana y los cuartiles, al ser funciones de la distribución empírica, están definidos para todas las distribuciones, a diferencia de la media y Desviación Estándar; Además, los cuartiles y la mediana son más robustos ante distribuciones asimétricas o de cola pesada que los resúmenes tradicionales (la media y la desviación estándar). Los paquetes S, S-PLUS y R incluían rutinas que utilizaban estadísticas de remuestreo, como Quenouille y Tukey's jackknife y Efron&#39.;s bootstrap, que no son paramétricos y robustos (para muchos problemas).

El análisis exploratorio de datos, las estadísticas sólidas, las estadísticas no paramétricas y el desarrollo de lenguajes de programación estadística facilitaron el trabajo de los estadísticos. Trabajar en problemas científicos y de ingeniería. Estos problemas incluían la fabricación de semiconductores y la comprensión de las redes de comunicaciones, que preocupaban a los Laboratorios Bell. Estos desarrollos estadísticos, todos defendidos por Tukey, fueron diseñados para complementar la teoría analítica de probar hipótesis estadísticas, particularmente el énfasis de la tradición laplaciana en las familias exponenciales.

Desarrollo

Flujo de proceso de ciencia de datos

John W. Tukey escribió el libro Análisis de datos exploratorios en 1977. Tukey sostuvo que en estadística se ponía demasiado énfasis en las pruebas de hipótesis estadísticas (análisis de datos confirmatorios); era necesario poner más énfasis en el uso de datos para sugerir hipótesis a probar. En particular, sostuvo que confundir los dos tipos de análisis y emplearlos en el mismo conjunto de datos puede conducir a un sesgo sistemático debido a los problemas inherentes a la prueba de hipótesis sugeridas por los datos.

Los objetivos de EDA son:

  • Permitir descubrimientos inesperados en los datos
  • Sugerir hipótesis sobre las causas de los fenómenos observados
  • Evaluar los supuestos en que se basará la inferencia estadística
  • Apoyar la selección de instrumentos y técnicas estadísticos apropiados
  • Proporcionar una base para una mayor recopilación de datos mediante encuestas o experimentos

Se han adoptado muchas técnicas EDA en la minería de datos. También se están enseñando a estudiantes jóvenes como una forma de introducirlos en el pensamiento estadístico.

Técnicas y herramientas

Hay una serie de herramientas que son útiles para EDA, pero EDA se caracteriza más por la actitud adoptada que por técnicas particulares.

Las técnicas gráficas típicas utilizadas en EDA son:

  • Parcela de caja
  • Histograma
  • Gráfico multivario
  • Gráfico de ejecución
  • Gráfico de Pareto
  • Scatter plot (2D/3D)
  • Parcela de vapor y hoja
  • Coordenadas paralelas
  • Tasa de probabilidades
  • Objetivo de la búsqueda de proyección
  • Mapa de calor
  • Gráfico de barras
  • Gráfico horizontal
  • Métodos de visualización basados en glifos tales como rostros de FenoPlot y Chernoff
  • Métodos de proyección como la gran gira, tour guiado y tour manual
  • Versiones interactivas de estas parcelas

Reducción de dimensionalidad:

  • Escalada multidimensional
  • Análisis principal de los componentes (ACP)
  • PCA multilinear
  • Reducción de la dimensión no lineal (NLDR)
  • Iconografía de correlaciones

Las técnicas cuantitativas típicas son:

  • Esmalte mediano
  • Trimean
  • Ordination

Historia

Muchas ideas de EDA se remontan a autores anteriores, por ejemplo:

  • Francis Galton destacó estadísticas de pedidos y quantiles.
  • Arthur Lyon Bowley utilizó precursores del tallo y un resumen de cinco números (Bowley utilizó realmente un "séptimo resumen", incluyendo los extremos, deciles y cuartiles, junto con la mediana—ver su Elementary Manual of Statistics (3rd edn., 1920), p. 62– define "el máximo y mínimo, mediana, cuartiles y dos deciles" como las "siete posiciones").
  • Andrew Ehrenberg articula una filosofía de reducción de datos (ver su libro del mismo nombre).

El curso Estadística en la sociedad de la Open University (MDST 242) tomó las ideas anteriores y las fusionó con el trabajo de Gottfried Noether, que introdujo la inferencia estadística mediante el lanzamiento de monedas y la prueba de la mediana..

Ejemplo

Los hallazgos de EDA son ortogonales a la tarea de análisis principal. Para ilustrar, consideremos un ejemplo de Cook et al. donde la tarea de análisis es encontrar las variables que mejor predicen la propina que una cena le dará al camarero. Las variables disponibles en los datos recopilados para esta tarea son: el monto de la propina, la factura total, el sexo del pagador, la sección de fumadores/no fumadores, la hora del día, el día de la semana y el tamaño del grupo. La tarea de análisis principal se aborda ajustando un modelo de regresión donde la tasa de propinas es la variable de respuesta. El modelo ajustado es

(título) = 0.18 - 0.01 × (tamaño de las partes)

que dice que a medida que el tamaño del grupo de cena aumenta en una persona (lo que genera una factura más alta), la tasa de propina disminuirá en un 1%, en promedio.

Sin embargo, la exploración de los datos revela otras características interesantes no descritas por este modelo.

Lo que se aprende de los gráficos es diferente de lo que ilustra el modelo de regresión, aunque el experimento no fue diseñado para investigar ninguna de estas otras tendencias. Los patrones encontrados al explorar los datos sugieren hipótesis sobre la inclinación que tal vez no se hayan anticipado de antemano y que podrían conducir a interesantes experimentos de seguimiento en los que las hipótesis se plantean y prueban formalmente mediante la recopilación de nuevos datos.

Software

  • JMP, un paquete de EDA del Instituto SAS.
  • KNIME, Konstanz Information Miner – Open-Source data exploration platform based on Eclipse.
  • Minitab, un paquete de EDA y estadísticas generales ampliamente utilizado en entornos industriales y corporativos.
  • Orange, una suite de software de minería de datos de código abierto y aprendizaje automático.
  • Python, un lenguaje de programación de código abierto ampliamente utilizado en la minería de datos y el aprendizaje automático.
  • R, un lenguaje de programación de código abierto para computación estadística y gráficos. Junto con Python uno de los idiomas más populares para la ciencia de datos.
  • TinkerPlots un software EDA para estudiantes de primaria y secundaria superior.
  • Weka un paquete de extracción de datos de código abierto que incluye herramientas de visualización y EDA como la búsqueda de proyección específica.

Contenido relacionado

Relación de madeja

Las relaciones de madeja son una herramienta matemática utilizada para estudiar los nudos. Una pregunta central en la teoría matemática de los nudos es si...

Conjetura de reconstrucción

De manera informal, la conjetura de reconstrucción en la teoría de grafos dice que los gráficos están determinados únicamente por sus subgrafos. Se debe...

Nilpotente

En matemáticas, un elemento x{displaystyle x} de un anillo R{displaystyle R. se llama nilpotent si existe algún entero positivo n{displaystyle n}, llamado...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save