Conjunto de datos
Un conjunto de datos (o conjunto de datos) es una colección de datos. En el caso de los datos tabulares, un conjunto de datos corresponde a una o más tablas de la base de datos, donde cada columna de una tabla representa una variable particular y cada fila corresponde a un registro dado del conjunto de datos en cuestión. El conjunto de datos enumera valores para cada una de las variables, como por ejemplo la altura y el peso de un objeto, para cada miembro del conjunto de datos. Los conjuntos de datos también pueden consistir en una colección de documentos o archivos.
En la disciplina de datos abiertos, el conjunto de datos es la unidad para medir la información publicada en un repositorio público de datos abiertos. El portal europeo data.europa.eu agrega más de un millón de conjuntos de datos. Algunas otras cuestiones (fuentes de datos en tiempo real, conjuntos de datos no relacionales, etc.) aumentan la dificultad para llegar a un consenso al respecto.
Propiedades
Varias características definen la estructura y las propiedades de un conjunto de datos. Estos incluyen el número y tipos de atributos o variables, y varias medidas estadísticas aplicables a ellos, como la desviación estándar y la curtosis., Jan Rauch (2000). Principios de minería de datos y descubrimiento de conocimiento. ISBN 978-3-540-66490-1.</ref>
Los valores pueden ser números, como números reales o enteros, por ejemplo, que representan la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos), por ejemplo, que representan a una persona& #39;s etnicidad. Más generalmente, los valores pueden ser de cualquiera de los tipos descritos como nivel de medición. Para cada variable, los valores son normalmente todos del mismo tipo. Sin embargo, también pueden existir valores faltantes, que deben indicarse de alguna manera.
En estadística, los conjuntos de datos suelen provenir de observaciones reales obtenidas mediante el muestreo de una población estadística, y cada fila corresponde a las observaciones de un elemento de esa población. Los conjuntos de datos pueden generarse además mediante algoritmos con el fin de probar ciertos tipos de software. Algunos programas modernos de análisis estadístico, como SPSS, aún presentan sus datos en la forma clásica de conjunto de datos. Si faltan datos o son sospechosos, se puede utilizar un método de imputación para completar un conjunto de datos.
Conjuntos de datos clásicos
Varios conjuntos de datos clásicos se han utilizado ampliamente en la literatura estadística:
- Conjunto de datos de flores Iris – Datos multivariados introducidos por Ronald Fisher (1936).
- Base de datos MNIST – Imágenes de dígitos manuscritos comúnmente utilizados para probar algoritmos de clasificación, agrupación y procesamiento de imágenes
- Análisis de datos básicos – Conjuntos de datos utilizados en el libro, An Introduction to Categorical Data Analysis.
- Estadísticas falsas – Conjuntos de datos utilizados en Robo de regresión y detección de ajetreo (Rousseeuw y Leroy, 1968). Se proporciona en línea en la Universidad de Colonia.
- Series temporales – Datos utilizados en el libro de Chatfield, El análisis de la serie de tiempo, son proporcionados en línea por StatLib.
- Valores extremos – Datos utilizados en el libro, Introducción a la modelación estadística de valores extremos son una instantánea de los datos, ya que fue proporcionado en línea por Stuart Coles, el autor del libro.
- Análisis de datos bayesianos – Los datos utilizados en el libro son proporcionados en línea por Andrew Gelman, uno de los autores del libro.
- Datos del hígado de Bupa – Se utiliza en varios papeles en la literatura de aprendizaje automático (minería de datos).
- Cuarteto de Anscombe – Conjunto de datos pequeños que ilustra la importancia de graficar los datos para evitar falacias estadísticas
Contenido relacionado
Lenguaje de consulta y manipulación de conocimientos
Administrador de archivos
Clase (programación informática)