Conjunto de dados
Um conjunto de dados (ou conjunto de dados) é uma coleção de dados. No caso de dados tabulares, um conjunto de dados corresponde a uma ou mais tabelas do banco de dados, onde cada coluna de uma tabela representa uma determinada variável, e cada linha corresponde a um determinado registro do conjunto de dados em questão. O conjunto de dados lista valores para cada uma das variáveis, como por exemplo altura e peso de um objeto, para cada membro do conjunto de dados. Os conjuntos de dados também podem consistir em uma coleção de documentos ou arquivos.
Na disciplina de dados abertos, o conjunto de dados é a unidade para medir as informações divulgadas em um repositório público de dados abertos. O portal europeu data.europa.eu agrega mais de um milhão de conjuntos de dados. Algumas outras questões (fontes de dados em tempo real, conjuntos de dados não relacionais, etc.) aumentam a dificuldade de chegar a um consenso sobre isso.
Propriedades
Várias características definem a estrutura e as propriedades de um conjunto de dados. Isso inclui o número e os tipos de atributos ou variáveis e várias medidas estatísticas aplicáveis a eles, como desvio padrão e curtose.
Os valores podem ser números, como números reais ou inteiros, por exemplo, representando a altura de uma pessoa em centímetros, mas também podem ser dados nominais (ou seja, não consistindo em valores numéricos), por exemplo, representando uma pessoa& #39;s etnia. Mais geralmente, os valores podem ser de qualquer um dos tipos descritos como um nível de medição. Para cada variável, os valores são normalmente todos do mesmo tipo. No entanto, também pode haver valores ausentes, que devem ser indicados de alguma forma.
Na estatística, os conjuntos de dados geralmente vêm de observações reais obtidas por amostragem de uma população estatística, e cada linha corresponde às observações de um elemento dessa população. Os conjuntos de dados podem ainda ser gerados por algoritmos com a finalidade de testar certos tipos de software. Alguns softwares de análise estatística modernos, como o SPSS, ainda apresentam seus dados na forma clássica de conjunto de dados. Se houver dados ausentes ou suspeitos, um método de imputação pode ser usado para completar um conjunto de dados.
Conjuntos de dados clássicos
Vários conjuntos de dados clássicos foram usados extensivamente na literatura estatística:
- Conjunto de dados de flores Iris – Conjunto de dados multivariados introduzido por Ronald Fisher (1936).
- Banco de dados MNIST – Imagens de dígitos escritos à mão comumente usados para testar algoritmos de classificação, cluster e processamento de imagem
- Análise de dados categórica – Conjuntos de dados usados no livro, Uma introdução à análise de dados categórica.
- Estatísticas robustas – Conjuntos de dados usados em Regressão robusta e Detecção Outlier (Rousseeuw e Leroy, 1968). Fornecido em linha na Universidade de Colónia.
- Série de tempo – Dados usados no livro de Chatfield, Análise da Série do Tempo, são fornecidos on-line por StatLib.
- Valores extremos – Dados usados no livro, Uma introdução à modelagem estatística de valores extremos são um instantâneo dos dados como foi fornecido on-line por Stuart Coles, o autor do livro.
- Análise de Dados Bayesian – Os dados utilizados no livro são fornecidos on-line por Andrew Gelman, um dos autores do livro.
- Os dados do fígado de Bupa – Usado em vários papéis na literatura de aprendizado de máquina (mineração de dados).
- Quarteto de Anscombe – Conjunto de dados pequenos que ilustram a importância de gráficos dos dados para evitar falhas estatísticas
Contenido relacionado
Microscópio eletrônico
Ai
Formato de arquivo Au