Conjunto de dados

ImprimirCitar
Coleta de dados
Diversas parcelas do conjunto de dados multivariado Iris flor conjunto introduzido por Ronald Fisher (1936).

Um conjunto de dados (ou conjunto de dados) é uma coleção de dados. No caso de dados tabulares, um conjunto de dados corresponde a uma ou mais tabelas do banco de dados, onde cada coluna de uma tabela representa uma determinada variável, e cada linha corresponde a um determinado registro do conjunto de dados em questão. O conjunto de dados lista valores para cada uma das variáveis, como por exemplo altura e peso de um objeto, para cada membro do conjunto de dados. Os conjuntos de dados também podem consistir em uma coleção de documentos ou arquivos.

Na disciplina de dados abertos, o conjunto de dados é a unidade para medir as informações divulgadas em um repositório público de dados abertos. O portal europeu data.europa.eu agrega mais de um milhão de conjuntos de dados. Algumas outras questões (fontes de dados em tempo real, conjuntos de dados não relacionais, etc.) aumentam a dificuldade de chegar a um consenso sobre isso.

Propriedades

Várias características definem a estrutura e as propriedades de um conjunto de dados. Isso inclui o número e os tipos de atributos ou variáveis e várias medidas estatísticas aplicáveis a eles, como desvio padrão e curtose.

Os valores podem ser números, como números reais ou inteiros, por exemplo, representando a altura de uma pessoa em centímetros, mas também podem ser dados nominais (ou seja, não consistindo em valores numéricos), por exemplo, representando uma pessoa& #39;s etnia. Mais geralmente, os valores podem ser de qualquer um dos tipos descritos como um nível de medição. Para cada variável, os valores são normalmente todos do mesmo tipo. No entanto, também pode haver valores ausentes, que devem ser indicados de alguma forma.

Na estatística, os conjuntos de dados geralmente vêm de observações reais obtidas por amostragem de uma população estatística, e cada linha corresponde às observações de um elemento dessa população. Os conjuntos de dados podem ainda ser gerados por algoritmos com a finalidade de testar certos tipos de software. Alguns softwares de análise estatística modernos, como o SPSS, ainda apresentam seus dados na forma clássica de conjunto de dados. Se houver dados ausentes ou suspeitos, um método de imputação pode ser usado para completar um conjunto de dados.

Conjuntos de dados clássicos

Vários conjuntos de dados clássicos foram usados extensivamente na literatura estatística:

  • Conjunto de dados de flores Iris – Conjunto de dados multivariados introduzido por Ronald Fisher (1936).
  • Banco de dados MNIST – Imagens de dígitos escritos à mão comumente usados para testar algoritmos de classificação, cluster e processamento de imagem
  • Análise de dados categórica – Conjuntos de dados usados no livro, Uma introdução à análise de dados categórica.
  • Estatísticas robustas – Conjuntos de dados usados em Regressão robusta e Detecção Outlier (Rousseeuw e Leroy, 1968). Fornecido em linha na Universidade de Colónia.
  • Série de tempo – Dados usados no livro de Chatfield, Análise da Série do Tempo, são fornecidos on-line por StatLib.
  • Valores extremos – Dados usados no livro, Uma introdução à modelagem estatística de valores extremos são um instantâneo dos dados como foi fornecido on-line por Stuart Coles, o autor do livro.
  • Análise de Dados Bayesian – Os dados utilizados no livro são fornecidos on-line por Andrew Gelman, um dos autores do livro.
  • Os dados do fígado de Bupa – Usado em vários papéis na literatura de aprendizado de máquina (mineração de dados).
  • Quarteto de Anscombe – Conjunto de dados pequenos que ilustram a importância de gráficos dos dados para evitar falhas estatísticas

Contenido relacionado

Microscópio eletrônico

Um microscópio eletrônico é um microscópio que usa um feixe de elétrons acelerados como fonte de iluminação. Como o comprimento de onda de um elétron...

Ai

AI é um acrônimo para inteligência artificial, capacidade intelectual em máquinas e...

Formato de arquivo Au

O formato de arquivo Au é um formato de arquivo de áudio simples introduzido pela Sun Microsystems. O formato era comum nos sistemas NeXT e nas primeiras...
Más resultados...
Tamaño del texto:
Copiar