Tendencia central
Em estatística, uma tendência central (ou medida de tendência central) é um valor central ou típico para uma distribuição de probabilidade.
Coloquialmente, as medidas de tendência central costumam ser chamadas de médias. O termo tendência central data do final da década de 1920.
As medidas de tendência central mais comuns são a média aritmética, a mediana e a moda. Uma tendência média pode ser calculada para um conjunto finito de valores ou para uma distribuição teórica, como a distribuição normal. Ocasionalmente, os autores usam tendência central para denotar "a tendência de dados quantitativos se agruparem em torno de algum valor central"
A tendência central de uma distribuição é tipicamente contrastada com sua dispersão ou variabilidade; dispersão e tendência central são as propriedades frequentemente caracterizadas de distribuições. A análise pode julgar se os dados têm uma tendência central forte ou fraca com base em sua dispersão.
Medidas
O seguinte pode ser aplicado a dados unidimensionais. Dependendo das circunstâncias, pode ser apropriado transformar os dados antes de calcular uma tendência central. Exemplos são elevar os valores ao quadrado ou obter logaritmos. Se uma transformação é apropriada e o que deveria ser, depende muito dos dados que estão sendo analisados.
- Significado aritmético ou simplesmente, significa
- a soma de todas as medidas divididas pelo número de observações no conjunto de dados.
- Median
- o valor médio que separa a metade superior da metade inferior do conjunto de dados. A mediana e o modo são as únicas medidas de tendência central que podem ser usadas para dados ordinais, em que os valores são classificados em relação uns aos outros, mas não são medidos absolutamente.
- Modo
- o valor mais frequente no conjunto de dados. Esta é a única medida de tendência central que pode ser usada com dados nominais, que têm atribuições de categoria puramente qualitativas.
- Significado generalizado
- Uma generalização dos meios pitagóricos, especificada por um expoente.
- Meio geométrico
- a nona raiz do produto dos valores de dados, onde há n destes. Esta medida é válida apenas para dados que são medidos absolutamente em uma escala estritamente positiva.
- Significado harmônico
- o reciprocal da média aritmética dos recíprocos dos valores de dados. Esta medida também é válida apenas para dados que são medidos absolutamente em uma escala estritamente positiva.
- Meio aritmético ponderado
- um meio aritmético que incorpora a ponderação a certos elementos de dados.
- Significado truncado ou guarnição média
- a média aritmética dos valores de dados após um determinado número ou proporção dos valores de dados mais altos e mais baixos foram descartados.
- Meio interquarto
- uma média truncada baseada em dados dentro da faixa interquartil.
- Midrange
- a média aritmética dos valores máximos e mínimos de um conjunto de dados.
- Midhinge
- o meio aritmético dos primeiros e terceiro quartis.
- Significado quasi-aritmético
- Uma generalização da média generalizada, especificada por uma função injetiva contínua.
- Trimean
- a média aritmética ponderada da mediana e dois quartis.
- Significado patrocinado
- uma média aritmética em que os valores extremos são substituídos por valores mais próximos da mediana.
Qualquer um dos itens acima pode ser aplicado a cada dimensão de dados multidimensionais, mas os resultados podem não ser invariáveis às rotações do espaço multidimensional.
- Medição geométrica
- o ponto minimizando a soma de distâncias para um conjunto de pontos de amostra. Isso é o mesmo que a mediana quando aplicada a dados unidimensionais, mas não é o mesmo que tomar a mediana de cada dimensão de forma independente. Não é invariante a diferentes dimensionamento das diferentes dimensões.
- Meio quadrático (muitas vezes conhecida como quadrado médio da raiz)
- útil em engenharia, mas não frequentemente usado em estatísticas. Isso porque não é um bom indicador do centro da distribuição quando a distribuição inclui valores negativos.
- Profundidade simultânea
- a probabilidade de que um simplex escolhido aleatoriamente com vértices da dada distribuição conterá o centro dado
- Meios de jogo
- um ponto com a propriedade que cada meio-espaço que contém também contém muitos pontos de amostra
Soluções para problemas variacionais
Várias medidas de tendência central podem ser caracterizadas como resolvendo um problema variacional, no sentido do cálculo das variações, ou seja, minimizando a variação do centro. Ou seja, dada uma medida de dispersão estatística, pede-se uma medida de tendência central que minimize a variação: tal que a variação do centro seja mínima entre todas as escolhas de centro. Em uma piada, "a dispersão precede a localização". Essas medidas são inicialmente definidas em uma dimensão, mas podem ser generalizadas para várias dimensões. Este centro pode ou não ser único. No sentido de espaços Lp, a correspondência é:
Lp | dispersão | tendência central |
---|---|---|
L0 | relação de variação | modo |
L1 | desvio absoluto médio | mediana (mediana geométrica) |
L2 | desvio padrão | (centro) |
L∞ | desvio máximo | midrange |
As funções associadas são chamadas de p-norms: respectivamente 0-"norma", 1-norma, 2-norma e ∞-norma. A função correspondente ao espaço L0 não é uma norma e, portanto, é frequentemente referida entre aspas: 0-&# 34;norma".
Em equações, para um determinado conjunto de dados (finito) X, pensado como um vetor x = (x1,…,xn), a dispersão sobre um ponto c é a "distância" de x para o vetor constante c = (c,…,c) no p-norm (normalizado pelo número de pontos n):
- fp(c)= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =‖x- Sim. - Sim. c‖p?(1nGerenciamento Gerenciamento Eu...= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =1n|xEu...- Sim. - Sim. c|p)1/p(c)=left|mathbf {x} - Sim. right|_{p}:={bigg (}{frac {1}{n}}sum _{i=1}^{n}left|x_{i}-cright|^{p}{bigg)}^{1/p}}
Para p = 0 e p = ∞ essas funções são definidas tomando limites, respectivamente como p → 0 e p → ∞. Para p = 0 os valores limitantes são 00 = 0 e a0 = 0 ou a ≠ 0, então a diferença se torna simplesmente igualdade, então a norma 0 conta o número de pontos desiguais. Para p = ∞ o maior número domina e, portanto, a norma ∞ é a diferença máxima.
Singularidade
A média (L2 centro) e a média (L∞ centro) são únicas (quando existem), enquanto a mediana (L1 centro) e a moda (L0 centro) não são em geral exclusivo. Isso pode ser entendido em termos de convexidade das funções associadas (funções coercitivas).
A norma 2 e a norma ∞ são estritamente convexas e, portanto (por otimização convexa), o minimizador é único (se existir) e existe para distribuições limitadas. Assim, o desvio padrão sobre a média é menor do que o desvio padrão sobre qualquer outro ponto, e o desvio máximo sobre o intervalo médio é menor do que o desvio máximo sobre qualquer outro ponto.
A norma 1 não é estritamente convexa, enquanto a convexidade estrita é necessária para garantir a unicidade do minimizador. Correspondentemente, a mediana (neste sentido de minimização) não é em geral única e, de fato, qualquer ponto entre os dois pontos centrais de uma distribuição discreta minimiza o desvio médio absoluto.
A "norma" não é convexo (portanto, não é uma norma). Correspondentemente, a moda não é única – por exemplo, em uma distribuição uniforme, qualquer ponto é a moda.
Agrupamento
Em vez de um único ponto central, pode-se solicitar vários pontos de forma que a variação desses pontos seja minimizada. Isso leva à análise de cluster, em que cada ponto no conjunto de dados é agrupado com o "centro" mais próximo. Mais comumente, usar a norma 2 generaliza o agrupamento de média para k-médias, enquanto o uso da norma 1 generaliza a mediana (geométrica) para agrupamento de k-medianas. Usar a norma 0 simplesmente generaliza a moda (valor mais comum) para usar os k valores mais comuns como centros.
Ao contrário das estatísticas de centro único, esse agrupamento multicêntrico geralmente não pode ser calculado em uma expressão de forma fechada e, em vez disso, deve ser calculado ou aproximado por um método iterativo; uma abordagem geral são os algoritmos de maximização de expectativas.
Geometria da informação
A noção de "centro" como a minimização da variação pode ser generalizada na geometria da informação como uma distribuição que minimiza a divergência (uma distância generalizada) de um conjunto de dados. O caso mais comum é a estimativa de máxima verossimilhança, onde a estimativa de máxima verossimilhança (MLE) maximiza a verossimilhança (minimiza a surpresa esperada), que pode ser interpretada geometricamente usando a entropia para medir a variação: a MLE minimiza a entropia cruzada (equivalentemente, entropia relativa, Kullback– divergência de Leibler).
Um exemplo simples disso é para o centro de dados nominais: em vez de usar a moda (o único "centro" de valor único), geralmente se usa a medida empírica (a distribuição de frequência dividida pelo tamanho da amostra) como um "centro". Por exemplo, dados binários, digamos cara ou coroa, se um conjunto de dados consiste em 2 caras e 1 coroa, a moda é "cara", mas a medida empírica é 2/3 cara, 1/3 caudas, o que minimiza a entropia cruzada (surpresa total) do conjunto de dados. Essa perspectiva também é utilizada na análise de regressão, onde mínimos quadrados encontra a solução que minimiza as distâncias dele, e analogamente na regressão logística, uma estimativa de máxima verossimilhança minimiza a surpresa (distância de informação).
Relações entre média, mediana e moda
Para distribuições unimodais, os seguintes limites são conhecidos e precisos:
- |θ θ - Sim. - Sim. μ μ |σ σ ≤ ≤ 3,{displaystyle {frac {|theta -mu |}{sigma }}leq {sqrt {3}},}
- |Processo Processo - Sim. - Sim. μ μ |σ σ ≤ ≤ 0.6,(em inglês) - Sim. |}{sigma }}leq {sqrt {0.6}},}
- |θ θ - Sim. - Sim. Processo Processo |σ σ ≤ ≤ 3,{displaystyle {frac {|theta] -nu |}{sigma }}leq {sqrt {3}},}
onde μ é a média, ν é a mediana, θ é a moda e σ é o desvio padrão.
Para cada distribuição,
- |Processo Processo - Sim. - Sim. μ μ |σ σ ≤ ≤ 1.(em inglês) - Sim. |{sigma) 1.
Contenido relacionado
Estatísticas de beisebol
Distribuição Cauchy
Curtose
Probabilidade frequentista
Teste de Kolmogorov-Smirnov