Desvio padrão

ImprimirCitar
Uma parcela de distribuição normal (ou curva em forma de sino) onde cada banda tem uma largura de 1 desvio padrão – Veja também: 68–95–99,7 regra.
Probabilidade cumulativa de uma distribuição normal com valor esperado 0 e desvio padrão 1

Nas estatísticas, o desvio padrão é uma medida da quantidade de variação ou dispersão de um conjunto de valores. Um desvio padrão baixo indica que os valores tendem a estar próximos da média (também chamado de valor esperado) do conjunto, enquanto um desvio padrão alto indica que os valores estão espalhados por uma faixa mais ampla.

O desvio padrão pode ser abreviado como SD e é mais comumente representado em textos matemáticos e equações pela letra grega minúscula σ (sigma), para o desvio padrão da população., ou a letra latina s, para o desvio padrão da amostra.

O desvio padrão de uma variável aleatória, amostra, população estatística, conjunto de dados ou distribuição de probabilidade é a raiz quadrada de sua variância. É algebricamente mais simples, embora na prática menos robusto, do que o desvio absoluto médio. Uma propriedade útil do desvio padrão é que, ao contrário da variância, ele é expresso na mesma unidade que os dados.

O desvio padrão de uma população ou amostra e o erro padrão de uma estatística (por exemplo, da média amostral) são bastante diferentes, mas relacionados. O erro padrão da média amostral é o desvio padrão do conjunto de médias que seria encontrado extraindo um número infinito de amostras repetidas da população e calculando uma média para cada amostra. O erro padrão da média acaba sendo igual ao desvio padrão da população dividido pela raiz quadrada do tamanho da amostra e é estimado usando o desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra. Por exemplo, o erro padrão de uma pesquisa (o que é relatado como a margem de erro da pesquisa) é o desvio padrão esperado da média estimada se a mesma pesquisa fosse realizada várias vezes. Assim, o erro padrão estima o desvio padrão de uma estimativa, que por sua vez mede o quanto a estimativa depende da amostra específica que foi retirada da população.

Na ciência, é comum relatar tanto o desvio padrão dos dados (como uma estatística resumida) quanto o erro padrão da estimativa (como uma medida de erro potencial nas descobertas). Por convenção, apenas os efeitos a mais de dois erros padrão de distância de uma expectativa nula são considerados “estatisticamente significativos”, uma salvaguarda contra conclusões espúrias que são realmente devidas a erros de amostragem aleatória.

Quando apenas uma amostra de dados de uma população está disponível, o termo desvio padrão da amostra ou desvio padrão da amostra pode se referir à quantidade mencionada acima como aplicado a esses dados ou a uma quantidade modificada que seja uma estimativa imparcial do desvio padrão da população (o desvio padrão de toda a população).

Exemplos básicos

Desvio padrão populacional das notas de oito alunos

Suponha que toda a população de interesse seja composta por oito alunos em uma turma específica. Para um conjunto finito de números, o desvio padrão da população é encontrado calculando a raiz quadrada da média dos desvios quadrados dos valores subtraídos do seu valor médio. As notas de uma turma de oito alunos (ou seja, uma população estatística) são os seguintes oito valores:

Esses oito pontos de dados têm a média (média) de 5:

Primeiro, calcule os desvios de cada ponto de dados em relação à média e eleve ao quadrado o resultado de cada um:

A variância é a média destes valores:

e o desvio padrão da população é igual à raiz quadrada da variância:

Esta fórmula é válida apenas se os oito valores com os quais começamos a formar a população completa. Se os valores eram, em vez disso, uma amostra aleatória extraída de alguma grande população-mãe (por exemplo, eram 8 estudantes aleatoriamente e independentemente escolhidos de uma classe de 2 milhões), então um divide-se por 7 (que é n - 1) em vez de 8 n) no denominador da última fórmula, e o resultado é Nesse caso, o resultado da fórmula original seria chamado de amostra desvio padrão e denotado por em vez de Dividir em vez de dá uma estimativa imparcial da variância da população pai maior. Isto é conhecido como Correção de Bessel. Roughly, a razão para ele é que a fórmula para a variância da amostra depende de diferenças de computação das observações da média da amostra, e a própria média da amostra foi construída para ser tão próxima quanto possível às observações, assim apenas dividindo-se por n subestimaria a variabilidade.

Desvio padrão da altura média para homens adultos

Se a população de interesse tiver distribuição aproximadamente normal, o desvio padrão fornece informações sobre a proporção de observações acima ou abaixo de determinados valores. Por exemplo, a altura média dos homens adultos nos Estados Unidos é de cerca de 70 polegadas, com um desvio padrão de cerca de 3 polegadas. Isso significa que a maioria dos homens (cerca de 68%, assumindo uma distribuição normal) tem uma altura dentro de 3 polegadas da média (67-73 polegadas) - um desvio padrão - e quase todos os homens (cerca de 95%) têm uma altura dentro de 6 polegadas da média (64–76 polegadas) – dois desvios padrão. Se o desvio padrão fosse zero, todos os homens teriam exatamente 70 polegadas de altura. Se o desvio padrão fosse de 50 polegadas, os homens teriam alturas muito mais variáveis, com uma variação típica de cerca de 50 a 90 polegadas. Três desvios padrão representam 99,73% da população da amostra em estudo, assumindo que a distribuição é normal ou em forma de sino (ver a regra 68–95–99,7, ou a regra empírica, para mais informações).

Definição de valores populacionais

Seja μ o valor esperado (a média) da variável aleatória X com densidade < span class="texhtml">f(x):

σX

Usando palavras, o desvio padrão é a raiz quadrada da variância de X.

O desvio padrão de uma distribuição de probabilidade é igual ao de uma variável aleatória com essa distribuição.

Nem todas as variáveis aleatórias têm um desvio padrão. Se a distribuição tem caudas de gordura indo para o infinito, o desvio padrão pode não existir, porque a integral pode não convergir. A distribuição normal tem caudas indo para o infinito, mas sua média e desvio padrão existem, porque as caudas diminuem rapidamente o suficiente. A distribuição de Pareto com parâmetro tem um desvio médio, mas não um desvio padrão (em seguida, o desvio padrão é infinito). A distribuição Cauchy não tem nem uma média nem um desvio padrão.

Variável aleatória discreta

No caso em que X obtém valores aleatórios de um conjunto de dados finito x1, x2,..., xN, com cada valor tendo a mesma probabilidade, o desvio padrão é

ou, usando notação de soma,

Se, em vez de terem probabilidades iguais, os valores tiverem probabilidades diferentes, seja x1 tem probabilidade p1, x2 tem probabilidade p2,..., xN tem probabilidade pN. Neste caso, o desvio padrão será

Variável aleatória contínua

O desvio padrão de uma variável aleatória contínua de valor real X com função de densidade de probabilidade p(x) é

e onde as integrais são integrais definidas tomadas para x variando sobre o conjunto de valores possíveis da variável aleatória X.

No caso de uma família paramétrica de distribuições, o desvio padrão pode ser expresso em termos de parâmetros. Por exemplo, no caso da distribuição log-normal com parâmetros μ e σ2, o desvio padrão é

Estimativa

Pode-se encontrar o desvio padrão de uma população inteira em casos (como testes padronizados) em que todos os membros de uma população são amostrados. Nos casos em que isso não pode ser feito, o desvio padrão σ é estimado examinando uma amostra aleatória retirada da população e calculando uma estatística da amostra, que é usada como uma estimativa do desvio padrão da população. Tal estatística é chamada de estimador, e o estimador (ou o valor do estimador, ou seja, a estimativa) é chamado de desvio padrão amostral e é denotado por s (possivelmente com modificadores).

Ao contrário do caso da estimativa da média populacional, para a qual a média amostral é um estimador simples com muitas propriedades desejáveis (imparcial, eficiente, máxima verossimilhança), não existe um único estimador para o desvio padrão com todas essas propriedades, e a estimativa imparcial do desvio padrão é um problema muito complexo do ponto de vista técnico. Na maioria das vezes, o desvio padrão é estimado usando o desvio padrão da amostra corrigido (usando N − 1), definido abaixo, e isso geralmente é chamado de " desvio padrão amostral", sem qualificadores. No entanto, outros estimadores são melhores em outros aspectos: o estimador não corrigido (usando N) produz um erro quadrático médio menor, enquanto usa N − 1,5 (para a distribuição normal) quase completamente elimina preconceitos.

Desvio padrão da amostra não corrigido

A fórmula para o desvio padrão da população (de uma população finita) pode ser aplicada à amostra, usando o tamanho da amostra como o tamanho da população (embora o tamanho real da população da qual a amostra retirada pode ser muito maior). Este estimador, denotado por sN, é conhecido como o desvio padrão da amostra não corrigido, ou às vezes o desvio padrão da amostra (considerada como toda a população), e é definido da seguinte forma:

Onde? são os valores observados dos itens da amostra, e é o valor médio dessas observações, enquanto o denominadorN significa o tamanho da amostra: esta é a raiz quadrada da variância da amostra, que é a média dos desvios quadrados sobre a média da amostra.

Este é um estimador consistente (converge em probabilidade para o valor da população como o número de amostras vai para o infinito), e é a estimativa de máxima probabilidade quando a população é normalmente distribuída. No entanto, este é um estimador tendencioso, já que as estimativas são geralmente muito baixas. O viés diminui à medida que o tamanho da amostra cresce, caindo como 1/N, e assim é mais significativo para tamanhos de amostra pequenas ou moderadas; para o viés está abaixo de 1%. Assim, para tamanhos de amostra muito grandes, o desvio padrão de amostra não corrigido é geralmente aceitável. Este estimador também tem um erro quadrado médio uniformemente menor do que o desvio padrão de amostra corrigido.

Desvio padrão da amostra corrigido

Se a variância amostral tendenciosa (o segundo momento central da amostra, que é uma estimativa tendenciosa para baixo da variância populacional) for usada para calcular uma estimativa do padrão da população desvio, o resultado é

Aqui, tirar a raiz quadrada introduz um viés descendente adicional, pela desigualdade de Jensen, devido ao fato de a raiz quadrada ser uma função côncava. O viés na variância é facilmente corrigido, mas o viés da raiz quadrada é mais difícil de corrigir e depende da distribuição em questão.

Um estimador imparcial para a variância é obtido aplicando-se a correção de Bessel, usando N − 1 em vez de N para produzir a variância amostral imparcial, denotada por s2:

Este estimador é imparcial se a variância existir e os valores da amostra são desenhados independentemente com a substituição. N− 1 corresponde ao número de graus de liberdade no vetor de desvios da média,

Tomando raízes quadradas reintroduz vias (porque a raiz quadrada é uma função não linear que não comuta com a expectativa, ou seja, muitas vezes ), produzindo o desvio padrão de amostra corrigida, denotado por S:

Como explicado acima, enquanto S2 é um estimador imparcial para a variância populacional, S é ainda um estimador tendencioso para o desvio padrão populacional, embora marcadamente menos tendencioso do que o desvio padrão amostral não corrigido. Este estimador é comumente usado e geralmente conhecido simplesmente como o "desvio padrão amostral". O viés ainda pode ser grande para amostras pequenas (N menos de 10). À medida que o tamanho da amostra aumenta, a quantidade de viés diminui. Nós obtemos mais informações e a diferença entre e torna-se menor.

Desvio padrão da amostra imparcial

Para uma estimativa imparcial do desvio padrão, não existe uma fórmula que funcione em todas as distribuições, ao contrário da média e da variância. Em vez disso, s é usado como base e é dimensionado por um fator de correção para produzir uma estimativa imparcial. Para a distribuição normal, um estimador imparcial é dado por s/c 4, onde o fator de correção (que depende de N) é dado em termos da função Gamma e é igual a:

Isso ocorre porque a distribuição amostral do desvio padrão da amostra segue uma distribuição chi (escalada) e o fator de correção é a média da distribuição chi.

Uma aproximação pode ser fornecida substituindo N − 1 por N − 1,5, produzindo:

O erro nesta aproximação decai quadraticamente (como 1/N2 ), e é adequado para todas as amostras, exceto as menores ou de maior precisão: para N = 3 o viés é igual a 1,3%, e para N = 9 o o viés já é inferior a 0,1%.

Uma aproximação mais precisa é substituir N − 1.5 acima por N − 1,5 + 1 /8(N − 1) .

Para outras distribuições, a fórmula correta depende da distribuição, mas uma regra prática é usar o refinamento adicional da aproximação:

onde γ2 denota o excesso de curtose da população. O excesso de curtose pode ser conhecido de antemão para certas distribuições ou estimado a partir dos dados.

Intervalo de confiança de um desvio padrão amostrado

O desvio padrão que obtemos pela amostragem de uma distribuição não é em si absolutamente preciso, tanto por razões matemáticas (explicadas aqui pelo intervalo de confiança) quanto por razões práticas de medição (erro de medição). O efeito matemático pode ser descrito pelo intervalo de confiança ou IC.

Para mostrar como uma amostra maior tornará o intervalo de confiança mais estreito, considere os seguintes exemplos: Uma pequena população de N = 2 tem apenas um grau de liberdade para estimar o desvio padrão. O resultado é que um IC de 95% do DP vai de 0,45 × DP a 31,9 × DP; os fatores aqui são os seguintes:

Onde? é o p-o quantil da distribuição do chi-quadrado com k graus de liberdade, e 1 - α é o nível de confiança. Isto é equivalente ao seguinte:

Com k = 1, q0,025 = 0,000982 e q 0,975 = 5,024. Os inversos das raízes quadradas destes dois números dão-nos os factores 0,45 e 31,9 dados acima.

Uma população maior de N = 10 tem 9 graus de liberdade para estimar o desvio padrão. Os mesmos cálculos acima nos fornecem, neste caso, um IC de 95% variando de 0,69 × SD a 1,83 × SD. Portanto, mesmo com uma população amostral de 10, o DP real ainda pode ser quase um fator 2 maior que o DP amostrado. Para uma população de amostra N = 100, isso cai de 0,88 × DP a 1,16 × DP. Para ter mais certeza de que o SD amostrado está próximo do SD real, precisamos amostrar um grande número de pontos.

Essas mesmas fórmulas podem ser usadas para obter intervalos de confiança na variância dos resíduos de um ajuste de mínimos quadrados sob a teoria normal padrão, onde k< /span> agora é o número de graus de liberdade para erro.

Limites do desvio padrão

Para um conjunto de N > 4 dados abrangendo um intervalo de valores R, um limite superior no desvio padrão s é dado por s = 0.6R. Uma estimativa do desvio padrão para N > 100 dados considerados aproximadamente normais seguem da heurística de que 95% da área sob a curva normal fica aproximadamente dois desvios padrão para cada lado da média, de modo que, com 95% de probabilidade, a faixa total de valores < span class="texhtml mvar" style="font-style:italic;">R representa quatro desvios padrão de modo que sR/4. Esta chamada regra de intervalo é útil na estimativa do tamanho da amostra, pois o intervalo de valores possíveis é mais fácil de estimar do que o desvio padrão. Outros divisores K(N) do intervalo tal que sR/K(N) estão disponíveis para outros valores de N e para distribuições não normais.

Identidades e propriedades matemáticas

O desvio padrão é invariante sob mudanças de localização e é dimensionado diretamente com a escala da variável aleatória. Assim, para uma constante c e variáveis aleatórias X e Y:

O desvio padrão da soma de duas variáveis aleatórias pode ser relacionado aos seus desvios padrão individuais e à covariância entre elas:

Onde? e stand para variância e covariância, respectivamente.

O cálculo da soma dos desvios quadráticos pode ser relacionado a momentos calculados diretamente a partir dos dados. Na fórmula a seguir, a letra E é interpretada como significando o valor esperado, ou seja, média.

O desvio padrão da amostra pode ser calculado como:

Para uma população finita com probabilidades iguais em todos os pontos, temos

o que significa que o desvio padrão é igual à raiz quadrada da diferença entre a média dos quadrados dos valores e o quadrado do valor médio.

Veja a fórmula computacional para a variância para prova e para um resultado análogo para o desvio padrão da amostra.

Interpretação e aplicação

Exemplo de amostras de duas populações com a mesma média, mas diferentes desvios padrão. A população vermelha tem média de 100 e SD 10; a população azul tem média de 100 e SD 50.

Um grande desvio padrão indica que os pontos de dados podem se espalhar longe da média e um pequeno desvio padrão indica que eles estão agrupados em torno da média.

Por exemplo, cada uma das três populações {0, 0, 14, 14}, {0, 6, 8, 14} e {6, 6, 8, 8} tem uma média de 7. Seus desvios padrão são 7, 5 e 1, respectivamente. A terceira população tem um desvio padrão muito menor do que as outras duas porque os seus valores são todos próximos de 7. Estes desvios padrão têm as mesmas unidades que os próprios pontos de dados. Se, por exemplo, o conjunto de dados {0, 6, 8, 14} representa as idades de uma população de quatro irmãos em anos, o desvio padrão é de 5 anos. Como outro exemplo, a população {1000, 1006, 1008, 1014} pode representar as distâncias percorridas por quatro atletas, medidas em metros. Tem média de 1.007 metros e desvio padrão de 5 metros.

O desvio padrão pode servir como medida de incerteza. Na ciência física, por exemplo, o desvio padrão relatado de um grupo de medições repetidas dá a precisão dessas medições. Ao decidir se as medições concordam com uma previsão teórica, o desvio padrão dessas medições é de importância crucial: se a média das medições estiver muito distante da previsão (com a distância medida em desvios padrão), então a teoria que está sendo testada provavelmente precisa ser revisado. Isto faz sentido, uma vez que estão fora do intervalo de valores que se poderia razoavelmente esperar que ocorressem, se a previsão estivesse correta e o desvio padrão quantificado adequadamente. Consulte intervalo de previsão.

Embora o desvio padrão meça até que ponto os valores típicos tendem a estar da média, outras medidas estão disponíveis. Um exemplo é o desvio médio absoluto, que pode ser considerado uma medida mais direta da distância média, em comparação com a raiz quadrada média da distância inerente ao desvio padrão.

Exemplos de aplicação

O valor prático de compreender o desvio padrão de um conjunto de valores é avaliar quanta variação existe em relação à média (média).

Testes experimentais, industriais e de hipóteses

O desvio padrão é frequentemente usado para comparar dados do mundo real com um modelo para testar o modelo. Por exemplo, em aplicações industriais, o peso dos produtos que saem de uma linha de produção pode ter de cumprir um valor legalmente exigido. Pesando alguma fração dos produtos, pode-se encontrar um peso médio, que será sempre ligeiramente diferente da média de longo prazo. Usando desvios padrão, pode-se calcular um valor mínimo e máximo de que o peso médio estará dentro de uma porcentagem muito alta do tempo (99,9% ou mais). Se estiver fora da faixa, o processo de produção poderá precisar ser corrigido. Testes estatísticos como estes são particularmente importantes quando são relativamente caros. Por exemplo, se o produto precisar ser aberto, drenado e pesado, ou se o produto tiver sido consumido pelo teste.

Na ciência experimental, é utilizado um modelo teórico da realidade. A física de partículas convencionalmente usa um padrão de "5 sigma" para a declaração de uma descoberta. Um nível de cinco sigma se traduz em uma chance em 3,5 milhões de que uma flutuação aleatória produzisse o resultado. Este nível de certeza foi necessário para afirmar que uma partícula consistente com o bóson de Higgs havia sido descoberta em dois experimentos independentes no CERN, levando também à declaração da primeira observação de ondas gravitacionais.

Tempo

Como exemplo simples, considere as temperaturas máximas médias diárias para duas cidades, uma no interior e outra no litoral. É útil compreender que a variação das temperaturas máximas diárias nas cidades próximas da costa é menor do que nas cidades do interior. Assim, embora estas duas cidades possam ter, cada uma, a mesma temperatura máxima média, o desvio padrão da temperatura máxima diária para a cidade costeira será menor do que o da cidade do interior, uma vez que, num determinado dia, a temperatura máxima real é mais provável. estar mais distante da temperatura máxima média para a cidade do interior do que para a costeira.

Finanças

Em finanças, o desvio padrão é frequentemente usado como uma medida do risco associado às flutuações de preços de um determinado ativo (ações, títulos, propriedades, etc.) ou o risco de uma carteira de ativos (fundos mútuos geridos ativamente, fundos mútuos de índice ou ETFs). O risco é um factor importante para determinar como gerir eficientemente uma carteira de investimentos porque determina a variação nos retornos do activo e/ou carteira e dá aos investidores uma base matemática para decisões de investimento (conhecida como optimização média-variância). O conceito fundamental de risco é que à medida que aumenta, o retorno esperado de um investimento também deve aumentar, um aumento conhecido como prémio de risco. Por outras palavras, os investidores devem esperar um retorno mais elevado de um investimento quando esse investimento acarreta um nível mais elevado de risco ou incerteza. Ao avaliar os investimentos, os investidores devem estimar tanto o retorno esperado como a incerteza dos retornos futuros. O desvio padrão fornece uma estimativa quantificada da incerteza dos retornos futuros.

Por exemplo, suponha que um investidor tenha que escolher entre duas ações. A ação A nos últimos 20 anos teve um retorno médio de 10 por cento, com um desvio padrão de 20 pontos percentuais (pp) e a ação B, no mesmo período, teve um retorno médio de 12 por cento, mas um desvio padrão superior de 30 pp. Com base no risco e no retorno, um investidor pode decidir que a Ação A é a escolha mais segura, porque os dois pontos percentuais adicionais de retorno da Ação B não valem o desvio padrão adicional de 10 pp (maior risco ou incerteza do esperado). retornar). É provável que a Ação B fique aquém do investimento inicial (mas também exceda o investimento inicial) com mais frequência do que a Ação A nas mesmas circunstâncias, e estima-se que retorne apenas dois por cento mais, em média. Neste exemplo, espera-se que a Ação A ganhe cerca de 10 por cento, mais ou menos 20 pp (uma faixa de 30 por cento a -10 por cento), cerca de dois terços dos retornos do ano futuro. Ao considerar possíveis retornos ou resultados mais extremos no futuro, um investidor deve esperar resultados de até 10% mais ou menos 60 pontos percentuais, ou uma faixa de 70% a -50%, o que inclui resultados para três desvios padrão do retorno médio. (cerca de 99,7 por cento dos retornos prováveis).

Calcular a média (ou média aritmética) do retorno de um título durante um determinado período gerará o retorno esperado do ativo. Para cada período, subtrair o retorno esperado do retorno real resulta na diferença da média. Elevar ao quadrado a diferença em cada período e calcular a média dá a variância geral do retorno do ativo. Quanto maior a variação, maior o risco que o título acarreta. Encontrar a raiz quadrada desta variância dará o desvio padrão da ferramenta de investimento em questão.

Sabe-se que as séries temporais financeiras são séries não estacionárias, enquanto os cálculos estatísticos acima, como o desvio padrão, aplicam-se apenas a séries estacionárias. Para aplicar as ferramentas estatísticas acima a séries não estacionárias, a série deve primeiro ser transformada numa série estacionária, permitindo a utilização de ferramentas estatísticas que agora têm uma base válida para trabalhar.

Interpretação geométrica

Para obter alguns insights e esclarecimentos geométricos, começaremos com uma população de três valores, x 1, x2, x3. Isso define um ponto P = (x 1, x2, x 3) em R3. Considere a linha L = {(r, r, r): rR}. Esta é a "diagonal principal" passando pela origem. Se nossos três valores fornecidos fossem todos iguais, então o desvio padrão seria zero e P ficaria em L. Portanto, não é irracional assumir que o desvio padrão está relacionado à distância de P para < span class="texhtml mvar" style="font-style:italic;">L. Esse é realmente o caso. Para mover ortogonalmente de L até o ponto P, começa-se no ponto:

cujas coordenadas são a média dos valores com os quais começamos.

Derivação de

está ligado por conseguinte, para alguns .

A linha L é para ser ortogonal para o vetor de M para P. Portanto:

Uma pequena álgebra mostra que a distância entre P e M (que é a mesma distância ortogonal entre P e a linha L) é igual ao desvio padrão do vetor (x1, x2, x3), multiplicado pela raiz quadrada do número de dimensões do vetor (3 neste caso).

Desigualdade de Chebyshev

Uma observação raramente está a mais do que alguns desvios padrão da média. A desigualdade de Chebyshev garante que, para todas as distribuições para as quais o desvio padrão é definido, a quantidade de dados dentro de um número de desvios padrão da média é pelo menos igual à indicada na tabela a seguir.

Distância da médiaPopulação mínima
50%
75%
89%
94%
96%
97%

Regras para dados normalmente distribuídos

Azul escuro é um desvio padrão em ambos os lados da média. Para a distribuição normal, isso representa 68,27 por cento do conjunto; enquanto dois desvios padrão da média (média e azul escuro) representam 95,45 por cento; três desvios padrão (luz, médio e azul escuro) representam 99,73 por cento; e quatro desvios padrão representam 99.994 por cento. Os dois pontos da curva que são um desvio padrão da média também são os pontos de inflexão.

O teorema do limite central afirma que a distribuição de uma média de muitas variáveis aleatórias independentes e distribuídas de forma idêntica tende para a famosa distribuição normal em forma de sino com uma função de densidade de probabilidade de

onde μ é o valor esperado das variáveis aleatórias, σ é igual ao desvio padrão de sua distribuição dividido por n12< /span>, e n é o número de variáveis aleatórias. O desvio padrão, portanto, é simplesmente uma variável de escala que ajusta a largura da curva, embora também apareça na constante de normalização.

Se uma distribuição de dados for aproximadamente normal, então a proporção de valores de dados dentro de z desvios padrão da média é definida por:

Onde? é a função de erro. A proporção inferior ou igual a um número, x, é dada pela função de distribuição cumulativa:

Se uma distribuição de dados for aproximadamente normal, então cerca de 68% dos valores dos dados estão dentro de um desvio padrão da média (matematicamente, μ ± σ, onde μ é a média aritmética), cerca de 95 por cento estão dentro de dois desvios padrão (μ ± 2σ), e cerca de 99,7 por cento estão dentro de três desvios padrão (μ ± 3σ). Isso é conhecido como regra 68–95–99,7 ou regra empírica.

Para vários valores de z, a porcentagem de valores esperados dentro e fora do intervalo simétrico, CI = (−zσ, zσ)< /span>, são os seguintes:

Percentagem dentro (zangão.)
zangão.(Percentagem dentro)

Confiança
intervalo
Proporção dentro Proporção sem
Percentagem Percentagem Fração
0,318639σ25% 75% 3 / 4
0.674490σ50% 50% 1 /2
0,977925σ66.6667% 33.3333% 1 / 3
0,994458σ68% 32% 1 / 3.125
1σ68.2689492% 31.7310508% 1 /3.1514872
1.281552σ80% 20% 1 / 5
1.644854σ90% 10% 1 / 10
1.959964σ95% 5% 1 / 20
2σ95.4499736% 4.5500264% 1 /21.9.77895
2.575829σ99% 1% 1 / 100
3σ99.7300204% 0,2699796% 1 / 370.398
3.290527σ99,9% 0,1% 1 /1000
3.890592σ9,99% 0,01% 1 /10.)
4σ99.993666% 0,006334% 1 /15787
4.417173σ99,999% 0,001% 1 /100.)
4,5σ99.9993204653751%0,0006795346249%1 /147159.5358
6.8 / /1))
4.891638σ99.9999% 0,01% 1 /1))
5σ99.9999426697% 0,0000573303% 1 /1744278
5.326724σ99.99999% 0,00001:01% 1 /10.))
5.730729σ99.999999% 0,000001% 1 /100.))
6 99.9999998027% 0,000)1973% 1 /506797346
6.109410σ99.9999999% 0,000000% 1 /1)))
6.466951σ99.99999999% 0,000)01:01% 1 /10.)))
6.806502σ99.999999999% 0,000)001% 1 /100.)))
7σ99.9999999997440%0,000))256.% 1 /390682215445

Relação entre desvio padrão e média

A média e o desvio padrão de um conjunto de dados são estatísticas descritivas geralmente relatadas em conjunto. Em certo sentido, o desvio padrão é um desvio "natural" medida de dispersão estatística se o centro dos dados for medido em torno da média. Isso ocorre porque o desvio padrão da média é menor do que qualquer outro ponto. A afirmação precisa é a seguinte: suponha x1,..., xn são números reais e definem o função:

Usando cálculo ou completando o quadrado, é possível mostrar que σ(r) tem um mínimo único na média:

A variabilidade também pode ser medida pelo coeficiente de variação, que é a razão entre o desvio padrão e a média. É um número adimensional.

Desvio padrão da média

Muitas vezes, queremos alguma informação sobre a precisão da média que obtivemos. Podemos obter isso determinando o desvio padrão da média amostrada. Assumindo a independência estatística dos valores da amostra, o desvio padrão da média está relacionado com o desvio padrão da distribuição por:

onde N é o número de observações na amostra usada para estimar a média. Isso pode ser facilmente comprovado (veja propriedades básicas da variância):

(A independência estatística é assumida.)

portanto

Resultando em:

Para estimar o desvio padrão da média σmédia é necessário conhecer previamente o desvio padrão de toda a população σ. Contudo, na maioria das aplicações este parâmetro é desconhecido. Por exemplo, se uma série de 10 medições de uma quantidade anteriormente desconhecida for realizada em um laboratório, é possível calcular a média amostral resultante e o desvio padrão amostral, mas é impossível calcular o desvio padrão da média. Porém, pode-se estimar o desvio padrão de toda a população da amostra e, assim, obter uma estimativa do erro padrão da média.

Métodos de cálculo rápido

As duas fórmulas a seguir podem representar um desvio padrão contínuo (atualizado repetidamente). Um conjunto de duas somas de potências s1 e s2 são calculados em um conjunto de N valores de x, denotados como x1,..., x< sub>N:

Considerando os resultados desses somatórios contínuos, os valores N, s1, s< /var>2 pode ser usado a qualquer momento para calcular o valor atual do desvio padrão em execução:

Onde N, como mencionado acima, é o tamanho do conjunto de valores (ou também pode ser considerado como s0).

Da mesma forma para o desvio padrão da amostra,

Em uma implementação de computador, como os dois sj somas tornam-se grandes, precisamos considerar o erro de arredondamento, o estouro aritmético e o estouro negativo aritmético. O método abaixo calcula o método das somas acumuladas com erros de arredondamento reduzidos. Esta é uma experiência de "uma passagem" algoritmo para calcular a variância de n amostras sem a necessidade de armazenar dados anteriores durante o cálculo. A aplicação deste método a uma série temporal resultará em valores sucessivos de desvio padrão correspondentes a n pontos de dados como n cresce a cada nova amostra, em vez de um cálculo de janela deslizante de largura constante.

Para k = 1,..., n:

onde A é o valor médio.

Observação: Q1 = 0 já que k − 1 = 0 ou x1 = A1.

Variação da amostra:

Variação populacional:

Cálculo ponderado

Quando os valores xi< /var> são ponderados com pesos desiguais wi, a soma de potências s0, s1, s2 são calculados como:

E as equações do desvio padrão permanecem inalteradas. s0 agora é a soma dos pesos e não o número de amostras N.

O método incremental com erros de arredondamento reduzidos também pode ser aplicado, com alguma complexidade adicional.

Uma soma acumulada de pesos deve ser calculada para cada k de 1 a n:

e os locais onde 1/σ é usado acima devem ser substituídos por wi/Wn:

Na divisão final,

e

ou

onde n é o número total de elementos e n é o número de elementos com pesos diferentes de zero.

As fórmulas acima tornam-se iguais às fórmulas mais simples fornecidas acima se os pesos forem considerados iguais a um.

Histórico

O termo desvio padrão foi usado pela primeira vez por escrito por Karl Pearson em 1894, após seu uso em palestras. Isso substituiu nomes alternativos anteriores para a mesma ideia: por exemplo, Gauss usou erro médio.

Índice de desvio padrão

O índice de desvio padrão (SDI) é usado em avaliações externas de qualidade, especialmente para laboratórios médicos. É calculado como:

Dimensões maiores

O desvio padrão elipse (verde) de uma distribuição normal bidimensional

Em duas dimensões, o desvio padrão pode ser ilustrado com a elipse do desvio padrão (ver Distribuição normal multivariada § Interpretação geométrica).

Contenido relacionado

Greg Egan

Greg Egan é um escritor australiano de ficção científica e matemático amador, mais conhecido por suas obras de ficção científica pesada. Egan ganhou...

Aritmética de ponto flutuante

Na computação, aritmética de ponto flutuante é uma aritmética que representa números reais aproximadamente, usando um inteiro com uma precisão fixa...

Autocorrelação

Autocorrelação, às vezes conhecida como correlação serial no caso de tempo discreto, é a correlação de um sinal com uma cópia atrasada de si mesmo em...
Más resultados...
Tamaño del texto:
Copiar