Teste de Kolmogorov-Smirnov

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Teste estatístico não paramétrico entre duas distribuições
Ilustração da estatística de Kolmogorov–Smirnov. A linha vermelha é um modelo CDF, a linha azul é um CDF empírico, e a seta preta é a estatística KS.

Na estatística, o teste de Kolmogorov–Smirnov (teste K–S ou teste KS) é um teste não paramétrico da igualdade de contínua (ou descontínua, consulte a Seção 2.2), distribuições de probabilidade unidimensionais que podem ser usadas para comparar uma amostra com uma distribuição de probabilidade de referência (teste K-S de uma amostra) ou para comparar duas amostras (teste K-S de duas amostras). Em essência, o teste responde à pergunta "Qual é a probabilidade de vermos uma coleção de amostras como esta se fossem retiradas dessa distribuição de probabilidade?" ou, no segundo caso, "Qual a probabilidade de vermos dois conjuntos de amostras como este se fossem extraídos da mesma (mas desconhecida) distribuição de probabilidade?". É nomeado após Andrey Kolmogorov e Nikolai Smirnov.

A estatística de Kolmogorov–Smirnov quantifica a distância entre a função de distribuição empírica da amostra e a função de distribuição cumulativa da distribuição de referência, ou entre as funções de distribuição empírica de duas amostras. A distribuição nula dessa estatística é calculada sob a hipótese nula de que a amostra é extraída da distribuição de referência (no caso de uma amostra) ou que as amostras são extraídas da mesma distribuição (no caso de duas amostras). No caso de uma amostra, a distribuição considerada sob a hipótese nula pode ser contínua (ver Seção 2), puramente discreta ou mista (ver Seção 2.2). No caso de duas amostras (consulte a Seção 3), a distribuição considerada sob a hipótese nula é uma distribuição contínua, mas sem restrições. No entanto, o teste de duas amostras também pode ser realizado em condições mais gerais que permitem descontinuidade, heterogeneidade e dependência entre as amostras.

O teste K–S de duas amostras é um dos métodos não paramétricos mais úteis e gerais para comparar duas amostras, pois é sensível a diferenças na localização e na forma das funções de distribuição cumulativa empírica das duas amostras.

O teste de Kolmogorov–Smirnov pode ser modificado para servir como um teste de adequação. No caso especial de testar a normalidade da distribuição, as amostras são padronizadas e comparadas com uma distribuição normal padrão. Isso equivale a definir a média e a variância da distribuição de referência iguais às estimativas de amostra, e sabe-se que usá-las para definir a distribuição de referência específica altera a distribuição nula da estatística de teste (consulte Teste com parâmetros estimados). Vários estudos descobriram que, mesmo nessa forma corrigida, o teste é menos poderoso para testar a normalidade do que o teste de Shapiro-Wilk ou o teste de Anderson-Darling. No entanto, esses outros testes têm suas próprias desvantagens. Por exemplo, o teste de Shapiro-Wilk é conhecido por não funcionar bem em amostras com muitos valores idênticos.

Estatística de Kolmogorov–Smirnov de uma amostra

A função de distribuição empírica Fn para n observações ordenadas independentes e identicamente distribuídas (i.i.d.) Xi é definido como

Fn(x)= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =número de (elementos na amostra≤ ≤ x)n= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =1nGerenciamento Gerenciamento Eu...= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =1n1(- Sim. - Sim. ∞ ∞ ,x](XEu...),{displaystyle F_{n}(x)={frac {{text{número de elementos na amostra}}leq x)}{n}}={frac {1}{n}}sum _{i=1}^{n}1_{(-inftyx]}(X_{i}),}
Onde? 1(- Sim. - Sim. ∞ ∞ ,x](XEu...)(X_{i})} é a função indicador, igual a 1 se XEu...≤ ≤ x{displaystyle X_{i}leq x} e igual a 0 caso contrário.

A estatística de Kolmogorov–Smirnov para uma dada função de distribuição cumulativa F(x) é

Dn= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =Vamos.x|Fn(x)- Sim. - Sim. F(x)|Não. D_{n}=sup _{x}|F_{n}(x)-F(x)|}

onde supx é o supremo do conjunto de distâncias. Intuitivamente, a estatística considera a maior diferença absoluta entre as duas funções de distribuição em todos os valores x.

Pelo teorema de Glivenko–Cantelli, se a amostra vem da distribuição F(x), então Dn converge para 0 quase seguramente no limite quando nNão. vai para o infinito. Kolmogorov reforçou este resultado, fornecendo eficazmente a taxa desta convergência (ver distribuição de Kolmogorov). O teorema de Donsker fornece um resultado ainda mais forte.

Na prática, a estatística requer um número relativamente grande de pontos de dados (em comparação com outros critérios de qualidade de ajuste, como a estatística de teste de Anderson-Darling) para rejeitar adequadamente a hipótese nula.

Distribuição de Kolmogorov

Ilustração do PDF da distribuição de Kolmogorov.

A distribuição de Kolmogorov é a distribuição da variável aleatória

KK= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =Vamos.)∈ ∈ Não.0,1]|B())|Não. K=sup _{tin [0,1]}|B(t)|}

onde B(t) é a ponte browniana. A função de distribuição cumulativa de K é dada por

Pr⁡ ⁡ (KK≤ ≤ x)= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =1- Sim. - Sim. 2Gerenciamento Gerenciamento k= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =1∞ ∞ (- Sim. - Sim. 1)k- Sim. - Sim. 1e- Sim. - Sim. 2k2x2= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =2D D xGerenciamento Gerenciamento k= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =1∞ ∞ e- Sim. - Sim. (2k- Sim. - Sim. 1)2D D 2/(8x2),{displaystyle operatorname} (Pr) (Kleq x)=1-2sum _{k=1}^{infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={frac {sqrt {2pi {x}}sum _{k=1}^{infty }e^{-(2k-1)^{2}pi ^{2}/(8x^{2})},}

que também pode ser expresso pela função Jacobi theta θ θ 01:01(zangão.= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =0;? ? = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =2Eu...x2/D D ){displaystyle vartheta _{01}(z=0;tau =2ix^{2}/pi)}. Tanto a forma da estatística do teste de Kolmogorov-Smirnov e sua distribuição assintótica sob a hipótese nula foram publicadas por Andrey Kolmogorov, enquanto uma tabela da distribuição foi publicada por Nikolai Smirnov. As relações de recorrência para a distribuição da estatística de teste em amostras finitas estão disponíveis.

Sob a hipótese nula de que a amostra vem da distribuição hipotética F(x),

nDn→n→ → ∞ ∞ Vamos.)|B(F()))|{displaystyle {sqrt {n}}D_{n}{xrightarrow {nto infty }}sup _{t}|B(F(t)|}

na distribuição, onde B()) é a ponte Brownian. Se F é contínuo então sob a hipótese nula nDn{displaystyle {sqrt {n}}D_{n}}} converge para a distribuição de Kolmogorov, que não depende F. Este resultado também pode ser conhecido como teorema de Kolmogorov.

A precisão deste limite como uma aproximação ao exato cdf do KKNão. quando nNão. é finito não é muito impressionante: mesmo quando n= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =1000Não., o erro máximo correspondente é sobre 0.9.% % Não. 0.9~%}; este erro aumenta 2.% % Não. 2.6~%} quando n= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =100.- Sim. e de uma forma totalmente inaceitável 7% % Não. 7~%} quando n= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =10.Não.. No entanto, um expediente muito simples de substituir xNão. por

x+16n+x- Sim. - Sim. 14n{displaystyle x+{frac {1}{6{sqrt {n}}+{frac Não.

no argumento da função Jacobi theta reduz esses erros para 0,003% % Não. 0,003~%}, 0,027% % Não. 0,027%}e 0,27% % Não. 0,27~%} respectivamente; tal precisão seria geralmente considerada mais do que adequada para todas as aplicações práticas.

O bondade de lucro O teste ou o teste de Kolmogorov-Smirnov podem ser construídos usando os valores críticos da distribuição de Kolmogorov. Este teste é assintoticamente válido quando n→ → ∞ ∞ .{displaystyle nto infty.} Rejeita a hipótese nula a nível α α - Sim. se

K_{alpha },,}" xmlns="http://www.w3.org/1998/Math/MathML">nDn>KKα α ,{displaystyle {sqrt {n}}D_{n}>K_{alpha },,K_{alpha },," aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/740f2bfe50c3d4356d5379cccc0ba96eefe02cef" style="vertical-align: -1.005ex; width:13.863ex; height:3.009ex;"/>

de onde Kα é encontrado

Pr⁡ ⁡ (KK≤ ≤ KKα α )= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =1- Sim. - Sim. α α .{displaystyle operatorname} Não. (Kleq K_{alpha })=1-alpha.,}

O poder assintótico deste teste é 1.

Algoritmos rápidos e precisos para calcular o cdf Pr⁡ ⁡ (Dn≤ ≤ x)(D_{n}leq x)} ou seu complemento para arbitrário nNão. e xNão., estão disponíveis a partir de:

  • e para distribuições nulas contínuas com código em C e Java para ser encontrado em.
  • para distribuição nula puramente discreta, mista ou contínua implementada no pacote KSgeneral do projeto R para computação estatística, que para uma determinada amostra também computa a estatística do teste KS e seu valor p. Implementação alternativa C++ está disponível a partir.

Teste com parâmetros estimados

Se a forma ou os parâmetros de F(x) forem determinados a partir dos dados Xi os valores críticos determinados desta forma são inválidos. Nesses casos, Monte Carlo ou outros métodos podem ser necessários, mas as tabelas foram preparadas para alguns casos. Detalhes para as modificações necessárias na estatística de teste e para os valores críticos para a distribuição normal e a distribuição exponencial foram publicados, e publicações posteriores também incluem a distribuição de Gumbel. O teste de Lilliefors representa um caso especial disso para a distribuição normal. A transformação logarítmica pode ajudar a superar os casos em que os dados do teste de Kolmogorov parecem não se encaixar na suposição de que vieram da distribuição normal.

Usando parâmetros estimados, surge a questão de qual método de estimativa deve ser usado. Normalmente, este seria o método de máxima verossimilhança, mas, por ex. para a distribuição normal, o MLE tem um grande erro de viés em sigma. Usar um ajuste de momento ou minimização de KS tem um grande impacto nos valores críticos e também algum impacto no poder de teste. Se precisarmos decidir para os dados Student-T com df = 2 por meio do teste KS, se os dados podem ser normais ou não, uma estimativa ML baseada em H0 (os dados são normais, portanto, usando o padrão desvio para escala) daria uma distância KS muito maior do que um ajuste com KS mínimo. Neste caso, devemos rejeitar H0, que é frequentemente o caso com MLE, porque o desvio padrão da amostra pode ser muito grande para dados T-2, mas com a minimização KS podemos obter ainda um valor muito baixo KS para rejeitar H0. No caso de Student-T, um teste KS modificado com estimativa KS em vez de MLE torna o teste KS um pouco pior. No entanto, em outros casos, esse teste KS modificado leva a um poder de teste ligeiramente melhor.

Distribuição nula discreta e mista

Sob a suposição de que F(x)(x)} é não crescente e contínuo direito, com número contável (possivelmente infinito) de saltos, a estatística do teste KS pode ser expressa como:

Dn= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =Vamos.x|Fn(x)- Sim. - Sim. F(x)|= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =Vamos.0≤ ≤ )≤ ≤ 1|Fn(F- Sim. - Sim. 1()))- Sim. - Sim. F(F- Sim. - Sim. 1()))|.Não. D_{n}=sup _{x}|F_{n}(x)-F(x)|=sup _{0leq tleq 1}|F_{n}(F^{-1}(t)))-F(F^{-1}(t)|.}

Da continuidade do direito F(x)(x)}, segue-se que F(F- Sim. - Sim. 1()))≥ ≥ )(F^{-1}(t)geq t} e F- Sim. - Sim. 1(F(x))≤ ≤ x(F(x)leq x} e, portanto, a distribuição de DnNão. D_{n}} depende da distribuição nua F(x)(x)}, isto é, não é mais livre de distribuição como no caso contínuo. Portanto, um método rápido e preciso foi desenvolvido para computar a distribuição exata e assintótica de DnNão. D_{n}} quando F(x)(x)} é puramente discreta ou mista, implementada em C++ e no pacote KSgeneral da linguagem R. As funções disc_ks_test(), mixed_ks_test() e cont_ks_test() calcular também o teste KS estatística e p-valores para distribuições nulas puramente discretas, mistas ou contínuas e tamanhos de amostra arbitrária. O teste KS e seus p-valores para distribuições nulas discretas e pequenos tamanhos de amostra também são computados como parte do pacote dgof da linguagem R. Principais pacotes estatísticos entre os quais SAS PROC NPAR1WAY, Stata ksmirnov implementar o teste KS sob a suposição de que F(x)(x)} é contínuo, o que é mais conservador se a distribuição nula não é realmente contínua (ver ).

Teste Kolmogorov–Smirnov de duas amostras

Ilustração da estatística de duas amostras Kolmogorov–Smirnov. As linhas vermelhas e azuis correspondem a uma função de distribuição empírica, e a seta preta é a estatística KS de duas amostras.

O teste de Kolmogorov–Smirnov também pode ser usado para testar se duas distribuições de probabilidade unidimensionais subjacentes diferem. Neste caso, a estatística de Kolmogorov-Smirnov é

Dn,m= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =Vamos.x|F1,n(x)- Sim. - Sim. F2,m(x)|,Não. D_{n,m}=sup _{x}|F_{1,n}(x)-F_{2,m}(x)|,}

Onde? F1,nNão. F_{1,n}} e F2,m{displaystyle F_{2,m}} são as funções de distribuição empírica do primeiro e da segunda amostra respectivamente, e Vamos.- Sim. é a função supremum.

Para amostras grandes, a hipótese nula é rejeitada em nível α α - Sim. se

c(alpha){sqrt {frac {n+m}{ncdot m}}}.}" xmlns="http://www.w3.org/1998/Math/MathML">Dn,m>c(α α )n+mn)) m.{displaystyle D_{n,m}>c(alpha){sqrt {frac Não. Sim.c(alpha){sqrt {frac {n+m}{ncdot m}}}.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/a547cb8262dd2ac5f47103f3bbe734495eb8a68b" style="vertical-align: -2.505ex; width:22.527ex; height:6.343ex;"/>

Onde? nNão. e mNão. são os tamanhos da primeira e segunda amostra respectivamente. O valor de c(α α )Não. é dado na tabela abaixo para os níveis mais comuns de α α - Sim.

α α - Sim.0,200,150,100,050,0250,010,0050,001
c(α α )Não.1.0731.1381.224.1.3.581.481.6281.7311.949

e em geral por

c(α α )= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =- Sim. - Sim. I⁡ ⁡ (α α 2))) 12,{displaystyle cleft(alpha right)={sqrt {-ln left({tfrac {alpha }{2}}right)cdot {tfrac {1}{2}}}

para que a condição seja lida

{sqrt {-ln left({tfrac {alpha }{2}}right)cdot {tfrac {1+{tfrac {m}{n}}}{2m}}}}.}" xmlns="http://www.w3.org/1998/Math/MathML">Dn,m>- Sim. - Sim. I⁡ ⁡ (α α 2))) 1+mn2m.Não. D_{n,m}>{sqrt {-ln left({tfrac {alpha }{2}}right)cdot {tfrac (1+ {m}{n}}}{2m}}}}}}{sqrt {-ln left({tfrac {alpha }{2}}right)cdot {tfrac {1+{tfrac {m}{n}}}{2m}}}}.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/dae3b59f1b2503a7662e0a3d697151e102fc3fc4" style="vertical-align: -1.838ex; width:26.159ex; height:6.343ex;"/>

Aqui, novamente, quanto maior o tamanho da amostra, mais sensível o limite mínimo: Para uma determinada proporção de tamanhos de amostra (p. ex. m= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =nNão.), as escalas limitadas mínimas no tamanho de qualquer uma das amostras de acordo com sua raiz quadrada inversa.

Observe que o teste de duas amostras verifica se as duas amostras de dados vêm da mesma distribuição. Isso não especifica o que é essa distribuição comum (por exemplo, se é normal ou não normal). Mais uma vez, tabelas de valores críticos foram publicadas. Uma deficiência do teste univariado de Kolmogorov-Smirnov é que ele não é muito poderoso porque é projetado para ser sensível contra todos os tipos possíveis de diferenças entre duas funções de distribuição. Alguns argumentam que o teste de Cucconi, originalmente proposto para comparar localização e escala simultaneamente, pode ser muito mais poderoso do que o teste de Kolmogorov-Smirnov ao comparar duas funções de distribuição.

Definindo limites de confiança para a forma de uma função de distribuição

Embora o teste de Kolmogorov–Smirnov seja geralmente usado para testar se um determinado F(x) é a distribuição de probabilidade subjacente de Fn(x), o procedimento pode ser invertido para fornecer limites de confiança em F(x) em si. Se alguém escolher um valor crítico da estatística de teste Dα tal que P(Dn > Dα) = α, então uma banda de largura ±Dα em torno de Fn(x) conterá inteiramente F(x) com probabilidade 1 − α.

A estatística de Kolmogorov–Smirnov em mais de uma dimensão

Um teste de qualidade de ajuste de Kolmogorov–Smirnov multivariado livre de distribuição foi proposto por Justel, Peña e Zamar (1997). O teste usa uma estatística que é construída usando a transformação de Rosenblatt, e um algoritmo é desenvolvido para calculá-la no caso bivariado. Um teste aproximado que pode ser facilmente computado em qualquer dimensão também é apresentado.

A estatística do teste de Kolmogorov-Smirnov precisa ser modificada se um teste semelhante for aplicado a dados multivariados. Isso não é simples porque a diferença máxima entre duas funções de distribuição cumulativa conjunta não é geralmente a mesma que a diferença máxima de qualquer uma das funções de distribuição complementares. Assim, a diferença máxima será diferente dependendo de qual <math alttext="{displaystyle Pr(x<Xland yPr(x<X∧ ∧ Sim.<Y){displaystyle Pr(x<Xland y<Y)}<img alt="{displaystyle Pr(x<Xland y ou <math alttext="{displaystyle Pr(Xy)}" xmlns="http://www.w3.org/1998/Math/MathML">Pr(X<x∧ ∧ Y>Sim.){displaystyle Pr(Xy)}<img alt="{displaystyle Pr(Xy)}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1bb1d2b0da5a226250740be10a4cb9d561f99ab7" style="vertical-align: -0.838ex; width:19.322ex; height:2.843ex;"/> ou qualquer um dos outros dois arranjos possíveis é usado. Pode-se exigir que o resultado do teste usado não dependa de qual escolha é feita.

Uma abordagem para generalizar a estatística de Kolmogorov–Smirnov para dimensões mais altas que atendem à preocupação acima é comparar os CDFs das duas amostras com todas as ordenações possíveis e obter o maior do conjunto de estatísticas KS resultantes. Nas dimensões d, existem 2d − 1 dessas ordenações. Uma dessas variações é devido ao Peacock (ver também Gosset para uma versão 3D) e outro para Fasano e Franceschini (ver Lopes et al. para comparação e detalhes computacionais). Valores críticos para a estatística de teste podem ser obtidos por simulações, mas dependem da estrutura de dependência na distribuição conjunta.

Em uma dimensão, a estatística de Kolmogorov–Smirnov é idêntica à chamada discrepância estrela D, então outra extensão KS nativa para dimensões superiores seria simplesmente usar D também para dimensões superiores. Infelizmente, a discrepância estelar é difícil de calcular em altas dimensões.

Em 2021 foi proposta a forma funcional da estatística multivariada do teste KS, que simplificou o problema de estimar as probabilidades de cauda da estatística multivariada do teste KS, que é necessária para o teste estatístico. Para o caso multivariado, se Fi for o iésimo marginal contínuo de uma distribuição de probabilidade com k variáveis, então

nDn→n→ → ∞ ∞ máx.1≤ ≤ Eu...≤ ≤ kVamos.)|B(FEu...()))|{displaystyle {sqrt {n}}D_{n}xrightarrow {nto infty } max _{1leq ileq k}sup _{t}|B(F_{i}(t)|}

portanto, a distribuição limite não depende das distribuições marginais.

Implementações

O teste de Kolmogorov–Smirnov é implementado em muitos programas de software. A maioria deles implementa o teste de uma e duas amostras.

  • Mathematica tem Kolmogorov SmirnovTest.
  • A caixa de ferramentas de estatísticas do MATLAB tem kstest e kstest2 para testes de Kolmogorov-Smirnov, respectivamente.
  • O pacote R "KSgeneral" computa as estatísticas de teste KS e seus p-valores sob distribuição nula arbitrária, possivelmente discreta, mista ou contínua.
  • O pacote base de estatísticas de R implementa o teste como ks.test {stats} em seu pacote "stats".
  • A SAS implementa o teste em seu procedimento PROC NPAR1WAY.
  • Em Python, o pacote SciPy implementa o teste na função scipy.stats.kstest.
  • SYSTAT (SPSS Inc., Chicago, IL)
  • Java tem uma implementação deste teste fornecido pelo Apache Commons.
  • KNIME tem um nó implementando este teste com base na implementação Java acima.
  • Julia tem o pacote HypothesisTests.jl com a função ExactOneSampleKSTest(x::AbstractVector{<:Real}, d::UnivariateDistribution).
  • StatsDirect (StatsDirect Ltd, Manchester, Reino Unido) implementa todas as variantes comuns.
  • Stata (Stata Corporation, College Station, TX) implementa o teste em comando ksmirnov (Kolmogorov–Smirnov equal-of-distributions).
  • PSPP implementa o teste em seu KOLMOGOROV-SMIRNOV (ou usando a função de atalho KS).
  • O Real Statistics Resource Pack for Excel executa o teste como KSCRIT e KSPROB.

Contenido relacionado

Área

Área é a medida do tamanho de uma região em uma superfície. A área de uma região plana ou área plana refere-se à área de uma forma ou lâmina planar...

Hiparco

Hiparco foi um astrônomo, geógrafo e matemático. Ele é considerado o fundador da trigonometria, mas é mais famoso por sua descoberta acidental da...

Assimptota

Na geometria analítica, uma assimptota de uma curva é uma linha tal que a distância entre a curva e a linha se aproxima de zero como um ou ambos os x ou as...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save