Prueba de Kolmogorov-Smirnov

Compartir Imprimir Citar
Prueba estadística no paramétrica entre dos distribuciones
Ilustración de la estadística Kolmogorov–Smirnov. La línea roja es un modelo CDF, la línea azul es un CDF empírico, y la flecha negra es la estadística KS.

En estadística, la prueba de Kolmogorov–Smirnov (prueba de K–S o prueba de KS) es una prueba no paramétrica de la igualdad de continuas (o discontinuas, consulte la Sección 2.2), distribuciones de probabilidad unidimensionales que se pueden usar para comparar una muestra con una distribución de probabilidad de referencia (prueba K-S de una muestra), o para comparar dos muestras (prueba K-S de dos muestras).). En esencia, la prueba responde a la pregunta "¿Cuál es la probabilidad de que esta colección de muestras se haya extraído de esa distribución de probabilidad?" o, en el segundo caso, "¿Cuál es la probabilidad de que estos dos conjuntos de muestras se hayan extraído de la misma (pero desconocida) distribución de probabilidad?". Lleva el nombre de Andrey Kolmogorov y Nikolai Smirnov.

La estadística de Kolmogorov-Smirnov cuantifica una distancia entre la función de distribución empírica de la muestra y la función de distribución acumulativa de la distribución de referencia, o entre las funciones de distribución empírica de dos muestras. La distribución nula de este estadístico se calcula bajo la hipótesis nula de que la muestra se extrae de la distribución de referencia (en el caso de una muestra) o que las muestras se extraen de la misma distribución (en el caso de dos muestras). En el caso de una muestra, la distribución considerada bajo la hipótesis nula puede ser continua (ver Sección 2), puramente discreta o mixta (ver Sección 2.2). En el caso de dos muestras (consulte la Sección 3), la distribución considerada bajo la hipótesis nula es una distribución continua, pero por lo demás no tiene restricciones. Sin embargo, la prueba de dos muestras también se puede realizar en condiciones más generales que permitan discontinuidad, heterogeneidad y dependencia entre muestras.

La prueba K-S de dos muestras es uno de los métodos no paramétricos más útiles y generales para comparar dos muestras, ya que es sensible a las diferencias tanto en la ubicación como en la forma de las funciones de distribución acumulativa empírica de las dos muestras.

La prueba de Kolmogorov-Smirnov se puede modificar para que sirva como prueba de bondad de ajuste. En el caso especial de las pruebas de normalidad de la distribución, las muestras se estandarizan y comparan con una distribución normal estándar. Esto es equivalente a establecer la media y la varianza de la distribución de referencia iguales a las estimaciones de la muestra, y se sabe que usarlas para definir la distribución de referencia específica cambia la distribución nula del estadístico de prueba (ver Prueba con parámetros estimados). Varios estudios han encontrado que, incluso en esta forma corregida, la prueba es menos poderosa para evaluar la normalidad que la prueba de Shapiro-Wilk o la prueba de Anderson-Darling. Sin embargo, estas otras pruebas tienen sus propias desventajas. Por ejemplo, se sabe que la prueba de Shapiro-Wilk no funciona bien en muestras con muchos valores idénticos.

Estadística de Kolmogorov-Smirnov de una muestra

La función de distribución empírica Fn para n observaciones ordenadas independientes e idénticamente distribuidas (i.i.d.) Xi se define como

Fn()x)=número de (elementos en la muestra≤ ≤ x)n=1n.. i=1n1()− − JUEGO JUEGO ,x]()Xi),{displaystyle F_{n}(x)={frac {text{number of (elements in the sample}leq x)}{n}}={frac {1}{n}sum ¿Por qué?
Donde 1()− − JUEGO JUEGO ,x]()Xi){displaystyle 1_{(-inftyx]}(X_{i})} es la función indicadora, igual a 1 si Xi≤ ≤ x{displaystyle X_{i}leq x} e igual a 0 de lo contrario.

La estadística de Kolmogorov-Smirnov para una función de distribución acumulativa dada F(x) es

Dn=SupxSilencioFn()x)− − F()x)Silencio{displaystyle ¿Por qué?

donde supx es el supremo del conjunto de distancias. Intuitivamente, la estadística toma la mayor diferencia absoluta entre las dos funciones de distribución en todos los valores de x.

Por el teorema Glivenko-Cantelli, si la muestra viene de la distribución F()x), entonces Dn converge a 0 casi seguro en el límite cuando n{displaystyle n} va al infinito. Kolmogorov fortaleció este resultado, proporcionando efectivamente la tasa de esta convergencia (ver la distribución Kolmogorov). El teorema de Donsker proporciona un resultado aún más fuerte.

En la práctica, la estadística requiere una cantidad relativamente grande de puntos de datos (en comparación con otros criterios de bondad de ajuste, como la estadística de prueba de Anderson-Darling) para rechazar correctamente la hipótesis nula.

Distribución de Kolmogorov

Ilustración del PDF de distribución de Kolmogorov.

La distribución de Kolmogorov es la distribución de la variable aleatoria

K=Supt▪ ▪ [0,1]SilencioB()t)Silencio{displaystyle K=sup _{tin [0,1]

donde B(t) es el puente browniano. La función de distribución acumulativa de K viene dada por

Pr⁡ ⁡ ()K≤ ≤ x)=1− − 2.. k=1JUEGO JUEGO ()− − 1)k− − 1e− − 2k2x2=2π π x.. k=1JUEGO JUEGO e− − ()2k− − 1)2π π 2/()8x2),{displaystyle operatorname [Pr] (Kleq x)=1-2sum ¿Por qué? } {x}sum ¿Por qué?

que también puede ser expresado por la función Jacobi theta Silencio Silencio 01()z=0;τ τ =2ix2/π π ){displaystyle vartheta _{01}(z=0;tau =2ix^{2}/pi)}. Tanto la forma de la estadística de prueba Kolmogorov–Smirnov como su distribución asintotica bajo la hipótesis nula fueron publicadas por Andrey Kolmogorov, mientras que una tabla de la distribución fue publicada por Nikolai Smirnov. Existen relaciones de repetición para la distribución de la estadística de prueba en muestras finitas.

Bajo la hipótesis nula de que la muestra proviene de la distribución hipotética F(x),

nDn→n→ → JUEGO JUEGO SuptSilencioB()F()t))Silencio{fnK} {cHFF} {cH00}} {cHFF} {cHFFFF}} {cHFF} {cHFF}} {cHFF}}} {cH00}}}} {cHFF} {nto infty }sup _{t}

en la distribución, donde B()t) es el puente Brownian. Si F es continuo entonces bajo la hipótesis nula nDn{displaystyle { sqrt {n}D_{n} converge a la distribución Kolmogorov, que no depende de F. Este resultado también puede ser conocido como el teorema Kolmogorov.

La precisión de este límite como una aproximación al cdf exacto K{displaystyle K} cuando n{displaystyle n} es finito no es muy impresionante: incluso cuando n=1000{displaystyle n=1000}, el error máximo correspondiente se acerca 0.9% % {displaystyle ¡No!; este error aumenta a 2.6% % {displaystyle 2.6~%} cuando n=100{displaystyle n=100} y a un totalmente inaceptable 7% % {displaystyle 7... cuando n=10{displaystyle n=10}. Sin embargo, una experiencia muy simple de reemplazar x{displaystyle x} por

x+16n+x− − 14n{displaystyle x+{frac}{6{sqrt {n}}+{frac} {x-1}{4n}}

en el argumento de la función Jacobi theta reduce estos errores a 0,003% % {displaystyle #, 0,027% % {displaystyle 0,027%}, y 0,277% % {displaystyle 0,27. respectivamente; esa precisión se consideraría generalmente más que adecuada para todas las aplicaciones prácticas.

El bondad de beneficio test o la prueba Kolmogorov–Smirnov se puede construir utilizando los valores críticos de la distribución Kolmogorov. Esta prueba es asintoticamente válida cuando n→ → JUEGO JUEGO .{displaystyle nto infty.} Rechaza la hipótesis nula a nivel α α {displaystyle alpha } si

K_{alpha },,}" xmlns="http://www.w3.org/1998/Math/MathML">nDn■Kα α ,{displaystyle {sqrt {fn}D_{n} {fn}} {\fn}} },,}K_{alpha },," aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/740f2bfe50c3d4356d5379cccc0ba96eefe02cef" style="vertical-align: -1.005ex; width:13.863ex; height:3.009ex;"/>

de donde se encuentra Kα

Pr⁡ ⁡ ()K≤ ≤ Kα α )=1− − α α .{displaystyle operatorname {Pr} (Kleq K_{alpha)=1-alpha.

La potencia asintótica de esta prueba es 1.

algoritmos rápidos y precisos para calcular el cdf Pr⁡ ⁡ ()Dn≤ ≤ x){displaystyle operatorname {Pr} (D_{n}leq x)} o su complemento para arbitrarios n{displaystyle n} y x{displaystyle x}, están disponibles desde:

Prueba con parámetros estimados

Si la forma o los parámetros de F(x) se determinan a partir de los datos Xi los valores críticos determinados de esta manera no son válidos. En tales casos, se puede requerir Monte Carlo u otros métodos, pero se han preparado tablas para algunos casos. Se han publicado los detalles de las modificaciones requeridas para la estadística de prueba y para los valores críticos para la distribución normal y la distribución exponencial, y las publicaciones posteriores también incluyen la distribución de Gumbel. La prueba de Lilliefors representa un caso especial de esto para la distribución normal. La transformación del logaritmo puede ayudar a superar los casos en los que los datos de la prueba de Kolmogorov no parecen ajustarse a la suposición de que provienen de la distribución normal.

Usando parámetros estimados, surge la pregunta de qué método de estimación debe usarse. Por lo general, este sería el método de máxima verosimilitud, pero p. para la distribución normal, MLE tiene un gran error de sesgo en sigma. En su lugar, el uso de un ajuste de momento o una minimización de KS tiene un gran impacto en los valores críticos y también cierto impacto en la potencia de prueba. Si necesitamos decidir para los datos de Student-T con df = 2 a través de la prueba KS si los datos podrían ser normales o no, entonces una estimación de ML basada en H0 (los datos son normales, por lo que usar el estándar desviación de escala) daría una distancia KS mucho mayor que un ajuste con KS mínimo. En este caso, deberíamos rechazar H0, que suele ser el caso con MLE, porque la desviación estándar de la muestra puede ser muy grande para los datos T-2, pero con la minimización de KS aún podemos obtener una desviación demasiado baja. KS para rechazar H0. En el caso de Student-T, una prueba KS modificada con estimación KS en lugar de MLE, hace que la prueba KS sea ligeramente peor. Sin embargo, en otros casos, una prueba KS modificada de este tipo conduce a una potencia de prueba ligeramente mejor.

Distribución nula discreta y mixta

En el supuesto de que F()x){displaystyle F(x)} es no-disminución y derecho-continua, con número de saltos contable (posiblemente infinito), la estadística de prueba KS se puede expresar como:

Dn=SupxSilencioFn()x)− − F()x)Silencio=Sup0≤ ≤ t≤ ≤ 1SilencioFn()F− − 1()t))− − F()F− − 1()t))Silencio.{displaystyle ¿Por qué? 1}Principalmente.

De la continuidad correcta F()x){displaystyle F(x)}, sigue que F()F− − 1()t))≥ ≥ t{displaystyle F(F^{-1}(t)geq t} y F− − 1()F()x))≤ ≤ x{displaystyle F^{-1}(F(x)leq x} y, por consiguiente, la distribución Dn{displaystyle D_{n} depende de la distribución nula F()x){displaystyle F(x)}, es decir, ya no está libre de distribución como en el caso continuo. Por lo tanto, se ha desarrollado un método rápido y preciso para calcular la distribución exacta y asintotica de Dn{displaystyle D_{n} cuando F()x){displaystyle F(x)} es puramente discreto o mixto, implementado en C++ y en el paquete KSgeneral del lenguaje R. Funciones disc_ks_test(), mixed_ks_test() y cont_ks_test() computar también los valores estadísticos y p de prueba KS para distribuciones nulas puramente discretas, mixtas o continuas y tamaños de muestras arbitrarios. La prueba KS y sus p-valores para distribuciones discretas nulas y tamaños de muestras pequeñas también se computan como parte del paquete dgof del lenguaje R. Principales conjuntos estadísticos entre los cuales SAS PROC NPAR1WAY, Stata ksmirnov poner en práctica la prueba KS en el supuesto de que F()x){displaystyle F(x)} es continuo, que es más conservador si la distribución nula en realidad no es continua (ver ).

Prueba de Kolmogorov-Smirnov para dos muestras

Ilustración de la estadística de dos muestras Kolmogorov–Smirnov. Las líneas rojas y azules corresponden a una función de distribución empírica, y la flecha negra es la estadística KS de dos muestras.

La prueba de Kolmogorov-Smirnov también se puede usar para probar si dos distribuciones de probabilidad unidimensionales subyacentes difieren. En este caso, el estadístico de Kolmogorov-Smirnov es

Dn,m=SupxSilencioF1,n()x)− − F2,m()x)Silencio,{displaystyle D_{n,m}=sup _{x}Sobrevivir_{1,n}(x)-F_{2,m}(x)

Donde F1,n{displaystyle F_{1,n} y F2,m{displaystyle F_{2,m} son las funciones de distribución empírica de la primera y la segunda muestra respectivamente, y Sup{displaystyle sup} es la función supremum.

Para muestras grandes, la hipótesis nula es rechazada a nivel α α {displaystyle alpha } si

c(alpha){sqrt {frac {n+m}{ncdot m}}}.}" xmlns="http://www.w3.org/1998/Math/MathML">Dn,m■c()α α )n+mn⋅ ⋅ m.{displaystyle D_{n,m} {alpha){sqrt {frac {n+m}{ncdot #c(alpha){sqrt {frac {n+m}{ncdot m}}}.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/a547cb8262dd2ac5f47103f3bbe734495eb8a68b" style="vertical-align: -2.505ex; width:22.527ex; height:6.343ex;"/>

Donde n{displaystyle n} y m{displaystyle m} son los tamaños de primera y segunda muestra respectivamente. El valor de c()α α ){displaystyle c({alpha }} se da en el cuadro siguiente para los niveles más comunes α α {displaystyle alpha }

α α {displaystyle alpha }0.200.150.100,050,0250,010,0050,001
c()α α ){displaystyle c({alpha }}1.0731.1381.2241.3581.481.6281.7311.949

y en general por

c()α α )=− − In⁡ ⁡ ()α α 2)⋅ ⋅ 12,{fnMicrosoft Sans Serif}}cdot {tfrac] {1} {2}}}}}}

para que la condición diga

{sqrt {-ln left({tfrac {alpha }{2}}right)cdot {tfrac {1+{tfrac {m}{n}}}{2m}}}}.}" xmlns="http://www.w3.org/1998/Math/MathML">Dn,m■− − In⁡ ⁡ ()α α 2)⋅ ⋅ 1+mn2m.{displaystyle D_{n,m} confianza{sqrt {-ln left({tfrac {alpha {fnMicroc} {1+{tfrac {m} {n}} {2m}}}}{sqrt {-ln left({tfrac {alpha }{2}}right)cdot {tfrac {1+{tfrac {m}{n}}}{2m}}}}.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/dae3b59f1b2503a7662e0a3d697151e102fc3fc4" style="vertical-align: -1.838ex; width:26.159ex; height:6.343ex;"/>

Aquí, de nuevo, el mayor tamaño de la muestra, el más sensible el límite mínimo: Para una proporción determinada de tamaños de muestra (por ejemplo. m=n{displaystyle m=n}), las escalas limitadas mínimas en el tamaño de cualquiera de las muestras según su raíz cuadrada inversa.

Tenga en cuenta que la prueba de dos muestras verifica si las dos muestras de datos provienen de la misma distribución. Esto no especifica cuál es esa distribución común (por ejemplo, si es normal o no normal). De nuevo, se han publicado tablas de valores críticos. Una deficiencia de la prueba univariada de Kolmogorov-Smirnov es que no es muy poderosa porque está diseñada para ser sensible a todos los tipos posibles de diferencias entre dos funciones de distribución. Algunos argumentan que la prueba de Cucconi, originalmente propuesta para comparar simultáneamente ubicación y escala, puede ser mucho más poderosa que la prueba de Kolmogorov-Smirnov cuando se comparan dos funciones de distribución.

Establecer límites de confianza para la forma de una función de distribución

Mientras que la prueba de Kolmogorov-Smirnov generalmente se usa para probar si una determinada F(x) es la distribución de probabilidad subyacente de Fn(x), el procedimiento puede invertirse para dar límites de confianza en F(x) en sí mismo. Si se elige un valor crítico del estadístico de prueba Dα tal que P(Dn > Dα) = α, luego una banda de ancho ±Dα alrededor de Fn(x) contendrá completamente F(x) con probabilidad 1 − α.

La estadística de Kolmogorov-Smirnov en más de una dimensión

Justel, Peña y Zamar (1997) han propuesto una prueba de bondad de ajuste de Kolmogorov-Smirnov multivariada sin distribución. La prueba utiliza una estadística que se construye utilizando la transformación de Rosenblatt y se desarrolla un algoritmo para calcularla en el caso bivariado. También se presenta una prueba aproximada que se puede calcular fácilmente en cualquier dimensión.

La estadística de prueba Kolmogorov–Smirnov debe ser modificada si se aplica una prueba similar a los datos multivariados. Esto no es sencillo porque la diferencia máxima entre dos funciones de distribución acumulativa conjunta no es generalmente la misma que la diferencia máxima de cualquiera de las funciones de distribución complementaria. Así la diferencia máxima va a diferir dependiendo de cuál de <math alttext="{displaystyle Pr(x<Xland yPr()x.X∧ ∧ Sí..Y){displaystyle Pr(x obedecióXland y seleccionó)}<img alt="{displaystyle Pr(x<Xland y o <math alttext="{displaystyle Pr(Xy)}" xmlns="http://www.w3.org/1998/Math/MathML">Pr()X.x∧ ∧ Y■Sí.){displaystyle Pr(X seleccionxland Y Confíay)}<img alt="{displaystyle Pr(Xy)}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1bb1d2b0da5a226250740be10a4cb9d561f99ab7" style="vertical-align: -0.838ex; width:19.322ex; height:2.843ex;"/> o cualquiera de los otros dos posibles arreglos se utiliza. Se podría exigir que el resultado de la prueba utilizada no dependa de qué opción se haga.

Un enfoque para generalizar la estadística de Kolmogorov-Smirnov a dimensiones más altas que cumple con la preocupación anterior es comparar las cdf de las dos muestras con todos los ordenamientos posibles y tomar la mayor del conjunto de estadísticas KS resultantes. En las dimensiones d, hay 2d − 1 de tales órdenes. Una de esas variaciones se debe a Peacock (ver también Gosset para una versión 3D) y otro a Fasano y Franceschini (ver Lopes et al. para una comparación y detalles computacionales). Los valores críticos para el estadístico de prueba se pueden obtener mediante simulaciones, pero dependen de la estructura de dependencia en la distribución conjunta.

En una dimensión, la estadística de Kolmogorov-Smirnov es idéntica a la llamada discrepancia de estrellas D, por lo que otra extensión nativa de KS a dimensiones superiores sería simplemente usar D también para dimensiones superiores. Desafortunadamente, la discrepancia de estrellas es difícil de calcular en dimensiones altas.

En 2021 se propuso la forma funcional del estadístico de prueba KS multivariante, que simplificó el problema de estimar las probabilidades de cola del estadístico de prueba KS multivariante, que se necesita para la prueba estadística. Para el caso multivariante, si Fi es la iésima marginal continua de una distribución de probabilidad con k variables, entonces

nDn→n→ → JUEGO JUEGO max1≤ ≤ i≤ ≤ kSuptSilencioB()Fi()t))Silencio{fn}xright {to infty } max _{1leq ileq k}sup _{t}Sobrevivir

por lo que la distribución límite no depende de las distribuciones marginales.

Implementaciones

La prueba de Kolmogorov-Smirnov se implementa en muchos programas de software. La mayoría de estos implementan la prueba de una y dos muestras.