Prueba de kuiper

Compartir Imprimir Citar

La prueba de Kuiper se utiliza en estadística para comprobar si una distribución dada, o una familia de distribuciones, se contradice con la evidencia de una muestra de datos. Lleva el nombre del matemático holandés Nicolaas Kuiper.

La prueba de Kuiper está estrechamente relacionada con la mejor conocida prueba de Kolmogorov-Smirnov (o prueba K-S, como se le suele llamar). Al igual que con la prueba K-S, las estadísticas de discrepancia D+ y D representan los tamaños absolutos de los más positivos y la mayoría de las diferencias negativas entre las dos funciones de distribución acumulativa que se comparan. El truco con la prueba de Kuiper es usar la cantidad D+ + D como prueba estadística. Este pequeño cambio hace que la prueba de Kuiper sea tan sensible en las colas como en la mediana y también la hace invariante bajo transformaciones cíclicas de la variable independiente. La prueba de Anderson-Darling es otra prueba que proporciona la misma sensibilidad en las colas que la mediana, pero no proporciona la invariancia cíclica.

Esta invariancia bajo transformaciones cíclicas hace que la prueba de Kuiper sea invaluable cuando se prueban variaciones cíclicas por época del año, día de la semana o hora del día y, en general, para probar el ajuste y las diferencias entre probabilidad circular. distribuciones.

Definición

Ilustración de la estadística de prueba Kuiper de dos muestras. Las líneas rojas y azules corresponden a una función de distribución empírica, y las flechas negras muestran las distancias de puntos que suman a la estadística Kuiper.

La estadística de prueba, V, para la prueba de Kuiper se define de la siguiente manera. Sea F la función de distribución acumulativa continua que será la hipótesis nula. Denote la muestra de datos que son realizaciones independientes de variables aleatorias, que tienen F como su función de distribución, por xi (i=1,...,n). Luego define

zi=F()xi),{displaystyle z_{i}=F(x_{i}),}
D+=max[i/n− − zi],{displaystyle D^{+}=mathrm {max} left[i/n-z_{i}right],}
D− − =max[zi− − ()i− − 1)/n],{displaystyle D^{-}=mathrm {max} left[z_{i}-(i-1)/nright],}

y finalmente,

V=D++D− − .{displaystyle V=D^{+}+D^{-}

Las tablas para los puntos críticos de la estadística de prueba están disponibles, y estas incluyen ciertos casos en los que la distribución que se está probando no se conoce por completo, por lo que se estiman los parámetros de la familia de distribuciones.

Ejemplo

Podríamos probar la hipótesis de que las computadoras fallan más durante algunas épocas del año que otras. Para probar esto, recopilaríamos las fechas en las que el conjunto de prueba de las computadoras había fallado y construiríamos una función de distribución empírica. La hipótesis nula es que las fallas se distribuyen uniformemente. La estadística de Kuiper no cambia si cambiamos el comienzo del año y no requiere que dividamos las fallas en meses o similares. Otra estadística de prueba que tiene esta propiedad es la estadística de Watson, que está relacionada con la prueba de Cramér-von Mises.

Sin embargo, si las fallas ocurren principalmente los fines de semana, muchas pruebas de distribución uniforme, como K-S y Kuiper, pasarían por alto esto, ya que los fines de semana se distribuyen a lo largo del año. Esta incapacidad para distinguir distribuciones con forma de peine de distribuciones uniformes continuas es un problema clave con todas las estadísticas basadas en una variante de la prueba K-S. La prueba de Kuiper, aplicada al módulo de tiempos de eventos de una semana, es capaz de detectar dicho patrón. El uso de tiempos de eventos que se han modulado con la prueba K-S puede generar resultados diferentes según la fase de los datos. En este ejemplo, la prueba K-S puede detectar la falta de uniformidad si los datos están configurados para comenzar la semana el sábado, pero no detectar la falta de uniformidad si la semana comienza el miércoles.