Prueba de Shapiro-Wilk
La prueba de Shapiro-Wilk es una prueba de normalidad. Fue publicado en 1965 por Samuel Sanford Shapiro y Martin Wilk.
Teoría
La prueba de Shapiro-Wilk prueba la hipótesis nula de que una muestra x1,..., x n procedía de una población distribuida normalmente. El estadístico de prueba es
- W=(). . i=1naix()i))2. . i=1n()xi− − x̄ ̄ )2,{displaystyle W={left(sum) ¿Por qué?
dónde
- x()i){displaystyle x_{(i)}} con paréntesis encerrando el índice de subscriptos i es ila estadística del orden, es decir, it-smallest número en la muestra (no confundir con xi{displaystyle x_{i}}).
- x̄ ̄ =()x1+⋯ ⋯ +xn)/n{displaystyle {overline {x}=left(x_{1}+cdots +x_{n}right)/n} es la muestra media.
Los coeficientes ai{displaystyle A_{i} son dados por:
- ()a1,... ... ,an)=mTV− − 1C,{displaystyle (a_{1},dotsa_{n}={m^{mathsf {T}V^{-1} over C}
donde C es una norma vectorial:
- C=. . V− − 1m. . =()mTV− − 1V− − 1m)1/2{displaystyle C=morV^{-1}m viven=(m^{mathsf {T}V^{-1}V^{-1}m)} {1/2}
y el vector m,
- m=()m1,... ... ,mn)T{displaystyle m=(m_{1},dotsm_{n}{mathsf {T},}
está hecho de los valores esperados de las estadísticas de orden de variables aleatorias independientes y distribuidas de forma idéntica muestreadas de la distribución normal estándar; finalmente, V{displaystyle V} es la matriz de covariancia de esas estadísticas de orden normal.
No hay nombre para la distribución de W{displaystyle W.. Los valores de corte para las estadísticas se calculan mediante simulaciones de Monte Carlo.
Interpretación
La hipótesis nula de esta prueba es que la población se distribuye normalmente. Por lo tanto, si el valor p es menor que el nivel alfa elegido, entonces se rechaza la hipótesis nula y hay evidencia de que los datos probados no se distribuyen normalmente. Por otro lado, si el valor p es mayor que el nivel alfa elegido, entonces la hipótesis nula (que los datos provienen de una población distribuida normalmente) no puede rechazarse (por ejemplo, para un nivel alfa de 0,05, un conjunto de datos con un valor p inferior a 0,05 rechaza la hipótesis nula de que los datos provienen de una población distribuida normalmente; en consecuencia, un conjunto de datos con un valor p i> valor mayor que el valor alfa de .05 no rechaza la hipótesis nula de que los datos provienen de una población distribuida normalmente).
Como la mayoría de las pruebas de significación estadística, si el tamaño de la muestra es lo suficientemente grande, esta prueba puede detectar incluso desviaciones triviales de la hipótesis nula (es decir, aunque puede haber algún efecto estadísticamente significativo, puede ser demasiado pequeño para tener alguna importancia práctica). ); por lo tanto, normalmente es aconsejable realizar una investigación adicional del tamaño del efecto; por ejemplo, en este caso, un gráfico Q-Q.
Análisis de potencia
La simulación de Monte Carlo ha descubierto que Shapiro-Wilk tiene el mejor poder para un significado determinado, seguido de cerca por Anderson-Darling al comparar Shapiro-Wilk, Kolmogorov-Smirnov y Lilliefors.
Aproximación
Royston propuso un método alternativo para calcular el vector de coeficientes proporcionando un algoritmo para calcular valores que ampliaba el tamaño de la muestra de 50 a 2000. Esta técnica se utiliza en varios paquetes de software, incluidos GraphPad Prism, Stata, SPSS y SAS. Rahman y Govidarajulu ampliaron el tamaño de la muestra hasta 5.000.