La nueva prueba de rango múltiple de Duncan

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Procedimiento de comparación múltiple

En estadística, la nueva prueba de rangos múltiples de Duncan (MRT) es un procedimiento de comparación múltiple desarrollado por David B. Duncan en 1955. Duncan' s MRT pertenece a la clase general de procedimientos de comparación múltiple que utilizan el estadístico de rango estudentizado q_r para comparar conjuntos de medias.

David B. Duncan desarrolló esta prueba como una modificación del método Student-Newman-Keuls que tendría mayor potencia. El MRT de Duncan protege especialmente contra errores de falsos negativos (Tipo II) a expensas de tener un mayor riesgo de cometer errores de falsos positivos (Tipo I). La prueba de Duncan se utiliza comúnmente en agronomía y otras investigaciones agrícolas.

El resultado de la prueba es un conjunto de subconjuntos de medias, donde en cada subconjunto se ha encontrado que las medias no son significativamente diferentes entre sí.

Esta prueba suele ir seguida de la metodología Compact Letter Display (CLD), que hace que el resultado de dicha prueba sea mucho más accesible para audiencias no estadísticas.

Definición

Sumas:
1.Una muestra de los medios observados ${displaystyle m_{1},m_{2},...,m_{n}}$ que han sido extraídos independientemente de las poblaciones normales con medios "verdaderos", ${displaystyle mu _{1},mu _{2},...,mu _{n}}$ respectivamente.
2.Un error estándar común ${displaystyle sigma }$ . Este error estándar es desconocido, pero hay disponible la estimación habitual ${displaystyle s_{m}}$ que es independiente de los medios observados y se basa en una serie de grados de libertad, denotados por ${displaystyle n_{2}}$ . (Más precisamente, ${displaystyle S_{m}}$ , tiene la propiedad que ${displaystyle {frac {n_{2}cdot S_{m}^{2}}{sigma _{m}^{2}}}}$ se distribuye como ${displaystyle chi ^{2}}$ con ${displaystyle n_{2}}$ grados de libertad, independientemente de los medios de muestra).

La definición exacta de la prueba es:

La diferencia entre cualquier dos medios en un conjunto de medios n es significativa siempre que el rango de cada subconjunto que contiene los medios dados sea significativo según un ${displaystyle alpha _{p}}$ test de rango de nivel donde ${displaystyle alpha _{p}=1-gamma _{p}}$ ${displaystyle gamma _{p}=(1-alpha)^{(p-1)}}$ y ${displaystyle p}$ es el número de medios en el subconjunto en cuestión.

Excepción: La única excepción a esta regla es que ninguna diferencia entre dos medias puede declararse significativa si las dos medias en cuestión están contenidas en un subconjunto de medias que tiene un rango no significativo.

Procedimiento

El procedimiento consiste en una serie de comparaciones pares entre medios. Cada comparación se realiza a un nivel de significación ${displaystyle alpha _{p}}$ definido por el número de medios que separan los dos medios en comparación ( ${displaystyle alpha _{p}}$ para ${displaystyle p-2}$ separando los medios). La prueba se realiza secuencialmente, donde el resultado de una prueba determina qué prueba se realiza después.

Las pruebas se realizan en el siguiente orden: el más grande menos el más pequeño, el más grande menos el segundo más pequeño, hasta el más grande menos el segundo más grande; luego el segundo más grande menos el más pequeño, el segundo más grande menos el segundo más pequeño, y así sucesivamente, terminando con el segundo más pequeño menos el más pequeño.

Con una sola excepción, dada a continuación, cada diferencia es significativa si supera el rango más corto correspondiente; de lo contrario no es significativo. Donde el rango más corto es el rango estudiantil significativo, multiplicado por el error estándar. El rango más corto será designado como ${displaystyle R_{(p,alpha)}}$ , donde ${displaystyle p}$ es el número de medios en el subconjunto. La única excepción a esta norma es que no se puede declarar significativa ninguna diferencia entre dos medios si ambos medios están contenidos en un subconjunto de los medios que tienen un rango no significativo.

Un algoritmo para realizar la prueba es el siguiente:

 1.Rank la muestra significa, mayor a menor.
2. Para cada uno  ${displaystyle m_{i}}$  muestra significa, mayor a menor, hacer lo siguiente:
2.1 para cada muestra significa, (denotado  ${displaystyle m_{j}}$ ), para el más pequeño hasta  ${displaystyle m_{(i-1)}}$ .
2.1.1 comparar  ${displaystyle m_{i}-m_{j}}$  al valor crítico  ${displaystyle sigma _{m}cdot R_{(p,alpha)}}$ , ${displaystyle P=i-j,alpha =alpha _{p}}$ 2.1.2 si  ${displaystyle m_{i}-m_{j}}$  no excede el valor crítico, el subconjunto  ${displaystyle (m_{j},m_{j+1},...,m_{I})}$  se declara no significativamente diferente:
2.1.2.1 Ir a la próxima iteración del bucle 2.
2.1.3 Si no, siga con el bucle 2.1

Valores críticos

La prueba de rangos múltiples de Duncan utiliza la distribución de rangos estudentizados para determinar valores críticos para comparaciones entre medias. Tenga en cuenta que las diferentes comparaciones entre medias pueden diferir según sus niveles de significancia, ya que el nivel de significancia está sujeto al tamaño del subconjunto de medias en cuestión.

Vamos a denotar ${displaystyle Q_{(p,nugamma _{(p,alpha)})}}$ como ${displaystyle gamma _{alpha }}$ cuntil de la distribución de rango estudiantil, con observaciones p, y ${displaystyle nu }$ grados de libertad para la segunda muestra (ver rango estudiantil para más información). Vamos a denotar ${displaystyle r_{(p,nualpha)}}$ como valor crítico estandarizado, dado por la regla:

Si p=2
${displaystyle r_{(p,nualpha)}=Q_{(p,nugamma _{(p,alpha)})}}$
Else
${displaystyle r_{(p,nualpha)}=max(Q_{(p,nugamma _{(p,alpha)})},r_{(p-1,nualpha)})}$

El rango crítico más corto (el valor crítico real de la prueba) se calcula como: ${displaystyle R_{(p,nualpha)}=sigma _{m}cdot r_{(p,nualpha)}}$ . Para ${displaystyle nu }$ - Empezar, existe una tabulación para un valor exacto de Q (ver enlace). Una palabra de precaución es necesaria aquí: las notaciones para Q y R no son las mismas a lo largo de la literatura, donde Q es a veces denotado como el intervalo más corto significativo, y R como el cuantil significativo para la distribución de rango estudiantil (el papel de Duncan 1955 utiliza ambas notaciones en diferentes partes).

Ejemplo numérico

Veamos el ejemplo de 5 medios de tratamiento:

Tratamientos	T1	T2	T3	T4	T5
Significado de tratamiento	9.8	15.4	17.6	21.6	10.8
Rank	5	3	2	1	4

Con un error estándar ${displaystyle s_{m}=1.796}$ , y ${displaystyle nu =20}$ (de acuerdo con la libertad para estimar el error estándar). Usando una tabulación conocida para Q, uno alcanza los valores de ${displaystyle r_{(p,nualpha)}}$ :

${displaystyle r_{(2,20,0.05)}=2.95}$
${displaystyle r_{(3,20,0.05)}=3.10}$
${displaystyle r_{(4,20,0.05)}=3.18}$
${displaystyle r_{(5,20,0.05)}=3.25}$

Ahora podemos obtener los valores del rango más corto y significativo, por la fórmula:
${displaystyle R_{(p,nualpha)}=sigma _{m}*r_{(p,nualpha)}}$

Alcanzando:

${displaystyle R_{(2,20,0.05)}=3.75}$
${displaystyle R_{(3,20,0.05)}=3.94}$
${displaystyle R_{(4,20,0.05)}=4.04}$
${displaystyle R_{(5,20,0.05)}=4.13}$

Luego, las diferencias observadas entre los medios se prueban, comenzando con el mayor versus el más pequeño, que se compararía con el rango menos significativo ${displaystyle R_{(5,20,0.05)}=4.13.}$ A continuación, la diferencia de la mayor y la segunda más pequeña se calcula y se compara con la menor diferencia ${displaystyle R_{(4,20,0.05)}=4.04}$ .

Si una diferencia observada es mayor que el rango más corto correspondiente, entonces concluimos que el par de medios en cuestión es significativamente diferente. Si una diferencia observada es menor que el rango más corto correspondiente, todas las diferencias que comparten la misma media superior se consideran insignificantes, para evitar contradicciones (las diferencias que comparten la misma media superior son más cortas por la construcción).

Para nuestro caso, la comparación dará:

$4.13(R_{5})}" xmlns="http://www.w3.org/1998/Math/MathML">4vs. 1:21.6− − 9.8=11.8■4.13()R5){displaystyle 4vs.1:21.6-9.8=11.8 título4.13(R_{5}}4.13(R_{5})}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/ae8efb4a1bacfa629d5876300c9a0311bf1886d7" style="vertical-align: -0.838ex; width:36.166ex; height:2.843ex;"/>$
$4.04(R_{4})}" xmlns="http://www.w3.org/1998/Math/MathML">4vs.5:21.6− − 10.8=10.8■4.04()R4){displaystyle 4vs.5:21.6-10.8=10.8 título4.04(R_{4}}4.04(R_{4})}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/0182d27d62697c3517b5fb4c926480a96e9c51c5" style="vertical-align: -0.838ex; width:37.329ex; height:2.843ex;"/>$
$3.94(R_{3})}" xmlns="http://www.w3.org/1998/Math/MathML">4vs.2:21.6− − 15.4=6.2■3.94()R3){displaystyle 4vs.2:21.6-15.4=6.2 Conf.94(R_{3}}3.94(R_{3})}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/557a5c388b3bea771c31d4aaadcfda23c52ce109" style="vertical-align: -0.838ex; width:36.166ex; height:2.843ex;"/>$
$3.75(R_{2})}" xmlns="http://www.w3.org/1998/Math/MathML">4vs.3:21.6− − 17.6=4.0■3.75()R2){displaystyle 4vs.3:21.6-17.6=4.0 título3.75(R_{2}}3.75(R_{2})}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/f2439e1d2e1dad074092c1c6e9ba13471b5cb24b" style="vertical-align: -0.838ex; width:36.166ex; height:2.843ex;"/>$
$4.04(R_{4})}" xmlns="http://www.w3.org/1998/Math/MathML">3vs. 1:17.6− − 9.8=7.8■4.04()R4){displaystyle 3vs.1:17.6-9.8=7.8 título4.04(R_{4}}4.04(R_{4})}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/ab95145eae24551c18f4393e82d9540500f36d8a" style="vertical-align: -0.838ex; width:35.004ex; height:2.843ex;"/>$
$3.94(R_{3})}" xmlns="http://www.w3.org/1998/Math/MathML">3vs.5:17.6− − 10.8=6.8■3.94()R3){displaystyle 3vs.5:17.6-10.8=6.8 título3.94(R_{3}}3.94(R_{3})}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/07869eca2d93635373561852aeebd5455428d2c9" style="vertical-align: -0.838ex; width:36.166ex; height:2.843ex;"/>$
$<math alttext="{displaystyle 3vs.2:17.6-15.4=2.23vs.2:17.6− − 15.4=2.2c)3.75()R2){displaystyle 3vs.2:17.6-15.4=2.2 seccionó3.75(R_{2}}<img alt="{displaystyle 3vs.2:17.6-15.4=2.2$
$3.94(R_{3})}" xmlns="http://www.w3.org/1998/Math/MathML">2vs. 1:15.4− − 9.8=5.6■3.94()R3){displaystyle 2vs.1:15.4-9.8=5.6 título3.94(R_{3}}3.94(R_{3})}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/10f3b78bab182326c7d4d7f7f263168464761f60" style="vertical-align: -0.838ex; width:35.004ex; height:2.843ex;"/>$
$3.75(R_{2})}" xmlns="http://www.w3.org/1998/Math/MathML">2vs.5:15.4− − 10.8=4.6■3.75()R2){displaystyle 2vs.5:15.4-10.8=4.6 título3.75(R_{2}}3.75(R_{2})}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1a5dde0fad4f7be6ed31d6fbbacd73046ff1cfef" style="vertical-align: -0.838ex; width:36.166ex; height:2.843ex;"/>$
$<math alttext="{displaystyle 5vs.1:10.8-9.8=1.05vs. 1:10.8− − 9.8=1.0c)3.75()R2){displaystyle 5vs.1:10.8-9.8=1.0 done3.75(R_{2}}<img alt="{displaystyle 5vs.1:10.8-9.8=1.0$

Vemos que hay diferencias significativas entre todos los pares de tratamientos excepto (T3,T2) y (T5,T1). A continuación se muestra un gráfico que subraya los medios que no son significativamente diferentes:
T1 T5 T2 T3 T4

Niveles de protección y significancia basados en grados de libertad

El nuevo test de gama múltiple propuesto por Duncan hace uso de niveles especiales de protección basados en grados de libertad. Vamos. ${displaystyle gamma _{2,alpha }={1-alpha }}$ ser el nivel de protección para probar la importancia de una diferencia entre dos medios; es decir, la probabilidad de que una diferencia significativa entre dos medios no se encuentre si los medios de población son iguales. Duncan razona que uno tiene p-1 grados de libertad para probar p media clasificada, y por lo tanto uno puede realizar pruebas independientes p-1, cada una con nivel de protección ${displaystyle gamma _{2,alpha }={1-alpha }}$ . Por consiguiente, el nivel de protección conjunta es:

${displaystyle gamma _{p,alpha }=gamma _{2,alpha }^{p-1}=(1-alpha)^{p-1}}$ Donde ${displaystyle alpha _{p}=1-gamma _{p}}$

es decir, la probabilidad de que uno no encuentra diferencias significativas en hacer pruebas independientes p-1, cada una a nivel de protección ${displaystyle gamma _{2,alpha }={1-alpha }}$ , es ${displaystyle gamma _{2,alpha }^{p-1}}$ , bajo la hipótesis de que toda la población p significa ser igual. En general: la diferencia entre cualquier dos medios en un conjunto de medios n es significativa siempre que el rango de cada subconjunto, que contiene el medio dado, es significativa según un ${displaystyle alpha _{p}}$ – test de rango de nivel, donde p es el número de medios en el subconjunto de interés.

Para ${displaystyle alpha =0.05}$ el nivel de protección puede ser tabulado para varios valores de r como sigue:

	Nivel de protección ${displaystyle:gamma _{p,alpha }}$	probabilidad de rechazar falsamente ${displaystyle H_{0}:alpha _{p}}$
p=2	0.95	0,05
p=3	0.903	0,097
p=4	0.857	0.143
p=5	0.815	0.185
p=6	0,74	0.226
p=7	0,7535	0.265

Tenga en cuenta que, aunque este procedimiento utiliza el rango Studentizado, su tasa de error no se basa en experimentos (como en el caso de Tukey) ni en comparaciones. La prueba de rangos múltiples de Duncan no controla la tasa de error familiar. Consulte la sección de críticas para obtener más detalles.

Procedimiento de comparación múltiple bayesiano de Duncan

Duncan (1965) también proporcionó el primer procedimiento de comparación múltiple bayesiano, para comparaciones por pares entre las medias en un diseño unidireccional. Este procedimiento de comparación múltiple es diferente al comentado anteriormente.

El MCP bayesiano de Duncan analiza las diferencias entre las medias de grupos ordenados, donde las estadísticas en cuestión son comparaciones por pares (no se define ningún equivalente para la propiedad de un subconjunto que tiene una propiedad "significativamente diferente").

Duncan modeló las consecuencias de que dos o más medias sean iguales utilizando funciones de pérdida aditivas dentro y entre las comparaciones por pares. Si se supone la misma función de pérdida en las comparaciones por pares, es necesario especificar solo una constante K, y esto indica la gravedad relativa de los errores de tipo I a tipo II en cada comparación por pares.

Un estudio realizado por Juliet Popper Shaffer (1998) ha demostrado que el método propuesto por Duncan, modificado para proporcionar un control débil de FWE y utilizando una estimación empírica de la varianza de las medias poblacionales, tiene buenas propiedades tanto desde el punto de vista bayesiano, como método de mínimo riesgo, y desde el punto de vista frecuentista, con buena potencia media.

Además, los resultados indican una similitud considerable tanto en el riesgo como en la potencia promedio entre el procedimiento modificado de Duncan y el procedimiento de control de la tasa de descubrimiento falso de Benjamini y Hochberg (1995), con el mismo control de errores familiar débil.

Crítica

La prueba de Duncan ha sido criticada por ser demasiado liberal por muchos estadísticos, incluidos Henry Scheffé y John W. Tukey. Duncan argumentó que era apropiado un procedimiento más liberal porque en la práctica del mundo real la hipótesis nula global H₀ = "Todas las medias son iguales" es a menudo falsa y, por tanto, los estadísticos tradicionales sobreprotegen una hipótesis nula probablemente falsa contra errores de tipo I. Según Duncan, se deberían ajustar los niveles de protección para diferentes comparaciones de p-media según el problema discutido. El ejemplo analizado por Duncan en su artículo de 1955 es el de una comparación de muchas medias (es decir, 100), cuando uno sólo está interesado en comparaciones de dos medias y tres medias, y en comparaciones generales de p-medias (decidir si hay alguna diferencia entre p-medias) no son de especial interés (si p es 15 o más, por ejemplo). La prueba de rangos múltiples de Duncan es muy “liberal” en términos de errores de tipo I. El siguiente ejemplo ilustrará por qué:

Supongamos que uno está realmente interesado, como sugirió Duncan, sólo con el ranking correcto de subconjuntos del tamaño 4 o abajo. Asumamos también que uno realiza la simple comparación de pares con un nivel de protección ${displaystyle gamma _{2}=0.95}$ . Dado un conjunto global de 100 medios, veamos las hipótesis nulas de la prueba:

Hay ${displaystyle 100 choose 2}$ hipótesis nulas para la clasificación correcta de cada 2 significa. El nivel de significado de cada hipótesis es ${displaystyle 1-0.95=0.05}$

Hay ${displaystyle 100 choose 3}$ hipótesis nulas para la clasificación correcta de cada 3 significa. El nivel de significado de cada hipótesis es ${displaystyle 1-(0.95)^{2}=0.097}$

Hay ${displaystyle 100 choose 4}$ hipótesis nulas para la clasificación correcta de cada 4 medios. El nivel de significado de cada hipótesis es ${displaystyle 1-(0.95)^{3}=0.143}$

Como podemos ver, la prueba tiene dos problemas principales, en cuanto a los errores tipo I:

Las pruebas de Duncan se basan en el procedimiento Newman-Keuls, que no protege la tasa de error familiar (aunque protegiendo el nivel de alfa por comparación)
La prueba de Duncan eleva intencionalmente los niveles de alfa (tipo I de error) en cada paso del procedimiento Newman-Keuls (nivel de significancia de los niveles de ${displaystyle alpha _{p}geq alpha }$ ).

Por lo tanto, se recomienda no utilizar el procedimiento discutido.

Duncan más tarde desarrolló la prueba Duncan-Waller que se basa en principios bayesianos. Utiliza el valor obtenido de F para estimar la probabilidad previa de que la hipótesis nula sea verdadera.

Diferentes enfoques del problema

Si todavía se desea abordar el problema de encontrar subconjuntos similares de medias grupales, se encuentran otras soluciones en la literatura.

La prueba de rango de Tukey se usa comúnmente para comparar pares de medias; este procedimiento controla la tasa de error familiar en sentido fuerte.

Otra solución es realizar la prueba t de Student de todos los pares de medias y luego utilizar el procedimiento de control FDR (para controlar la proporción esperada de hipótesis nulas rechazadas incorrectamente).

Otras posibles soluciones, que no incluyen pruebas de hipótesis, sino que resultan en una partición de subconjuntos incluyen el embrague " embrague jerárquico. Estas soluciones difieren del enfoque presentado en este método:

Al estar basado en la distancia / densidad, y no en la distribución.
Necesidad de un grupo más grande de medios, para producir resultados significativos o trabajar con todo el conjunto de datos.

Más resultados...