Significancia estadística

AjustarCompartirImprimirCitar
Concepto en estadísticas inferenciales

En las pruebas de hipótesis estadísticas, un resultado ha significación estadística cuando un resultado por lo menos como "extrema" sería muy poco frecuente si la hipótesis nula fuera verdad. Más precisamente, se define un estudio nivel de significación, denotado por α α {displaystyle alpha }, es la probabilidad del estudio que rechaza la hipótesis nula, dado que la hipótesis nula es verdadera; y el valor p de un resultado, p{displaystyle p}, es la probabilidad de obtener un resultado al menos como extremo, dado que la hipótesis nula es verdad. El resultado es estadísticamente significativa, por los estándares del estudio, cuando p≤ ≤ α α {displaystyle pleq alpha }. El nivel de significación para un estudio se elige antes de la recopilación de datos, y normalmente se establece en un 5% o mucho menor dependiendo del campo de estudio.

En cualquier experimento u observación que implique extraer una muestra de una población, siempre existe la posibilidad de que se haya producido un efecto observado debido únicamente a un error de muestreo. Pero si el valor p de un efecto observado es menor (o igual) que el nivel de significancia, un investigador puede concluir que el efecto refleja las características de toda la población, rechazando así la hipótesis nula.

Esta técnica para probar la importancia estadística de los resultados se desarrolló a principios del siglo XX. El término significación no implica importancia aquí, y el término significación estadística no es lo mismo que significación de investigación, importancia teórica o importancia práctica. Por ejemplo, el término importancia clínica se refiere a la importancia práctica del efecto de un tratamiento.

Historia

La importancia estadística data del siglo XVIII, en el trabajo de John Arbuthnot y Pierre-Simon Laplace, quienes calcularon el valor p para la proporción de sexos humanos al nacer, asumiendo una hipótesis nula de probabilidad igual de nacimientos de hombres y mujeres; ver valor p § Historial para más detalles.

En 1925, Ronald Fisher avanzó la idea de pruebas de hipótesis estadísticas, que él llamó "pruebas de significado", en su publicación Métodos estadísticos para los trabajadores de investigación. Fisher sugirió una probabilidad de uno en veinte (0.05) como un nivel conveniente de corte para rechazar la hipótesis nula. En un periódico de 1933, Jerzy Neyman y Egon Pearson llamaron a este corte el nivel de significación, que nombraron α α {displaystyle alpha }. Recomendaron que α α {displaystyle alpha } se establecerá por adelantado, antes de cualquier recopilación de datos.

A pesar de su sugerencia inicial de 0,05 como nivel de significancia, Fisher no tenía la intención de fijar este valor límite. En su publicación de 1956 Métodos estadísticos e inferencia científica, recomendó que los niveles de significación se establecieran de acuerdo con las circunstancias específicas.

Conceptos relacionados

El nivel de significación α α {displaystyle alpha } es el umbral para p{displaystyle p} debajo de la cual la hipótesis nula es rechazada aunque por suposición era verdad, y algo más está pasando. Esto significa que α α {displaystyle alpha } es también la probabilidad de rechazar erróneamente la hipótesis nula, si la hipótesis nula es verdadera. Esto también se llama falso positivo y error tipo I.

A veces, los investigadores hablan sobre el nivel de confianza γ = (1 − α). Esta es la probabilidad de no rechazar la hipótesis nula dado que es cierta. Neyman introdujo los niveles de confianza y los intervalos de confianza en 1937.

Papel en la prueba de hipótesis estadística

En una prueba de dos colas, la región de rechazo para un nivel de significación α = 0,05 se divide en ambos extremos de la distribución de muestreo y representa el 5% del área bajo la curva (zonas blancas).

La importancia estadística desempeña un papel fundamental en las pruebas de hipótesis estadísticas. Se utiliza para determinar si la hipótesis nula debe ser rechazada o retenida. La hipótesis nula es la suposición predeterminada de que nada sucedió o cambió. Para que la hipótesis nula sea rechazada, un resultado observado debe ser estadísticamente significativo, es decir, el resultado observado p- el valor es inferior al nivel de significación predeterminado α α {displaystyle alpha }.

Para determinar si un resultado es estadísticamente significativo, una investigadora calcula a p-valor, que es la probabilidad de observar un efecto de la misma magnitud o más extremo dado que la hipótesis nula es verdadera. La hipótesis nula es rechazada si p- el valor es inferior a (o igual a) un nivel predeterminado, α α {displaystyle alpha }. α α {displaystyle alpha } también se llama nivel de significación, y es la probabilidad de rechazar la hipótesis nula dado que es verdad (un error tipo I). Por lo general se establece en o por debajo del 5%.

Por ejemplo, cuando α α {displaystyle alpha } se establece al 5%, la probabilidad condicional de un error tipo I, dado que la hipótesis nula es verdadera, es 5%, y un resultado estadísticamente significativo es uno donde se observa p- el valor es inferior al 5%. Al extraer datos de una muestra, esto significa que la región de rechazo comprende el 5% de la distribución de muestreo. Este 5% se puede asignar a un lado de la distribución de muestreo, como en una prueba de un solo cola, o partición a ambos lados de la distribución, como en una prueba de dos colas, con cada cola (o región de rechazo) que contiene el 2,5% de la distribución.

El uso de una prueba de una cola depende de si la pregunta de investigación o la hipótesis alternativa especifica una dirección, como si un grupo de objetos es más pesado o si el rendimiento de los estudiantes en una evaluación es mejor. Todavía se puede usar una prueba de dos colas, pero será menos poderosa que una prueba de una cola, porque la región de rechazo para una prueba de una cola se concentra en un extremo de la distribución nula y tiene el doble de tamaño (5% vs. 2,5%) de cada región de rechazo para una prueba de dos colas. Como resultado, la hipótesis nula se puede rechazar con un resultado menos extremo si se utilizó una prueba de una cola. La prueba de una cola solo es más poderosa que una prueba de dos colas si la dirección especificada de la hipótesis alternativa es correcta. Sin embargo, si es incorrecto, entonces la prueba de una cola no tiene poder.

Umbrales de importancia en campos específicos

En campos específicos como la física de partículas y la fabricación, la significación estadística suele expresarse en múltiplos de la desviación estándar o sigma (σ) de una distribución normal, con umbrales de significación establecidos en un nivel mucho más estricto. (por ejemplo 5σ). Por ejemplo, la certeza de la existencia de la partícula del bosón de Higgs se basó en el criterio 5σ, que corresponde a un valor p de aproximadamente 1 en 3,5 millones..

En otros campos de la investigación científica, como los estudios de asociación del genoma completo, los niveles de significación son tan bajos como 5×10−8 no son infrecuentes, ya que la cantidad de pruebas realizadas es extremadamente grande.

Limitaciones

Los investigadores que se centran únicamente en si sus resultados son estadísticamente significativos pueden informar hallazgos que no son sustantivos ni replicables. También hay una diferencia entre la significación estadística y la significación práctica. Un estudio que se considera estadísticamente significativo puede no ser necesariamente significativo en la práctica.

Tamaño del efecto

El tamaño del efecto es una medida de la importancia práctica de un estudio. Un resultado estadísticamente significativo puede tener un efecto débil. Para medir la importancia de la investigación de su resultado, se alienta a los investigadores a informar siempre el tamaño del efecto junto con los valores p. Una medida del tamaño del efecto cuantifica la fuerza de un efecto, como la distancia entre dos medias en unidades de desviación estándar (cf. la d de Cohen), el coeficiente de correlación entre dos variables o su cuadrado y otras medidas.

Reproducibilidad

Un resultado estadísticamente significativo puede no ser fácil de reproducir. En particular, algunos resultados estadísticamente significativos serán de hecho falsos positivos. Cada intento fallido de reproducir un resultado aumenta la probabilidad de que el resultado sea un falso positivo.

Desafíos

Uso excesivo en algunas revistas

A partir de la década de 2010, algunas revistas comenzaron a cuestionar si se confiaba en las pruebas de significancia y, en particular, en el uso de un umbral de α=5 %. demasiado fuertemente como la medida primaria de validez de una hipótesis. Algunas revistas alentaron a los autores a realizar un análisis más detallado que solo una prueba de significación estadística. En psicología social, la revista Basic and Applied Social Psychology prohibió por completo el uso de pruebas de significación en los artículos que publicó, lo que exige a los autores que utilicen otras medidas para evaluar las hipótesis y el impacto.

Otros editores, al comentar sobre esta prohibición, han señalado: "Prohibir el reporte de valores p, como lo hizo recientemente la Psicología Social Básica y Aplicada, no va a resolver el problema porque es simplemente tratar un síntoma del problema. No hay nada malo con la prueba de hipótesis y los valores p per se, siempre y cuando los autores, revisores y editores de acciones los usen correctamente." Algunos estadísticos prefieren usar medidas de evidencia alternativas, como razones de verosimilitud o factores de Bayes. El uso de estadísticas bayesianas puede evitar niveles de confianza, pero también requiere hacer suposiciones adicionales y no necesariamente mejorar la práctica con respecto a las pruebas estadísticas.

El abuso generalizado de la significancia estadística representa un tema importante de investigación en metaciencia.

Redefiniendo el significado

En 2016, la American Statistical Association (ASA) publicó una declaración sobre los valores p, afirmando que "el uso generalizado de 'importancia estadística' (generalmente interpretado como 'p ≤ 0.05') como una licencia para afirmar un hallazgo científico (o una verdad implícita) conduce a una distorsión considerable del proceso científico". En 2017, un grupo de 72 autores propuso mejorar la reproducibilidad cambiando el umbral del valor p para la significación estadística de 0,05 a 0,005. Otros investigadores respondieron que imponer un umbral de importancia más estricto agravaría problemas como el dragado de datos; Las proposiciones alternativas son, por lo tanto, seleccionar y justificar umbrales flexibles de valores de p antes de recopilar datos, o interpretar los valores de p como índices continuos, descartando así los umbrales y la significación estadística. Además, el cambio a 0,005 aumentaría la probabilidad de falsos negativos, por lo que el efecto que se estudia es real, pero la prueba no lo muestra.

En 2019, más de 800 estadísticos y científicos firmaron un mensaje pidiendo el abandono del término "importancia estadística" en ciencias, y la ASA publicó una declaración oficial adicional declarando (página 2):

Concluimos, sobre la base de nuestra revisión de los artículos en este tema especial y la literatura más amplia, que es hora de dejar de utilizar el término "estatísticamente significativo" por completo. Tampoco deberían variantes como "significantemente diferentes", "p≤ ≤ 0,05{displaystyle pleq 0.05}," y "no significativo" sobreviven, ya sea expresado en palabras, por asteriscos en una tabla, o de alguna otra manera.

Contenido relacionado

Morfismo normal

Un monomorfismo es normal si es el núcleo de algún morfismo, y un epimorfismo es conormal si es el núcleo de algún...

Número de Super-Poulet

Un supernúmero de Poulet es un número de Poulet, o pseudoprimo en base 2, cuyo divisor d...

Suma

Suma comúnmente significa el total de dos o más números sumados; ver...
Más resultados...
Tamaño del texto: