Relación espuria

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Mientras que un mediador es un factor en la cadena causal (top), un confundador es un factor espurioso que implica incorrectamente la causación (abajo)

En estadística, una relación espuria o correlación espuria es una relación matemática en la que dos o más eventos o variables están asociados pero no causalmente relacionados, debido a una coincidencia o a la presencia de un tercer factor invisible (denominado "variable de respuesta común", "factor de confusión" o "variable al acecho" 34;).

Ejemplos

Se puede encontrar un ejemplo de una relación espuria en la literatura sobre series temporales, donde una regresión espuria es aquella que proporciona evidencia estadística engañosa de una relación lineal entre variables independientes no estacionarias. De hecho, la no estacionariedad puede deberse a la presencia de una raíz unitaria en ambas variables. En particular, es probable que dos variables económicas nominales cualesquiera estén correlacionadas entre sí, incluso cuando ninguna tenga un efecto causal sobre la otra, porque cada una es igual a una variable real multiplicada por el nivel de precios, y la presencia común del nivel de precios en las dos la serie de datos les imparte correlación. (Véase también correlación espuria de proporciones).

Otro ejemplo de una relación espuria se puede ver al examinar las ventas de helados de una ciudad. Las ventas podrían ser mayores cuando la tasa de ahogamientos en las piscinas de la ciudad sea mayor. Alegar que la venta de helados provoca ahogamientos, o viceversa, sería implicar una relación espuria entre ambos. En realidad, una ola de calor pudo haber causado ambas cosas. La ola de calor es un ejemplo de variable oculta o invisible, también conocida como variable de confusión.

Otro ejemplo comúnmente observado es una serie de estadísticas holandesas que muestran una correlación positiva entre el número de cigüeñas que anidan en una serie de manantiales y el número de bebés humanos nacidos en ese momento. Por supuesto, no había ninguna conexión causal; se correlacionaron entre sí sólo porque se correlacionaron con el clima nueve meses antes de las observaciones.

En casos raros, puede ocurrir una relación espuria entre dos variables completamente no relacionadas y sin ninguna variable de confusión, como fue el caso entre el éxito del equipo de fútbol profesional Washington Commanders en un juego específico antes de cada elección presidencial y el éxito del titular Partido político del presidente en dicha elección. Durante 16 elecciones consecutivas entre 1940 y 2000, la regla de los Redskins correspondía correctamente a si el partido político del presidente en ejercicio retendría o perdería la presidencia. La regla finalmente falló poco después de que Elias Sports Bureau descubriera la correlación en 2000; en 2004, 2012 y 2016, los resultados de las Comandancias' El juego y la elección no coincidieron. En una relación espuria similar que involucró a la Liga Nacional de Fútbol, en la década de 1970, Leonard Koppett notó una correlación entre la dirección del mercado de valores y la conferencia ganadora del Super Bowl de ese año, el indicador del Super Bowl; la relación se mantuvo durante la mayor parte del siglo XX antes de volver a un comportamiento más aleatorio en el XXI.

Prueba de hipótesis

A menudo uno prueba una hipótesis nula de ausencia de correlación entre dos variables y elige de antemano rechazar la hipótesis si la correlación calculada a partir de una muestra de datos habría ocurrido en menos de (digamos) el 5% de las muestras de datos si la hipótesis nula eran verdad. Mientras que una hipótesis nula verdadera será aceptada el 95% de las veces, el otro 5% de las veces teniendo una hipótesis nula verdadera de no correlación una correlación cero será rechazada erróneamente, provocando la aceptación de una correlación que es espuria (un evento conocido como Tipo Me equivoco). En este caso, la correlación espuria en la muestra resultó de la selección aleatoria de una muestra que no reflejaba las verdaderas propiedades de la población subyacente.

Detección de relaciones espurias

El término "relación espuria" se usa comúnmente en estadística y, en particular, en técnicas de investigación experimental, las cuales intentan comprender y predecir relaciones causales directas (X → Y). Una correlación no causal puede ser creada falsamente por un antecedente que causa ambos (W → X y W → Y). Las variables mediadoras, (X → W → Y), si no se detectan, estiman un efecto total en lugar de un efecto directo sin ajuste para la variable mediadora M. Debido a esto, las correlaciones identificadas experimentalmente no representan relaciones causales a menos que se puedan descartar relaciones espurias.

Experimentos

En los experimentos, las relaciones espurias a menudo se pueden identificar controlando otros factores, incluidos aquellos que teóricamente han sido identificados como posibles factores de confusión. Por ejemplo, consideremos a un investigador que intenta determinar si un nuevo fármaco mata las bacterias; cuando el investigador aplica el fármaco a un cultivo bacteriano, las bacterias mueren. Pero para ayudar a descartar la presencia de una variable de confusión, otra cultura se somete a condiciones que son lo más idénticas posible a las que enfrenta la primera cultura, pero la segunda cultura no está sujeta a la droga. Si hay un factor de confusión invisible en esas condiciones, este cultivo de control también morirá, de modo que no se puede sacar ninguna conclusión sobre la eficacia del fármaco a partir de los resultados del primer cultivo. Por otro lado, si la cultura de control no muere, entonces el investigador no puede rechazar la hipótesis de que el fármaco es eficaz.

Análisis estadísticos no experimentales

Las disciplinas cuyos datos son en su mayoría no experimentales, como la economía, generalmente emplean datos de observación para establecer relaciones causales. El conjunto de técnicas estadísticas utilizadas en economía se denomina econometría. El principal método estadístico en econometría es el análisis de regresión multivariable. Normalmente una relación lineal como

es hipotetizado, en el cual es la variable dependiente (hipothesized para ser la variable causada), para j= 1,...k es jT variable independiente (hipothesized to be a causative variable), y es el término de error (contiene los efectos combinados de todas las demás variables causativas, que deben estar incorrelacionadas con las variables independientes incluidas). Si hay razón para creer que ninguno de los s es causada por Sí., luego estimaciones de los coeficientes se obtienen. Si la hipótesis nula es rechazado, entonces la hipótesis alternativa que y equivalente causas Sí. no puede ser rechazado. Por otro lado, si la hipótesis nula es que no puede ser rechazado, entonces equivalentemente la hipótesis de no efecto causal de on Sí. no puede ser rechazado. Aquí la noción de causalidad es una de causalidad contributiva: Si el valor verdadero , entonces un cambio en resultará en un cambio en Sí. a) algunas otras variables causativas, incluidas en la regresión o implícita en el término de error, cambian de manera tal que compensan exactamente su efecto; por lo tanto, un cambio en es no suficiente cambioSí.. Del mismo modo, un cambio en es no necesario cambio Sí., porque un cambio en Sí. podría ser causado por algo implícito en el término de error (o por alguna otra variable explicativa causativa incluida en el modelo).

El análisis de regresión controla otras variables relevantes incluyéndolas como regresores (variables explicativas). Esto ayuda a evitar la inferencia errónea de causalidad debido a la presencia de una tercera variable subyacente que influye tanto en la variable potencialmente causante como en la variable potencialmente causada: su efecto sobre la variable potencialmente causada se captura incluyéndola directamente en la regresión, por lo que ese efecto no será captado como un efecto espurio de la variable de interés potencialmente causante. Además, el uso de la regresión multivariada ayuda a evitar inferir erróneamente que un efecto indirecto de, digamos, x1 (p. ej., x 1x2y) es un efecto directo (x1< /sub> → y).

Así como un experimentador debe tener cuidado al emplear un diseño experimental que controle todos los factores de confusión, el usuario de la regresión múltiple también debe tener cuidado de controlar todos los factores de confusión incluyéndolos entre los regresores. Si se omite un factor de confusión de la regresión, su efecto se captura en el término de error de forma predeterminada, y si el término de error resultante se correlaciona con uno (o más) de los regresores incluidos, entonces la regresión estimada puede estar sesgada o ser inconsistente (ver sesgo de variable omitida).

Además del análisis de regresión, los datos se pueden examinar para determinar si existe causalidad de Granger. La presencia de causalidad de Granger indica que x precede a y y que x contiene información única sobre y.

Otras relaciones

Hay varias otras relaciones definidas en el análisis estadístico de la siguiente manera.

  • Relación directa
  • Relación mediadora
  • Relación moderada

Literatura

  • David A. Freedman (1983) A Note on Screening Regression Equations, The American Statistician, 37:2, 152-155, DOI: 10.1080/00031305.1983.10482729

Contenido relacionado

Conjunto vacío

En matemáticas, el conjunto vacío es el conjunto único que no tiene elementos; su tamaño o cardinalidad es cero. Algunas teorías axiomáticas de...

Historia de la lógica

La historia de la lógica se ocupa del estudio del desarrollo de la ciencia de la inferencia válida tal como se encuentran en el Organon, encontraron una...

Ley de los grandes números

En la teoría de la probabilidad, la ley de los grandes números es un teorema que describe el resultado de realizar el mismo experimento un gran número de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save