La paradoja de simpson
La paradoja de Simpson es un fenómeno de probabilidad y estadística en el que aparece una tendencia en varios grupos de datos, pero desaparece o se invierte cuando se combinan los grupos. Este resultado se encuentra a menudo en las estadísticas de ciencias sociales y ciencias médicas, y es particularmente problemático cuando los datos de frecuencia reciben interpretaciones causales indebidas. La paradoja se puede resolver cuando las variables de confusión y las relaciones causales se abordan adecuadamente en el modelo estadístico. La paradoja de Simpson se ha utilizado para ilustrar el tipo de resultados engañosos que puede generar el mal uso de las estadísticas.
Edward H. Simpson describió por primera vez este fenómeno en un artículo técnico en 1951, pero los estadísticos Karl Pearson (en 1899) y Udny Yule (en 1903) habían mencionado efectos similares antes. El nombre La paradoja de Simpson fue introducido por Colin R. Blyth en 1972. También se conoce como La inversión de Simpson, el Yule –Efecto Simpson, la paradoja de la amalgamación, o la paradoja de la inversión.
El matemático Jordan Ellenberg argumenta que la paradoja de Simpson tiene el nombre erróneo de que "no hay restricciones involucradas, solo dos formas diferentes de pensar sobre los mismos datos". y sugiere que su lección 'no es realmente decirnos qué punto de vista tomar, sino insistir en que tengamos en mente tanto las partes como el todo al mismo tiempo'.
Ejemplos
Sesgo de género de UC Berkeley
Uno de los ejemplos más conocidos de la paradoja de Simpson proviene de un estudio sobre el sesgo de género entre las admisiones a la escuela de posgrado de la Universidad de California, Berkeley. Las cifras de admisión para el otoño de 1973 mostraron que los hombres que presentaban solicitudes tenían más probabilidades de ser admitidos que las mujeres, y la diferencia era tan grande que era poco probable que se debiera a la casualidad.
Todos | Hombres | Mujeres | ||||
---|---|---|---|---|---|---|
Aplicants | Admitido | Aplicants | Admitido | Aplicants | Admitido | |
Total | 12.763 | 41% | 8.442 | 44% | 4.321 | 35% |
Sin embargo, al tener en cuenta la información sobre los departamentos a los que se aplica, los diferentes porcentajes de rechazo revelan las diferentes dificultades para ingresar al departamento y, al mismo tiempo, mostraron que las mujeres tendían a postularse a departamentos más competitivos con tarifas más bajas. de admisión, incluso entre los solicitantes calificados (como en el departamento de inglés), mientras que los hombres tendían a postularse a departamentos menos competitivos con tasas de admisión más altas (como en el departamento de ingeniería). Los datos agrupados y corregidos mostraron un "sesgo pequeño pero estadísticamente significativo a favor de las mujeres".
Los datos de los seis departamentos más grandes se enumeran a continuación:
Departamento | Todos | Hombres | Mujeres | |||
---|---|---|---|---|---|---|
Aplicants | Admitido | Aplicants | Admitido | Aplicants | Admitido | |
A | 933 | 64% | 825 | 62% | 108 | 82% |
B | 585 | 63% | 560 | 63% | 25 | 68% |
C | 918 | 35% | 325 | 37% | 593 | 34% |
D | 792 | 34% | 417 | 33% | 375 | 35% |
E | 584 | 25% | 191 | 28% | 393 | 24% |
F | 714 | 6% | 373 | 6% | 341 | 7% |
Total | 4526 | 39% | 2691 | 45% | 1835 | 30% |
Leyenda: mayor porcentaje de solicitantes exitosos que el otro género mayor número de solicitantes que el otro sexo negrita - los dos departamentos más solicitados para cada género |
Todos los datos mostraron un total de 4 de los 85 departamentos con un sesgo significativo en contra de las mujeres, mientras que 6 estaban significativamente sesgados en contra de los hombres (no todos presentes en la tabla anterior de 'seis departamentos más grandes'). En particular, el número de departamentos sesgados no fue la base para la conclusión, sino que fueron las admisiones de género agrupadas en todos los departamentos, mientras se sopesaban por la tasa de rechazo de cada departamento en todos sus solicitantes. Si los datos muestran un sesgo definido a favor de las mujeres o simplemente un sesgo a favor de las minorías (o una combinación de ambos) podría ser un aspecto diferente para el análisis: los datos posiblemente muestren un sesgo a favor del género minoritario, como es visible en la ocurrencia de 'más solicitantes' (naranja) en el sexo exactamente opuesto al de los 'solicitantes más exitosos' (verde), y las mujeres eran minoría en toda la población de solicitantes (ver totales), por lo que es más probable que sean minoría en un mayor número de departamentos (solo no sería así si los hombres acumularan un exceso de 856 de los totales en los departamentos masculinos superiores, que no es el caso). Sin embargo, el documento no explora este detalle (aunque sí reconoce "impulso para reclutar miembros de grupos minoritarios" como explicación de algunos fenómenos de datos solo para mujeres).
Tratamiento de cálculos renales
Otro ejemplo proviene de un estudio médico de la vida real que comparó las tasas de éxito de dos tratamientos para cálculos renales. La siguiente tabla muestra las tasas de éxito (el término tasa de éxito aquí en realidad significa la proporción de éxito) y el número de tratamientos para tratamientos que involucran cálculos renales pequeños y grandes, donde el Tratamiento A incluye procedimientos quirúrgicos abiertos y el Tratamiento B incluye procedimientos quirúrgicos cerrados. Los números entre paréntesis indican el número de casos de éxito sobre el tamaño total del grupo.
Tratamiento Tamaño de piedra | Tratamiento A | Tratamiento B |
---|---|---|
Piedras pequeñas | Grupo 1 93% (81/87) | Grupo 2 87% (234/270) |
Piedras grandes | Grupo 3 73% (192/263) | Grupo 4 69% (55/80) |
Ambos | 78% (273/350) | 83% (289/350) |
La conclusión paradójica es que el tratamiento A es más efectivo cuando se usa en cálculos pequeños y también cuando se usa en cálculos grandes, sin embargo, el tratamiento B parece ser más efectivo cuando se consideran ambos tamaños al mismo tiempo. En este ejemplo, el "al acecho" La variable (o variable de confusión) que causa la paradoja es el tamaño de las piedras, que los investigadores no sabían previamente que fuera importante hasta que se incluyeron sus efectos.
Qué tratamiento se considera mejor está determinado por qué índice de éxito (éxitos/total) es mayor. La inversión de la desigualdad entre las dos proporciones cuando se consideran los datos combinados, que crea la paradoja de Simpson, ocurre porque dos efectos ocurren juntos:
- Los tamaños de los grupos, que se combinan cuando se ignora la variable de acecho, son muy diferentes. Los médicos tienden a dar casos con piedras grandes el mejor tratamiento A, y los casos con piedras pequeñas el tratamiento inferior B. Por lo tanto, los totales están dominados por los grupos 3 y 2, y no por los dos grupos mucho más pequeños 1 y 4.
- La variable acechadora, tamaño de piedra, tiene un gran efecto en las proporciones; es decir, la tasa de éxito está más fuertemente influenciada por la gravedad del caso que por la elección del tratamiento. Por lo tanto, el grupo de pacientes con piedras grandes usando tratamiento A (grupo 3) hace peor que el grupo con piedras pequeñas, incluso si éste utiliza el tratamiento inferior B (grupo 2).
Con base en estos efectos, se ve que surge el resultado paradójico porque el efecto del tamaño de los cálculos supera los beneficios del mejor tratamiento (A). En resumen, el tratamiento menos efectivo B pareció ser más efectivo porque se aplicó con mayor frecuencia a los casos de cálculos pequeños, que eran más fáciles de tratar.
Promedios de bateo
Un ejemplo común de la paradoja de Simpson tiene que ver con los promedios de bateo de los jugadores de béisbol profesional. Es posible que un jugador tenga un promedio de bateo más alto que otro jugador cada año durante varios años, pero que tenga un promedio de bateo más bajo en todos esos años. Este fenómeno puede ocurrir cuando hay grandes diferencias en el número de turnos al bate entre los años. El matemático Ken Ross demostró esto utilizando el promedio de bateo de dos jugadores de béisbol, Derek Jeter y David Justice, durante los años 1995 y 1996:
Año Batter | 1995 | 1996 | Combinado | |||
---|---|---|---|---|---|---|
Derek Jeter | 12/48 | 250 | 183/582 | .314 | 195/630 | .310 |
David Justice | 104/411 | .253 | 45/140 | .321 | 149/551 | .270 |
Tanto en 1995 como en 1996, Justice tuvo un promedio de bateo más alto (en negrita) que Jeter. Sin embargo, cuando se combinan las dos temporadas de béisbol, Jeter muestra un promedio de bateo más alto que Justice. Según Ross, este fenómeno se observaría una vez al año entre las posibles parejas de jugadores.
Interpretación de vectores
La paradoja de Simpson también se puede ilustrar usando un espacio vectorial de 2 dimensiones. Una tasa de éxito pq{textstyle {frac {} {}}} (es decir, éxitos/intentos) puede ser representado por un vector A→ → =()q,p){displaystyle {vec}=(q,p)}, con una pendiente de pq{textstyle {frac {} {}}}. Un vector más empinado representa entonces una mayor tasa de éxito. Si dos tasas p1q1{textstyle {frac {fn} {fn}}} {fn}}} {fn}}}}} {fn}}}}}}} {fn}}}}}}}}}}}}}} {fn}}} {f}}}}}}} {}}}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} y p2q2{textstyle {frac {fn} {fn}}} {fnK}}}}}} {f}}}} {cH}}}}}}}} {cH}}}}}}}}} {cH}}}}}}}}}}}}}}}}}}}}} {cH}}}}}}}}}}}}}}}}}} {}}}}}} {}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} { se combinan, como en los ejemplos anteriores, el resultado puede ser representado por la suma de los vectores ()q1,p1){displaystyle (q_{1},p_{1})} y ()q2,p2){displaystyle (q_{2},p_{2}}, que según la regla paralelograma es el vector ()q1+q2,p1+p2){displaystyle (q_{1}+q_{2},p_{1}+p_{2}}, con pendiente p1+p2q1+q2{textstyle {frac {fnK}}} {f}}} {fn}}}}}}}} {f}}}}}}} {c}}}}}}}}}}} {cH}}}}}}}}}}}}}}}}}}}}}}}} {ccH}}}}}}}} {}}}}}} {}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}.
La paradoja de Simpson dice que incluso si un vector L→ → 1{displaystyle {vec}_{1}} (en la figura naranja) tiene una pendiente más pequeña que otro vector B→ → 1{displaystyle {vec}_{1}} (en azul) y L→ → 2{displaystyle {vec}_{2}} tiene una pendiente más pequeña que B→ → 2{displaystyle {vec}_{2}, la suma de los dos vectores L→ → 1+L→ → 2{displaystyle {vec {L}_{1}+{vec} {L}_{2} puede potencialmente tener una pendiente más grande que la suma de los dos vectores B→ → 1+B→ → 2{displaystyle {vec}_{1}+{vec} {B}_{2}, como se muestra en el ejemplo. Para que esto ocurra uno de los vectores naranja debe tener una mayor pendiente que uno de los vectores azules (aquí L→ → 2{displaystyle {vec}_{2}} y B→ → 1{displaystyle {vec}_{1}}), y estos serán generalmente más largos que los vectores subscriptos alternativamente – dominando así la comparación general.
Correlación entre variables
La inversión de Simpson también puede surgir en las correlaciones, en las que dos variables parecen tener (por ejemplo) una correlación positiva entre sí, cuando en realidad tienen una correlación negativa, ya que la inversión se debe a & #34;acechando" confusor Bermann et al. dé un ejemplo de economía, donde un conjunto de datos sugiere que la demanda general está positivamente correlacionada con el precio (es decir, los precios más altos conducen a más demanda), en contradicción con las expectativas. El análisis revela que el tiempo es la variable de confusión: graficar tanto el precio como la demanda contra el tiempo revela la correlación negativa esperada durante varios períodos, que luego se invierte para volverse positiva si se ignora la influencia del tiempo simplemente graficando la demanda contra el precio.
Psicología
El interés psicológico en la paradoja de Simpson busca explicar por qué las personas consideran que la inversión de signos es imposible al principio, ofendidos por la idea de que una acción preferida tanto bajo una condición como bajo su negación debe rechazarse cuando se desconoce la condición.. La pregunta es de dónde obtienen las personas esta fuerte intuición y cómo se codifica en la mente.
La paradoja de Simpson demuestra que esta intuición no puede derivarse ni de la lógica clásica ni del cálculo de probabilidades por sí solo y, por lo tanto, llevó a los filósofos a especular que está respaldada por una lógica causal innata que guía a las personas a razonar sobre las acciones y sus consecuencias.. El principio de certeza de Savage es un ejemplo de lo que tal lógica puede implicar. De hecho, se puede derivar una versión cualificada del principio de cosa segura de Savage a partir del cálculo do de Pearl y dice: "Una acción A que aumenta la probabilidad de un evento B en cada subpoblación Ci de C también debe aumentar la probabilidad de B en la población en su conjunto, siempre que la acción no cambie la distribución de las subpoblaciones." Esto sugiere que el conocimiento sobre acciones y consecuencias se almacena en una forma parecida a las redes causales bayesianas.
Probabilidad
Un artículo de Pavlides y Perlman presenta una prueba, debida a Hadjicostas, de que en una tabla aleatoria de 2 × 2 × 2 con distribución uniforme, la paradoja de Simpson ocurrirá con una probabilidad de exactamente 1⁄60. Un estudio de Kock sugiere que la probabilidad de que la paradoja de Simpson ocurra aleatoriamente en modelos de ruta (es decir, modelos generados por análisis de ruta) con dos predictores y una variable de criterio es de aproximadamente 12,8 por ciento; ligeramente más alto que 1 ocurrencia por 8 modelos de ruta.
La segunda paradoja de Simpson
Una segunda paradoja, menos conocida, también se discutió en el artículo de Simpson de 1951. Puede ocurrir cuando la "interpretación sensible" no se encuentra necesariamente en los datos separados, como en el ejemplo de los cálculos renales, sino que puede residir en los datos combinados. El uso de la forma dividida o combinada de los datos depende del proceso que da lugar a los datos, lo que significa que la interpretación correcta de los datos no siempre se puede determinar simplemente observando las tablas.
Judea Pearl ha demostrado que, para que los datos particionados representen las relaciones causales correctas entre las dos variables, X{displaystyle X} y Y{displaystyle Sí., las variables de partición deben satisfacer una condición gráfica llamada "recepto de puerta trasera":
- Deben bloquear todos los caminos espurios entre X{displaystyle X} y Y{displaystyle Sí.
- Ninguna variable puede ser afectada por X{displaystyle X}
Este criterio proporciona una solución algorítmica a la segunda paradoja de Simpson y explica por qué la interpretación correcta no puede determinarse solo con datos; dos gráficos diferentes, ambos compatibles con los datos, pueden dictar dos criterios alternativos diferentes.
Cuando el criterio de puerta trasera se satisface con un conjunto Z de covariables, la fórmula de ajuste (ver Confusión) da el efecto causal correcto de X en Y. Si no existe tal conjunto, se puede invocar el cálculo do de Pearl para descubrir otras formas de estimar el efecto causal. La integridad del cálculo do puede considerarse como una solución completa de la paradoja de Simpson.
Contenido relacionado
Métrica
Esteban Smale
Alain Cones