Falacia ecológica

Compartir Imprimir Citar

Una falacia ecológica (también falacia de inferencia ecológica o falacia de población) es una falacia formal en la interpretación de datos estadísticos que ocurre cuando las inferencias sobre la naturaleza de los individuos se deducen de las inferencias sobre el grupo al que pertenecen esos individuos. 'Falacia ecológica' es un término que a veces se usa para describir la falacia de la división, que no es una falacia estadística. Las cuatro falacias ecológicas estadísticas comunes son: confusión entre correlaciones ecológicas y correlaciones individuales, confusión entre promedio grupal y promedio total, paradoja de Simpson y confusión entre promedio más alto y probabilidad más alta.

Ejemplos

Media y mediana

Un ejemplo de falacia ecológica es la suposición de que la media de una población tiene una interpretación simple al considerar las probabilidades de un individuo.

Por ejemplo, si la puntuación media de un grupo es mayor que cero, esto no implica que es más probable que un individuo aleatorio de ese grupo tenga una puntuación positiva que negativa (siempre que haya más puntuaciones negativas que positivas). es más probable que un individuo tenga una puntuación negativa). De manera similar, si se mide que un grupo particular de personas tiene un CI medio más bajo que la población general, es un error concluir que es más probable que un miembro del grupo seleccionado al azar tenga un CI más bajo que el CI medio. de la población en general; tampoco es necesariamente el caso de que un miembro del grupo seleccionado al azar tenga más probabilidades de tener un coeficiente intelectual más bajo que un miembro de la población general seleccionado al azar. Matemáticamente, esto proviene del hecho de que una distribución puede tener una media positiva pero una mediana negativa. Esta propiedad está ligada a la asimetría de la distribución.

Considere el siguiente ejemplo numérico:

Correlaciones individuales y agregadas

La investigación que se remonta a Émile Durkheim sugiere que las localidades predominantemente protestantes tienen tasas de suicidio más altas que las localidades predominantemente católicas. Según Freedman, la idea de que los hallazgos de Durkheim relacionan, a nivel individual, la religión de una persona con su riesgo de suicidio es un ejemplo de la falacia ecológica. Una relación a nivel de grupo no caracteriza automáticamente la relación a nivel del individuo.

De manera similar, incluso si a nivel individual, la riqueza se correlaciona positivamente con la tendencia a votar por los republicanos, observamos que los estados más ricos tienden a votar por los demócratas. Por ejemplo, en 2004, el candidato republicano George W. Bush ganó los quince estados más pobres y el candidato demócrata John Kerry ganó 9 de los 11 estados más ricos. Sin embargo, el 62% de los votantes con ingresos anuales de más de $200.000 votaron por Bush, pero sólo el 36% de los votantes con ingresos anuales de $15.000 o menos votaron por Bush. La correlación a nivel agregado diferirá de la correlación a nivel individual si las preferencias de voto se ven afectadas por la riqueza total del estado incluso después de controlar la riqueza individual. Podría ser que el verdadero factor impulsor de la preferencia de voto sea la riqueza relativa autopercibida; quizás aquellos que se ven mejor que sus vecinos tengan más probabilidades de votar por los republicanos. En este caso, sería más probable que una persona votara por los republicanos si se hiciera más rica, pero sería más probable que votara por un demócrata si la riqueza de su vecino aumentara (lo que resultaría en un estado más rico).

Sin embargo, la diferencia observada en los hábitos de votación basados ​​en la riqueza a nivel estatal e individual también podría explicarse por la confusión común entre promedios más altos y probabilidades más altas, como se discutió anteriormente. Es posible que los estados no sean más ricos porque contengan más personas adineradas (es decir, más personas con ingresos anuales de más de $200 000), sino porque contienen un pequeño número de personas súper ricas; la falacia ecológica resulta entonces de suponer incorrectamente que los individuos en los estados más ricos tienen más probabilidades de ser ricos.

Muchos ejemplos de falacias ecológicas se pueden encontrar en estudios de redes sociales, que a menudo combinan análisis e implicaciones desde diferentes niveles. Esto ha sido ilustrado en un artículo académico sobre redes de agricultores en Sumatra.

La paradoja de robinson

Un artículo de 1950 de William S. Robinson calculó la tasa de analfabetismo y la proporción de la población nacida fuera de los EE. UU. para cada estado y para el Distrito de Columbia, según el censo de 1930.Mostró que estas dos cifras estaban asociadas con una correlación negativa de -0,53; en otras palabras, cuanto mayor sea la proporción de inmigrantes en un estado, menor será su promedio de analfabetismo (o, equivalentemente, mayor será su promedio de alfabetización). Sin embargo, cuando se consideran los individuos, la correlación entre analfabetismo y nacimiento fue de +0,12 (los inmigrantes eran en promedio más analfabetos que los ciudadanos nativos). Robinson mostró que la correlación negativa a nivel de las poblaciones estatales se debía a que los inmigrantes tendían a establecerse en estados donde la población nativa estaba más alfabetizada. Advirtió contra la deducción de conclusiones sobre individuos sobre la base de datos a nivel de población o "ecológicos". En 2011, se descubrió que los cálculos de las correlaciones ecológicas de Robinson se basan en datos de nivel estatal incorrectos.El artículo de Robinson fue fundamental, pero el término "falacia ecológica" no fue acuñado hasta 1958 por Selvin.

Problema formal

La correlación de cantidades agregadas (o correlación ecológica) no es igual a la correlación de cantidades individuales. Denotemos por X i, Y i dos cantidades a nivel individual. La fórmula para la covarianza de las cantidades agregadas en grupos de tamaño N esnombre del operador {cov}left(sum_{{i=1}}^{N}Y_{i},sum_{{i=1}}^{N}X_{i}right)= suma _{{i=1}}^{{N}}nombre del operador {cov}(Y_{{i}},X_{i})+sum_{{i=1}}^{N}suma _ {{lneq i}}nombre del operador {cov}(Y_{l},X_{i})

La covarianza de dos variables agregadas depende no solo de la covarianza de dos variables dentro de los mismos individuos sino también de las covarianzas de las variables entre diferentes individuos. En otras palabras, la correlación de las variables agregadas tiene en cuenta los efectos transversales que no son relevantes a nivel individual.

El problema de las correlaciones implica naturalmente un problema para las regresiones sobre variables agregadas: la falacia de la correlación es, por lo tanto, un tema importante para un investigador que quiere medir los impactos causales. Comience con un modelo de regresión donde el resultado y_ise ve afectado por X_iY_{i}=alfa +beta X_{i}+u_{i},operatorname {cov}[u_{i},X_{i}]=0.

El modelo de regresión a nivel agregado se obtiene sumando las ecuaciones individuales:{displaystyle sum_{i=1}^{N}Y_{i}=alpha cdot N+beta sum_{i=1}^{N}X_{i}+sum_{i= 1}^{N}u_{i},}operatorname {cov}left[sum_{{i=1}}^{N}u_{i},sum_{{i=1}}^{{N}}X_{i}right] neq 0.

Nada impide que los regresores y los errores estén correlacionados a nivel agregado. Por lo tanto, generalmente, ejecutar una regresión con datos agregados no estima el mismo modelo que ejecutar una regresión con datos individuales.

El modelo agregado es correcto si y solo sioperatorname {cov}left[u_{i},sum _{{k=1}}^{{N}}X_{k}right]=0quad {text{ para todos los }}i.

Esto significa que, controlando por X_i, sum_{k=1}^{N} X_kno determina Y_{yo}.

Elegir entre inferencia agregada e individual

No hay nada de malo en ejecutar regresiones en datos agregados si uno está interesado en el modelo agregado. Por ejemplo, para el gobernador de un estado, es correcto ejecutar regresiones entre las fuerzas policiales sobre la tasa de criminalidad a nivel estatal si uno está interesado en las implicaciones políticas de un aumento en las fuerzas policiales. Sin embargo, ocurriría una falacia ecológica si un ayuntamiento dedujera el impacto de un aumento de la fuerza policial en la tasa de criminalidad a nivel de ciudad a partir de la correlación a nivel estatal.

La elección de ejecutar regresiones agregadas o individuales para comprender los impactos agregados en alguna política depende de la siguiente compensación: las regresiones agregadas pierden datos a nivel individual, pero las regresiones individuales agregan sólidos supuestos de modelado. Algunos investigadores sugieren que la correlación ecológica da una mejor imagen del resultado de las acciones de política pública, por lo que recomiendan la correlación ecológica sobre la correlación a nivel individual para este propósito (Lubinski & Humphreys, 1996). Otros investigadores no están de acuerdo, especialmente cuando las relaciones entre los niveles no están claramente modeladas. Para evitar la falacia ecológica, los investigadores sin datos individuales pueden modelar primero lo que está ocurriendo a nivel individual, luego modelar cómo se relacionan los niveles individual y grupal. y finalmente examinar si algo que ocurre a nivel de grupo contribuye a la comprensión de la relación. Por ejemplo, al evaluar el impacto de las políticas estatales, es útil saber que los impactos de las políticas varían menos entre los estados que las propias políticas, lo que sugiere que las diferencias de políticas no se traducen bien en resultados, a pesar de las altas correlaciones ecológicas (Rose, 1973).).

Promedios grupales y totales

La falacia ecológica también puede referirse a la siguiente falacia: el promedio de un grupo se aproxima al promedio de la población total dividido por el tamaño del grupo. Supongamos que uno conoce el número de protestantes y la tasa de suicidios en los EE. UU., pero no tiene datos que vinculen la religión y el suicidio a nivel individual. Si uno está interesado en la tasa de suicidios de los protestantes, es un error estimarla dividiendo la tasa total de suicidios por el número de protestantes. Formalmente, denotemos P[{text{Suicidio}}mid {text{Protestante}}]la media del grupo, generalmente tenemos:P[{text{Suicidio}}mid {text{Protestante}}]neq {frac {P[{text{Suicidio}}]}{P({text{Protestante}})}}

Sin embargo, la ley de probabilidad total da{begin{aligned}P[{text{Suicidio}}]={color {Blue}P[{text{Suicidio}}mid {text{Protestante}}]}P({text{Protestante }})+{color {Azul}P[{text{Suicidio}}mid {text{no protestante}}]}(1-P({text{Protestante}}))end{alineado} }

Como sabemos que P[{text{Suicidio}}mid {text{no protestante}}]está entre 0 y 1, esta ecuación da un límite para P[{text{Suicidio}}mid {text{Protestante}}].

La paradoja de simpson

Una falacia ecológica llamativa es la paradoja de Simpson: el hecho de que al comparar dos poblaciones divididas en grupos, el promedio de alguna variable en la primera población puede ser mayor en todos los grupos y aún menor en la población total. Formalmente, cuando cada valor de Z se refiere a un grupo diferente y X se refiere a algún tratamiento, puede ocurrir que{displaystyle E[Ymid Z=z,X=1]>E[Ymid Z=z,X=0] {text{para todos los }}z,{text{ mientras }}E[ Ymedia X=1]<E[Ymedia X=0]}

Cuando E[Ymedia Z=z,X=1]-E[Ymedia Z=z,X=0] no depende de Z, la paradoja de Simpson es exactamente el sesgo de la variable omitida para la regresión de Y sobre X donde el regresor Xes una variable ficticia y la variable omitida Zes una variable categórica que define grupos para cada valor que toma. La aplicación es sorprendente porque el sesgo es lo suficientemente alto como para que los parámetros tengan signos opuestos.

Aplicaciones legales

La falacia ecológica se discutió en un desafío judicial a las elecciones para gobernador de Washington de 2004 en el que se identificaron varios votantes ilegales, después de la elección; sus votos eran desconocidos, porque la votación fue secreta. Los impugnadores argumentaron que los votos ilegales emitidos en la elección habrían seguido los patrones de votación de los precintos en los que se habían emitido y, por lo tanto, se deberían realizar los ajustes correspondientes. Un testigo experto dijo que este enfoque era como tratar de averiguar el promedio de bateo de Ichiro Suzuki observando el promedio de bateo de todo el equipo de los Marineros de Seattle, ya que los votos ilegales fueron emitidos por una muestra no representativa de los votantes de cada distrito y podrían ser tan diferentes de el votante promedio en el recinto como lo era Ichiro del resto de su equipo.El juez determinó que el argumento de los impugnadores era una falacia ecológica y lo rechazó.