Dilema del prisionero
El dilema del prisionero es un ejemplo estándar de un juego analizado en la teoría de juegos que muestra por qué dos individuos completamente racionales podrían no cooperar, incluso si parece que lo mejor para ellos es hacerlo. Originalmente fue enmarcado por Merrill Flood y Melvin Dresher mientras trabajaba en RAND en 1950. Albert W. Tucker formalizó el juego con recompensas de sentencia de prisión y lo llamó "dilema del prisionero", una versión de la cual fue declarada por William Poundstone en su libro de 1993 Prisoner's dilema como:
Dos miembros de una banda criminal son arrestados y encarcelados. Cada prisionero está en confinamiento solitario sin medios para hablar o intercambiar mensajes con el otro. La policía admite que no tiene pruebas suficientes para condenar a la pareja por el cargo principal. Planean sentenciar a ambos a un año de prisión por un cargo menor. Simultáneamente, la policía ofrece a cada prisionero un trato faustiano.
Los posibles resultados son:
- Si A y B se traicionan mutuamente, cada uno cumple dos años de prisión.
- Si A traiciona a B pero B permanece en silencio, A será puesto en libertad y B cumplirá tres años de prisión.
- Si A permanece en silencio pero B traiciona a A, A cumplirá tres años de prisión y B será puesto en libertad.
- Si A y B permanecen en silencio, ambos cumplirán un año de prisión (por el cargo menor).
Se da a entender que ninguno de los presos tendrá la oportunidad de recompensar o castigar a su pareja más allá de las sentencias de prisión que reciba. También se da a entender que la decisión de cada prisionero por sí sola no afectará su reputación en el futuro. Debido a que traicionar a un compañero ofrece una recompensa mayor que cooperar con ellos, todos los presos puramente racionales y egoístas traicionarán al otro, lo que significa que el único resultado posible para dos presos puramente racionales es traicionarse mutuamente, aunque la cooperación mutua produciría una mayor recompensa.
En este caso, "traicionar" es la estrategia dominante para ambos jugadores, lo que significa que es la mejor respuesta del jugador en todas las circunstancias y está alineada con el principio de certeza. El dilema del prisionero también ilustra que las decisiones tomadas bajo la racionalidad colectiva pueden no ser necesariamente las mismas que las tomadas bajo la racionalidad individual, y este conflicto también se puede presenciar en una situación llamada "Tragedia de los comunes". Este caso indica el hecho de que los bienes públicos siempre son propensos al uso excesivo.
En realidad, tal sesgo sistémico hacia el comportamiento cooperativo ocurre a pesar de lo que predicen los modelos simples de acción egoísta "racional". Este sesgo hacia la cooperación se conoce desde que la prueba se realizó por primera vez en RAND; los secretarios involucrados confiaron entre sí y trabajaron juntos para lograr el mejor resultado común. El dilema del prisionero se convirtió en el foco de una extensa investigación experimental. Estas investigaciones experimentales suelen tomar una de estas tres formas: juego individual, juego iterado y juego iterado contra un jugador programado, cada uno con diferentes propósitos.Y como resumen de estos experimentos, sus resultados justifican el imperativo categórico planteado por Immanuel Kant, que afirma que se espera que un agente racional "actúe de la forma en que desea que actúen los demás". Esta teoría es vital para una situación en la que hay diferentes jugadores, cada uno actuando en su mejor interés, y tiene que tener en cuenta las acciones de los demás para formar su propia elección. Subraya la interconexión de los jugadores en dicho juego y, por lo tanto, enfatiza el hecho de que una estrategia debe considerar las reacciones de los demás para tener éxito, incluida su capacidad de respuesta, su tendencia a imitar, etc.
También existe una versión extendida "iterada" del juego. En esta versión, el juego clásico se juega repetidamente entre los mismos presos, quienes continuamente tienen la oportunidad de penalizar al otro por decisiones anteriores. Si los jugadores conocen el número de veces que se jugará el juego, entonces, por inducción hacia atrás, dos jugadores clásicamente racionales se traicionarán repetidamente, por las mismas razones que la variante de un solo tiro. En un juego de duración infinita o desconocida no existe una estrategia óptima fija, y se han realizado torneos de dilema del prisionero para competir y probar algoritmos para tales casos.
La versión iterada del dilema del prisionero es de particular interés para los investigadores. Debido a su naturaleza iterativa, investigadores anteriores observaron que la frecuencia con la que los jugadores cooperan podría cambiar, según los resultados de cada iteración. Específicamente, los jugadores pueden estar menos dispuestos a cooperar si su contraparte no cooperó muchas veces, lo que genera decepción. Por el contrario, con el paso del tiempo, la cooperación podría aumentar debido principalmente a que se ha establecido un "acuerdo tácito" entre los jugadores. Sin embargo, otro aspecto interesante relacionado con la versión iterada del experimento es que este acuerdo tácito entre los jugadores siempre se ha establecido con éxito a pesar de que el número de iteraciones se hace público a ambas partes.
El juego del dilema del prisionero se puede usar como modelo para muchas situaciones del mundo real que involucran un comportamiento cooperativo. En el uso casual, la etiqueta "dilema del prisionero" se puede aplicar a situaciones que no se ajustan estrictamente a los criterios formales de los juegos clásicos o iterativos: por ejemplo, aquellos en los que dos entidades podrían obtener importantes beneficios de la cooperación o sufrir por no hacerlo., pero les resulta difícil o costoso (no necesariamente imposible) coordinar sus actividades.
Estrategia para el dilema del prisionero
Dos presos están separados en habitaciones individuales y no pueden comunicarse entre sí. El juego normal se muestra a continuación:
Prisionero BPrisionero A | El recluso B permanece en silencio(coopera) | El prisionero B traiciona(defectos) |
---|---|---|
El preso A permanece en silencio(coopera) | Cada uno sirve 1 año | Prisionero A: 3 añosPrisionero B: sale libre |
El prisionero A traiciona(defectos) | Prisionero A: va librePrisionero B: 3 años | Cada uno sirve 2 años |
Se supone que ambos prisioneros entienden la naturaleza del juego, no tienen lealtad entre ellos y no tendrán oportunidad de retribución o recompensa fuera del juego. Independientemente de lo que decida el otro, cada prisionero obtiene una recompensa mayor al traicionar al otro ("desertar"). El razonamiento implica analizar las mejores respuestas de ambos jugadores: B cooperará o desertará. Si B coopera, A debería desertar, porque salir libre es mejor que cumplir 1 año. Si B deserta, A también debería desertar, porque servir 2 años es mejor que servir 3. Entonces, de cualquier manera, A debería desertar ya que desertar es la mejor respuesta de A independientemente de la estrategia de B. El razonamiento paralelo mostrará que B debería desertar.
Debido a que la deserción siempre resulta en una mejor recompensa que la cooperación, independientemente de la elección del otro jugador, es una estrategia estrictamente dominante tanto para A como para B. La deserción mutua es el único equilibrio de Nash fuerte en el juego (es decir, el único resultado a partir del cual cada jugador podría empeorar cambiando unilateralmente la estrategia). El dilema, entonces, es que la cooperación mutua produce un resultado mejor que la deserción mutua, pero no es el resultado racional porque la elección de cooperar, desde una perspectiva de interés propio, es irracional. Por lo tanto, el dilema del prisionero es un juego en el que el equilibrio de Nash no es eficiente en el sentido de Pareto.
Forma generalizada
La estructura del dilema del prisionero tradicional se puede generalizar a partir de su escenario original del prisionero. Suponga que los dos jugadores están representados por los colores rojo y azul y que cada jugador elige "cooperar" (permanecer en silencio) o "desertar" (traicionar).
Si ambos jugadores cooperan, ambos reciben la recompensa R por cooperar. Si ambos jugadores desertan, ambos reciben el pago de castigo P. Si Azul deserta mientras que Rojo coopera, entonces Azul recibe el pago de la tentación T, mientras que Rojo recibe el pago del "tonto", S. De manera similar, si Azul coopera mientras que Rojo deserta, entonces Azul recibe el pago del tonto S, mientras que Rojo recibe el pago de la tentación T.
Esto se puede expresar en forma normal:
RojoAzul | Cooperar | Defecto |
---|---|---|
Cooperar | RR | TS |
Defecto | ST | PAGSPAGS |
y para ser un juego de dilema del prisionero en sentido estricto, debe cumplirse la siguiente condición para los pagos:
La relación de pago implica que la cooperación mutua es superior a la deserción mutua, mientras que las relaciones de pago
implican
que la deserción es la estrategia dominante para ambos agentes.
Caso especial: juego de donación
El "juego de la donación" es una forma de dilema del prisionero en el que la cooperación corresponde a ofrecer al otro jugador un beneficio b a un costo personal c con b > c. La deserción significa no ofrecer nada. La matriz de pagos es por lo tanto
RojoAzul | Cooperar | Defecto |
---|---|---|
Cooperar | segundo - csegundo - c | b- c |
Defecto | - cb | 00 |
Tenga en cuenta que (es decir,
) que califica el juego de donación como un juego iterado (consulte la siguiente sección).
El juego de la donación se puede aplicar a los mercados. Supongamos que X cultiva naranjas, Y cultiva manzanas. La utilidad marginal de una manzana para el productor de naranjas X es b, que es mayor que la utilidad marginal (c) de una naranja, ya que X tiene un excedente de naranjas y no tiene manzanas. De manera similar, para el productor de manzanas Y, la utilidad marginal de una naranja es b mientras que la utilidad marginal de una manzana es c. Si X e Y contratan para intercambiar una manzana y una naranja, y cada uno cumple con su parte del trato, entonces cada uno recibe un pago de b - c. Si uno "deserta" y no cumple lo prometido, el desertor recibirá un pago de b, mientras que el cooperador perderá c. Si ambos desertan, entonces ninguno gana o pierde nada.
El dilema del prisionero iterado
Si dos jugadores juegan al dilema del prisionero más de una vez seguidas y recuerdan las acciones anteriores de su oponente y cambian su estrategia en consecuencia, el juego se llama dilema del prisionero iterado.
Además de la forma general anterior, la versión iterativa también requiere que , para evitar que la cooperación alterna y la deserción otorguen una recompensa mayor que la cooperación mutua.
El juego del dilema del prisionero iterado es fundamental para algunas teorías de la cooperación y la confianza humanas. Suponiendo que el juego puede modelar transacciones entre dos personas que requieren confianza, el comportamiento cooperativo en las poblaciones puede modelarse mediante una versión iterada del juego para múltiples jugadores. En consecuencia, ha fascinado a muchos estudiosos a lo largo de los años. En 1975, Grofman y Pool estimaron la cantidad de artículos académicos dedicados a él en más de 2000. El dilema del prisionero iterado también se conoce como el "juego de paz y guerra".
Si el juego se juega exactamente N veces y ambos jugadores lo saben, entonces es óptimo desertar en todas las rondas. El único equilibrio de Nash posible es desertar siempre. La prueba es inductiva: uno también podría desertar en el último turno, ya que el oponente no tendrá la oportunidad de tomar represalias más tarde. Por lo tanto, ambos desertarán en el último turno. Por lo tanto, el jugador también podría desertar en el penúltimo turno, ya que el oponente desertará en el último sin importar lo que se haga, y así sucesivamente. Lo mismo se aplica si se desconoce la duración del juego pero tiene un límite superior conocido.
A diferencia del dilema del prisionero estándar, en el dilema del prisionero iterado, la estrategia de deserción es contraria a la intuición y falla gravemente a la hora de predecir el comportamiento de los jugadores humanos. Sin embargo, dentro de la teoría económica estándar, esta es la única respuesta correcta. La estrategia superracional en el dilema del prisionero iterado con N fijo es cooperar contra un oponente superracional, y en el límite de N grande, los resultados experimentales de las estrategias concuerdan con la versión superracional, no con la racional de teoría de juegos.
Para que surja la cooperación entre los jugadores racionales teóricos del juego, el número total de rondas N debe ser desconocido para los jugadores. En este caso, "siempre desertar" puede que ya no sea una estrategia estrictamente dominante, sino solo un equilibrio de Nash. Entre los resultados mostrados por Robert Aumann en un artículo de 1959, los jugadores racionales que interactúan repetidamente durante juegos indefinidamente largos pueden mantener el resultado cooperativo.
Según un estudio experimental de 2019 en American Economic Review que probó qué estrategias usaron los sujetos de la vida real en situaciones de dilema del prisionero iteradas con un monitoreo perfecto, la mayoría de las estrategias elegidas fueron siempre desertar, ojo por ojo y gatillo sombrío. La estrategia que eligieron los sujetos dependía de los parámetros del juego.
Estrategia para el dilema del prisionero iterado
Robert Axelrod despertó el interés por el dilema del prisionero iterado (IPD) en su libro The Evolution of Cooperation (1984). En él, informa sobre un torneo que organizó del dilema del prisionero del paso N (con N fijo) en el que los participantes tienen que elegir su estrategia mutua una y otra vez y recordar sus encuentros anteriores. Axelrod invitó a colegas académicos de todo el mundo a idear estrategias informáticas para competir en un torneo IPD. Los programas que se ingresaron variaban ampliamente en complejidad algorítmica, hostilidad inicial, capacidad de perdón, etc.
Axelrod descubrió que cuando estos encuentros se repetían durante un largo período de tiempo con muchos jugadores, cada uno con diferentes estrategias, las estrategias codiciosas tendían a funcionar muy mal a largo plazo, mientras que las estrategias más altruistas funcionaban mejor, a juzgar por el interés propio. Usó esto para mostrar un posible mecanismo para la evolución del comportamiento altruista a partir de mecanismos que inicialmente son puramente egoístas, por selección natural.
La estrategia determinista ganadora fue ojo por ojo, que Anatol Rapoport desarrolló e ingresó al torneo. Fue el más simple de todos los programas presentados, con solo cuatro líneas de BASIC, y ganó el concurso. La estrategia es simplemente cooperar en la primera iteración del juego; después de eso, el jugador hace lo que hizo su oponente en el movimiento anterior. Dependiendo de la situación, una estrategia un poco mejor puede ser "ojo por ojo con perdón". Cuando el oponente deserta, en el siguiente movimiento, el jugador a veces coopera de todos modos, con una pequeña probabilidad (alrededor de 1 a 5%). Esto permite la recuperación ocasional de quedar atrapado en un ciclo de deserciones. La probabilidad exacta depende de la alineación de los oponentes.
Al analizar las estrategias de mayor puntuación, Axelrod estableció varias condiciones necesarias para que una estrategia tenga éxito.agradableLa condición más importante es que la estrategia debe ser "agradable", es decir, no desertará antes que su oponente (esto a veces se denomina algoritmo "optimista"). Casi todas las estrategias de mayor puntuación fueron agradables. Una estrategia puramente egoísta no "engañará" a su oponente, primero por razones puramente egoístas.tomar represaliasSin embargo, sostuvo Axelrod, la estrategia exitosa no debe ser un optimista ciego. A veces debe tomar represalias. Un ejemplo de una estrategia sin represalias es Cooperar siempre. Esta es una muy mala elección, ya que las estrategias "desagradables" explotarán sin piedad a esos jugadores.IndulgenteLas estrategias exitosas también deben ser indulgentes. Aunque los jugadores tomarán represalias, una vez más volverán a cooperar si el oponente no continúa desertando. Esto detiene largas rachas de venganza y contravenganza, maximizando puntos.no envidiosoLa última cualidad es no tener envidia, es decir, no esforzarse por anotar más que el oponente.
La estrategia óptima (maximización de puntos) para el juego de PD de una sola vez es simplemente la deserción; como se explicó anteriormente, esto es cierto cualquiera que sea la composición de los oponentes. Sin embargo, en el juego de PD iterado, la estrategia óptima depende de las estrategias de los posibles oponentes y de cómo reaccionarán ante las deserciones y cooperaciones. Por ejemplo, considere una población donde todos desertan cada vez, excepto un solo individuo que sigue la estrategia de ojo por ojo. Ese individuo está en ligera desventaja debido a la pérdida en el primer turno. En tal población, la estrategia óptima para ese individuo es desertar cada vez. En una población con un cierto porcentaje de siempre desertores y el resto de jugadores de ojo por ojo, la estrategia óptima para un individuo depende del porcentaje y de la duración del juego.
En la estrategia llamada Pavlov, ganar-permanecer, perder-cambiar, frente a la falta de cooperación, el jugador cambia de estrategia en el siguiente turno. En ciertas circunstancias, Pavlov supera a todas las demás estrategias al dar un trato preferencial a los jugadores que usan una estrategia similar.
La obtención de la estrategia óptima generalmente se realiza de dos maneras:
- Equilibrio bayesiano de Nash: si se puede determinar la distribución estadística de estrategias opuestas (p. ej., 50 % ojo por ojo, 50 % siempre coopera), se puede derivar analíticamente una contraestrategia óptima.
- Se han realizado simulaciones Monte Carlo de poblaciones, donde los individuos con puntajes bajos mueren y los que tienen puntajes altos se reproducen (un algoritmo genético para encontrar una estrategia óptima). La combinación de algoritmos en la población final generalmente depende de la combinación en la población inicial. La introducción de la mutación (variación aleatoria durante la reproducción) disminuye la dependencia de la población inicial; los experimentos empíricos con tales sistemas tienden a producir jugadores de ojo por ojo (véase, por ejemplo, Chess 1988), pero no existe ninguna prueba analítica de que esto siempre ocurrirá.
Aunque ojo por ojo se considera la estrategia básica más sólida, un equipo de la Universidad de Southampton en Inglaterra introdujo una nueva estrategia en la competencia iterada del dilema del prisionero del vigésimo aniversario, que resultó ser más exitosa que ojo por ojo. Esta estrategia se basó en la colusión entre programas para lograr el mayor número de puntos para un solo programa. La universidad presentó 60 programas a la competencia, que fueron diseñados para reconocerse entre sí a través de una serie de cinco a diez movimientos al inicio.Una vez hecho este reconocimiento, un programa siempre cooperaría y el otro siempre desertaría, asegurando el máximo número de puntos para el desertor. Si el programa se diera cuenta de que estaba jugando con un jugador que no era del Southampton, desertaría continuamente en un intento de minimizar el puntaje del programa competidor. Como resultado, los resultados del Torneo del Dilema de los Prisioneros de 2004 muestran las estrategias de la Universidad de Southampton en los primeros tres lugares, a pesar de tener menos victorias y muchas más derrotas que la estrategia GRIM. (En un torneo de PD, el objetivo del juego no es "ganar" partidos; eso se puede lograr fácilmente mediante la deserción frecuente). Esta estrategia terminó ocupando las tres primeras posiciones de la competencia, así como una serie de posiciones hacia la parte inferior.
La estrategia de Southampton aprovecha el hecho de que se permitieron múltiples entradas en esta competencia en particular y que el desempeño de un equipo se midió por el del jugador con la puntuación más alta (lo que significa que el uso de jugadores abnegados fue una forma de minmaxing). En una competencia donde uno tiene el control de un solo jugador, ojo por ojo es ciertamente una mejor estrategia. Debido a esta nueva regla, esta competencia también tiene poca importancia teórica al analizar las estrategias de un solo agente en comparación con el torneo seminal de Axelrod. Sin embargo, proporcionó una base para analizar cómo lograr estrategias cooperativas en marcos multiagente, especialmente en presencia de ruido. De hecho, mucho antes de que se jugara este torneo de nuevas reglas, Dawkins, en su libro The Selfish Gene, señaló la posibilidad de que tales estrategias ganaran si se permitieran entradas múltiples, pero comentó que lo más probable es que Axelrod no las hubiera permitido si se hubieran presentado. También se basa en eludir las reglas sobre el dilema del prisionero en el sentido de que no se permite la comunicación entre los dos jugadores, lo que posiblemente hicieron los programas de Southampton con su "baile de diez movimientos" preprogramado para reconocerse entre sí; esto solo refuerza cuán valiosa puede ser la comunicación para cambiar el equilibrio del juego.
Incluso sin la colusión implícita entre las estrategias de software (explotadas por el equipo de Southampton), ojo por ojo no siempre es el ganador absoluto de un torneo determinado; sería más preciso decir que sus resultados a largo plazo en una serie de torneos superan a sus rivales. (En cualquier caso, una estrategia determinada puede ajustarse un poco mejor a la competencia que ojo por ojo, pero ojo por ojo es más sólido). Lo mismo se aplica a la variante ojo por ojo con perdón y otras estrategias óptimas: en un día determinado, es posible que no "ganen" contra una combinación específica de contraestrategias. Una forma alternativa de expresarlo es utilizando la simulación ESS darwiniana. En tal simulación, ojo por ojo casi siempre llegará a dominar, aunque las estrategias desagradables entrarán y saldrán de la población porque una población de ojo por ojo es penetrable por estrategias agradables que no toman represalias, que a su vez son presa fácil para las estrategias desagradables. Richard Dawkins demostró que aquí, ninguna mezcla estática de estrategias forma un equilibrio estable y el sistema siempre oscilará entre límites.
Dilema del prisionero iterado estocástico
En un juego de dilema del prisionero iterado estocástico, las estrategias se especifican en términos de "probabilidades de cooperación". En un encuentro entre el jugador X y el jugador Y, la estrategia de X se especifica mediante un conjunto de probabilidades P de cooperar con Y. P es una función de los resultados de sus encuentros previos o algún subconjunto de los mismos. Si P es una función solo de sus n encuentros más recientes, se denomina estrategia de "memoria-n". Entonces, una estrategia de memoria 1 se especifica mediante cuatro probabilidades de cooperación:, donde es la probabilidad de que Xcooperará en el presente encuentro dado que el encuentro anterior se caracterizó por (ab). Por ejemplo, si el encuentro anterior fue uno en el que X cooperó e Y desertó, entonces
es la probabilidad de que X coopere en el encuentro actual. Si cada una de las probabilidades es 1 o 0, la estrategia se llama determinista. Un ejemplo de una estrategia determinista es la estrategia ojo por ojo escrita como P = {1,0,1,0}, en la que X responde como lo hizo Y en el encuentro anterior. Otra es la estrategia ganar-permanecer, perder-cambiar escrita como P ={1,0,0,1}, en la que Xresponde como en el encuentro anterior, si fue una "ganancia" (es decir, cc o dc) pero cambia de estrategia si fue una pérdida (es decir, cd o dd). Se ha demostrado que para cualquier estrategia de memoria n existe una estrategia de memoria 1 correspondiente que da los mismos resultados estadísticos, de modo que solo es necesario considerar las estrategias de memoria 1.
Si definimos P como el vector de estrategia de 4 elementos anterior de X y como el vector de estrategia de 4 elementos de Y, se puede definir una matriz de transición M para X cuya ij -ésima entrada es la probabilidad de que el resultado de un encuentro particular entre X e Y será j dado que el encuentro anterior fue i, donde i y j son uno de los cuatro índices de resultado: cc, cd, dc o dd. Por ejemplo, de X 'Desde el punto de vista, la probabilidad de que el resultado del encuentro presente sea cd dado que el encuentro anterior fue cd es igual a
. (Los índices para Q son desde el punto de vista de Y: un resultado cd para X es un resultado dc para Y). Bajo estas definiciones, el dilema del prisionero iterado califica como un proceso estocástico y M es una matriz estocástica, lo que permite que todos la teoría de los procesos estocásticos a aplicar.
Un resultado de la teoría estocástica es que existe un vector estacionario v para la matriz M tal que . Sin pérdida de generalidad, se puede especificar que v está normalizado de modo que la suma de sus cuatro componentes sea la unidad. La j -ésima entrada
dará la probabilidad de que el resultado de un encuentro entre X e Y sea j dado que el encuentro n pasos anteriores es i. En el límite cuando n tiende a infinito, M convergerá a una matriz con valores fijos, dando las probabilidades a largo plazo de que un encuentro produzcaj que será independiente de i. En otras palabras, las filas de
serán idénticas, dando las probabilidades de resultado de equilibrio a largo plazo del dilema de los prisioneros iterados sin la necesidad de evaluar explícitamente un gran número de interacciones. Se puede ver que v es un vector estacionario para
y particularmente
, por lo que cada fila de
será igual a v. Por lo tanto, el vector estacionario especifica las probabilidades de resultado de equilibrio para X. Definiendo
y
como vectores de pagos a corto plazo para los resultados {cc,cd,dc,dd} (Desde el punto de vista de X), los pagos de equilibrio para X e Yahora se puede especificar como
y, lo que permite comparar
las dos estrategias P y Q en cuanto a sus pagos a largo plazo.
Estrategias de determinante cero
En 2012, William H. Press y Freeman Dyson publicaron una nueva clase de estrategias para el dilema del prisionero iterado estocástico llamadas estrategias de "determinante cero" (ZD). Los pagos a largo plazo de los encuentros entre X e Y se pueden expresar como el determinante de una matriz que es una función de las dos estrategias y los vectores de pago a corto plazo: y
, que no involucran al vector estacionario v. Dado que la función determinante
es lineal en f, se sigue que
(donde U ={1,1,1,1}). Cualquier estrategia para la cual
es por definición una estrategia ZD, y los pagos a largo plazo obedecen a la relación
.
Ojo por ojo es una estrategia ZD que es "justa" en el sentido de no obtener ventaja sobre el otro jugador. Sin embargo, el espacio ZD también contiene estrategias que, en el caso de dos jugadores, pueden permitir que un jugador establezca unilateralmente el puntaje del otro jugador o, alternativamente, forzar a un jugador evolutivo a lograr un pago un porcentaje más bajo que el suyo. El jugador extorsionado podría desertar pero, por lo tanto, se perjudicaría a sí mismo al obtener un pago menor. Así, las soluciones de extorsión convierten el dilema del prisionero iterado en una especie de juego de ultimátum. Específicamente, X es capaz de elegir una estrategia para la cual , fijando unilateralmente
un valor específico dentro de un rango particular de valores, independiente de la estrategia de Y , ofreciendo una oportunidad para Xpara "extorsionar" al jugador Y (y viceversa). (Resulta que si X intenta establecer
un valor particular, el rango de posibilidades es mucho más pequeño, y solo consiste en una cooperación completa o una deserción completa).
Una extensión del IPD es un IPD estocástico evolutivo, en el que se permite que cambie la abundancia relativa de estrategias particulares, con un aumento relativo de las estrategias más exitosas. Este proceso puede lograrse haciendo que los jugadores menos exitosos imiten las estrategias más exitosas, o eliminando del juego a los jugadores menos exitosos, mientras se multiplican los más exitosos. Se ha demostrado que las estrategias injustas de ZD no son evolutivamente estables. La intuición clave es que una estrategia evolutivamente estable no solo debe ser capaz de invadir a otra población (lo que pueden hacer las estrategias ZD extorsionadoras), sino que también debe funcionar bien contra otros jugadores del mismo tipo (lo cual los jugadores ZD extorsionadores lo hacen mal porque reducen la capacidad de los demás). superávit).
La teoría y las simulaciones confirman que más allá de un tamaño de población crítico, la extorsión ZD pierde en la competencia evolutiva contra estrategias más cooperativas y, como resultado, el pago promedio en la población aumenta cuando la población es más grande. Además, hay algunos casos en los que los extorsionadores pueden incluso catalizar la cooperación al ayudar a salir de un enfrentamiento entre desertores uniformados y agentes que ganan, se quedan, pierden.
Si bien las estrategias extorsionadoras de ZD no son estables en grandes poblaciones, otra clase de ZD denominada estrategias "generosas" es estable y robusta. De hecho, cuando la población no es demasiado pequeña, estas estrategias pueden suplantar cualquier otra estrategia ZD e incluso funcionar bien contra una amplia gama de estrategias genéricas para el dilema del prisionero iterado, que incluye ganar-permanecer, perder-cambiar. Esto fue probado específicamente para el juego de donación por Alexander Stewart y Joshua Plotkin en 2013. Las estrategias generosas cooperarán con otros jugadores cooperativos, y ante la deserción, el jugador generoso pierde más utilidad que su rival. Las estrategias generosas son la intersección de las estrategias ZD y las llamadas estrategias "buenas", que fueron definidas por Akin (2013)ser aquellos por los cuales el jugador responde a la cooperación mutua pasada con una cooperación futura y divide los pagos esperados en partes iguales si recibe al menos el pago esperado cooperativo. Entre las buenas estrategias, el subconjunto generoso (ZD) funciona bien cuando la población no es demasiado pequeña. Si la población es muy pequeña, las estrategias de deserción tienden a dominar.
Dilema del prisionero iterado continuo
La mayor parte del trabajo sobre el dilema del prisionero iterado se ha centrado en el caso discreto, en el que los jugadores cooperan o desertan, porque este modelo es relativamente simple de analizar. Sin embargo, algunos investigadores han analizado modelos del dilema del prisionero iterado continuo, en el que los jugadores pueden hacer una contribución variable al otro jugador. le y boydencontró que en tales situaciones, la cooperación es mucho más difícil de desarrollar que en el dilema del prisionero iterado discreto. La intuición básica de este resultado es sencilla: en un dilema del prisionero continuo, si una población comienza en un equilibrio no cooperativo, los jugadores que son sólo marginalmente más cooperativos que los no cooperadores se benefician poco al combinarse entre sí. Por el contrario, en el dilema del prisionero discreto, los cooperadores de ojo por ojo obtienen un gran impulso de pago al relacionarse entre sí en un equilibrio no cooperativo, en relación con los no cooperadores. Dado que podría decirse que la naturaleza ofrece más oportunidades para la cooperación variable en lugar de una dicotomía estricta de cooperación o deserción, el prisionero continuo) a pesar de que ojo por ojo parece robusto en los modelos teóricos.
Aparición de estrategias estables
Parece que los jugadores no pueden coordinar la cooperación mutua, por lo que a menudo quedan atrapados en la estrategia inferior pero estable de la deserción. De esta forma, las rondas iteradas facilitan la evolución de estrategias estables. Las rondas iteradas a menudo producen estrategias novedosas, que tienen implicaciones para la interacción social compleja. Una de esas estrategias es ganar-quedarse-perder-cambiar. Esta estrategia supera a una simple estrategia de ojo por ojo, es decir, si puede salirse con la suya haciendo trampa, repita ese comportamiento. Sin embargo, si te atrapan, cambia.
El único problema de esta estrategia de ojo por ojo es que son vulnerables al error de señal. El problema surge cuando un individuo hace trampa en represalia pero el otro lo interpreta como trampa. Como resultado de esto, el segundo individuo ahora hace trampa y luego comienza un patrón de sube y baja de hacer trampa en una reacción en cadena.
Incluso sin juegos repetidos, un fuerte interés propio ilustrado puede dar como resultado un resultado estable y eficiente.
Ejemplos de la vida real
El entorno del prisionero puede parecer artificial, pero de hecho hay muchos ejemplos de interacción humana, así como interacciones en la naturaleza, que tienen la misma matriz de recompensas. Por lo tanto, el dilema del prisionero es de interés para las ciencias sociales como la economía, la política y la sociología, así como para las ciencias biológicas como la etología y la biología evolutiva. Muchos procesos naturales se han abstraído en modelos en los que los seres vivos se ven envueltos en interminables juegos del dilema del prisionero. Esta amplia aplicabilidad del PD le da al juego su importancia sustancial.
Estudios ambientales
En estudios ambientales, la DP es evidente en crisis como el cambio climático global. Se argumenta que todos los países se beneficiarán de un clima estable, pero un solo país suele dudar en frenar las emisiones de CO 2. El beneficio inmediato para cualquier país de mantener el comportamiento actual se percibe como mayor que el supuesto beneficio final para ese país si se cambiara el comportamiento de todos los países, lo que explica el estancamiento relacionado con el cambio climático en 2007.
Una diferencia importante entre la política del cambio climático y el dilema del prisionero es la incertidumbre; se desconoce el grado y el ritmo al que la contaminación puede cambiar el clima. El dilema que enfrentan los gobiernos es, por lo tanto, diferente del dilema del prisionero en que se desconocen los beneficios de la cooperación. Esta diferencia sugiere que los estados cooperarán mucho menos que en un dilema del prisionero iterado real, por lo que la probabilidad de evitar una posible catástrofe climática es mucho menor que la sugerida por un análisis de teoría de juegos de la situación utilizando un dilema del prisionero iterado real.
Osang y Nandy (2003) brindan una explicación teórica con pruebas para una situación de ganar-ganar impulsada por la regulación en la línea de la hipótesis de Michael Porter, en la que la regulación gubernamental de las empresas competidoras es sustancial.
Animales
El comportamiento cooperativo de muchos animales puede entenderse como un ejemplo del dilema del prisionero. A menudo, los animales se involucran en asociaciones a largo plazo, que pueden modelarse más específicamente como el dilema del prisionero iterado. Por ejemplo, los guppies inspeccionan a los depredadores de manera cooperativa en grupos, y se cree que castigan a los inspectores que no cooperan.
Los murciélagos vampiros son animales sociales que se involucran en el intercambio recíproco de alimentos. Aplicar los beneficios del dilema del prisionero puede ayudar a explicar este comportamiento:
- Cooperar/Cooperar: "Recompensa: obtengo sangre en mis noches de mala suerte, lo que me salva de morir de hambre. Tengo que dar sangre en mis noches de suerte, lo que no me cuesta demasiado".
- Defecto/Cooperación: "Tentación: me salvas la vida en mi mala noche. Pero luego obtengo el beneficio adicional de no tener que pagar el pequeño costo de alimentarte en mi buena noche".
- Cooperar/Desertar: "Pago del tonto: pago el costo de salvarte la vida en mis buenas noches. Pero en mis malas noches no me alimentas y corro un riesgo real de morirme de hambre".
- Defecto/Defecto: "Castigo: no tengo que pagar los pequeños costos de alimentarte en mis buenas noches. Pero corro un riesgo real de morirme de hambre en mis malas noches".
Psicología
En la investigación de adicciones/economía del comportamiento, George Ainslie señala que la adicción se puede presentar como un problema de EP intertemporal entre el yo presente y el futuro del adicto. En este caso, desertar significa reincidir, y es fácil ver que no desertar tanto hoy como en el futuro es, con mucho, el mejor resultado. El caso en el que uno se abstiene hoy pero recae en el futuro es el peor resultado; en cierto sentido, la disciplina y el sacrificio personal involucrados en abstenerse hoy se han "desperdiciado" porque la futura recaída significa que el adicto está justo donde comenzó y volverá. tener que empezar de nuevo (lo cual es bastante desmoralizador y hace que empezar de nuevo sea más difícil). Recaer hoy y mañana es un resultado ligeramente "mejor", porque mientras el adicto sigue siendo adicto, no ha hecho el esfuerzo de tratar de dejarlo. El caso final, donde uno se involucra en el comportamiento adictivo hoy mientras se abstiene "mañana", será familiar para cualquiera que haya luchado contra una adicción.
John Gottman en su investigación descrita en "La ciencia de la confianza" define las buenas relaciones como aquellas en las que los socios saben que no deben ingresar a la celda (D,D) o al menos no quedar atrapados dinámicamente allí en un bucle. En la neurociencia cognitiva, la señalización cerebral rápida asociada con el procesamiento de diferentes rondas puede indicar opciones en la siguiente ronda. Los resultados de la cooperación mutua implican cambios en la actividad cerebral que predicen qué tan rápido una persona cooperará en especie en la próxima oportunidad; esta actividad puede estar vinculada a procesos homeostáticos y motivacionales básicos, posiblemente aumentando la probabilidad de atajar a la celda (C,C) del juego.
Ciencias económicas
El dilema del prisionero se ha denominado la E. coli de la psicología social y se ha utilizado ampliamente para investigar diversos temas, como la competencia oligopólica y la acción colectiva para producir un bien colectivo.
A veces se cita la publicidad como un ejemplo real del dilema del prisionero. Cuando la publicidad de cigarrillos fue legal en los Estados Unidos, los fabricantes de cigarrillos de la competencia tuvieron que decidir cuánto dinero gastar en publicidad. La eficacia de la publicidad de la empresa A estuvo parcialmente determinada por la publicidad realizada por la empresa B. Asimismo, la ganancia derivada de la publicidad de la empresa B se ve afectada por la publicidad realizada por la empresa A. Si tanto la empresa A como la empresa B eligieron anunciarse durante un determinado período, entonces la publicidad de cada empresa niega la de la otra, los ingresos permanecen constantes y los gastos aumentan debido al costo de la publicidad. Ambas firmas se beneficiarían de una reducción en la publicidad. Sin embargo, si la empresa B decide no hacer publicidad, la empresa A podría beneficiarse enormemente de la publicidad. Sin embargo, la cantidad óptima de publicidad de una empresa depende de la cantidad de publicidad que realice la otra. Como la mejor estrategia depende de lo que elija la otra empresa, no existe una estrategia dominante, lo que lo hace ligeramente diferente del dilema del prisionero. Sin embargo, el resultado es similar en el sentido de que ambas empresas estarían mejor si anunciaran menos que en el equilibrio. A veces, los comportamientos cooperativos surgen en situaciones comerciales. Por ejemplo, los fabricantes de cigarrillos respaldaron la elaboración de leyes que prohíban la publicidad de cigarrillos, entendiendo que esto reduciría los costos y aumentaría las ganancias en toda la industria. dilema de s. Sin embargo, el resultado es similar en el sentido de que ambas empresas estarían mejor si anunciaran menos que en el equilibrio. A veces, los comportamientos cooperativos surgen en situaciones comerciales. Por ejemplo, los fabricantes de cigarrillos respaldaron la elaboración de leyes que prohíban la publicidad de cigarrillos, entendiendo que esto reduciría los costos y aumentaría las ganancias en toda la industria. dilema de s. Sin embargo, el resultado es similar en el sentido de que ambas empresas estarían mejor si anunciaran menos que en el equilibrio. A veces, los comportamientos cooperativos surgen en situaciones comerciales. Por ejemplo, los fabricantes de cigarrillos respaldaron la elaboración de leyes que prohíban la publicidad de cigarrillos, entendiendo que esto reduciría los costos y aumentaría las ganancias en toda la industria.Es probable que este análisis sea pertinente en muchas otras situaciones comerciales que involucran publicidad.
Sin acuerdos exigibles, los miembros de un cartel también se ven envueltos en un dilema del prisionero (multijugador). 'Cooperar' generalmente significa mantener los precios en un nivel mínimo previamente acordado. 'Desertar' significa vender por debajo de este nivel mínimo, tomando instantáneamente negocios (y ganancias) de otros miembros del cártel. Las autoridades antimonopolio quieren que los miembros potenciales del cartel deserten mutuamente, asegurando los precios más bajos posibles para los consumidores.
Deporte
El dopaje en el deporte se ha citado como un ejemplo del dilema del prisionero.
Dos atletas que compiten tienen la opción de usar una droga ilegal y/o peligrosa para mejorar su rendimiento. Si ninguno de los atletas toma la droga, entonces ninguno obtiene una ventaja. Si solo uno lo hace, entonces ese atleta obtiene una ventaja significativa sobre su competidor, reducida por los peligros legales y/o médicos de haber tomado la droga. Sin embargo, si ambos atletas toman la droga, los beneficios se anulan y solo quedan los peligros, lo que los coloca a ambos en una posición peor que si ninguno hubiera usado el dopaje.
En una conversación con Ken Griffey Jr. después de la temporada de la MLB de 1998, Barry Bonds expresó su frustración con el uso de esteroides por parte de otros jugadores. Bonds declaró: "Tuve una temporada increíble el año pasado, y a nadie le importó una mierda. Nadie. Por mucho que me queje de McGwire y Canseco y todo el toro con esteroides, estoy cansado de luchar contra eso. Cumplo 35 este año. Me quedan tres o cuatro buenas temporadas, y quiero que me paguen. Voy a empezar a usar algunas cosas duras, y espero que no dañen mi cuerpo. Entonces saldré del juego y listo".Bonds se encontró en el dilema del prisionero que es el dopaje en el béisbol, la sensación de que tiene que usar esteroides para que sus competidores no tengan una ventaja tan significativa sobre él, poniéndolo en igualdad de condiciones, aunque todos están peor que él. si nadie hubiera usado esteroides en absoluto.
Politica internacional
En la teoría política internacional, el Dilema del Prisionero se usa a menudo para demostrar la coherencia del realismo estratégico, que sostiene que en las relaciones internacionales, todos los estados (independientemente de sus políticas internas o ideología profesada), actuarán en su propio interés racional dada la anarquía internacional.. Un ejemplo clásico es una carrera armamentista como la Guerra Fría y conflictos similares.Durante la Guerra Fría, las alianzas opuestas de la OTAN y el Pacto de Varsovia tenían la opción de armar o desarmar. Desde el punto de vista de cada lado, desarmarse mientras su oponente continuaba armándose habría llevado a una inferioridad militar y una posible aniquilación. Por el contrario, armar mientras su oponente estaba desarmado habría llevado a la superioridad. Si ambos lados optaban por armarse, ninguno podía permitirse atacar al otro, pero ambos incurrían en el alto costo de desarrollar y mantener un arsenal nuclear. Si ambos lados optaran por desarmarse, se evitaría la guerra y no habría costos.
Aunque el 'mejor' resultado general es que ambos lados se desarme, el curso racional para ambos lados es armarse, y esto es de hecho lo que sucedió. Ambos lados invirtieron enormes recursos en investigación y armamento militar en una guerra de desgaste durante los siguientes treinta años hasta que la Unión Soviética no pudo soportar el costo económico. La misma lógica podría aplicarse en cualquier escenario similar, ya sea competencia económica o tecnológica entre estados soberanos.
Dilemas multijugador
Muchos dilemas de la vida real involucran a múltiples jugadores. Aunque metafórica, la tragedia de los bienes comunes de Hardin puede verse como un ejemplo de una generalización multijugador de la PD: cada aldeano toma una decisión para beneficio personal o moderación. La recompensa colectiva por la deserción unánime (o incluso frecuente) son pagos muy bajos (que representan la destrucción de los "bienes comunes"). Un dilema de bienes comunes con el que la mayoría de la gente puede identificarse es lavar los platos en una casa compartida. Al no lavar los platos, un individuo puede ganar ahorrando su tiempo, pero si todos los residentes adoptan ese comportamiento, el costo colectivo es que nadie tenga platos limpios.
Los bienes comunes no siempre se explotan: William Poundstone, en un libro sobre el dilema del prisionero, describe una situación en Nueva Zelanda donde las cajas de periódicos se dejan abiertas. Es posible que la gente tome un papel sin pagar (desertar), pero muy pocos lo hacen, sintiendo que si ellos no pagan, los demás tampoco, destruyendo el sistema.La investigación posterior de Elinor Ostrom, ganadora del Premio Nobel de Ciencias Económicas en 2009, planteó la hipótesis de que la tragedia de los bienes comunes está demasiado simplificada, con el resultado negativo influido por influencias externas. Sin presiones complicadas, los grupos se comunican y administran los bienes comunes entre ellos para su beneficio mutuo, haciendo cumplir las normas sociales para preservar el recurso y lograr el máximo bien para el grupo, un ejemplo de lograr el mejor resultado para el caso de DP.
Juegos relacionados
Intercambio de bolsa cerrada
Douglas Hofstadter sugirió una vez que a las personas a menudo les resultan más fáciles de entender problemas como el de DP cuando se ilustran en forma de un juego simple o de compensación. Uno de varios ejemplos que usó fue "intercambio de bolsa cerrada":
Dos personas se encuentran e intercambian bolsas cerradas, en el entendimiento de que una de ellas contiene dinero y la otra contiene una compra. Cualquiera de los jugadores puede optar por honrar el trato poniendo en su bolsa lo que acordó, o puede desertar entregando una bolsa vacía.
¿Amigo o enemigo?
¿Amigo o enemigo?es un programa de juegos que se emitió de 2002 a 2003 en Game Show Network en los EE. UU. Es un ejemplo del juego del dilema del prisionero probado en personas reales, pero en un escenario artificial. En el programa de juegos, compiten tres parejas de personas. Cuando se elimina una pareja, juegan un juego similar al dilema del prisionero para determinar cómo se dividen las ganancias. Si ambos cooperan (Amigo), comparten las ganancias 50–50. Si uno coopera y el otro deserta (enemigo), el desertor obtiene todas las ganancias y el cooperador no obtiene nada. Si ambos desertan, ambos se van sin nada. Tenga en cuenta que la matriz de recompensas es ligeramente diferente de la estándar dada anteriormente, ya que las recompensas para los casos de "ambos desertan" y "cooperan mientras el oponente deserta" son idénticas. Esto hace que el caso de "ambos defectos" sea un equilibrio débil, en comparación con ser un equilibrio estricto en el dilema del prisionero estándar. Si un concursante sabe que su oponente votará "Enemigo", entonces su propia elección no afecta sus propias ganancias. En un sentido específico,Friend or Foe tiene un modelo de recompensas entre el dilema del prisionero y el juego del pollo.
La matriz de recompensas es
par 2par 1 | "Amigo"(cooperar) | "Enemigo"(defecto) |
---|---|---|
"Amigo"(cooperar) | 11 | 20 |
"Enemigo"(defecto) | 02 | 00 |
Esta matriz de pagos también se ha utilizado en los programas de televisión británicos Trust Me, Shafted, The Bank Job y Golden Balls, y en los programas de juegos estadounidenses Take It All, así como para la pareja ganadora en los programas Reality Show Bachelor Pad y Love isla _ Un equipo de economistas analizó los datos del juego de la serie Golden Balls y descubrió que la cooperación era "sorprendentemente alta" para cantidades de dinero que parecerían importantes en el mundo real, pero que eran comparativamente bajas en el contexto del juego.
Ventisquero iterado
Investigadores de la Universidad de Lausana y la Universidad de Edimburgo han sugerido que el "Juego iterado de ventisqueros" puede reflejar más fielmente las situaciones sociales del mundo real. Aunque este modelo es en realidad un juego de gallinas, se describirá aquí. En este modelo, el riesgo de ser explotado por deserción es menor, y los individuos siempre se benefician al tomar la decisión cooperativa. El juego de ventisqueros imagina a dos conductores que están atrapados en lados opuestos de un ventisquero, cada uno de los cuales tiene la opción de palear la nieve para despejar el camino o permanecer en su automóvil. La recompensa más alta de un jugador proviene de dejar que el oponente quite toda la nieve por sí mismo, pero el oponente aún recibe una recompensa nominal por su trabajo.
Esto puede reflejar mejor los escenarios del mundo real, los investigadores dan el ejemplo de dos científicos que colaboran en un informe, quienes se beneficiarían si el otro trabajara más duro. "Pero cuando su colaborador no hace ningún trabajo, probablemente sea mejor para usted hacer todo el trabajo usted mismo. De todos modos, terminará con un proyecto completo".
Ejemplos de pagos de ventisqueros (A, B)B ACooperaDefectosCoopera200, 200100, 300Defectos300, 1000, 0 | Ejemplos de pagos de PD (A, B)B ACooperaDefectosCoopera200, 200-100, 300Defectos300, -1000, 0 |
Juegos de coordinación
En los juegos de coordinación, los jugadores deben coordinar sus estrategias para obtener un buen resultado. Un ejemplo son dos autos que se encuentran abruptamente en una ventisca; cada uno debe elegir si virar bruscamente a la izquierda oa la derecha. Si ambos se desvían a la izquierda o ambos a la derecha, los autos no chocan. La convención local de tráfico por la izquierda y por la derecha ayuda a coordinar sus acciones.
Los juegos de coordinación simétrica incluyen la caza del ciervo y Bach o Stravinsky.
Dilemas del prisionero asimétrico
Un conjunto más general de juegos son asimétricos. Como en el dilema del prisionero, el mejor resultado es la cooperación y hay motivos para la deserción. Sin embargo, a diferencia del dilema del prisionero simétrico, un jugador tiene más que perder y/o más que ganar que el otro. Algunos de estos juegos se han descrito como el dilema del prisionero en el que un prisionero tiene una coartada, de ahí el término "juego de coartada".
En los experimentos, los jugadores que obtienen pagos desiguales en juegos repetidos pueden buscar maximizar las ganancias, pero solo bajo la condición de que ambos jugadores reciban pagos iguales; esto puede conducir a una estrategia de equilibrio estable en la que el jugador en desventaja deserta cada X juegos, mientras que el otro siempre coopera. Tal comportamiento puede depender de las normas sociales del experimento en torno a la equidad.
Dilema del guardián
No son sólo los presos los que se enfrentan a dilemas. Los guardianes también se enfrentan a situaciones en las que solo hay opciones poco atractivas entre las que elegir. Se pueden encontrar fácilmente ejemplos en los casos en que un agente debe suavizar las tensiones entre sus propios socios: uno puede pensar en dos colegas compitiendo para avanzar en su carrera y los problemas que esto le causa al director general de su empresa; dos funcionarios que compiten por el ascenso y la tensión que esto genera para el jefe de su gabinete; o en la crianza de los hijos cuando dos hermanos compiten por la atención y la ansiedad que esto les causa a sus padres. Si el comportamiento del guardián satisface a un lado, el otro lado se siente expuesto y alienado.
Desde la perspectiva de las relaciones internacionales, el Dr. Spyros Katsoulas introduce el concepto del dilema del guardián. El dilema del guardián se define como la condición en la que dos estados mantienen su enemistad entre sí a pesar de compartir un aliado común más fuerte. Por defecto, un dilema es una situación con opciones insatisfactorias. El dilema del guardián radica en el hecho de que el estado más fuerte no puede mantenerse al margen de una crisis entre sus aliados ni involucrarse activamente sin afectar el frágil equilibrio. Si el tutor se abstiene, la situación puede salirse de control; si el guardián se involucra, cualquier inclinación en contra de un lado puede verse como una victoria o una ventana de oportunidad para el otro. Ampliando el concepto de Glenn Snyder del dilema de seguridad de la alianza,los resultados de la interacción entre el guardián y los dos socios más pequeños se describen como abandono, atrapamiento y envalentonamiento.
Software
Se han creado varios paquetes de software para ejecutar simulaciones y torneos del dilema del prisionero, algunos de los cuales tienen código fuente disponible.
- El código fuente del segundo torneo dirigido por Robert Axelrod (escrito por Axelrod y muchos colaboradores en Fortran) está disponible en línea.
- Prison, una biblioteca escrita en Java, actualizada por última vez en 1998
- Axelrod-Python, escrito en Python
- Evoplex, un programa de modelado rápido basado en agentes lanzado en 2018 por Marcos Cardinot
En ficción
Hannu Rajaniemi ambientó la escena inicial de su trilogía The Quantum Thief en una "prisión de dilemas". El tema principal de la serie se ha descrito como la "inadecuación de un universo binario" y el antagonista final es un personaje llamado All-Defector. Rajaniemi es particularmente interesante como artista que trata este tema, ya que es un matemático formado en Cambridge y tiene un doctorado. en física matemática: la intercambiabilidad de la materia y la información es una característica importante de los libros, que tienen lugar en un futuro de "post-singularidad". El primer libro de la serie se publicó en 2010, con las dos secuelas, The Fractal Prince y The Causal Angel, publicadas en 2012 y 2014, respectivamente.
Un juego inspirado en el dilema del prisionero (iterado) es un foco central del videojuego de 2012 Zero Escape: Virtue's Last Reward y una parte menor en su secuela de 2016 Zero Escape: Zero Time Dilemma.
En The Mysterious Benedict Society and the Prisoner's Dilemma de Trenton Lee Stewart, los personajes principales comienzan jugando una versión del juego y escapando de la "prisión" por completo. Más tarde se convierten en prisioneros reales y escapan una vez más.
En The Adventure Zone: Balance durante el subarco de The Suffering Game, a los personajes jugadores se les presenta dos veces el dilema del prisionero durante su tiempo en el dominio de dos liches, una vez cooperando y otra desertando.
En la octava novela del autor James SA Corey Tiamat's Wrath, Winston Duarte explica el dilema del prisionero a su hija de 14 años, Teresa, para entrenarla en pensamiento estratégico.
Una versión extrema del dilema del prisionero aparece en la película de 2008 The Dark Knight en la que el Joker manipula dos transbordadores, uno con prisioneros y el otro con civiles, armando a ambos grupos con los medios para detonar la bomba en los transbordadores del otro. En última instancia, las dos partes deciden no actuar.