Teorema de Bayes

Ajustar Compartir Imprimir Citar
Teorema de Bayes escrito en Neón
Teorema de Bayes escrito en Neón

En teoría de probabilidad y estadística, el teorema de Bayes (alternativamente ley de Bayes o regla de Bayes; recientemente teorema de Bayes-Price), llamado así por Thomas Bayes, describe la probabilidad de un evento, basado en el conocimiento previo de las condiciones que podrían estar relacionadas con el evento. Por ejemplo, si se sabe que el riesgo de desarrollar problemas de salud aumenta con la edad, el teorema de Bayes permite que el riesgo de un individuo de una edad conocida se evalúe con mayor precisión (condicionándolo a su edad) que simplemente asumiendo que el individuo es típico de la población en su conjunto.

Una de las muchas aplicaciones del teorema de Bayes es la inferencia bayesiana, un enfoque particular de la inferencia estadística. Cuando se aplican, las probabilidades involucradas en el teorema pueden tener diferentes interpretaciones de probabilidad. Con la interpretación de probabilidad bayesiana, el teorema expresa cómo un grado de creencia, expresado como probabilidad, debería cambiar racionalmente para dar cuenta de la disponibilidad de evidencia relacionada. La inferencia bayesiana es fundamental para las estadísticas bayesianas.

Declaración del teorema

El teorema de Bayes se expresa matemáticamente como la siguiente ecuación:

{displaystyle P(Amid B)={frac {P(Bmid A)P(A)}{P(B)}}}

donde UNy Bson eventos y {displaystyle P(B)neq 0}.

Prueba

Para eventos

El teorema de Bayes puede derivarse de la definición de probabilidad condicional:{displaystyle P(Amid B)={frac {P(Acap B)}{P(B)}},{text{ si }}P(B)neq 0,}

donde P(Acap B)es la probabilidad de que tanto A como B sean verdaderas. Similarmente,{displaystyle P(Bmid A)={frac {P(Acap B)}{P(A)}},{text{ si }}P(A)neq 0,}

Resolviendo P(Acap B)y sustituyendo en la expresión anterior para P(Amedia B)se obtiene el teorema de Bayes:{displaystyle P(Amid B)={frac {P(Bmid A)P(A)}{P(B)}},{text{ if }}P(B)neq 0. }

Para variables aleatorias continuas

Para dos variables aleatorias continuas X e Y, el teorema de Bayes puede derivarse análogamente de la definición de densidad condicional:{displaystyle f_{Xmid Y=y}(x)={frac {f_{X,Y}(x,y)}{f_{Y}(y)}}}{displaystyle f_{Ymid X=x}(y)={frac {f_{X,Y}(x,y)}{f_{X}(x)}}}

Por lo tanto,{displaystyle f_{Xmid Y=y}(x)={frac {f_{Ymid X=x}(y)f_{X}(x)}{f_{Y}(y)}}.}

Ejemplos

Matemáticas recreativas

La regla de Bayes y el cálculo de probabilidades condicionales proporcionan un método de solución para una serie de acertijos populares, como el problema de los tres prisioneros, el problema de Monty Hall, el problema de los dos niños y el problema de los dos sobres.

Prueba de drogas

Supongamos que una prueba particular para determinar si alguien ha estado usando cannabis tiene una sensibilidad del 90 %, lo que significa que la tasa de verdaderos positivos (TPR) = 0,90. Por lo tanto, conduce a un 90% de resultados positivos verdaderos (identificación correcta del consumo de drogas) para los consumidores de cannabis.

La prueba también tiene una especificidad del 80 %, lo que significa una tasa de verdaderos negativos (TNR) = 0,80. Por lo tanto, la prueba identifica correctamente el 80 % de la falta de uso para los no usuarios, pero también genera un 20 % de falsos positivos, o tasa de falsos positivos (FPR) = 0,20, para los no usuarios.

Suponiendo una prevalencia de 0,05, lo que significa que el 5 % de las personas consumen cannabis, ¿cuál es la probabilidad de que una persona aleatoria que dé positivo sea realmente un consumidor de cannabis?

El valor predictivo positivo (VPP) de una prueba es la proporción de personas que realmente son positivas de todas las que dieron positivo, y se puede calcular a partir de una muestra como:VPP = Verdadero positivo / Probado positivo

Si se conocen la sensibilidad, la especificidad y la prevalencia, el VPP se puede calcular mediante el teorema de Bayes. Digamos {displaystyle P({text{Usuario}}mid {text{Positivo}})}"la probabilidad de que alguien sea un consumidor de cannabis dado que da positivo", que es lo que se entiende por PPV. Podemos escribir:{displaystyle {begin{aligned}P({text{Usuario}}mid {text{Positivo}})&={frac {P({text{Positivo}}mid {text{Usuario }})P({text{Usuario}})}{P({text{Positivo}})}}\&={frac {P({text{Positivo}}mid {text{ Usuario}})P({text{Usuario}})}{P({text{Positivo}}mid {text{Usuario}})P({text{Usuario}})+P({ text{Positivo}}mid {text{No usuario}})P({text{No usuario}})}}\[8pt]&={frac {0.90times 0.05}{0.90 veces 0,05+0,20veces 0,95}}={frac {0,045}{0,045+0,19}}aprox. 19%end{alineado}}}

El hecho de que {displaystyle P({text{Positivo}})=P({text{Positivo}}mid {text{Usuario}})P({text{Usuario}})+P({text{ Positivo}}mid {text{No usuario}})P({text{No usuario}})} es una aplicación directa de la Ley de Probabilidad Total. En este caso, dice que la probabilidad de que alguien dé positivo es la probabilidad de que un usuario dé positivo, multiplicada por la probabilidad de ser usuario, más la probabilidad de que un no usuario dé positivo, multiplicada por la probabilidad de no ser usuario.. Esto es cierto porque las clasificaciones de usuario y no usuario forman una partición de un conjunto, a saber, el conjunto de personas que se someten a la prueba de drogas. Esto combinado con la definición de probabilidad condicional da como resultado la declaración anterior.

En otras palabras, incluso si alguien da positivo, la probabilidad de que sea un consumidor de cannabis es solo del 19%, esto se debe a que en este grupo, solo el 5% de las personas son usuarios, y la mayoría de los positivos son falsos positivos provenientes del 95% restante..

Si se hiciera la prueba a 1000 personas:

Las 1.000 personas arrojan así 235 pruebas positivas, de las cuales sólo 45 son auténticos consumidores de drogas, alrededor del 19%. Consulte la Figura 1 para ver una ilustración que usa un cuadro de frecuencia y observe cuán pequeña es el área rosa de los verdaderos positivos en comparación con el área azul de los falsos positivos.

Sensibilidad o especificidad

La importancia de la especificidad se puede ver al mostrar que incluso si la sensibilidad se eleva al 100 % y la especificidad se mantiene en el 80 %, la probabilidad de que alguien que dé positivo sea realmente un consumidor de cannabis solo aumenta del 19 % al 21 %, pero si la sensibilidad es mantenida en 90% y la especificidad aumenta a 95%, la probabilidad aumenta a 49%.

PruebaActualPositivoNegativoTotal
Usuario45550
No usuario190760950
Total2357651000
90% sensible, 80% específico, VPP=45/235 ≈ 19%
PruebaActualPositivoNegativoTotal
Usuario50050
No usuario190760950
Total2407601000
100% sensible, 80% específico, VPP=50/240 ≈ 21%
PruebaActualPositivoNegativoTotal
Usuario45550
No usuario47903950
Total929081000
90% sensible, 95% específico, VPP=45/92 ≈ 49%

Tasa de cáncer

Incluso si el 100 % de los pacientes con cáncer de páncreas tienen un síntoma determinado, cuando alguien tiene el mismo síntoma, no significa que esa persona tenga un 100 % de posibilidades de contraer cáncer de páncreas. Suponiendo que la tasa de incidencia de cáncer de páncreas es 1/100000, mientras que 10/99999 personas sanas tienen los mismos síntomas en todo el mundo, la probabilidad de tener cáncer de páncreas dados los síntomas es solo del 9,1 %, y el otro 90,9 % podrían ser "falsos positivos" (es decir, se dice falsamente que tiene cáncer; "positivo" es un término confuso cuando, como aquí, la prueba da malas noticias).

Con base en la tasa de incidencia, la siguiente tabla presenta los números correspondientes por cada 100.000 personas.

SíntomaCáncerNoTotal
101
No109998999999
Total1199989100000

Que luego se puede usar para calcular la probabilidad de tener cáncer cuando tiene los síntomas:{displaystyle {begin{aligned}P({text{Cáncer}}|{text{Síntomas}})&={frac {P({text{Síntomas}}|{text{Cáncer}})P({text{Cáncer}})}{P({text{Síntomas}})}}\&={frac {P({text{Síntomas}}|{text{Cáncer}})P({text{Cáncer}})}{P({text{Síntomas}}|{text{Cáncer}})P({text{Cáncer}})+P({text{Síntomas} }|{text{No canceroso}})P({text{No canceroso}})}}\[8pt]&={frac {1times 0.00001}{1times 0.00001+(10 /99999)times 0.99999}}={frac {1}{11}}approx 9.1%end{alineado}}}

Tasa de artículos defectuosos

CondiciónMáquinaDefectuosoImpecableTotal
UN10190200
B9291300
C5495500
Total249761000

Una fábrica produce un artículo utilizando tres máquinas, A, B y C, que representan el 20 %, 30 % y 50 % de su producción, respectivamente. De los artículos producidos por la máquina A, el 5% son defectuosos; De manera similar, el 3% de los elementos de la máquina B y el 1% de los de la máquina C están defectuosos. Si un artículo seleccionado al azar es defectuoso, ¿cuál es la probabilidad de que haya sido producido por la máquina C?

Una vez más, se puede llegar a la respuesta sin utilizar la fórmula aplicando las condiciones a un número hipotético de casos. Por ejemplo, si la fábrica produce 1,000 artículos, la Máquina A producirá 200, la Máquina B 300 y la Máquina C 500. La Máquina A producirá 5% × 200 = 10 artículos defectuosos, la Máquina B 3% × 300 = 9, y Máquina C 1% × 500 = 5, para un total de 24. Por lo tanto, la probabilidad de que la máquina C produzca un artículo defectuoso seleccionado al azar es 5/24 (~20,83%).

Este problema también se puede resolver utilizando el teorema de Bayes: Sea X i el evento de que la máquina i elaboró ​​un elemento elegido al azar (para i = A,B,C). Sea Y el evento de que un artículo elegido al azar sea defectuoso. Entonces, se nos da la siguiente información:{displaystyle P(X_{A})=0.2,quad P(X_{B})=0.3,quad P(X_{C})=0.5.}

Si el artículo fue fabricado por la primera máquina, entonces la probabilidad de que esté defectuoso es 0.05; es decir, P (Y  |  X A) = 0,05. En general, tenemos{displaystyle P(Y|X_{A})=0,05,quad P(Y|X_{B})=0,03,quad P(Y|X_{C})=0,01.}

Para responder a la pregunta original, primero encontramos P (Y). Eso se puede hacer de la siguiente manera:{displaystyle P(Y)=sum_{i}P(Y|X_{i})P(X_{i})=(0,05)(0,2)+(0,03)(0,3)+(0,01)(0,5)=0.024.}

Por lo tanto, el 2,4% de la producción total es defectuosa.

Sabemos que ha ocurrido Y, y queremos calcular la probabilidad condicional de X C. Por el teorema de Bayes,{displaystyle P(X_{C}|Y)={frac {P(Y|X_{C})P(X_{C})}{P(Y)}}={frac {0,01cdot 0,50 {0.024}}={ fracción {5}{24}}}

Dado que el artículo es defectuoso, la probabilidad de que haya sido fabricado por la máquina C es 5/24. Aunque la máquina C produce la mitad de la producción total, produce una fracción mucho menor de los artículos defectuosos. Por lo tanto, el conocimiento de que el elemento seleccionado era defectuoso nos permite reemplazar la probabilidad anterior P (X C) = 1/2 por la probabilidad posterior más pequeña P (X C  |  Y) = 5/24.

Interpretaciones

La interpretación de la regla de Bayes depende de la interpretación de la probabilidad atribuida a los términos. Las dos interpretaciones principales se describen a continuación. La figura 2 muestra una visualización geométrica similar a la figura 1. Gerd Gigerenzer y sus coautores se han esforzado mucho por enseñar la regla de Bayes de esta manera, con especial énfasis en enseñarla a los médicos. Un ejemplo es la página web de Will Kurt, "Teorema de Bayes con Lego", que luego se convirtió en el libro Bayesian Statistics the Fun Way: Understanding Statistics and Probability with Star Wars, LEGO, and Rubber Ducks. Zhu y Gigerenzer encontraron en 2006 que mientras que el 0 % de los alumnos de 4.°, 5.° y 6.° grado podían resolver problemas verbales después de que se les enseñara con fórmulas, el 19 %, 39 % y 53 % podían hacerlo después de que se les enseñara con cuadros de frecuencia.

Distribución de las probabilidades resultantes del Teorema de Bayes
Distribución de las probabilidades resultantes del Teorema de Bayes

Interpretación bayesiana

En la interpretación bayesiana (o epistemológica), la probabilidad mide un "grado de creencia". El teorema de Bayes vincula el grado de creencia en una proposición antes y después de dar cuenta de la evidencia. Por ejemplo, supongamos que se cree con un 50% de certeza que una moneda tiene el doble de probabilidades de salir cara que cruz. Si se lanza la moneda varias veces y se observan los resultados, ese grado de creencia probablemente aumentará o disminuirá, pero incluso podría permanecer igual, según los resultados. Para la proposición A y la evidencia B,

Para obtener más información sobre la aplicación del teorema de Bayes bajo la interpretación bayesiana de la probabilidad, consulte Inferencia bayesiana.

Interpretación frecuentista

En la interpretación frecuentista, la probabilidad mide una "proporción de resultados". Por ejemplo, supongamos que un experimento se realiza muchas veces. P (A) es la proporción de resultados con la propiedad A (la previa) y P (B) es la proporción con la propiedad B. P (B  |  A) es la proporción de resultados con la propiedad B de los resultados con la propiedad A, y P (A  |  B) es la proporción de los que tienen A de los que tienen B(el posterior).

El papel del teorema de Bayes se visualiza mejor con diagramas de árbol como el de la Figura 3. Los dos diagramas dividen los mismos resultados por A y B en órdenes opuestos, para obtener las probabilidades inversas. El teorema de Bayes vincula las diferentes particiones.

Ejemplo

Un entomólogo detecta lo que podría ser, debido al patrón en su espalda, una rara subespecie de escarabajo. Un 98 % de los miembros de las subespecies raras tienen el patrón, por lo que P (Patrón | Raro) = 98 %. Solo el 5% de los miembros de la subespecie común tienen el patrón. La subespecie rara es el 0,1% de la población total. ¿Qué probabilidad hay de que el escarabajo que tiene el patrón sea raro: qué es P (Raro | Patrón)?

De la forma extendida del teorema de Bayes (dado que cualquier escarabajo es raro o común),{displaystyle {begin{alineado}P({text{Raro}}mid {text{Patrón}})&={frac {P({text{Patrón}}mid {text{Raro }})P({text{Raro}})}{P({text{Patrón}})}}\[8pt]&={frac {P({text{Patrón}}mid { text{Raro}})P({text{Raro}})}{P({text{Patrón}}mid {text{Raro}})P({text{Raro}})+P ({text{Patrón}}mid {text{Común}})P({text{Común}})}}\[8pt]&={frac {0,98times 0,001}{0,98times 0.001+0.05times 0.999}}\[8pt]&approx 1.9%end{alineado}}}

Formularios

Eventos

Forma simple

Para los eventos A y B, siempre que P (B) ≠ 0,{displaystyle P(A|B)={frac {P(B|A)P(A)}{P(B)}}cdot }

En muchas aplicaciones, por ejemplo en la inferencia bayesiana, el evento B está fijo en la discusión y deseamos considerar el impacto de haberlo observado en nuestra creencia en varios eventos A posibles. En tal situación, el denominador de la última expresión, la probabilidad de la evidencia B dada, es fijo; lo que queremos variar es A. El teorema de Bayes muestra entonces que las probabilidades posteriores son proporcionales al numerador, por lo que la última ecuación se convierte en:{displaystyle P(A|B)propto P(A)cdot P(B|A)}.

En palabras, el posterior es proporcional al anterior por la probabilidad.

Si los eventos A 1, A 2,..., son mutuamente excluyentes y exhaustivos, es decir, es seguro que uno de ellos ocurrirá pero no pueden ocurrir dos juntos, podemos determinar la constante de proporcionalidad utilizando el hecho de que sus probabilidades deben sumarse a uno. Por ejemplo, para un evento A dado, el evento A mismo y su complemento ¬A son exclusivos y exhaustivos. Denotando la constante de proporcionalidad por c tenemos{displaystyle P(A|B)=ccdot P(A)cdot P(B|A){text{ y }}P(neg A|B)=ccdot P(neg A) cdot P(B|neg A).}

Sumando estas dos fórmulas deducimos que{displaystyle 1=ccdot (P(B|A)cdot P(A)+P(B|neg A)cdot P(neg A)),}

o{displaystyle c={frac {1}{P(B|A)cdot P(A)+P(B|neg A)cdot P(neg A)}}={frac {1} {P(B)}}.}

Forma alternativa

FondoProposiciónB¬B(no B)Total
UNP(B|A)·P(A)= P(A|B)·P(B)P(¬B|A)·P(A)= P(A|¬B)·P(¬B)PENSILVANIA)
¬A(no A)P(B|¬A)·P(¬A)= P(¬A|B)·P(B)P(¬B|¬A)·P(¬A)= P(¬A|¬B)·P(¬B)P(¬A) =1−P(A)
Total P(B) P(¬B) = 1−P(B)1

Otra forma del teorema de Bayes para dos declaraciones o hipótesis en competencia es:{displaystyle P(A|B)={frac {P(B|A)P(A)}{P(B|A)P(A)+P(B|neg A)P(neg A)}}.}

Para una interpretación epistemológica:

Para la proposición A y la evidencia o antecedentes B,

Forma extendida

A menudo, para alguna partición { A j } del espacio muestral, el espacio de eventos se da en términos de P (A j) y P (B | A j). Entonces es útil calcular P (B) usando la ley de probabilidad total:{displaystyle P(B)={sum_{j}P(B|A_{j})P(A_{j})},}{displaystyle Rightarrow P(A_{i}|B)={frac {P(B|A_{i})P(A_{i})}{sum limits _{j}P(B|A_ {j})P(A_{j})}}cdot}

En el caso especial donde A es una variable binaria:{displaystyle P(A|B)={frac {P(B|A)P(A)}{P(B|A)P(A)+P(B|neg A)P(neg A)}}cdot}

Variables aleatorias

Considere un espacio muestral Ω generado por dos variables aleatorias X e Y. En principio, el teorema de Bayes se aplica a los eventos A = { X = x } y B = { Y = y }.{displaystyle P(X{=}x|Y{=}y)={frac {P(Y{=}y|X{=}x)P(X{=}x)}{P(Y{ =}y)}}}

Sin embargo, los términos se vuelven 0 en los puntos donde cualquiera de las variables tiene una densidad de probabilidad finita. Para seguir siendo útil, el teorema de Bayes debe formularse en términos de las densidades relevantes (ver Derivación).

Forma simple

Si X es continuo e Y es discreto,{displaystyle f_{X|Y{=}y}(x)={frac {P(Y{=}y|X{=}x)f_{X}(x)}{P(Y{=} y)}}}

donde cada uno Fes una función de densidad.

Si X es discreto e Y es continuo,{displaystyle P(X{=}x|Y{=}y)={frac {f_{Y|X{=}x}(y)P(X{=}x)}{f_{Y}(y)}}.}

Si tanto X como Y son continuos,{displaystyle f_{X|Y{=}y}(x)={frac {f_{Y|X{=}x}(y)f_{X}(x)}{f_{Y}(y) }}.}

Forma extendida

Un espacio de eventos continuo a menudo se conceptualiza en términos de los términos del numerador. Entonces es útil eliminar el denominador usando la ley de probabilidad total. Para f Y (y), esto se convierte en una integral:{displaystyle f_{Y}(y)=int_{-infty}^{infty}f_{Y|X=xi}(y)f_{X}(xi),dxi. }

Regla de Bayes en forma de probabilidades

El teorema de Bayes en forma de probabilidades es:O(A_{1}:A_{2}mid B)=O(A_{1}:A_{2})cdot Lambda (A_{1}:A_{2}mid B)

dondeLambda (A_{1}:A_{2}mid B)={frac {P(Bmid A_{1})}{P(Bmid A_{2})}}

recibe el nombre de factor de Bayes o razón de verosimilitud. La probabilidad entre dos eventos es simplemente la relación de las probabilidades de los dos eventos. Por lo tantoO(A_{1}:A_{2})={frac {P(A_{1})}{P(A_{2})}},{displaystyle O(A_{1}:A_{2}mid B)={frac {P(A_{1}mid B)}{P(A_{2}mid B)}},}

Por lo tanto, la regla dice que las probabilidades posteriores son las probabilidades anteriores multiplicadas por el factor de Bayes, o en otras palabras, la posterior es proporcional a la probabilidad anterior multiplicada por la probabilidad.

En el caso especial de que A_{1}=Ay A_{2}=neg A, se escribe {displaystyle O(A)=O(A:neg A)=P(A)/(1-P(A))}, y se usa una abreviatura similar para el factor de Bayes y para las probabilidades condicionales. Las probabilidades UNson, por definición, las probabilidades a favor y en contra UN. La regla de Bayes se puede escribir en la forma abreviada{displaystyle O(Amid B)=O(A)cdot Lambda (Amid B)}

o, en palabras, las probabilidades posteriores de son UNiguales a las probabilidades anteriores de UNmultiplicar la razón de verosimilitud para UNla información dada B. En resumen, las probabilidades posteriores son iguales a las probabilidades anteriores multiplicadas por la razón de verosimilitud.

Por ejemplo, si una prueba médica tiene una sensibilidad del 90% y una especificidad del 91%, entonces el factor de Bayes positivo es{displaystyle Lambda _{+}=P({text{Verdadero positivo}})/P({text{Falso positivo}})=90%/(100%-91%)=10}. Ahora, si la prevalencia de esta enfermedad es del 9,09 %, y si la tomamos como la probabilidad previa, entonces la probabilidad previa es de aproximadamente 1:10. Entonces, después de recibir un resultado positivo en la prueba, las probabilidades posteriores de tener la enfermedad se vuelven de 1:1; En otras palabras, la probabilidad posterior de tener realmente la enfermedad es del 50%. Si se realiza una segunda prueba en pruebas en serie, y también resulta positiva, entonces la probabilidad posterior de tener la enfermedad se convierte en 10:1, lo que significa una probabilidad posterior de alrededor del 90,91 %. El factor de Bayes negativo puede calcularse en 91 %/(100 %-90 %)=9,1, por lo que si la segunda prueba resulta negativa, la probabilidad posterior de tener la enfermedad es de 1:9,1, lo que significa que probabilidad posterior de alrededor del 9,9%.

El ejemplo anterior también se puede entender con números más sólidos: suponga que el paciente que se hace la prueba pertenece a un grupo de 1000 personas, donde 91 de ellas tienen la enfermedad (prevalencia del 9,1%). Si todas estas 1000 personas se hacen la prueba médica, 82 de las que padecen la enfermedad obtendrán un resultado positivo verdadero (sensibilidad del 90,1 %), 9 de las que padecen la enfermedad obtendrán un resultado falso negativo (tasa de falso negativo del 9,9 %), 827 de los que no tienen la enfermedad obtendrán un resultado negativo verdadero (especificidad del 91,0 %) y 82 de los que no tienen la enfermedad obtendrán un resultado falso positivo (tasa de falso positivo del 9,0 %). Antes de realizar cualquier prueba, la probabilidad de que el paciente tenga la enfermedad es de 91:909. Después de recibir un resultado positivo, la probabilidad de que el paciente tenga la enfermedad es{displaystyle {frac {91}{909}}times {frac {90,1%}{9,0%}}={frac {91times 90,1%}{909times 9,0%}} =1:1}

lo cual es consistente con el hecho de que hay 82 verdaderos positivos y 82 falsos positivos en el grupo de 1000 personas.

Diagrama en árbol del desarrollo del Teorema de Bayes
Diagrama en árbol del desarrollo del Teorema de Bayes

Correspondencia con otros marcos matemáticos

Lógica proposicional

Usando {displaystyle P(neg Bmid A)=1-P(Bmid A)}dos veces, uno puede usar el teorema de Bayes para expresar también {displaystyle P(neg Bmid neg A)}en términos de P(Amedia B)y sin negaciones:{displaystyle P(neg Bmid neg A)=1-left(1-P(Amid B)right){frac {P(B)}{P(neg A)}} },

cuando {displaystyle P(neg A)=1-P(A)neq 0}_ A partir de esto podemos leer la inferencia{displaystyle P(Amid B)=1implica P(neg Bmid neg A)=1}.

En palabras: Si ciertamente Bimplica UN, inferimos que ciertamente neg Aimplica neg B. Donde {displaystyle P(B)neq 0}, siendo ciertas las dos implicaciones, son enunciados equivalentes. En las fórmulas de probabilidad, la probabilidad condicional P(Amedia B)generaliza la implicación lógica {displaystyle Bimplica A}, donde ahora más allá de asignar verdadero o falso, asignamos valores de probabilidad a las declaraciones. La afirmación de {displaystyle Bimplica A}es capturada por la certeza del condicional, la afirmación de {displaystyle PAG(Amid B)=1}. Relacionando las direcciones de implicación, el teorema de Bayes representa una generalización de la ley de contraposición, que en la lógica proposicional clásica se puede expresar como:{displaystyle (Bimplica A)iff (neg Aimplica neg B)}.

Nótese que en esta relación entre implicaciones, las posiciones de UNresp. Bdar la vuelta

La fórmula correspondiente en términos de cálculo de probabilidad es el teorema de Bayes, que en su forma expandida que involucra la probabilidad previa/tasa base unde solo UN, se expresa como:{displaystyle P(Amid B)=P(Bmid A){frac {a(A)}{P(Bmid A),a(A)+P(Bmid neg A),a(neg A)}}}.

Lógica subjetiva

El teorema de Bayes representa un caso especial de derivación de opiniones condicionales invertidas en lógica subjetiva expresada como:{displaystyle (omega_{A{tilde {|}}B}^{S},omega_{A{tilde {|}}lnot B}^{S})=(omega_{ Bmid A}^{S},omega _{Bmid lnot A}^{S}){widetilde {phi }}a_{A},}

donde {displaystyle {widetilde {phi }}}denota el operador para invertir opiniones condicionales. El argumento {displaystyle (omega_{Bmid A}^{S},omega_{Bmid lnot A}^{S})}denota un par de opiniones binomiales condicionales dadas por source S, y el argumento Automóvil club británico}denota la probabilidad previa (también conocida como tasa base) de UN. Se denota el par de opiniones condicionales invertidas derivadas {displaystyle (omega_{A{tilde {|}}B}^{S},omega_{A{tilde {|}}lnot B}^{S})}. La opinión condicional {displaystyle omega_{Amid B}^{S}}generaliza la condicional probabilística P(Amedia B), es decir, además de asignar una probabilidad la fuente Spuede asignar cualquier opinión subjetiva al enunciado condicional { estilo de visualización (A  medio B)}. Una opinión subjetiva binomial { estilo de visualización  omega _ {A}^{S}}es la creencia en la verdad de un enunciado UNcon grados de incertidumbre epistémica, tal como lo expresa la fuente S. Cada opinión subjetiva tiene una probabilidad proyectada correspondiente{displaystyle P(omega_{A}^{S})}. La aplicación del teorema de Bayes a las probabilidades de opiniones proyectadas es un homomorfismo, lo que significa que el teorema de Bayes se puede expresar en términos de probabilidades de opiniones proyectadas:{displaystyle P(omega_{A{tilde {|}}B}^{S})={frac {P(omega_{Bmid A}^{S})a(A)} {P(omega_{Bmid A}^{S})a(A)+P(omega_{Bmid lnot A}^{S})a(lnot A)}}.}

Por lo tanto, el teorema subjetivo de Bayes representa una generalización del teorema de Bayes.

Generalizaciones

Versión condicionada

Una versión condicionada del teorema de Bayes resulta de la adición de un tercer evento Cen el que se condicionan todas las probabilidades:{displaystyle P(Amid Bcap C)={frac {P(Bmid Acap C),P(Amid C)}{P(Bmid C)}}}

Derivación

Usando la regla de la cadena{displaystyle P(Acap Bcap C)=P(Amid Bcap C),P(Bmid C),P(C)}

Y, por otro lado{displaystyle P(Acap Bcap C)=P(Bcap Acap C)=P(Bmid Acap C),P(Amid C),P(C) }

El resultado deseado se obtiene identificando ambas expresiones y resolviendo para {displaystyle PAG(Amid Bcap C)}.

Regla de Bayes con 3 eventos

En el caso de 3 eventos, A, B y C, se puede demostrar que:

{displaystyle P(Amid B,C)={frac {P(Bmid A,C);P(Amid C)}{P(Bmid C)}}}

Prueba

{displaystyle {begin{alineado}P(Amid B,C)&={frac {P(A,B,C)}{P(B,C)}}\[1ex]&={ frac {P(Bmid A,C),P(A,C)}{P(B,C)}}\[1ex]&={frac {P(Bmid A,C) ,P(Amid C),P(C)}{P(B,C)}}\[1ex]&={frac {P(Bmid A,C),P(A mid C)P(C)}{P(Bmid C)P(C)}}\[1ex]&={frac {P(Bmid A,C);P(Amid C)}{P(Bmid C)}}end{alineado}}}

Historia

El teorema de Bayes lleva el nombre del reverendo Thomas Bayes (/ b eɪ z /; c. 1701 - 1761), quien usó por primera vez la probabilidad condicional para proporcionar un algoritmo (su Proposición 9) que usa evidencia para calcular límites en un parámetro desconocido, publicado como Ensayo para resolver un problema en la doctrina de las posibilidades (1763). Estudió cómo calcular una distribución para el parámetro de probabilidad de una distribución binomial (en terminología moderna). A la muerte de Bayes, su familia transfirió sus documentos a su viejo amigo, Richard Price (1723-1791), quien durante un período de dos años editó significativamente el manuscrito inédito, antes de enviárselo a un amigo que lo leyó en voz alta en la Royal Society el 23 de diciembre. 1763. Precio editadoEl trabajo principal de Bayes "Un ensayo para resolver un problema en la doctrina de las posibilidades" (1763), que apareció en Philosophical Transactions y contiene el teorema de Bayes. Price escribió una introducción al artículo que proporciona algunas de las bases filosóficas de las estadísticas bayesianas y eligió una de las dos soluciones ofrecidas por Bayes. En 1765, Price fue elegido miembro de la Royal Society en reconocimiento a su trabajo sobre el legado de Bayes. El 27 de abril, se leyó en la Royal Society una carta enviada a su amigo Benjamin Franklin, y luego se publicó, donde Price aplica este trabajo a la población y al cálculo de las "rentas vitalicias".

Independientemente de Bayes, Pierre-Simon Laplace en 1774, y más tarde en su Théorie analytique des probabilités de 1812, utilizó la probabilidad condicional para formular la relación de una probabilidad posterior actualizada a partir de una probabilidad anterior, dada la evidencia. Reprodujo y amplió los resultados de Bayes en 1774, aparentemente sin conocer el trabajo de Bayes. La interpretación bayesiana de la probabilidad fue desarrollada principalmente por Laplace.

Sir Harold Jeffreys puso el algoritmo de Bayes y la formulación de Laplace sobre una base axiomática, escribiendo que el teorema de Bayes "es para la teoría de la probabilidad lo que el teorema de Pitágoras es para la geometría".

Stephen Stigler usó un argumento bayesiano para concluir que el teorema de Bayes fue descubierto por Nicholas Saunderson, un matemático inglés ciego, algún tiempo antes que Bayes; esa interpretación, sin embargo, ha sido discutida. Martyn Hooper y Sharon McGrayne han argumentado que la contribución de Richard Price fue sustancial:

Según los estándares modernos, deberíamos referirnos a la regla de Bayes-Price. Price descubrió el trabajo de Bayes, reconoció su importancia, lo corrigió, contribuyó al artículo y le encontró un uso. La convención moderna de emplear solo el nombre de Bayes es injusta pero está tan arraigada que cualquier otra cosa tiene poco sentido.

Uso en genética

En genética, el teorema de Bayes se puede utilizar para calcular la probabilidad de que un individuo tenga un genotipo específico. Muchas personas buscan aproximarse a sus posibilidades de verse afectados por una enfermedad genética o su probabilidad de ser portadores de un gen recesivo de interés. Se puede realizar un análisis bayesiano basado en antecedentes familiares o pruebas genéticas, para predecir si un individuo desarrollará una enfermedad o se la transmitirá a sus hijos. Las pruebas y predicciones genéticas son una práctica común entre las parejas que planean tener hijos pero les preocupa que ambos puedan ser portadores de una enfermedad, especialmente en comunidades con baja variación genética.

El primer paso en el análisis bayesiano para la genética es proponer hipótesis mutuamente excluyentes: para un alelo específico, un individuo es o no es portador. A continuación, se calculan cuatro probabilidades: Probabilidad Previa (la probabilidad de que cada hipótesis considere información como antecedentes familiares o predicciones basadas en la Herencia Mendeliana), Probabilidad Condicional (de un resultado determinado), Probabilidad Conjunta (producto de las dos primeras) y Posterior Probabilidad (un producto ponderado calculado dividiendo la Probabilidad Conjunta de cada hipótesis por la suma de ambas probabilidades conjuntas). Este tipo de análisis se puede realizar basándose únicamente en los antecedentes familiares de una afección o junto con pruebas genéticas.

Usar pedigrí para calcular probabilidades

HipótesisHipótesis 1: El paciente es portadorHipótesis 2: El paciente no es portador
probabilidad previa1/21/2
Probabilidad condicional de que los cuatro descendientes no se vean afectados(1/2) · (1/2) · (1/2) · (1/2) = 1/16Alrededor de 1
Probabilidad conjunta(1/2) · (1/16) = 1/32(1/2) · 1 = 1/2
Probabilidad posterior(1/32) / (1/32 + 1/2) = 1/17(1/2) / (1/32 + 1/2) = 16/17

Ejemplo de una tabla de análisis bayesiano para el riesgo de una mujer de padecer una enfermedad basada en el conocimiento de que la enfermedad está presente en sus hermanos pero no en sus padres ni en ninguno de sus cuatro hijos. Basándose únicamente en el estado de los hermanos y padres del sujeto, es igualmente probable que sea portadora que no portadora (esta probabilidad se indica mediante la hipótesis previa). Sin embargo, la probabilidad de que los cuatro hijos del sujeto no se vean afectados es 1/16 (½·½·½·½) si ella es portadora, aproximadamente 1 si no es portadora (esta es la probabilidad condicional). La probabilidad conjunta reconcilia estas dos predicciones multiplicándolas juntas. La última línea (la Probabilidad Posterior) se calcula dividiendo la Probabilidad Conjunta de cada hipótesis por la suma de ambas probabilidades conjuntas.

Uso de los resultados de las pruebas genéticas

Las pruebas genéticas de los padres pueden detectar alrededor del 90 % de los alelos de enfermedades conocidas en los padres que pueden conducir a un estado de portador o afectado en su hijo. La fibrosis quística es una enfermedad hereditaria causada por una mutación autosómica recesiva en el gen CFTR, ubicado en el brazo q del cromosoma 7.

Análisis bayesiano de una paciente con antecedentes familiares de fibrosis quística (FQ), que dio negativo en la prueba de FQ, lo que demuestra cómo se utilizó este método para determinar su riesgo de tener un hijo con FQ:

Debido a que la paciente no está afectada, es homocigota para el alelo de tipo salvaje o heterocigota. Para establecer probabilidades previas se utiliza un cuadro de Punnett, basado en el conocimiento de que ninguno de los padres estaba afectado por la enfermedad pero ambos podrían haber sido portadores:

MadrePadreWHomocigoto para elalelo de tipo salvaje (un no portador)METROHeterocigoto(un portador de FQ)
WHomocigoto para elalelo de tipo salvaje (un no portador)WWmegavatios
METROHeterocigoto (un portador de FQ)megavatiosmilímetro(afectado por fibrosis quística)

Dado que el paciente no está afectado, solo hay tres posibilidades. Dentro de estos tres, existen dos escenarios en los que el paciente porta el alelo mutante. Así, las probabilidades previas son ⅔ y ⅓.

A continuación, el paciente se somete a pruebas genéticas y da negativo para fibrosis quística. Esta prueba tiene una tasa de detección del 90%, por lo que las probabilidades condicionales de una prueba negativa son 1/10 y 1. Finalmente, las probabilidades conjunta y posterior se calculan como antes.

HipótesisHipótesis 1: El paciente es portadorHipótesis 2: El paciente no es portador
probabilidad previa2/31/3
Probabilidad condicional de una prueba negativa1/101
Probabilidad conjunta1/151/3
Probabilidad posterior1/65/6

Después de realizar el mismo análisis en la pareja masculina de la paciente (con un resultado de prueba negativo), las posibilidades de que su hijo se vea afectado es igual al producto de las respectivas probabilidades posteriores de los padres de ser portadores por las posibilidades de que dos portadores produzcan un descendencia afectada (¼).

Pruebas genéticas realizadas en paralelo con la identificación de otros factores de riesgo.

El análisis bayesiano se puede realizar utilizando información fenotípica asociada con una condición genética, y cuando se combina con pruebas genéticas, este análisis se vuelve mucho más complicado. La fibrosis quística, por ejemplo, se puede identificar en un feto a través de una ecografía en busca de un intestino ecogénico, lo que significa que aparece más brillante de lo normal en una exploración2. Esta no es una prueba infalible, ya que un intestino ecogénico puede estar presente en un feto perfectamente sano. Las pruebas genéticas de los padres son muy influyentes en este caso, donde una faceta fenotípica puede ser demasiado influyente en el cálculo de probabilidad. En el caso de un feto con intestino ecogénico, con una madre que ha sido examinada y se sabe que es portadora de FQ, la probabilidad posterior de que el feto realmente tenga la enfermedad es muy alta (0,64). Sin embargo, una vez que el padre ha dado negativo en la prueba de FQ,

El cálculo de los factores de riesgo es una herramienta poderosa en el asesoramiento genético y la planificación reproductiva, pero no puede tratarse como el único factor importante a considerar. Como se indicó anteriormente, las pruebas incompletas pueden generar una probabilidad falsamente alta de ser portador, y las pruebas pueden ser financieramente inaccesibles o inviables cuando uno de los padres no está presente.