Probabilidad condicionada

Compartir Imprimir Citar

En la teoría de la probabilidad, la probabilidad condicional o condicionada es una medida de la probabilidad de que ocurra un evento, dado que ya ha ocurrido otro evento (por suposición, presunción, afirmación o evidencia). Este método particular se basa en que el evento B ocurra con algún tipo de relación con otro evento A. En este evento, el evento B se puede analizar mediante una probabilidad condicional con respecto a A. Si el evento de interés es A y se conoce el evento B o se supone que ha ocurrido, "la probabilidad condicional de A dada B ", o "la probabilidad de A bajo la condición B ", se escribe generalmente como P(A |B) u ocasionalmente P B (A). Esto también se puede entender como la fracción de probabilidad B que se cruza con A:{displaystyle P(Amid B)={frac {P(Acap B)}{P(B)}}}.

Por ejemplo, la probabilidad de que una persona determinada tenga tos en un día determinado puede ser solo del 5 %. Pero si sabemos o asumimos que la persona está enferma, es mucho más probable que esté tosiendo. Por ejemplo, la probabilidad condicional de que alguien indispuesto (enfermo) esté tosiendo podría ser del 75 %, en cuyo caso tendríamos que P(Tos) = 5 % y P(Tos|Enfermo) = 75 %. Aunque existe una relación entre A y B en este ejemplo, tal relación o dependencia entre A y B no es necesaria, ni tienen que ocurrir simultáneamente.

P(A | B) puede o no ser igual a P(A) (la probabilidad incondicional de A). Si P(A | B) = P(A), entonces se dice que los eventos A y B son independientes: en tal caso, el conocimiento sobre cualquiera de los eventos no altera la probabilidad del otro. P(A | B) (la probabilidad condicional de A dado B) normalmente difiere de P(B | A). Por ejemplo, si una persona tiene fiebre del dengue, la persona podría tener un 90 % de posibilidades de que la prueba dé positivo para la enfermedad. En este caso lo que se está midiendo es que si ha ocurrido el evento B (tener dengue), la probabilidad de que A (da positivo) dado que B haya ocurrido es del 90%, simplemente escribiendo P(A | B) = 90%. Alternativamente, si una persona resulta positiva para la fiebre del dengue, es posible que tenga solo un 15% de posibilidades de tener esta rara enfermedad debido a las altas tasas de falsos positivos. En este caso, la probabilidad del evento B (tener dengue) dado que el eventoA (prueba positiva) ha ocurrido es 15% o P(B | A) = 15%. Debería ser evidente ahora que equiparar falsamente las dos probabilidades puede conducir a varios errores de razonamiento, lo que comúnmente se ve a través de falacias de tasa base.

Si bien las probabilidades condicionales pueden proporcionar información extremadamente útil, a menudo se proporciona o se dispone de información limitada. Por lo tanto, puede ser útil invertir o convertir una condición de probabilidad utilizando el teorema de Bayes: {displaystyle P(A|B)={{P(B|A)*P(A)} sobre {P(B)}}}. Otra opción es mostrar probabilidades condicionales en la tabla de probabilidad condicional para iluminar la relación entre eventos.

Definición

Condicionamiento en un evento

Kolmogorov definición

Dados dos eventos A y B del campo sigma de un espacio de probabilidad, siendo la probabilidad incondicional de B mayor que cero (es decir, P(B) > 0), la probabilidad condicional de A dado B (P(Amedia B)) es la probabilidad de A ocurre si B ha ocurrido o se supone que ha ocurrido. Se supone que A es un conjunto de todos los resultados posibles de un experimento o ensayo aleatorio que tiene un espacio muestral restringido o reducido. La probabilidad condicional se puede encontrar por el cociente de la probabilidad de la intersección conjunta de los eventos A y B (P(Acap B)) -- la probabilidad de que A y B ocurran juntos, aunque no necesariamente al mismo tiempo -- y la probabilidad de que B:{displaystyle P(Amid B)={frac {P(Acap B)}{P(B)}}}.

Para un espacio de muestra que consta de resultados de igual probabilidad, la probabilidad del evento A se entiende como la fracción del número de resultados en A al número de todos los resultados en el espacio de muestra. Entonces, esta ecuación se entiende como la fracción del conjunto Acap Bal conjunto B. Tenga en cuenta que la ecuación anterior es una definición, no solo un resultado teórico. Denotamos la cantidad {displaystyle {frac {P(Acap B)}{P(B)}}}como P(Amedia B)y la llamamos "probabilidad condicional de A dada B ".

Como axioma de probabilidad

Algunos autores, como de Finetti, prefieren introducir la probabilidad condicional como axioma de probabilidad:{displaystyle P(Acap B)=P(Amid B)P(B)}.

Esta ecuación para una probabilidad condicional, aunque matemáticamente equivalente, puede ser intuitivamente más fácil de entender. Puede interpretarse como "la probabilidad de que ocurra B multiplicada por la probabilidad de que ocurra A, siempre que haya ocurrido B, es igual a la probabilidad de que ocurran A y B juntas, aunque no necesariamente ocurran al mismo tiempo". Además, esto puede preferirse filosóficamente; bajo las principales interpretaciones de probabilidad, como la teoría subjetiva, la probabilidad condicional se considera una entidad primitiva. Además, esta "regla de la multiplicación" puede ser útil en la práctica para calcular la probabilidad deAcap Be introduce una simetría con el axioma de suma para eventos mutuamente excluyentes:{displaystyle P(Ataza B)=P(A)+P(B)-P(Atapa B)}Por lo tanto, las ecuaciones se pueden combinar para encontrar una nueva representación de:{displaystyle P(Acap B)=P(A)+P(B)-P(Acup B)=P(Amid B)P(B)}{displaystyle P(Acup B)={P(A)+P(B)-P(Amid B){P(B)}}}

Como la probabilidad de un evento condicional

La probabilidad condicional se puede definir como la probabilidad de un evento condicional A_B. El evento condicional Goodman-Nguyen-Van Fraassen se puede definir como:<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1b75c66970fec28effaaae9ec34d57c3ce26f1c5" alt="{displaystyle A_{B}=bigcup_{igeq 1}left(bigcap_{j, donde { estilo de visualización A_ {i}}y {displaystyle B_{yo}}representan estados o elementos de A o B.

Se puede demostrar que{displaystyle P(A_{B})={frac {P(Acap B)}{P(B)}}}

que cumple con la definición de Kolmogorov de probabilidad condicional.

Condicionando a un evento de probabilidad cero

Si { estilo de visualización P (B) = 0}, entonces de acuerdo con la definición, { estilo de visualización PAG (A | B)}no está definido.

El caso de mayor interés es el de una variable aleatoria Y, condicionada a una variable aleatoria continua X que resulta en un resultado particular x. El evento {displaystyle B={X=x}}tiene probabilidad cero y, como tal, no se puede condicionar.

En lugar de condicionar que X sea exactamente x, podríamos condicionar que esté más cerca que la distancia epsilonde x. El evento <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/3f351755fa9de6813abcfa3eb7f2ecd2860d9060" alt="{displaystyle B={x-epsilon <Xgeneralmente tendrá una probabilidad distinta de cero y, por lo tanto, se puede condicionar. Entonces podemos tomar el límite<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/7bef6a45d0832b65d626f18ea09e1d7b086b5392" alt="{displaystyle lim _{epsilon to 0}P(Amid x-epsilon <X

Por ejemplo, si dos variables aleatorias continuas X e Y tienen una densidad conjunta f_{{X,Y}}(x,y), entonces por la regla de L'Hôpital y la regla integral de Leibniz, al diferenciar con respecto a epsilon:<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/e134d1ee99413a49e4545931eb0db36ed10f966c" alt="{displaystyle {begin{alineado}lim_{epsilon to 0}P(Yin Umid x_{0}-epsilon <X

El límite resultante es la distribución de probabilidad condicional de Y dada X y existe cuando el denominador, la densidad de probabilidad { estilo de visualización f_ {X} (x_ {0})}, es estrictamente positivo.

Es tentador definir la probabilidad indefinida { estilo de visualización PAG (A | X = x)}usando este límite, pero esto no se puede hacer de manera consistente. En particular, es posible encontrar variables aleatorias X y W y valores x, w tales que los eventos { estilo de visualización  {X = x }}y { estilo de visualización  {W = w }}sean idénticos pero los límites resultantes no lo sean:{displaystyle lim_{epsilon to 0}P(Amid x-epsilon leq Xleq x+epsilon)neq lim_{epsilon to 0}P(Amid w- epsilon leq Wleq w+epsilon).}

La paradoja de Borel-Kolmogorov demuestra esto con un argumento geométrico.

Condicionamiento en una variable aleatoria discreta

Sea X una variable aleatoria discreta y sus posibles resultados sean V. Por ejemplo, si X representa el valor de un dado lanzado, entonces V es el conjunto { estilo de visualización  {1,2,3,4,5,6}}. Supongamos por el bien de la presentación que X es una variable aleatoria discreta, de modo que cada valor en V tiene una probabilidad distinta de cero.

Para un valor x en V y un evento A, la probabilidad condicional viene dada por {displaystyle PAG(Amid X=x)}. Escritura{displaystyle c(x,A)=P(Amid X=x)}

para abreviar, vemos que es una función de dos variables, x y A.

Para una A fija, podemos formar la variable aleatoria { estilo de visualización Y = c (X, A)}. Representa un resultado de cada vez que se observa {displaystyle PAG(Amid X=x)}un valor x de X.

La probabilidad condicional de A dada X puede ser tratada como una variable aleatoria Y con resultados en el intervalo [0,1]. De la ley de probabilidad total, su valor esperado es igual a la probabilidad incondicional de A.

Probabilidad condicional parcial

La probabilidad condicional parcial {displaystyle PAG(Amid B_{1}equiv b_{1},ldots,B_{m}equiv b_{m})} se trata de la probabilidad de un evento UNdado que cada uno de los eventos condicionales Bi}ha ocurrido en un grado bi}(grado de creencia, grado de experiencia) que puede ser diferente del 100 %. Frecuentemente, la probabilidad condicional parcial tiene sentido si las condiciones se prueban en repeticiones de experimentos de longitud apropiada norte. Tal norteprobabilidad condicional parcial acotada se puede definir como la ocurrencia promedio condicionalmente esperada de un evento UNen bancos de prueba de longitud norteque se adhiere a todas las especificaciones de probabilidad {displaystyle B_{i}equiv b_{i}}, es decir:{displaystyle P^{n}(Amid B_{1}equiv b_{1},ldots,B_{m}equiv b_{m})=operatorname {E} ({overline {A} }^{n}mid {overline {B}}_{1}^{n}=b_{1},ldots,{overline {B}}_{m}^{n}=b_{m })}

Basado en eso, la probabilidad condicional parcial se puede definir como{displaystyle P(Amid B_{1}equiv b_{1},ldots,B_{m}equiv b_{m})=lim _{nto infty }P^{n}(Amid B_{1}equiv b_{1},ldots,B_{m}equiv b_{m}),}

donde{displaystyle b_{i}nen mathbb {N} }

La condicionalización de Jeffrey es un caso especial de probabilidad condicional parcial, en el que los eventos de condición deben formar una partición:{displaystyle PAG(Amid B_{1}equiv b_{1},ldots,B_{m}equiv b_{m})=sum _{i=1}^{m}b_{i} P(Amid B_{i})}

Ejemplo

Supongamos que alguien lanza en secreto dos dados justos de seis caras y deseamos calcular la probabilidad de que el valor boca arriba del primero sea 2, dada la información de que su suma no es mayor que 5.

  • Sea D 1 el valor lanzado en el dado 1.
  • Sea D 2 el valor lanzado en el dado 2.

Probabilidad de que D 1 = 2

La Tabla 1 muestra el espacio de muestra de 36 combinaciones de valores lanzados de los dos dados, cada uno de los cuales ocurre con probabilidad 1/36, con los números que se muestran en las celdas de color rojo y gris oscuro siendo D 1 + D 2.

D 1 = 2 en exactamente 6 de los 36 resultados; por lo tanto PAGS (re 1 = 2) = 636 = 16:

+D 2
123456
D 11234567
2345678
3456789
45678910
567891011
6789101112

Probabilidad de que D 1 + D 2 ≤ 5

La Tabla 2 muestra que D 1 + D 2 ≤ 5 para exactamente 10 de los 36 resultados, por lo tanto P (D 1 + D 2 ≤ 5) = 1036:

+D 2
123456
D 11234567
2345678
3456789
45678910
567891011
6789101112

Probabilidad de que D 1 = 2 dado que D 1 + D 2 ≤ 5

La Tabla 3 muestra que para 3 de estos 10 resultados, D 1 = 2.

Por lo tanto, la probabilidad condicional P(D 1 = 2 | D 1 + D 2 ≤ 5) = 310 = 0.3:

+D 2
123456
D 11234567
2345678
3456789
45678910
567891011
6789101112

Aquí, en la notación anterior para la definición de probabilidad condicional, el evento condicionante B es que D 1 + D 2 ≤ 5, y el evento A es D 1 = 2. Tenemos {displaystyle P(Amid B)={tfrac {P(Acap B)}{P(B)}}={tfrac {3/36}{10/36}}={tfrac { 3}{10}},}como se ve en la tabla.

Uso en inferencia

En inferencia estadística, la probabilidad condicional es una actualización de la probabilidad de un evento basada en nueva información. La nueva información se puede incorporar de la siguiente manera:

  • Sea A, el evento de interés, en el espacio muestral, digamos (X, P).
  • La ocurrencia del evento A sabiendo que el evento B ha ocurrido o habrá ocurrido, significa la ocurrencia de A ya que está restringida a B, es decir Acap B.
  • Sin el conocimiento de la ocurrencia de B, la información sobre la ocurrencia de A sería simplemente P (A)
  • La probabilidad de que A sepa que el evento B ha ocurrido o habrá ocurrido, será la probabilidad de Acap Brelativa a P (B), la probabilidad de que B haya ocurrido.
  • Esto da como resultado {textstyle P(A|B)=P(Acap B)/P(B)}siempre que P (B) > 0 y 0 en caso contrario.

Este enfoque da como resultado una medida de probabilidad que es consistente con la medida de probabilidad original y satisface todos los axiomas de Kolmogorov. Esta medida de probabilidad condicional también podría haber resultado de suponer que la magnitud relativa de la probabilidad de A con respecto a X se preservará con respecto a B (cf. Derivación formal a continuación).

La expresión "evidencia" o "información" se usa generalmente en la interpretación bayesiana de la probabilidad. El evento condicionante se interpreta como evidencia del evento condicionado. Es decir, P (A) es la probabilidad de A antes de contabilizar la evidencia E, y P (A | E) es la probabilidad de A después de haber contabilizado la evidencia E o después de haber actualizado P (A). Esto es consistente con la interpretación frecuentista, que es la primera definición dada arriba.

Uso en inferencia Ejemplo

Cuando se transmite el código Morse, existe cierta probabilidad de que el "punto" o "guión" que se recibió sea erróneo. Esto a menudo se toma como una interferencia en la transmisión de un mensaje. Por lo tanto, es importante considerar al enviar un "punto", por ejemplo, la probabilidad de que se haya recibido un "punto". Esto está representado por: {displaystyle P(punto enviadopunto mediorecibido)=P(puntorecibidopunto medioenviado){frac {P(puntoenviado)}{P(puntorecibido)}}.}En el código Morse, la proporción de puntos a guiones es de 3:4 en el punto de envío, por lo que la probabilidad de un "punto" y un "guión" es {displaystyle P(punto enviado)={frac {3}{7}} y P(guión enviado)={frac {4}{7}}}. Si se supone que la probabilidad de que un punto se transmita como una raya es 1/10, y que la probabilidad de que una raya se transmita como un punto es también 1/10, entonces se puede usar la regla de Bayes para calcular {displaystyle P(punto recibido)}.

{displaystyle P(puntorecibido)=P(puntorecibido\cappuntoenviado)+P(puntorecibido\capguionenviado)}
{displaystyle P(puntorecibido)=P(puntorecibidomedio puntoenviado)P(puntoenviado)+P(puntorecibidomedio guiónenviado)P(guiónenviado)}
{displaystyle P(punto recibido)={frac {9}{10}}times {frac {3}{7}}+{frac {1}{10}}times {frac {4 {7}}={ fracción {31}{70}}}

Ahora, {displaystyle P(punto enviadopunto mediorecibido)}se puede calcular:

{displaystyle P(punto enviadopunto mediorecibido)=P(puntorecibidopunto medioenviado){frac {P(puntoenviado)}{P(puntorecibido)}}={frac {9}{10}}times {frac {frac {3}{7}}{frac {31}{70}}}={frac {27}{31}}}

Independencia estadística

Los eventos A y B se definen como estadísticamente independientes si la intersección de A y B es igual a la probabilidad de Acdot B:{displaystyle P(Acap B)=P(A)P(B).}

Si P (B) no es cero, entonces esto es equivalente a la afirmación de que{displaystyle P(Amid B)=P(A).}

De manera similar, si P (A) no es cero, entonces{displaystyle P(Bmid A)=P(B)}

también es equivalente. Aunque las formas derivadas pueden parecer más intuitivas, no son la definición preferida ya que las probabilidades condicionales pueden no estar definidas y la definición preferida es simétrica en A y B. La independencia no se refiere a un evento disjunto. También se debe tener en cuenta que dado el par de eventos independientes [AB] y una variable B, el par es condicionalmente independiente se define como condicionalmente independiente si el producto se cumple:

{displaystyle P(AB|C)=P(A|C)P(B|C)}

Este teorema podría ser útil en aplicaciones donde se observan múltiples eventos independientes.

Eventos independientes frente a eventos mutuamente excluyentes

Los conceptos de eventos mutuamente independientes y eventos mutuamente excluyentes son separados y distintos. La siguiente tabla contrasta los resultados para los dos casos (siempre que la probabilidad del evento condicionante no sea cero).

Si es estadísticamente independienteSi son mutuamente excluyentes
{displaystyle PAG(Amid B)=}PENSILVANIA)0
{displaystyle P(Bmid A)=}P(B)0
{displaystyle PAG(Acap B)=}{ Displaystyle PAG (A) PAG (B)}0

De hecho, los eventos mutuamente excluyentes no pueden ser estadísticamente independientes (a menos que ambos sean imposibles), ya que saber que uno ocurre da información sobre el otro (en particular, que este último ciertamente no ocurrirá).

Falacias comunes

Estas falacias no deben confundirse con la "falacia condicional" de Robert K. Shope de 1978, que trata con ejemplos contrafactuales que plantean la pregunta.

Suponiendo que la probabilidad condicional es de tamaño similar a su inversa

En general, no se puede suponer que P (A | B) ≈ P (B | A). Esto puede ser un error insidioso, incluso para aquellos que están muy familiarizados con las estadísticas. La relación entre P (A | B) y P (B | A) viene dada por el teorema de Bayes:{displaystyle {begin{alineado}P(Bmid A)&={frac {P(Amid B)P(B)}{P(A)}}\Leftrightarrow {frac {P (Bmid A)}{P(Amid B)}}&={frac {P(B)}{P(A)}}end{alineado}}}

Es decir, P(A | B) ≈ P(B | A) solo si P (B)/ P (A) ≈ 1, o de manera equivalente, P (A) ≈ P (B).

Suponiendo que las probabilidades marginales y condicionales son de tamaño similar

En general, no se puede suponer que P (A) ≈ P (A | B). Estas probabilidades están vinculadas a través de la ley de probabilidad total:{displaystyle P(A)=sum_{n}P(Acap B_{n})=sum_{n}P(Amid B_{n})P(B_{n}).}

donde los eventos (B_{n})forman una partición contable de Omega.

Esta falacia puede surgir a través del sesgo de selección. Por ejemplo, en el contexto de un reclamo médico, sea S C el evento de que una secuela (enfermedad crónica) S ocurra como consecuencia de la circunstancia (condición aguda) C. Sea H el evento de que un individuo busque ayuda médica. Suponga que en la mayoría de los casos, C no causa S (por lo que P (S C) es bajo). Supongamos también que sólo se busca atención médica si S ha ocurrido debido a C. A partir de la experiencia de los pacientes, un médico puede concluir erróneamente que P (SC) es alto. La probabilidad real observada por el médico es P ( S C | H).

Sobreponderación o subponderación de anteriores

No tener en cuenta la probabilidad previa de forma parcial o total se denomina negligencia de la tasa base. El ajuste inverso, insuficiente de la probabilidad previa es conservadurismo.

Derivación formal

Formalmente, P (A | B) se define como la probabilidad de A de acuerdo con una nueva función de probabilidad en el espacio muestral, de modo que los resultados que no están en B tienen probabilidad 0 y que es consistente con todas las medidas de probabilidad originales.

Sea Ω un espacio muestral con eventos elementales { ω }, y sea P la medida de probabilidad con respecto al álgebra σ de Ω. Supongamos que se nos dice que ha ocurrido el evento B ⊆ Ω. Se debe asignar una nueva distribución de probabilidad (denotada por la notación condicional) en { ω } para reflejar esto. Todos los eventos que no están en B tendrán probabilidad nula en la nueva distribución. Para eventos en B, se deben cumplir dos condiciones: la probabilidad de B es uno y se deben preservar las magnitudes relativas de las probabilidades. Lo primero es requerido por los axiomas de probabilidad, y lo segundo surge del hecho de que la nueva medida de probabilidad tiene que ser el análogo deP en el que la probabilidad de B es uno, y cada evento que no está en B, por lo tanto, tiene una probabilidad nula. Por lo tanto, para algún factor de escala α, la nueva distribución debe satisfacer:

  1. {displaystyle omega in B:P(omega mid B)=alpha P(omega)}
  2. {displaystyle omega notin B:P(omega mid B)=0}
  3. {displaystyle sum _{omega in Omega }{P(omega mid B)}=1.}

Sustituyendo 1 y 2 en 3 para seleccionar α:{displaystyle {begin{alineado}1&=sum_{omega in Omega }{P(omega mid B)}\&=sum_{omega in B}{P( omega mid B)}+{cancelto {0}{sum _{omega notin B}P(omega mid B)}}\&=alpha sum _{omega in B} {P(omega)}\[5pt]&=alpha cdot P(B)\[5pt]Rightarrow alpha &={frac {1}{P(B)}}end{alineado }}}

Entonces la nueva distribución de probabilidad es

  1. {displaystyle omega in B:P(omega mid B)={frac {P(omega)}{P(B)}}}
  2. {displaystyle omega notin B:P(omega mid B)=0}

Ahora para un evento general A,{displaystyle {begin{alineado}P(Amid B)&=sum _{omega in Acap B}{P(omega mid B)}+{cancelto {0}{ sum _{omega in Acap B^{c}}P(omega mid B)}}\&=sum _{omega in Acap B}{frac {P( omega)}{P(B)}}\[5pt]&={frac {P(Acap B)}{P(B)}}end{alineado}}}