Independencia condicional

Ajustar Compartir Imprimir Citar

En la teoría de la probabilidad, la independencia condicional describe situaciones en las que una observación es irrelevante o redundante al evaluar la certeza de una hipótesis. La independencia condicional generalmente se formula en términos de probabilidad condicional, como un caso especial donde la probabilidad de la hipótesis dada la observación no informativa es igual a la probabilidad sin ella. Si UNes la hipótesis, y By Cson observaciones, la independencia condicional se puede establecer como una igualdad:{displaystyle P(Amid B,C)=P(Amid C)}

donde {displaystyle PAG(Amid B,C)}es la probabilidad de UNdados ambos By C. Dado que la probabilidad de UNdado Ces la misma que la probabilidad de UNdados ambos By C, esta igualdad expresa que Bno contribuye en nada a la certeza de UN. En este caso, UNy Bse dice que son condicionalmente independientes dados C, escritos simbólicamente como: {displaystyle (Aperp!!!perp Bmid C)}.

El concepto de independencia condicional es esencial para las teorías de inferencia estadística basadas en gráficos, ya que establece una relación matemática entre una colección de declaraciones condicionales y un grafoide.

Independencia condicional de eventos.

Sean eventos UN, By C. UNy Bse dice que son condicionalmente independientes dado Csi y solo si 0}">y:{displaystyle P(Amid B,C)=P(Amid C)}

Esta propiedad a menudo se escribe: {displaystyle (Aperp!!!perp Bmid C)}.

De manera equivalente, la independencia condicional se puede establecer como:{ estilo de visualización PAG (A, B | C) = PAG (A | C) PAG (B | C)}

donde { estilo de visualización PAG (A, B | C)}es la probabilidad conjunta de UNy Bdada C. Esta formulación alternativa establece que UNy Bson eventos independientes, dados C.

Prueba de la definición equivalente

{displaystyle P(A,Bmid C)=P(Amid C)P(Bmid C)}iff {displaystyle {frac {P(A,B,C)}{P(C)}}=left({frac {P(A,C)}{P(C)}}right)left ({frac{P(B,C)}{P(C)}}right)} (definición de probabilidad condicional)iff {displaystyle P(A,B,C)={frac {P(A,C)P(B,C)}{P(C)}}} (multiplica ambos lados por ORDENADOR PERSONAL))iff {displaystyle {frac {P(A,B,C)}{P(B,C)}}={frac {P(A,C)}{P(C)}}} (dividir ambos lados por { estilo de visualización PAG (B, C)})iff {displaystyle P(Amid B,C)=P(Amid C)} (definición de probabilidad condicional)por lo tanto

Ejemplos

La discusión sobre StackExchange proporciona un par de ejemplos útiles. Vea abajo.

Cajas de colores

Cada celda representa un resultado posible. Los eventos { estilo de visualización  color {rojo} R}, { estilo de visualización  color {azul} B}y {displaystyle color {dorado}Y}están representados por las áreas sombreadas en rojo, azul y amarillo respectivamente. La superposición entre los eventos { estilo de visualización  color {rojo} R}y { estilo de visualización  color {azul} B}está sombreada de color púrpura.

Estos son dos ejemplos que ilustran la independencia condicional.

Las probabilidades de estos eventos son áreas sombreadas con respecto al área total. En ambos ejemplos { estilo de visualización  color {rojo} R}y { estilo de visualización  color {azul} B}son condicionalmente independientes dadas {displaystyle color {dorado}Y}porque:{displaystyle Pr({color {rojo}R},{color {azul}B}mid {color {dorado}Y})=Pr({color {rojo}R}mid { color {oro}Y})Pr({color {azul}B}mid {color {oro}Y})}

pero no condicionalmente independiente dado {displaystyle left[{text{no}}{color {dorado}Y}right]}porque:{displaystyle Pr({color {rojo}R},{color {azul}B}mid {text{no}}{color {dorado}Y})not =Pr({color {rojo}R}mid {text{no}}{color {dorado}Y})Pr({color {azul}B}mid {text{no}}{color {dorado}Y })}

Clima y retrasos

Sean los dos eventos las probabilidades de que las personas A y B lleguen a casa a tiempo para cenar, y el tercer evento es el hecho de que una tormenta de nieve azote la ciudad. Si bien tanto A como B tienen una menor probabilidad de llegar a casa a tiempo para la cena, las probabilidades más bajas seguirán siendo independientes entre sí. Es decir, el conocimiento de que A llega tarde no te dice si B llegará tarde. (Pueden estar viviendo en diferentes vecindarios, viajando diferentes distancias y usando diferentes modos de transporte). Sin embargo, si tiene información de que viven en el mismo vecindario, usan el mismo transporte y trabajan en el mismo lugar, entonces los dos Los eventos NO son condicionalmente independientes.

Lanzamiento de dados

La independencia condicional depende de la naturaleza del tercer evento. Si lanza dos dados, se puede suponer que los dos dados se comportan de forma independiente. Mirar los resultados de un dado no le informará sobre el resultado del segundo dado. (Es decir, los dos dados son independientes). Sin embargo, si el resultado del primer dado es un 3 y alguien le informa sobre un tercer evento, que la suma de los dos resultados es par, entonces esta unidad adicional de información restringe el opciones para el segundo resultado a un número impar. En otras palabras, dos eventos pueden ser independientes, pero NO condicionalmente independientes.

Altura y vocabulario

La altura y el vocabulario dependen, ya que las personas muy pequeñas tienden a ser niños, conocidos por sus vocabularios más básicos. Pero sabiendo que dos personas tienen 19 años (es decir, condicionado a la edad) no hay razón para pensar que el vocabulario de una persona es mayor si se nos dice que es más alta.

Independencia condicional de variables aleatorias

Dos variables aleatorias Xy Yson condicionalmente independientes dada una tercera variable aleatoria discreta Zsi y solo si son independientes en su distribución de probabilidad condicional dada Z. Es decir, Xy Yson condicionalmente independientes dados Zsi y solo si, dado cualquier valor de Z, la distribución de probabilidad de Xes la misma para todos los valores de Yy la distribución de probabilidad de Yes la misma para todos los valores de X. Formalmente:

{displaystyle (Xperp !!!perp Y)mid Zquad iff quad F_{X,Y,mid ,Z,=,z}(x,y) =F_{X,mid ,Z,=,z}(x)cdot F_{Y,mid ,Z,=,z}(y)quad {text{para todo }}x,y,z} (Ec.2)

donde {displaystyle F_{X,Y,mid ,Z,=,z}(x,y)=Pr(Xleq x,Yleq ymid Z=z)}es la función de distribución acumulativa condicional de Xy Ydada Z.

Dos eventos Ry Bson condicionalmente independientes dada una σ-álgebra Sigmasi{displaystyle Pr(R,Bmid Sigma)=Pr(Rmid Sigma)Pr(Bmid Sigma){text{ como}}}

donde Pr(Amid Sigma)denota la expectativa condicional de la función indicadora del evento UN, chi _{A}dada el álgebra sigma Sigma. Es decir,Pr(Amid Sigma):=operatorname {E} [chi _{A}mid Sigma ].

Dos variables aleatorias Xy Yson condicionalmente independientes dada una σ-álgebra Sigmasi la ecuación anterior se cumple para todo Rin sigma (X)y Bin sigma(Y).

Dos variables aleatorias Xy Yson condicionalmente independientes dada una variable aleatoria Wsi son independientes dada σ (W): la σ-álgebra generada por W. Esto se escribe comúnmente:Xperp !!!perp Ymid WoXperp Ymid W

Esto se lee " Xes independiente de Y, dado W"; el condicionamiento se aplica a todo el enunciado: "(Xes independiente de Y) dado W".(Xperp !!!perp Y)mid W

Si Wasume un conjunto de valores contables, esto equivale a la independencia condicional de X e Y para los eventos de la forma { estilo de visualización [W = w]}. La independencia condicional de más de dos eventos, o de más de dos variables aleatorias, se define de manera análoga.

Los siguientes dos ejemplos muestran que ni implica ni está implícito en. Primero, supongamos que es 0 con una probabilidad de 0,5 y 1 en caso contrario. Cuando W = 0 tomar y ser independientes, teniendo cada uno el valor 0 con probabilidad 0.99 y el valor 1 en caso contrario. Cuando, y son nuevamente independientes, pero esta vez toman el valor 1 con probabilidad 0.99. entonces _ Pero y son dependientes, porque Pr(X = 0) < Pr(X = 0| Y = 0). Esto se debe a que Pr(X = 0) = 0,5, pero si Y = 0, es muy probable que W = 0 y, por lo tanto, que XXperp !!!perp Y (Xperp !!!perp Y)mid WWXY{ estilo de visualización W = 1}XY(Xperp !!!perp Y)mid WXY = 0 también, entonces Pr(X = 0| Y = 0) > 0.5. Para el segundo ejemplo, suponga que Xperp !!!perp Ycada uno toma los valores 0 y 1 con una probabilidad de 0,5. Sea Wel producto {displaystyle Xcdot Y}. Entonces cuando W=0, Pr(X = 0) = 2/3, pero Pr(X = 0| Y = 0) = 1/2, entonces (Xperp !!!perp Y)mid Wes falso. Este es también un ejemplo de Explicación. Vea el tutorial de Kevin Murphy donde Xy Ytome los valores "inteligente" y "deportivo".

Independencia condicional de vectores aleatorios

Dos vectores aleatorios {displaystyle mathbf {X} =(X_{1},ldots,X_{l})^{mathrm {T} }}y {displaystyle mathbf {Y} =(Y_{1},ldots,Y_{m})^{mathrm {T} }}son condicionalmente independientes dado un tercer vector aleatorio {displaystyle mathbf {Z} =(Z_{1},ldots,Z_{n})^{mathrm {T} }}si y solo si son independientes en su distribución acumulativa condicional dada mathbf{Z}. Formalmente:

{displaystyle (mathbf {X} perp !!!perp mathbf {Y})mid mathbf {Z} quad iff quad F_{mathbf {X},mathbf {Y } |mathbf {Z} =mathbf {z} }(mathbf {x},mathbf {y})=F_{mathbf {X} ,mid ,mathbf {Z} ,=,mathbf {z} }(mathbf {x})cdot F_{mathbf {Y} ,mid ,mathbf {Z} ,=,mathbf {z} }(mathbf {y })quad {text{para todos}}mathbf {x},mathbf {y},mathbf {z} } (Ec.3)

donde {displaystyle mathbf {x} =(x_{1},ldots,x_{l})^{mathrm {T} }}, {displaystyle mathbf {y} =(y_{1},ldots,y_{m})^{mathrm {T} }}y {displaystyle mathbf {z} =(z_{1},ldots,z_{n})^{mathrm {T} }}y las distribuciones acumulativas condicionales se definen de la siguiente manera.{displaystyle {begin{alineado}F_{mathbf {X},mathbf {Y} ,mid ,mathbf {Z} ,=,mathbf {z} }(mathbf {x},mathbf {y})&=Pr(X_{1}leq x_{1},ldots,X_{l}leq x_{l},Y_{1}leq y_{1},ldots,Y_{m}leq y_{m}mid Z_{1}=z_{1},ldots,Z_{n}=z_{n})\[6pt]F_{mathbf {X} , mid ,mathbf {Z} ,=,mathbf {z} }(mathbf {x})&=Pr(X_{1}leq x_{1},ldots,X_{l} leq x_{l}mid Z_{1}=z_{1},ldots,Z_{n}=z_{n})\[6pt]F_{mathbf {Y} ,mid , mathbf {Z} ,=,mathbf {z} }(mathbf {y})&=Pr(Y_{1}leq y_{1},ldots,Y_{m}leq y_{m }mid Z_{1}=z_{1},ldots,Z_{n}=z_{n})end{alineado}}}

Usos en la inferencia bayesiana

Sea p la proporción de votantes que votarán "sí" en un próximo referéndum. Al realizar una encuesta de opinión, se eligen n votantes al azar de la población. Para i = 1, …, n, sea X i = 1 ó 0 correspondiente, respectivamente, a si el i -ésimo votante elegido votará o no "sí".

En un enfoque frecuentista de la inferencia estadística, uno no atribuiría ninguna distribución de probabilidad a p (a menos que las probabilidades pudieran interpretarse de alguna manera como frecuencias relativas de ocurrencia de algún evento o como proporciones de alguna población) y uno diría que X 1, …, X n son variables aleatorias independientes.

Por el contrario, en un enfoque bayesiano de la inferencia estadística, uno asignaría una distribución de probabilidad a p independientemente de la inexistencia de tal interpretación de "frecuencia", y uno interpretaría las probabilidades como grados de creencia de que p está en cualquier intervalo a que se le asigna una probabilidad. En ese modelo, las variables aleatorias X 1, …, X n no son independientes, pero son condicionalmente independientes dado el valor de p. En particular, si se observa que un gran número de X s es igual a 1, eso implicaría una alta probabilidad condicional, dada esa observación, de que pestá cerca de 1 y, por lo tanto, una alta probabilidad condicional, dada esa observación, de que la próxima X que se observe sea igual a 1.

Reglas de independencia condicional

De la definición básica se deriva un conjunto de reglas que rigen las declaraciones de independencia condicional.

Estas reglas fueron denominadas "Axiomas de grafoides" por Pearl y Paz, porque se cumplen en grafos, donde Xperp !!!perp Amid Bse interpreta que significa: "Todos los caminos de X a A son interceptados por el conjunto B ".

Simetría

Xperp !!!perp Yquad Rightarrow quad Yperp !!!perp X

Descomposición

Xperp !!!perp A,Bquad Rightarrow quad {text{ and }}{begin{cases}Xperp !!!perp A\Xperp !!!perp Bend{casos}}

Prueba

Una prueba similar muestra la independencia de X y B.

Unión débil

Xperp !!!perp A,Bquad Rightarrow quad {text{ and }}{begin{cases}Xperp !!!perp Amid B\ Xperp !!!perp Bmid Aend{casos}}

Prueba

La segunda condición se puede probar de manera similar.

Contracción

left.{begin{aligned}Xperp !!!perp Amid B\Xperp !!!perp Bend{aligned}}right}{ texto{ y }}quad Rightarrow quad Xperp !!!perp A,B

Prueba

Esta propiedad se puede probar observando Pr(Xmid A,B)=Pr(Xmid B)=Pr(X), cada una de las cuales se afirma mediante Xperp !!!perp Amid By Xperp !!!perp B, respectivamente.

Intersección

Para distribuciones de probabilidad estrictamente positivas, también se cumple lo siguiente:{displaystyle left.{begin{aligned}Xperp !!!perp Ymid Z,W\Xperp !!!perp Wmid Z,Yend {alineado}}right}{text{ y }}quad Rightarrow quad Xperp !!!perp W,Ymid Z}

Prueba

Por suposición:{displaystyle P(X|Z,W,Y)=P(X|Z,W)land P(X|Z,W,Y)=P(X|Z,Y)implica P(X|Z,Y)=P(X|Z,W)}

Usando esta igualdad, junto con la Ley de probabilidad total aplicada a { estilo de visualización P (X | Z)}:{displaystyle {begin{alineado}P(X|Z)&=sum _{win W}P(X|Z,W=w)P(W=w|Z)\[4pt]& =sum_{win W}P(X|Y,Z)P(W=w|Z)\[4pt]&=P(X|Z,Y)sum_{win W} P(W=w|Z)\[4pt]&=P(X|Z,Y)end{alineado}}}

Dado que {displaystyle P(X|Z,W,Y)=P(X|Z,Y)}y {displaystyle P(X|Z,Y)=P(X|Z)}, se sigue que {displaystyle P(X|Z,W,Y)=P(X|Z)iff Xperp !!!perp Y,W|Z}.

Nota técnica: dado que estas implicaciones son válidas para cualquier espacio de probabilidad, seguirán siendo válidas si se considera un subuniverso condicionando todo a otra variable, digamos K. Por ejemplo, Xperp !!!perp YRightarrow Yperp !!!perp Xtambién significaría que Xperp !!!perp Ymid KRightarrow Yperp !!!perp Xmid K.