Red bayesiana

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Modelo estadístico

Una red bayesiana (también conocida como red bayesiana, red bayesiana, red de creencias o red de decisión) es un modelo gráfico probabilístico que representa un conjunto de variables y sus dependencias condicionales a través de un gráfico acíclico dirigido (DAG). Las redes bayesianas son ideales para tomar un evento que ocurrió y predecir la probabilidad de que cualquiera de varias posibles causas conocidas sea el factor contribuyente. Por ejemplo, una red bayesiana podría representar las relaciones probabilísticas entre enfermedades y síntomas. Dados los síntomas, la red se puede utilizar para calcular las probabilidades de la presencia de diversas enfermedades.

Los algoritmos eficientes pueden realizar inferencias y aprendizaje en redes bayesianas. Las redes bayesianas que modelan secuencias de variables (por ejemplo, señales de voz o secuencias de proteínas) se denominan redes bayesianas dinámicas. Las generalizaciones de las redes bayesianas que pueden representar y resolver problemas de decisión bajo incertidumbre se denominan diagramas de influencia.

Modelo gráfico

Formalmente, las redes bayesianas están dirigidas gráficos acíclicos (DAGs) cuyos nodos representan variables en el sentido Bayesiano: pueden ser cantidades observables, variables latentes, parámetros desconocidos o hipótesis. Los bordes representan dependencias condicionales; los nodos que no están conectados (ninguna ruta conecta un nodo con otro) representan variables que son condicionalmente independientes entre sí. Cada nodo está asociado con una función de probabilidad que toma, como entrada, un conjunto particular de valores para las variables padre del nodo, y da (como salida) la probabilidad (o distribución de probabilidad, si es aplicable) de la variable representada por el nodo. Por ejemplo, si m{displaystyle m} nodos de padres m{displaystyle m} variables booleanas, entonces la función de probabilidad podría ser representada por una tabla de 2m{displaystyle 2^{m} entradas, una entrada para cada una de las 2m{displaystyle 2^{m} posibles combinaciones de padres. Se pueden aplicar ideas similares a gráficos no dirigidos y posiblemente cíclicos, como las redes Markov.

Ejemplo

Una sencilla red bayesiana con tablas de probabilidad condicional

Utilicemos una ilustración para reforzar los conceptos de una red bayesiana. Supongamos que queremos modelar las dependencias entre tres variables: el aspersor (o más apropiadamente, su estado, si está encendido o no), la presencia o ausencia de lluvia y si el césped está mojado o no. Observe que dos eventos pueden hacer que el césped se moje: un rociador activo o la lluvia. La lluvia tiene un efecto directo sobre el uso del rociador (es decir, cuando llueve, el rociador normalmente no está activo). Esta situación se puede modelar con una red bayesiana (que se muestra a la derecha). Cada variable tiene dos valores posibles, T (para verdadero) y F (para falso).

La función de probabilidad conjunta es, por la regla de la cadena de probabilidad,

Pr()G,S,R)=Pr()G▪ ▪ S,R)Pr()S▪ ▪ R)Pr()R){displaystyle Pr(G,S,R)=Pr(Gmid S,R)Pr(Smid R)Pr(R)}

donde G = "Césped mojado (verdadero/falso)", S = "Aspersor encendido (verdadero/falso) ", y R = "Lluvia (verdadero/falso)".

El modelo puede responder preguntas sobre la presencia de una causa dada la presencia de un efecto (la llamada probabilidad inversa) como "¿Cuál es la probabilidad de que esté lloviendo, dado que la hierba está mojada?" usando la fórmula de probabilidad condicional y sumando todas las variables molestas:

Pr()R=T▪ ▪ G=T)=Pr()G=T,R=T)Pr()G=T)=.. x▪ ▪ {}T,F}Pr()G=T,S=x,R=T).. x,Sí.▪ ▪ {}T,F}Pr()G=T,S=x,R=Sí.){displaystyle Pr(R=Tmid G=T)={frac {Pr(G=T,R=T)}{Pr(G=T)}}={frac {sum _{xin {T,F}Pr(G=T,S=x,R=T)}{sum _{x,yin {T,F}Pr(G=T,S=x,R=y)}}

Utilizando la expansión para la función de probabilidad conjunta Pr()G,S,R){displaystyle Pr(G,S,R)} y las probabilidades condicionales de las tablas de probabilidad condicional (CPTs) indicadas en el diagrama, se puede evaluar cada término en las sumas del numerador y el denominador. Por ejemplo,

Pr()G=T,S=T,R=T)=Pr()G=T▪ ▪ S=T,R=T)Pr()S=T▪ ▪ R=T)Pr()R=T)=0.99× × 0,01× × 0.2=0.00198.{displaystyle {begin{aligned}Pr(G=T,S=T,R=T) correspond=Pr(G=Tmid S=T,R=T)Pr(S=Tmid R=T)Pr(R=T)\\fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}

Entonces los resultados numéricos (subíndice de los valores de las variables asociadas) son

Pr()R=T▪ ▪ G=T)=0,00198TTT+0.1584TFT0,00198TTT+0,288TTF+0.1584TFT+0,0TFF=8912491.. 35.77% % .{displaystyle Pr(R=Tmid G=T)={frac {0.00198_{TTT}+0.1584_{TFT}{0.00198_{TTT}+0.288_{TTF}+0.1584_{TFT}+0.0_{TFF}}={frac {891}{2491}approx 35.77%.}

Para responder a una pregunta de intervención, como "¿Cuál es la probabilidad de que llueva, dado que mojamos el pasto?" la respuesta se rige por la función de distribución conjunta posterior a la intervención

Pr()S,R▪ ▪ do()G=T))=Pr()S▪ ▪ R)Pr()R){displaystyle Pr(S,Rmid {text{do}(G=T)=Pr(Smid R)Pr(R)}

obtenido mediante la eliminación del factor Pr()G▪ ▪ S,R){displaystyle Pr(Gmid S,R)} de la distribución previa a la intervención. El operador obliga al valor de G a ser verdad. La probabilidad de lluvia no se ve afectada por la acción:

Pr()R▪ ▪ do()G=T))=Pr()R).{displaystyle Pr(Rmid {text{do}(G=T)=Pr(R).}

Para predecir el impacto de encender el rociador:

Pr()R,G▪ ▪ do()S=T))=Pr()R)Pr()G▪ ▪ R,S=T){displaystyle Pr(R,Gmid {text{do}(S=T)=Pr(R)Pr(Gmid R,S=T)}

con el término Pr()S=T▪ ▪ R){displaystyle Pr(S=Tmid R)} Retirada, mostrando que la acción afecta la hierba pero no la lluvia.

Estas predicciones pueden no ser factibles dadas variables sin reservas, como en la mayoría de los problemas de evaluación de políticas. El efecto de la acción do()x){displaystyle {text{do}(x)} puede todavía ser predicho, sin embargo, cuando el criterio de puerta trasera está satisfecho. Dice que, si un conjunto Z de los nodos se puede observar que d-separados (o bloques) todos los caminos de puerta trasera de X a Y entonces

Pr()Y,Z▪ ▪ do()x))=Pr()Y,Z,X=x)Pr()X=x▪ ▪ Z).{displaystyle Pr(Y,Zmid {text{do}(x)={frac {Pr(Y,Z,X=x)}{Pr(X=xmid Z)}}}}

Un camino de puerta trasera es uno que termina con una flecha en X. Los conjuntos que satisfacen el criterio de puerta trasera se denominan "suficientes" o "admisible." Por ejemplo, el conjunto Z = R es admisible para predecir el efecto de S = T en G, porque R d-separa el (único) camino de la puerta trasera SRG. Sin embargo, si no se observa S, ningún otro conjunto d separa este camino y el efecto de encender el aspersor (S = T) en la hierba (G) no se puede predecir a partir de observaciones pasivas. En ese caso P(G | do(S = T)) no está "identificado&# 34;. Esto refleja el hecho de que, a falta de datos de intervención, la dependencia observada entre S y G se debe a una conexión causal o es espuria (dependencia aparente derivada de una causa común, R). (ver la paradoja de Simpson)

Para determinar si una relación causal se identifica a partir de una red bayesiana arbitraria con variables no observadas, se pueden utilizar las tres reglas del cálculo "do" y pruebe si todos los términos do pueden eliminarse de la expresión de esa relación, confirmando así que la cantidad deseada es estimable a partir de los datos de frecuencia.

Utilizar una red Bayesian puede ahorrar considerables cantidades de memoria sobre tablas de probabilidad exhaustivas, si las dependencias de la distribución conjunta son escasas. Por ejemplo, una forma ingenua de almacenar las probabilidades condicionales de 10 variables de dos valores como tabla requiere espacio de almacenamiento para 210=1024{displaystyle 2^{10}=1024} valores. Si la distribución local de ninguna variable depende de más de tres variables padre, la red Bayesian almacena en su mayoría 10⋅ ⋅ 23=80{displaystyle 10cdot 2^{3}=80} valores.

Una ventaja de las redes bayesianas es que es intuitivamente más fácil para un ser humano comprender (un conjunto escaso de) dependencias directas y distribuciones locales que distribuciones conjuntas completas.

Inferencia y aprendizaje

Las redes bayesianas realizan tres tareas principales de inferencia:

Inferir variables no observadas

Debido a que una red bayesiana es un modelo completo para sus variables y sus relaciones, puede usarse para responder consultas probabilísticas sobre ellas. Por ejemplo, la red se puede utilizar para actualizar el conocimiento del estado de un subconjunto de variables cuando se observan otras variables (las variables de evidencia). Este proceso de calcular la distribución posterior de las variables dadas las pruebas se denomina inferencia probabilística. El posterior proporciona una estadística universal suficiente para aplicaciones de detección, al elegir valores para el subconjunto de variables que minimizan alguna función de pérdida esperada, por ejemplo, la probabilidad de error de decisión. Por lo tanto, una red bayesiana puede considerarse un mecanismo para aplicar automáticamente la red bayesiana. teorema a problemas complejos.

Los métodos de inferencia exacta más comunes son: eliminación de variables, que elimina (por integración o suma) las variables no observadas que no son de consulta una por una al distribuir la suma sobre el producto; la propagación del árbol clique, que almacena en caché el cálculo para que se puedan consultar muchas variables a la vez y se pueda propagar nueva evidencia rápidamente; y el condicionamiento recursivo y la búsqueda AND/OR, que permiten una compensación espacio-temporal y igualan la eficiencia de la eliminación de variables cuando se utiliza suficiente espacio. Todos estos métodos tienen una complejidad exponencial en el ancho del árbol de la red. Los algoritmos de inferencia aproximada más comunes son el muestreo de importancia, la simulación estocástica de MCMC, la eliminación de minicubetas, la propagación de creencias descabelladas, la propagación de creencias generalizadas y los métodos variacionales.

Aprendizaje de parámetros

Para especificar completamente la red bayesiana y así representar completamente la distribución de probabilidad conjunta, es necesario especificar para cada nodo X la distribución de probabilidad para X condicional a Los padres de X's. La distribución de X condicionada a sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o gaussianas ya que simplifica los cálculos. A veces, solo se conocen las limitaciones de la distribución; entonces se puede usar el principio de máxima entropía para determinar una sola distribución, la que tiene la mayor entropía dadas las restricciones. (De manera análoga, en el contexto específico de una red bayesiana dinámica, la distribución condicional para la evolución temporal del estado oculto se especifica comúnmente para maximizar la tasa de entropía del proceso estocástico implícito).

A menudo, estas distribuciones condicionales incluyen parámetros que son desconocidos y deben estimarse a partir de datos, por ejemplo, a través del enfoque de máxima verosimilitud. La maximización directa de la probabilidad (o de la probabilidad posterior) suele ser compleja dadas las variables no observadas. Un enfoque clásico para este problema es el algoritmo de maximización de expectativas, que alterna el cálculo de los valores esperados de las variables no observadas condicionadas a los datos observados, con la maximización de la probabilidad completa (o posterior) asumiendo que los valores esperados previamente calculados son correctos. En condiciones de regularidad suave, este proceso converge en valores de máxima verosimilitud (o máximo posterior) para los parámetros.

Un enfoque más completamente bayesiano de los parámetros es tratarlos como variables no observadas adicionales y calcular una distribución posterior completa sobre todos los nodos condicional a los datos observados, luego integrar los parámetros. Este enfoque puede ser costoso y conducir a modelos de grandes dimensiones, lo que hace que los enfoques clásicos de configuración de parámetros sean más manejables.

Estructura de aprendizaje

En el caso más simple, un experto especifica una red bayesiana y luego se utiliza para realizar inferencias. En otras aplicaciones, la tarea de definir la red es demasiado compleja para los humanos. En este caso, la estructura de la red y los parámetros de las distribuciones locales deben aprenderse de los datos.

Aprender automáticamente la estructura gráfica de una red bayesiana (BN) es un desafío que se persigue dentro del aprendizaje automático. La idea básica se remonta a un algoritmo de recuperación desarrollado por Rebane y Pearl y se basa en la distinción entre los tres posibles patrones permitidos en un DAG de 3 nodos:

Patrones de unión
Patrón Modelo
Cadena X→ → Y→ → Z{displaystyle Xrightarrow Yrightarrow Z}
Fork X← ← Y→ → Z{displaystyle Xleftarrow Yrightarrow Z}
Collider X→ → Y← ← Z{displaystyle Xrightarrow Yleftarrow Z}

Los primeros 2 representan las mismas dependencias (X{displaystyle X} y Z{displaystyle Z} son independientes Y{displaystyle Sí.) y son, por lo tanto, indistinguibles. El colisionador, sin embargo, puede ser identificado únicamente, ya que X{displaystyle X} y Z{displaystyle Z} son marginalmente independientes y todos los otros pares son dependientes. Así, mientras que el esqueletos (los gráficos despojados de flechas) de estos tres tripletes son idénticos, la direccionalidad de las flechas es parcialmente identificable. La misma distinción se aplica cuando X{displaystyle X} y Z{displaystyle Z} tener padres comunes, excepto que uno debe primera condición para esos padres. Se han desarrollado algoritmos para determinar sistemáticamente el esqueleto del gráfico subyacente y, entonces, orientar todas las flechas cuya dirección es dictada por las independencias condicionales observadas.

Un método alternativo de aprendizaje estructural utiliza la búsqueda basada en optimización. Requiere una función de puntuación y una estrategia de búsqueda. Una función de puntuación común es la probabilidad posterior de la estructura dados los datos de entrenamiento, como el BIC o el BDeu. El requisito de tiempo de una búsqueda exhaustiva que devuelve una estructura que maximiza la puntuación es superexponencial en el número de variables. Una estrategia de búsqueda local realiza cambios incrementales destinados a mejorar la puntuación de la estructura. Un algoritmo de búsqueda global como la cadena de Markov Monte Carlo puede evitar quedar atrapado en mínimos locales. Friedman et al. discutir el uso de información mutua entre variables y encontrar una estructura que maximice esto. Lo hacen restringiendo el conjunto de candidatos principales a k nodos y buscando exhaustivamente en ellos.

Un método particularmente rápido para el aprendizaje exacto de BN es convertir el problema en un problema de optimización y resolverlo usando programación entera. Las restricciones de aciclicidad se agregan al programa entero (IP) durante la resolución en forma de planos de corte. Tal método puede manejar problemas con hasta 100 variables.

Para tratar problemas con miles de variables, se necesita un enfoque diferente. Una es probar primero un pedido y luego encontrar la estructura BN óptima con respecto a ese pedido. Esto implica trabajar sobre el espacio de búsqueda de los posibles ordenamientos, lo cual es conveniente ya que es más pequeño que el espacio de estructuras de red. Luego se muestrean y evalúan múltiples pedidos. Este método ha demostrado ser el mejor disponible en la literatura cuando el número de variables es enorme.

Otro método consiste en centrarse en la subclase de modelos descomponibles, para los cuales el MLE tiene una forma cerrada. Entonces es posible descubrir una estructura consistente para cientos de variables.

Es necesario aprender redes bayesianas con ancho de árbol acotado para permitir una inferencia manejable y exacta, ya que la complejidad de la inferencia en el peor de los casos es exponencial en el ancho de árbol k (bajo la hipótesis del tiempo exponencial). Sin embargo, como propiedad global del gráfico, aumenta considerablemente la dificultad del proceso de aprendizaje. En este contexto, es posible utilizar K-tree para un aprendizaje eficaz.

Introducción estadística

Datos dados x{displaystyle x,!} y parámetro Silencio Silencio {displaystyle theta }, un simple análisis bayesiano comienza con una probabilidad previa (anteriores) p()Silencio Silencio ){displaystyle p(theta)} y probabilidad p()x▪ ▪ Silencio Silencio ){displaystyle p(xmid theta)} para calcular una probabilidad posterior p()Silencio Silencio ▪ ▪ x)∝ ∝ p()x▪ ▪ Silencio Silencio )p()Silencio Silencio ){displaystyle p(theta mid x)propto p(xmid theta)p(theta)}.

A menudo el anterior Silencio Silencio {displaystyle theta } depende a la vez de otros parámetros φ φ {displaystyle varphi } que no se mencionan en la probabilidad. Así que, el anterior p()Silencio Silencio ){displaystyle p(theta)} debe ser reemplazado por una probabilidad p()Silencio Silencio ▪ ▪ φ φ ){displaystyle p(theta mid varphi)}, y un anterior p()φ φ ){displaystyle p(varphi)} sobre los parámetros recientemente introducidos φ φ {displaystyle varphi } se requiere, resultando en una probabilidad posterior

p()Silencio Silencio ,φ φ ▪ ▪ x)∝ ∝ p()x▪ ▪ Silencio Silencio )p()Silencio Silencio ▪ ▪ φ φ )p()φ φ ).{displaystyle p(thetavarphi mid x)propto p(xmid theta)p(theta mid varphi)p(varphi).}

Este es el ejemplo más simple de un modelo Bayesiano jerárquico.

El proceso puede repetirse; por ejemplo, los parámetros φ φ {displaystyle varphi } puede depender a su vez de parámetros adicionales ↑ ↑ {displaystyle psi ,!}, que requieren su propio antes. Eventualmente el proceso debe terminar, con antecedentes que no dependen de parámetros no mencionados.

Ejemplos introductorios

Dada la cantidad medida x1,...... ,xn{displaystyle x_{1},dotsx_{n},!cada uno con errores normalmente distribuidos de la desviación estándar conocida σ σ {displaystyle sigma ,!},

xi♪ ♪ N()Silencio Silencio i,σ σ 2){displaystyle x_{i}sim N(theta _{i},sigma ^{2}}

Supongamos que estamos interesados en estimar el Silencio Silencio i{displaystyle theta _{i}. Un enfoque sería estimar el Silencio Silencio i{displaystyle theta _{i} usando un enfoque de probabilidad máxima; ya que las observaciones son independientes, la probabilidad factoriza y la estimación de probabilidad máxima es simplemente

Silencio Silencio i=xi.{displaystyle theta - Sí.

Sin embargo, si las cantidades están relacionadas, de modo que por ejemplo el individuo Silencio Silencio i{displaystyle theta _{i}se han extraído de una distribución subyacente, entonces esta relación destruye la independencia y sugiere un modelo más complejo, por ejemplo,

xi♪ ♪ N()Silencio Silencio i,σ σ 2),{displaystyle x_{i}sim N(theta _{i},sigma ^{2}),}
Silencio Silencio i♪ ♪ N()φ φ ,τ τ 2),{displaystyle theta _{i}sim N(varphitau ^{2}),}

con antecedentes impropios φ φ ♪ ♪ plana{displaystyle varphi sim {text{flat}}, τ τ ♪ ♪ plana▪ ▪ ()0,JUEGO JUEGO ){displaystyle tau sim {text{flat}in (0,infty)}. Cuando n≥ ≥ 3{displaystyle ngeq 3}, esto es un modelo identificado (es decir, existe una solución única para los parámetros del modelo), y las distribuciones posteriores del individuo Silencio Silencio i{displaystyle theta _{i} tiende a moverse, o Reducir lejos de las estimaciones de probabilidad máxima hacia su promedio común. Esto contracción es un comportamiento típico en los modelos jerárquicos de Bayes.

Restricciones en antecedentes

Se necesita algún cuidado cuando se eligen los antecedentes en un modelo jerárquico, especialmente en las variables de escala a niveles superiores de la jerarquía como la variable τ τ {displaystyle tau ,!} en el ejemplo. Los antecedentes habituales como los Jeffreys anteriores a menudo no funcionan, porque la distribución posterior no será normalizable y las estimaciones hechas al minimizar la pérdida esperada serán inadmisibles.

Definiciones y conceptos

Se han ofrecido varias definiciones equivalentes de una red bayesiana. Para lo siguiente, sea G = (V,E) un gráfico acíclico dirigido (DAG) y sea X = (Xv), vV sea un conjunto de variables indexadas por V.

Definición de factorización

X es una red bayesiana con respecto a G si su función de densidad de probabilidad conjunta (con respecto a una medida del producto) se puede escribir como un producto de la densidad individual funciones, condicionadas a sus variables padre:

p()x)=∏ ∏ v▪ ▪ Vp()xvSilencioxpa⁡ ⁡ ()v)){displaystyle p(x)=prod _{vin V}pleft(x_{v},{big ¿Qué?

donde pa(v) es el conjunto de padres de v (es decir, esos vértices que apuntan directamente a v a través de un único borde).

Para cualquier conjunto de variables aleatorias, la probabilidad de cualquier miembro de una distribución conjunta se puede calcular a partir de probabilidades condicionales usando la regla de la cadena (dado un orden topológico de X) de la siguiente manera:

P⁡ ⁡ ()X1=x1,...... ,Xn=xn)=∏ ∏ v=1nP⁡ ⁡ ()Xv=xv▪ ▪ Xv+1=xv+1,...... ,Xn=xn){displaystyle operatorname {P} (X_{1}=x_{1},ldotsX_{n}=x_{n}=prod ################################################################################################################################################################################################################################################################ {P} left(X_{v}=x_{v}mid X_{v+1}=x_{v+1},ldotsX_{n}=x_{n}right)}

Usando la definición anterior, esto se puede escribir como:

P⁡ ⁡ ()X1=x1,...... ,Xn=xn)=∏ ∏ v=1nP⁡ ⁡ ()Xv=xv▪ ▪ Xj=xjpara cada unoXjque es un padreXv){displaystyle operatorname {P} (X_{1}=x_{1},ldotsX_{n}=x_{n}=prod ################################################################################################################################################################################################################################################################ [P] (X_{v}=x_{v}mid X_{j}=x_{j}{text{ for each }X_{j},{text{ that is a parent of }X_{v})}

La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no descendientes, dados los valores de sus variables principales.

Propiedad local de Markov

X es una red bayesiana con respecto a G si cumple la propiedad local de Markov: cada variable es condicionalmente independiente de su no- descendientes dadas sus variables padre:

Xv⊥ ⊥ ⊥ ⊥ XV∖ ∖ de⁡ ⁡ ()v)▪ ▪ Xpa⁡ ⁡ ()v)para todosv▪ ▪ V{displaystyle X_{v}perp !!perp X_{V,smallsetminus ,operatorname {de}mid X_{operatorname {pa}quad {text{for all }vin V}

donde de(v) es el conjunto de descendientes y V de(v) es el conjunto de no descendientes de v.

Esto se puede expresar en términos similares a la primera definición, como

P⁡ ⁡ ()Xv=xv▪ ▪ Xi=xipara cada unoXique no es un descendiente deXv)=P()Xv=xv▪ ▪ Xj=xjpara cada unoXjque es un padreXv){displaystyle {begin{aligned} [P] (X_{v}=x_{v}mid X_{i}=x_{i}{text{ for each }X_{i}{text{ that is not a descendant of }X_{v})\[6pt]={}= {}=x_{v}mid ¿Por qué?

El conjunto de padres es un subconjunto del conjunto de no descendientes porque el gráfico es acíclico.

Desarrollo de redes bayesianas

El desarrollo de una red bayesiana suele comenzar con la creación de un DAG G tal que X satisfaga la propiedad local de Markov con respecto a G. A veces, este es un DAG causal. Se evalúan las distribuciones de probabilidad condicional de cada variable dados sus padres en G. En muchos casos, en particular cuando las variables son discretas, si la distribución conjunta de X es el producto de estas distribuciones condicionales, entonces X es una red bayesiana con respecto a G.

Manta Markov

La manta de Markov de un nodo es el conjunto de nodos que consta de sus padres, sus hijos y cualquier otro padre de sus hijos. La manta de Markov hace que el nodo sea independiente del resto de la red; la distribución conjunta de las variables en el manto de Markov de un nodo es conocimiento suficiente para calcular la distribución del nodo. X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demás nodos de la red, dada su manta de Markov.

Separación D

Esta definición se puede hacer más general definiendo la separación "d" de dos nodos, donde d significa direccional. Primero definimos la separación "d" de un camino y luego definiremos la separación "d" de dos nodos en términos de eso.

Sea P un camino desde el nodo u hasta v. Un camino es un camino sin bucles, no dirigido (es decir, se ignoran todas las direcciones de los bordes) entre dos nodos. Entonces se dice que P está d separado por un conjunto de nodos Z si se cumple alguna de las siguientes condiciones:

  • P contiene (pero no necesita ser completamente) una cadena dirigida, u⋯ ⋯ ← ← m← ← ⋯ ⋯ v{displaystyle ucdots leftarrow mleftarrow cdots v} o u⋯ ⋯ → → m→ → ⋯ ⋯ v{displaystyle ucdots rightarrow mrightarrow cdots v}, tal que el nodo medio m está dentro Z,
  • P contiene un tenedor, u⋯ ⋯ ← ← m→ → ⋯ ⋯ v{displaystyle ucdots leftarrow mrightarrow cdots v}, tal que el nodo medio m está dentro Z, o
  • P contiene un tenedor invertido (o colisionador), u⋯ ⋯ → → m← ← ⋯ ⋯ v{displaystyle ucdots rightarrow mleftarrow cdots v}, tal que el nodo medio m no está Z y no descendiente de m está dentro Z.

Los nodos u y v están d separados por Z si todos los senderos entre ellos son d-separados. Si u y v no están d-separados, están d-conectados.

X es una red bayesiana con respecto a G si, para dos nodos cualesquiera u, v:

Xu⊥ ⊥ ⊥ ⊥ Xv▪ ▪ XZ{displaystyle X_{u}perp ¡Oh!

donde Z es un conjunto que d separa u y v. (La manta de Markov es el conjunto mínimo de nodos que d separa el nodo v de todos los demás nodos).

Redes causales

Aunque las redes bayesianas a menudo se usan para representar relaciones causales, este no tiene por qué ser el caso: un borde dirigido de u a v no requiere que X v sea causalmente dependiente de Xu. Esto se demuestra por el hecho de que las redes bayesianas en los gráficos:

a→ → b→ → cya← ← b← ← c{displaystyle arightarrow bqquad {text{and}qquad aleftarrow bleftarrow c}

son equivalentes: es decir, imponen exactamente los mismos requisitos de independencia condicional.

Una red causal es una red bayesiana con el requisito de que las relaciones sean causales. La semántica adicional de las redes causales especifica que si un nodo X se encuentra activamente en un estado determinado x (una acción escrita como do(X = x)), entonces la función de densidad de probabilidad cambia a la de la red obtenida cortando los enlaces de los padres de X a X, y estableciendo X en el valor causado x. Usando esta semántica, se puede predecir el impacto de las intervenciones externas a partir de los datos obtenidos antes de la intervención.

Complejidad de inferencia y algoritmos de aproximación

En 1990, mientras trabajaba en la Universidad de Stanford en grandes aplicaciones bioinformáticas, Cooper demostró que la inferencia exacta en redes bayesianas es NP-difícil. Este resultado impulsó la investigación sobre algoritmos de aproximación con el objetivo de desarrollar una aproximación manejable a la inferencia probabilística. En 1993, Paul Dagum y Michael Luby demostraron dos resultados sorprendentes sobre la complejidad de la aproximación de la inferencia probabilística en redes bayesianas. Primero, demostraron que ningún algoritmo determinista manejable puede aproximar la inferencia probabilística dentro de un error absoluto ɛ < 1/2. En segundo lugar, demostraron que ningún algoritmo aleatorio manejable puede aproximar la inferencia probabilística dentro de un error absoluto ɛ < 1/2 con probabilidad de confianza mayor que 1/2.

Más o menos al mismo tiempo, Roth demostró que la inferencia exacta en las redes bayesianas es, de hecho, #P-completa (y, por lo tanto, tan difícil como contar el número de asignaciones satisfactorias de una fórmula de forma normal conjuntiva (CNF)) y que la inferencia aproximada dentro de un factor 2n1−ɛ por cada ɛ > 0, incluso para redes bayesianas con arquitectura restringida, es NP-duro.

En términos prácticos, estos resultados de complejidad sugirieron que, si bien las redes Bayesian eran ricas representaciones para aplicaciones de IA y machine learning, su uso en grandes aplicaciones del mundo real tendría que ser atenuado por limitaciones estructurales topológicas, como las redes ingenuas Bayes o por restricciones a las probabilidades condicionales. El algoritmo de varianza atado desarrollado por Dagum y Luby fue el primer algoritmo de aproximación rápida provable para aproximar eficientemente la inferencia probabilística en las redes Bayesianas con garantías sobre la aproximación del error. Este potente algoritmo requirió la restricción menor de las probabilidades condicionales de la red Bayesian para ser atado lejos de cero y uno por 1/p()n){displaystyle 1/p(n)} Donde p()n){displaystyle p(n)} era cualquier polinomio del número de nodos en la red, n{displaystyle n}.

Software

El software destacado para redes bayesianas incluye:

  • Otro sampler de Gibbs (JAGS) – alternativa de código abierto a WinBUGS. Usa el muestreo de Gibbs.
  • OpenBUGS – Desarrollo de código abierto de WinBUGS.
  • SPSS Modeler – Software comercial que incluye una implementación para redes Bayesian.
  • Stan (software) – Stan es un paquete de código abierto para obtener la inferencia Bayesiana usando el sampler No-U-Turn (NUTS), una variante de Hamiltonian Monte Carlo.
  • PyMC3 – Una biblioteca de Python que implementa un lenguaje específico de dominio integrado para representar redes bayesianas, y una variedad de samplers (incluyendo NUTS)
  • WinBUGS – Una de las primeras implementaciones computacionales de los samplers MCMC. Ya no se mantiene.

Historia

El término red bayesiana fue acuñado por Judea Pearl en 1985 para enfatizar:

  • la naturaleza a menudo subjetiva de la información de entrada
  • la dependencia del condicionamiento de Bayes como base para actualizar la información
  • la distinción entre modos causales y evidentes de razonamiento

A fines de la década de 1980, el Razonamiento probabilístico en sistemas inteligentes de Pearl y el Razonamiento probabilístico en sistemas expertos de Napolitan resumieron sus propiedades y las establecieron como un campo de estudio.

Contenido relacionado

Recorte

Recorte puede referirse...

1930

La década de 1930 fue una década que comenzó el 1 de enero de 1930 y terminó el 31 de diciembre de 1939. En los Estados Unidos, el Dust Bowl llevó al...

Fisgón

Snooper puede referirse...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save