Muestreo de gibbs
En estadística, el muestreo de Gibbs o un muestreador de Gibbs es un algoritmo de Monte Carlo de cadena de Markov (MCMC) para obtener una secuencia de observaciones que se aproximan a partir de una probabilidad multivariada específica. distribución, cuando el muestreo directo es difícil. Esta secuencia se puede utilizar para aproximar la distribución conjunta (por ejemplo, para generar un histograma de la distribución); aproximar la distribución marginal de una de las variables, o algún subconjunto de las variables (por ejemplo, los parámetros desconocidos o las variables latentes); o para calcular una integral (como el valor esperado de una de las variables). Normalmente, algunas de las variables corresponden a observaciones cuyos valores se conocen y, por tanto, no es necesario muestrearlas.
El muestreo de Gibbs se utiliza comúnmente como medio de inferencia estadística, especialmente la inferencia bayesiana. Es un algoritmo aleatorio (es decir, un algoritmo que utiliza números aleatorios) y es una alternativa a los algoritmos deterministas para la inferencia estadística, como el algoritmo de maximización de expectativas (EM).
Al igual que con otros algoritmos MCMC, el muestreo de Gibbs genera una cadena de muestras de Markov, cada una de las cuales se correlaciona con muestras cercanas. Como resultado, se debe tener cuidado si se desean muestras independientes. Generalmente, las muestras del comienzo de la cadena (el período de precinto) pueden no representar con precisión la distribución deseada y, por lo general, se descartan.
Introducción
El muestreo de Gibbs lleva el nombre del físico Josiah Willard Gibbs, en referencia a una analogía entre el algoritmo de muestreo y la física estadística. El algoritmo fue descrito por los hermanos Stuart y Donald Geman en 1984, unas ocho décadas después de la muerte de Gibbs, y se popularizó en la comunidad estadística para calcular la distribución de probabilidad marginal, especialmente la distribución posterior.
En su versión básica, el muestreo de Gibbs es un caso especial del algoritmo Metropolis-Hastings. Sin embargo, en sus versiones ampliadas (ver más abajo), se puede considerar un marco general para el muestreo de un gran conjunto de variables, muestreando cada variable (o en algunos casos, cada grupo de variables) por turno, y puede incorporar Metropolis– Algoritmo de Hastings (o métodos como el muestreo por cortes) para implementar uno o más de los pasos de muestreo.
El muestreo de Gibbs es aplicable cuando la distribución conjunta no se conoce explícitamente o es difícil tomar muestras directamente, pero la distribución condicional de cada variable se conoce y es fácil (o al menos más fácil) tomar muestras. El algoritmo de muestreo de Gibbs genera una instancia a partir de la distribución de cada variable, condicionada a los valores actuales de las otras variables. Se puede demostrar que la secuencia de muestras constituye una cadena de Markov, y la distribución estacionaria de esa cadena de Markov es simplemente la distribución conjunta buscada.
El muestreo de Gibbs está particularmente bien adaptado para muestrear la distribución posterior de una red bayesiana, ya que las redes bayesianas generalmente se especifican como una colección de distribuciones condicionales.
Implementación
El muestreo de Gibbs, en su encarnación básica, es un caso especial del algoritmo de Metropolis-Hastings. El punto de muestreo de Gibbs es que, dada una distribución multivariada, es más simple probar de una distribución condicional que marginar al integrarse sobre una distribución conjunta. Supongamos que queremos obtener muestras de de una distribución conjunta . Denote el muestra por . Procedemos de la siguiente manera:
- Comenzamos con algún valor inicial .
- Queremos la siguiente muestra. Llame a esta siguiente muestra . Desde es un vector, muestramos cada componente del vector, , de la distribución de ese componente condicionado a todos los demás componentes muestreados hasta ahora. Pero hay una captura: condicionamos 's componentes hasta , y con posterioridad 's componentes, a partir de a . Para lograrlo, muestramos los componentes en orden, empezando por el primer componente. Más formalmente, para probar , lo actualizamos según la distribución especificada por . Utilizamos el valor que el t componente had in the muestra, no la muestra.
- Repita el paso anterior veces.
Propiedades
Si se realiza dicho muestreo, se cumplen estos hechos importantes:
- Las muestras aproximan la distribución conjunta de todas las variables.
- La distribución marginal de cualquier subconjunto de variables se puede aproximar simplemente considerando las muestras para ese subconjunto de variables, ignorando el resto.
- El valor esperado de cualquier variable se puede aproximar mediante el promedio de todas las muestras.
Al realizar el muestreo:
- Los valores iniciales de las variables se pueden determinar aleatoriamente o por algún otro algoritmo como expectativa-maximización.
- En realidad no es necesario determinar un valor inicial para la primera variable mostrada.
- Es común ignorar algunas muestras al principio (las llamadas Quemaduras en el período), y luego considerar sólo cada muestra cuando promedio valores para calcular una expectativa. Por ejemplo, las primeras 1.000 muestras podrían ser ignoradas, y luego cada 100 muestras promediadas, arrojando todo el resto. La razón de esto es que (1) la distribución estacionaria de la cadena Markov es la distribución conjunta deseada sobre las variables, pero puede tomar un tiempo para que esa distribución estacionaria sea alcanzada; (2) muestras sucesivas no son independientes entre sí pero forman una cadena Markov con cierta cantidad de correlación. A veces, los algoritmos se pueden utilizar para determinar la cantidad de autocorrelación entre muestras y el valor de (el período entre las muestras que se utilizan realmente) computed de esto, pero en la práctica hay una cantidad justa de "magia negra" implicada.
- El proceso de aneación simulada se utiliza a menudo para reducir el comportamiento de "aleatoria" en la parte temprana del proceso de muestreo (es decir, la tendencia a moverse lentamente alrededor del espacio de la muestra, con una alta cantidad de autocorrelación entre muestras, en lugar de moverse rápidamente, como se desea). Otras técnicas que pueden reducir la autocorrelación son colapsada Gibbs muestreo, bloqueado el muestreo de Gibbs, y ordenada sobreenfase; ver abajo.
Relación de distribución condicional y distribución conjunta
Además, la distribución condicional de una variable dadas todas las demás es proporcional a la distribución conjunta:
"Proporcional a" en este caso significa que el denominador no es una función y así es lo mismo para todos los valores ; forma parte de la constante de normalización para la distribución sobre . En la práctica, determinar la naturaleza de la distribución condicional de un factor , es más fácil tener en cuenta la distribución conjunta según las distribuciones condicionadas individuales definidas por el modelo gráfico sobre las variables, ignorar todos los factores que no son funciones de (todos los cuales, junto con el denominador anterior, constituyen la constante de normalización), y luego restablecen la constante de normalización al final, según sea necesario. En la práctica, esto significa hacer una de las tres cosas:
- Si la distribución es discreta, las probabilidades individuales de todos los valores posibles de son computados, y luego resumidos para encontrar la constante de normalización.
- Si la distribución es continua y de forma conocida, también se conocerá la constante de normalización.
- En otros casos, la constante de normalización suele ser ignorada, ya que la mayoría de los métodos de muestreo no lo requieren.
Inferencia
El muestreo de Gibbs se utiliza comúnmente para inferencia estadística (por ejemplo, determinar el mejor valor de un parámetro, como determinar el número de personas que probablemente comprarán en una tienda en particular en un día determinado, el candidato por el que un votante probablemente votará, etc.). La idea es que los datos observados se incorporen al proceso de muestreo creando variables separadas para cada dato observado y fijando las variables en cuestión a sus valores observados, en lugar de tomar muestras de esas variables. La distribución de las variables restantes es entonces efectivamente una distribución posterior condicionada a los datos observados.
El valor más probable de un parámetro deseado (la moda) podría seleccionarse simplemente eligiendo el valor de muestra que ocurre con mayor frecuencia; esto es esencialmente equivalente a la estimación máxima a posteriori de un parámetro. (Dado que los parámetros suelen ser continuos, a menudo es necesario "agrupar" los valores muestreados en uno de un número finito de rangos o "agrupaciones" para obtener una estimación significativa de la modo.) Más comúnmente, sin embargo, se elige el valor esperado (media o promedio) de los valores muestreados; Este es un estimador Bayes que aprovecha los datos adicionales sobre toda la distribución que están disponibles a partir del muestreo bayesiano, mientras que un algoritmo de maximización como la maximización de expectativas (EM) es capaz de devolver solo un punto de la distribución. Por ejemplo, para una distribución unimodal, la media (valor esperado) suele ser similar a la moda (valor más común), pero si la distribución está sesgada en una dirección, la media se moverá en esa dirección, lo que efectivamente representa el extra. masa de probabilidad en esa dirección. (Si una distribución es multimodal, es posible que el valor esperado no devuelva un punto significativo y cualquiera de las modas suele ser una mejor opción).
Aunque algunas de las variables normalmente corresponden a parámetros de interés, otras son variables poco interesantes ("molestas") introducidas en el modelo para expresar adecuadamente las relaciones entre variables. Aunque los valores muestreados representan la distribución conjunta de todas las variables, las variables molestas pueden simplemente ignorarse al calcular los valores o modas esperados; esto equivale a marginar a las variables molestas. Cuando se desea un valor para múltiples variables, el valor esperado simplemente se calcula para cada variable por separado. (Sin embargo, al calcular la moda, todas las variables deben considerarse juntas).
El aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje semisupervisado (también conocido como aprendizaje con valores faltantes) se pueden manejar simplemente fijando los valores de todas las variables cuyos valores se conocen y tomando muestras del resto.
Para los datos observados, habrá una variable para cada observación, en lugar de, por ejemplo, una variable correspondiente a la media muestral o la varianza muestral de un conjunto de observaciones. De hecho, generalmente no habrá ninguna variable que corresponda a conceptos como "media muestral" o "varianza muestral". En cambio, en tal caso habrá variables que representen la media verdadera desconocida y la varianza verdadera, y la determinación de los valores muestrales para estas variables resultará automáticamente de la operación del muestreador de Gibbs.
A veces, el muestreo de Gibbs también puede manejar modelos lineales generalizados (es decir, variaciones de regresión lineal). Por ejemplo, la regresión probit para determinar la probabilidad de una elección binaria determinada (sí/no), con antecedentes normalmente distribuidos colocados sobre los coeficientes de regresión, se puede implementar con el muestreo de Gibbs porque es posible agregar variables adicionales y aprovechar la conjugación. Sin embargo, la regresión logística no se puede manejar de esta manera. Una posibilidad es aproximar la función logística con una mezcla (normalmente 7 a 9) de distribuciones normales. Sin embargo, lo más habitual es que se utilice Metropolis-Hastings en lugar del muestreo de Gibbs.
Antecedentes matemáticos
Supongamos que una muestra se toma de una distribución dependiendo de un vector de parámetro de longitud , con distribución previa . Puede ser que es muy grande y esa integración numérica para encontrar las densidades marginales de las sería computacionalmente caro. Entonces un método alternativo para calcular las densidades marginales es crear una cadena Markov en el espacio repitiendo estos dos pasos:
- Escoge un índice aleatorio
- Escoja un nuevo valor para según
Estos pasos definen una cadena de Markov reversible con la distribución invariable deseada . Esto puede probarse como sigue. Define si para todos y dejar denota la probabilidad de un salto desde a . Entonces, las probabilidades de transición son
Así que
desde entonces es una relación de equivalencia. Así las ecuaciones de balance detalladas están satisfechas, lo que implica que la cadena es reversible y tiene distribución invariante .
En la práctica, el índice no es elegido al azar, y los ciclos de cadena a través de los índices en orden. En general esto da un proceso no estacionario de Markov, pero cada paso individual seguirá siendo reversible, y el proceso general todavía tendrá la distribución estacionaria deseada (si la cadena puede acceder a todos los estados bajo el orden fijo).
Muestreador de Gibbs en la inferencia bayesiana y su relación con la teoría de la información
Vamos denota observaciones generadas por la distribución del muestreo y ser un soporte previo en el espacio del parámetro . Entonces uno de los objetivos centrales de las estadísticas Bayesianas es aproximar la densidad posterior
donde la probabilidad marginal se supone que es finito para todos .
Para explicar el sampler de Gibbs, asumimos además que el espacio del parámetro está descompuesto
- ,
Donde representa el producto cartesiano. Cada parámetro de componente espacio puede ser un conjunto de componentes de escalar, subvectores o matrices.
Definir un conjunto que complementa la . Los ingredientes esenciales del sampler Gibbs es el - la distribución posterior condicional completa para cada
- .


El siguiente algoritmo detalla una muestra genérica de Gibbs:
Tenga en cuenta que Gibbs sampler es operado por el esquema iterante Monte Carlo dentro de un ciclo. El Número de muestras dibujado por el algoritmo anterior formula Markov Chains con la distribución invariante para ser la densidad de destino .
Ahora, para cada uno , definir las siguientes cantidades teóricas de información:
a saber, información mutua posterior, entropía diferencial posterior y entropía diferencial condicional posterior, respectivamente. También podemos definir cantidades teóricas de información , , y intercambiando el y en las cantidades definidas. Entonces, lo siguiente las ecuaciones sostienen.
.
La información mutua cuantifica la reducción de la incertidumbre de la cantidad aleatoria una vez que sabemos , a posteriori. Se desvanece si y sólo si y son marginalmente independientes, a posterior. La información mutua puede ser interpretado como la cantidad que se transmite de la - el paso al -el paso dentro de un solo ciclo del sampler Gibbs.
Variaciones y ampliaciones
Existen numerosas variaciones del muestreador básico de Gibbs. El objetivo de estas variaciones es reducir la autocorrelación entre muestras lo suficiente como para superar cualquier costo computacional adicional.
Muestreador de Gibbs bloqueado
- A bloqueado Gibbs sampler agrupa dos o más variables juntas y muestras de su distribución conjunta condicionadas a todas las demás variables, en lugar de muestrear de cada una individualmente. Por ejemplo, en un modelo oculto de Markov, un sampler bloqueado de Gibbs podría probar de todas las variables latentes que componen la cadena Markov en una sola marcha, utilizando el algoritmo hacia adelante.
Muestra de Gibbs colapsada
- A colapsada Gibbs sampler integra (marginalizes over) una o más variables al muestreo para alguna otra variable. Por ejemplo, imagine que un modelo consiste en tres variables A, B, y C. Un simple muestras de Gibbs p()ASilencioB,C), entonces p()BSilencioA,C), entonces p()CSilencioA,B). Un muestreador colapsado de Gibbs podría reemplazar el paso de muestreo para A con una muestra de la distribución marginal p()ASilencioC), con variable B integrado en este caso. Alternativamente, variable B podría ser desplomado completamente, alternadamente p()ASilencioC) y p()CSilencioA) y no el muestreo sobre B Para nada. La distribución sobre una variable A que surge al colapsar una variable padre B se llama distribución de compuestos; el muestreo de esta distribución es generalmente tractable cuando B es el conjugado anterior para A, especialmente cuando A y B son miembros de la familia exponencial. Para más información, véase el artículo sobre distribuciones de compuestos o Liu (1994).
Implementación de un muestreador de Gibbs colapsado
Distribuciones de Dirichlet colapsadas
En los modelos bayesianos jerárquicos con variables categóricas, como la asignación latente de Dirichlet y varios otros modelos utilizados en el procesamiento del lenguaje natural, es bastante común colapsar las distribuciones de Dirichlet que normalmente se utilizan como distribuciones previas sobre las variables categóricas. El resultado de este colapso introduce dependencias entre todas las variables categóricas que dependen de un Dirichlet anterior determinado, y la distribución conjunta de estas variables después del colapso es una distribución multinomial de Dirichlet. La distribución condicional de una variable categórica dada en esta distribución, condicionada a las demás, asume una forma extremadamente simple que hace que el muestreo de Gibbs sea aún más fácil que si no se hubiera colapsado. Las reglas son las siguientes:
- El colapso de un nodo anterior Dirichlet afecta sólo a los padres y los niños nodos del anterior. Puesto que el padre es a menudo una constante, es típicamente sólo los niños que necesitamos preocuparse.
- Colapsing out a Dirichlet prior introduce dependencias entre todos los niños categóricos dependientes de ese anterior — pero no extra dependencies among any other categorical children. (Esto es importante tener en cuenta, por ejemplo, cuando hay múltiples antecedentes de Dirichlet relacionados por el mismo hiperprior. Cada Dirichlet anterior puede colapsarse independientemente y afectar sólo a sus hijos directos.)
- Después de colapsar, la distribución condicional de un niño dependiente en los demás asume una forma muy simple: La probabilidad de ver un valor dado es proporcional a la suma del hiperprior correspondiente para este valor, y el recuento de todos los otros nodos dependientes asumiendo el mismo valor. Nodos que no dependen del mismo anterior no ser contado. La misma regla se aplica en otros métodos de inferencia iterativa, tales como bahías de variación o maximización de expectativa; sin embargo, si el método implica mantener recuentos parciales, entonces los recuentos parciales para el valor en cuestión deben resumirse en todos los otros nodos dependientes. A veces este resumido conteo parcial se denomina el conteo previsto o similar. La probabilidad es proporcional a el valor resultante; la probabilidad real debe determinarse mediante la normalización de todos los valores posibles que la variable categórica puede tomar (es decir, añadir el resultado calculado para cada posible valor de la variable categórica, y dividir todos los resultados computados por esta suma).
- Si un nodo categórico dado tiene hijos dependientes (por ejemplo, cuando es una variable latente en un modelo de mezcla), el valor calculado en el paso anterior (conteo previsto más anterior, o lo que se computa) debe ser multiplicado por las probabilidades condicionales reales (probabilidades condicionales)no a computed value that is proportional to the probability!) of all children given their parents. Vea el artículo sobre la distribución multitinomial Dirichlet para una discusión detallada.
- En el caso en que la membresía grupal de los nodos dependientes de un Dirichlet anterior dado puede cambiar dinámicamente dependiendo de otra variable (por ejemplo, una variable categórica indexada por otra variable latente categórica, como en un modelo tópico), los mismos recuentos esperados todavía se computan, pero hay que hacer cuidadosamente para que se incluya el conjunto correcto de variables. Véase el artículo sobre la distribución multitinomial Dirichlet para más discusión, incluso en el contexto de un modelo de tema.
Colapsar otros anteriores conjugados
En general, cualquier anterior conjugado se puede contraer, si sus únicos hijos tienen distribuciones conjugadas. Las matemáticas relevantes se analizan en el artículo sobre distribuciones compuestas. Si solo hay un nodo hijo, el resultado a menudo asumirá una distribución conocida. Por ejemplo, colapsar una varianza con distribución gamma inversa de una red con un solo hijo gaussiano producirá una distribución t de Student. (De hecho, colapsar tanto la media como la varianza de un solo hijo gaussiano aún producirá una distribución t de Student, siempre que ambas sean conjugadas, es decir, media gaussiana, varianza gamma inversa).
Si hay varios nodos secundarios, todos se volverán dependientes, como en el caso categórico de Dirichlet. La distribución conjunta resultante tendrá una forma cerrada que se parecerá en algunos aspectos a la distribución compuesta, aunque tendrá un producto de varios factores, uno para cada nodo hijo.
Además, y lo más importante, la distribución condicional resultante de uno de los nodos secundarios dados los demás (y también dados los padres de los nodos colapsados, pero no dados los hijos de los nodos secundarios) tendrán la misma densidad que la distribución predictiva posterior de todos los nodos secundarios restantes. Además, la distribución predictiva posterior tiene la misma densidad que la distribución compuesta básica de un solo nodo, aunque con diferentes parámetros. La fórmula general se da en el artículo sobre distribuciones compuestas.
Por ejemplo, dada una red Bayes con un conjunto de nodos con distribución gaussiana condicionalmente independientes e idénticamente distribuidos con distribuciones previas conjugadas colocadas en la media y la varianza, la distribución condicional de un nodo dadas las demás después de componer tanto la media como la varianza será una distribución t de Student. De manera similar, el resultado de combinar la gama anterior de varios nodos con distribución de Poisson hace que la distribución condicional de un nodo dados los demás asuma una distribución binomial negativa.
En estos casos en los que la composición produce una distribución bien conocida, a menudo existen procedimientos de muestreo eficientes, y usarlos a menudo (aunque no necesariamente) será más eficiente que no colapsar y, en su lugar, muestrear los nodos anteriores y secundarios por separado. Sin embargo, en el caso de que la distribución compuesta no sea bien conocida, puede que no sea fácil tomar muestras de ella, ya que generalmente no pertenecerá a la familia exponencial y normalmente no será log-cóncava (lo que facilitaría el muestreo). utilizando muestreo de rechazo adaptativo, ya que siempre existe una forma cerrada).
En el caso de que los nodos secundarios de los nodos colapsados tengan hijos, la distribución condicional de uno de estos nodos secundarios dados todos los demás nodos en el gráfico tendrá que tener en cuenta la distribución de estos hijos de segundo nivel. En particular, la distribución condicional resultante será proporcional a un producto de la distribución compuesta como se define anteriormente y las distribuciones condicionales de todos los nodos secundarios dados sus padres (pero no sus propios hijos). Esto se desprende del hecho de que la distribución condicional completa es proporcional a la distribución conjunta. Si los nodos secundarios de los nodos colapsados son continuos, esta distribución generalmente no tendrá una forma conocida y puede ser difícil tomar muestras a pesar de que se puede escribir una forma cerrada, por las mismas razones descritas anteriormente para los nodos no colapsados. -Distribuciones compuestas conocidas. Sin embargo, en el caso particular de que los nodos hijos sean discretos, el muestreo es factible, independientemente de si los hijos de estos nodos hijos son continuos o discretos. De hecho, el principio involucrado aquí se describe con bastante detalle en el artículo sobre la distribución multinomial de Dirichlet.
Muestreador de Gibbs con sobrerelajación ordenada
- Un sampler Gibbs con ordenada sobreenfase muestra un número extraño de valores candidatos para en cualquier paso dado y los clasifica, junto con el valor único para según un orden bien definido. Si es sT más pequeño en la lista ordenada entonces el se selecciona como sT más grande en la lista clasificada. Para más información, véase Neal (1995).
Otras extensiones
También es posible ampliar el muestreo de Gibbs de varias maneras. Por ejemplo, en el caso de variables cuya distribución condicional no es fácil de tomar como muestra, se puede utilizar una sola iteración de muestreo por cortes o el algoritmo de Metropolis-Hastings para tomar muestras de las variables en cuestión. También es posible incorporar variables que no sean aleatorias, pero cuyo valor se calcula de manera determinista a partir de otras variables. Modelos lineales generalizados, p.e. La regresión logística (también conocida como "modelos de entropía máxima") se puede incorporar de esta manera. (BUGS, por ejemplo, permite este tipo de mezcla de modelos).
Modos de fallo
Hay dos formas en que el muestreo de Gibbs puede fallar. La primera es cuando hay islas de estados de alta probabilidad, sin caminos entre ellos. Por ejemplo, considere una distribución de probabilidad sobre vectores de 2 bits, donde los vectores (0,0) y (1,1) tienen cada uno una probabilidad ½, pero los otros dos vectores (0,1) y (1,0) tienen probabilidad cero. El muestreo de Gibbs quedará atrapado en uno de los dos vectores de alta probabilidad y nunca llegará al otro. De manera más general, para cualquier distribución sobre vectores de alta dimensión y valor real, si dos elementos particulares del vector están perfectamente correlacionados (o perfectamente anticorrelacionados), esos dos elementos se atascarán y el muestreo de Gibbs nunca podrá cambiar. a ellos.
El segundo problema puede ocurrir incluso cuando todos los estados tienen probabilidad no cero y sólo hay una sola isla de estados de alta probabilidad. Por ejemplo, considere una distribución de probabilidad de más de 100 bits vectores, donde el vector all-zeros ocurre con probabilidad 1⁄2, y todos los otros vectores son igualmente probables, y así tienen una probabilidad de cada uno. Si desea estimar la probabilidad del vector cero, sería suficiente tomar 100 o 1000 muestras de la verdadera distribución. Eso probablemente daría una respuesta muy cerca de 1⁄2. Pero probablemente tendrías que tomar más que muestras del muestreo de Gibbs para obtener el mismo resultado. Ningún ordenador podría hacer esto en toda la vida.
Este problema ocurre sin importar cuánto tiempo sea el período de quemadura. Esto se debe a que en la verdadera distribución, el vector cero ocurre la mitad del tiempo, y esas ocurrencias se mezclan aleatoriamente con los vectores no cero. Incluso una pequeña muestra verá los vectores cero y no cero. Pero el muestreo de Gibbs se alternará entre devolver sólo el vector cero durante largos períodos (sobre en una fila), entonces sólo vectores no cero durante largos períodos (sobre en una fila). Así, la convergencia a la verdadera distribución es extremadamente lenta, requiriendo mucho más que pasos; tomar estas muchas medidas no es computacionalmente factible en un plazo razonable. La lenta convergencia aquí puede ser vista como consecuencia de la maldición de la dimensionalidad. Un problema como este puede resolverse bloqueando el vector de 100 bits a la vez. (Esto supone que el vector de 100 bits es parte de un conjunto más grande de variables. Si este vector es lo único que se muestra, entonces el muestreo de bloques es equivalente a no hacer ningún muestreo de Gibbs, que por hipótesis sería difícil.)
Software
- El software OpenBUGSInferencia bayesiana Utilizando Gibbs Sampling) hace un análisis bayesiano de modelos estadísticos complejos utilizando la cadena Markov Monte Carlo.
- JAGSOtro sampler de Gibbs.) es un programa GPL para el análisis de modelos jerárquicos bayesianos utilizando Markov Chain Monte Carlo.
- Iglesia es software libre para realizar inferencia de Gibbs sobre distribuciones arbitrarias que se especifican como programas probabilísticos.
- PyMC es una biblioteca de código abierto para el aprendizaje Bayesiano de los modelos gráficos probabilísticos generales.
- Turing es una biblioteca de código abierto para la Inferencia Bayesiana usando programación probabilística.