Demografía de Gambia
(leer más)
Los métodos bayesianos variacionales son una familia de técnicas para aproximar integrales intratables que surgen en la inferencia bayesiana y el aprendizaje automático. Por lo general, se usan en modelos estadísticos complejos que consisten en variables observadas (generalmente denominadas "datos"), así como parámetros desconocidos y variables latentes, con varios tipos de relaciones entre los tres tipos de variables aleatorias, como podría ser descrito por un modelo gráfico. Como es típico en la inferencia bayesiana, los parámetros y las variables latentes se agrupan como "variables no observadas". Los métodos bayesianos variacionales se utilizan principalmente para dos propósitos:
En el primer propósito (el de aproximar una probabilidad posterior), el Bayes variacional es una alternativa a los métodos de muestreo de Monte Carlo, en particular, los métodos de Monte Carlo de la cadena de Markov, como el muestreo de Gibbs, para adoptar un enfoque totalmente bayesiano para la inferencia estadística sobre distribuciones complejas que son difícil de evaluar directamente o de muestra. En particular, mientras que las técnicas de Monte Carlo proporcionan una aproximación numérica al posterior exacto utilizando un conjunto de muestras, el Bayes variacional proporciona una solución analítica exacta localmente óptima para una aproximación del posterior.
El bayesiano variacional puede verse como una extensión del algoritmo EM (expectativa-maximización) desde la estimación máxima a posteriori (estimación MAP) del valor único más probable de cada parámetro hasta la estimación totalmente bayesiana que calcula (una aproximación a) toda la distribución posterior de los parámetros y variables latentes. Al igual que en EM, encuentra un conjunto de valores de parámetros óptimos y tiene la misma estructura alterna que EM, basada en un conjunto de ecuaciones entrelazadas (mutuamente dependientes) que no se pueden resolver analíticamente.
Para muchas aplicaciones, Bayes variacional produce soluciones de precisión comparable al muestreo de Gibbs a mayor velocidad. Sin embargo, derivar el conjunto de ecuaciones utilizado para actualizar los parámetros de forma iterativa a menudo requiere una gran cantidad de trabajo en comparación con derivar las ecuaciones de muestreo de Gibbs comparables. Este es el caso incluso para muchos modelos que son conceptualmente bastante simples, como se demuestra a continuación en el caso de un modelo básico no jerárquico con solo dos parámetros y sin variables latentes.
En la inferencia variacional, la distribución posterior sobre un conjunto de variables no observadas dados algunos datos se aproxima mediante la llamada distribución variacional,
La distribución está restringida a pertenecer a una familia de distribuciones de forma más simple que (eg una familia de distribuciones Gaussianas), seleccionadas con la intención de hacerlas similares a las verdaderas posteriores, .
La similitud (o disimilitud) se mide en términos de una función de disimilitud y, por lo tanto, la inferencia se realiza seleccionando la distribución que minimiza .
El tipo más común de Bayes variacional utiliza la divergencia de Kullback-Leibler (KL-divergencia) de Q de P como la elección de la función de disimilitud. Esta elección hace que esta minimización sea manejable. La divergencia KL se define como
Tenga en cuenta que Q y P están invertidos de lo que cabría esperar. Este uso de la divergencia KL invertida es conceptualmente similar al algoritmo de maximización de expectativas. (Usar la divergencia KL de la otra manera produce el algoritmo de propagación de expectativas).
Las técnicas variacionales se utilizan típicamente para formar una aproximación para:
La marginación de calcular en el denominador es típicamente intratable porque, por ejemplo, el espacio de búsqueda de es combinatoriamente grande. Por lo tanto, buscamos una aproximación, usando .
Dado que , la divergencia KL anterior también se puede escribir como
Como es una constante con respecto a y como es una distribución, tenemos
que, de acuerdo con la definición de valor esperado (para una variable aleatoria discreta), se puede escribir de la siguiente manera
que se puede reorganizar para convertirse en
Como la evidencia logarítmica se fija con respecto a , maximizar el término final minimiza la divergencia KL de . Mediante la elección adecuada de , se vuelve manejable para calcular y maximizar. Por lo tanto, tenemos una aproximación analítica para el posterior y un límite inferior para la evidencia logarítmica (dado que la divergencia KL no es negativa).
El límite inferior se conoce como energía libre variacional (negativa) en analogía con la energía libre termodinámica porque también se puede expresar como una energía negativa más la entropía de . El término también se conoce como Evidencia límite inferior, abreviado como ELBO, para enfatizar que es un límite inferior en el registro de evidencia de los datos.
Por el teorema de Pitágoras generalizado de la divergencia de Bregman, del cual la divergencia KL es un caso especial, se puede demostrar que:
donde es un conjunto convexo y la igualdad se cumple si:
En este caso, el minimizador global con se puede encontrar de la siguiente manera:
donde la constante de normalización es:
El término a menudo se denomina límite inferior de evidencia (ELBO) en la práctica, ya que , como se muestra arriba.
Al intercambiar los roles de y podemos calcular iterativamente los márgenes aproximados y del modelo verdadero y respectivamente. Aunque se garantiza que este esquema iterativo converge monótonamente, el convergido es solo un minimizador local de .
Si el espacio restringido está confinado dentro de un espacio independiente, es decir, el esquema iterativo anterior se convertirá en la denominada aproximación de campo medio, como se muestra a continuación.
Generalmente se supone que la distribución variacional se factoriza sobre alguna partición de las variables latentes, es decir, para alguna partición de las variables latentes en ,
Se puede demostrar usando el cálculo de variaciones (de ahí el nombre "Bayes variacional") que la "mejor" distribución para cada uno de los factores (en términos de la distribución que minimiza la divergencia KL, como se describe arriba) se puede expresar como:
donde es la expectativa del logaritmo de la probabilidad conjunta de los datos y las variables latentes, tomada sobre todas las variables que no están en la partición: consulte para una derivación de la distribución .
En la práctica, solemos trabajar en términos de logaritmos, es decir:
La constante en la expresión anterior está relacionada con la constante de normalización (el denominador en la expresión anterior para ) y generalmente se restablece mediante inspección, ya que el resto de la expresión generalmente se puede reconocer como un tipo conocido de distribución (por ejemplo, Gaussiana, gamma, etc.).
Usando las propiedades de las expectativas, la expresión generalmente se puede simplificar en una función de los hiperparámetros fijos de las distribuciones previas sobre las variables latentes y de las expectativas (y a veces momentos más altos como la varianza) de las variables latentes que no están en la partición actual (es decir, variables latentes no incluidas en). Esto crea dependencias circulares entre los parámetros de las distribuciones sobre las variables en una partición y las expectativas de las variables en las otras particiones. Esto sugiere naturalmente un algoritmo iterativo, muy parecido a EM (algoritmo de maximización de expectativas), en el que las expectativas (y posiblemente los momentos más altos) de las variables latentes se inicializan de alguna manera (quizás al azar), y luego los parámetros de cada distribución son calculada a su vez usando los valores actuales de las expectativas, después de lo cual la expectativa de la distribución recién calculada se establece apropiadamente de acuerdo con los parámetros calculados. Se garantiza que un algoritmo de este tipo convergerá.
En otras palabras, para cada una de las particiones de variables, simplificando la expresión de la distribución sobre las variables de la partición y examinando la dependencia funcional de la distribución de las variables en cuestión, normalmente se puede determinar la familia de la distribución (que a su vez determina la valor de la constante). La fórmula de los parámetros de la distribución se expresará en términos de los hiperparámetros de las distribuciones anteriores (que son constantes conocidas), pero también en términos de expectativas de funciones de variables en otras particiones. Por lo general, estas expectativas se pueden simplificar en funciones de expectativas de las propias variables (es decir, los medios); a veces, expectativas de variables al cuadrado (que pueden estar relacionadas con la varianza de las variables), o expectativas de potencias superiores (es decir, momentos superiores) también aparecen. En la mayoría de los casos, las distribuciones de las otras variables serán de familias conocidas, y se pueden buscar las fórmulas para las expectativas relevantes. Sin embargo, esas fórmulas dependen de los parámetros de esas distribuciones, que a su vez dependen de las expectativas sobre otras variables. El resultado es que las fórmulas para los parámetros de las distribuciones de cada variable se pueden expresar como una serie de ecuaciones con dependencias mutuas no lineales entre las variables. Por lo general, no es posible resolver este sistema de ecuaciones directamente. Sin embargo, como se describió anteriormente, las dependencias sugieren un algoritmo iterativo simple, que en la mayoría de los casos está garantizado para converger. Un ejemplo hará más claro este proceso. y se pueden buscar las fórmulas para las expectativas relevantes. Sin embargo, esas fórmulas dependen de los parámetros de esas distribuciones, que a su vez dependen de las expectativas sobre otras variables. El resultado es que las fórmulas para los parámetros de las distribuciones de cada variable se pueden expresar como una serie de ecuaciones con dependencias mutuas no lineales entre las variables. Por lo general, no es posible resolver este sistema de ecuaciones directamente. Sin embargo, como se describió anteriormente, las dependencias sugieren un algoritmo iterativo simple, que en la mayoría de los casos está garantizado para converger. Un ejemplo hará más claro este proceso. y se pueden buscar las fórmulas para las expectativas relevantes. Sin embargo, esas fórmulas dependen de los parámetros de esas distribuciones, que a su vez dependen de las expectativas sobre otras variables. El resultado es que las fórmulas para los parámetros de las distribuciones de cada variable se pueden expresar como una serie de ecuaciones con dependencias mutuas no lineales entre las variables. Por lo general, no es posible resolver este sistema de ecuaciones directamente. Sin embargo, como se describió anteriormente, las dependencias sugieren un algoritmo iterativo simple, que en la mayoría de los casos está garantizado para converger. Un ejemplo hará más claro este proceso. El resultado es que las fórmulas para los parámetros de las distribuciones de cada variable se pueden expresar como una serie de ecuaciones con dependencias mutuas no lineales entre las variables. Por lo general, no es posible resolver este sistema de ecuaciones directamente. Sin embargo, como se describió anteriormente, las dependencias sugieren un algoritmo iterativo simple, que en la mayoría de los casos está garantizado para converger. Un ejemplo hará más claro este proceso. El resultado es que las fórmulas para los parámetros de las distribuciones de cada variable se pueden expresar como una serie de ecuaciones con dependencias mutuas no lineales entre las variables. Por lo general, no es posible resolver este sistema de ecuaciones directamente. Sin embargo, como se describió anteriormente, las dependencias sugieren un algoritmo iterativo simple, que en la mayoría de los casos está garantizado para converger. Un ejemplo hará más claro este proceso.
El siguiente teorema se denomina fórmula de dualidad para la inferencia variacional. Explica algunas propiedades importantes de las distribuciones variacionales utilizadas en los métodos variacionales de Bayes.
Teorema Considere dos espacios de probabilidad y con . Suponga que existe una medida de probabilidad dominante común tal que y . Sea cualquier variable aleatoria de valor real que satisfaga . Entonces se cumple la siguiente igualdad
Además, el supremo en el lado derecho se alcanza si y solo si se cumple
casi con seguridad con respecto a la medida de probabilidad , donde y denotan las derivadas de Radon-Nikodym de las medidas de probabilidad y con respecto a , respectivamente.
Considere un modelo bayesiano simple no jerárquico que consta de un conjunto de observaciones iid de una distribución gaussiana, con media y varianza desconocidas. A continuación, analizamos este modelo con gran detalle para ilustrar el funcionamiento del método variacional de Bayes.
Por conveniencia matemática, en el siguiente ejemplo trabajamos en términos de precisión, es decir, el recíproco de la varianza (o en una Gaussiana multivariada, la inversa de la matriz de covarianza), en lugar de la varianza en sí. (Desde un punto de vista teórico, la precisión y la varianza son equivalentes ya que existe una correspondencia uno a uno entre los dos).
Colocamos distribuciones previas conjugadas en la media y la precisión desconocidas , es decir, la media también sigue una distribución gaussiana mientras que la precisión sigue una distribución gamma. En otras palabras:
Los hiperparámetros y en las distribuciones anteriores son valores fijos y dados. Se pueden establecer en números positivos pequeños para dar distribuciones previas amplias que indiquen ignorancia sobre las distribuciones previas de y .
Nos dan puntos de datos y nuestro objetivo es inferir la distribución posterior de los parámetros y
La probabilidad conjunta de todas las variables se puede reescribir como
donde están los factores individuales
dónde
Suponga que , es decir, que la distribución posterior se factoriza en factores independientes para y . Este tipo de suposición subyace en el método bayesiano variacional. De hecho, la verdadera distribución posterior no factoriza de esta manera (de hecho, en este caso simple, se sabe que es una distribución Gaussiana-gamma), y por lo tanto el resultado que obtengamos será una aproximación.
Después
En la derivación anterior, , y se refieren a valores que son constantes con respecto a . Tenga en cuenta que el término no es una función de y tendrá el mismo valor independientemente del valor de . Por lo tanto, en la línea 3 podemos absorberlo en el término constante al final. Hacemos lo mismo en la línea 7.
La última línea es simplemente un polinomio cuadrático en . Dado que este es el logaritmo de , podemos ver que en sí mismo es una distribución gaussiana.
Con una cierta cantidad de matemáticas tediosas (expandiendo los cuadrados dentro de las llaves, separando y agrupando los términos que involucran y y completando el cuadrado sobre ), podemos derivar los parámetros de la distribución gaussiana:
Tenga en cuenta que todos los pasos anteriores se pueden acortar usando la fórmula para la suma de dos cuadráticas.
En otras palabras:
La derivación de es similar a la anterior, aunque omitimos algunos de los detalles en aras de la brevedad.
Exponenciando ambos lados, podemos ver que es una distribución gamma. Específicamente:
Recapitulemos las conclusiones de los apartados anteriores:
y
En cada caso, los parámetros de distribución sobre una de las variables dependen de las expectativas que se tomen con respecto a la otra variable. Podemos expandir las expectativas, usando las fórmulas estándar para las expectativas de momentos de las distribuciones gaussiana y gamma:
Aplicar estas fórmulas a las ecuaciones anteriores es trivial en la mayoría de los casos, pero la ecuación requiere más trabajo:
Entonces podemos escribir las ecuaciones de los parámetros de la siguiente manera, sin ninguna expectativa:
Tenga en cuenta que hay dependencias circulares entre las fórmulas para y . Esto sugiere naturalmente un algoritmo similar a EM:
Entonces tenemos valores para los hiperparámetros de las distribuciones aproximadas de los parámetros posteriores, que podemos usar para calcular cualquier propiedad que queramos de la posterior, por ejemplo, su media y varianza, una región de densidad más alta del 95% (el intervalo más pequeño que incluye 95 % de la probabilidad total), etc.
Se puede demostrar que este algoritmo está garantizado para converger a un máximo local.
Tenga en cuenta también que las distribuciones posteriores tienen la misma forma que las distribuciones anteriores correspondientes. No asumimos esto; la única suposición que hicimos fue que las distribuciones se factorizan, y la forma de las distribuciones siguió naturalmente. Resulta (ver más abajo) que el hecho de que las distribuciones posteriores tengan la misma forma que las distribuciones anteriores no es una coincidencia, sino un resultado general siempre que las distribuciones anteriores sean miembros de la familia exponencial, que es el caso de la mayoría de las distribuciones anteriores. distribuciones estándar.
El ejemplo anterior muestra el método por el cual se deriva la aproximación bayesiana variacional a una densidad de probabilidad posterior en una red bayesiana dada:
Debido a todas las manipulaciones matemáticas involucradas, es fácil perder de vista el panorama general. Las cosas importantes son:
El bayesiano variacional (VB) a menudo se compara con la maximización de expectativas (EM). El procedimiento numérico real es bastante similar, ya que ambos son procedimientos iterativos alternos que convergen sucesivamente en valores de parámetros óptimos. Los pasos iniciales para derivar los procedimientos respectivos también son vagamente similares, ambos comienzan con fórmulas para densidades de probabilidad y ambos involucran cantidades significativas de manipulaciones matemáticas.
Sin embargo, hay una serie de diferencias. Lo más importante es lo que se está calculando.
Imagine un modelo de mezcla bayesiano gaussiano descrito de la siguiente manera:
Nota:
La interpretación de las variables anteriores es la siguiente:
La probabilidad conjunta de todas las variables se puede reescribir como
donde están los factores individuales
dónde
Suponga que
Después
donde hemos definido
Exponenciando ambos lados de la fórmula para rendimientos
Requerir que esto sea normalizado termina requiriendo que la suma sea 1 sobre todos los valores de , produciendo
dónde
En otras palabras, es un producto de distribuciones multinomiales de observación única y factores sobre cada individuo , que se distribuye como una distribución multinomial de observación única con parámetros para .
Además, notamos que
que es un resultado estándar para distribuciones categóricas.
Ahora, considerando el factor , tenga en cuenta que se factoriza automáticamente debido a la estructura del modelo gráfico que define nuestro modelo de mezcla gaussiana, que se especifica anteriormente.
Después,
Tomando la exponencial de ambos lados, reconocemos como una distribución de Dirichlet
dónde
dónde
Finalmente
Agrupando y leyendo términos que involucran y , el resultado es una distribución Gaussiana-Wishart dada por
dadas las definiciones
Finalmente, observe que estas funciones requieren los valores de , que hacen uso de , que se define a su vez en base a , y . Ahora que hemos determinado las distribuciones sobre las que se toman estas expectativas, podemos derivar fórmulas para ellas:
Estos resultados conducen a
Estos se pueden convertir de valores proporcionales a valores absolutos mediante la normalización para que los valores correspondientes sumen 1.
Tenga en cuenta que:
Esto sugiere un procedimiento iterativo que alterna entre dos pasos:
Tenga en cuenta que estos pasos se corresponden estrechamente con el algoritmo EM estándar para derivar una solución de máxima verosimilitud o máxima a posteriori (MAP) para los parámetros de un modelo de mezcla gaussiana. Las responsabilidades en el paso E corresponden estrechamente a las probabilidades posteriores de las variables latentes dados los datos, es decir ; el cálculo de las estadísticas , , y corresponde estrechamente al cálculo de las correspondientes estadísticas de "recuento suave" sobre los datos; y el uso de esas estadísticas para calcular nuevos valores de los parámetros se corresponde estrechamente con el uso de conteos suaves para calcular nuevos valores de parámetros en EM normal sobre un modelo de mezcla gaussiana.
Tenga en cuenta que en el ejemplo anterior, una vez que se supuso que la distribución sobre las variables no observadas se factorizaba en distribuciones sobre los "parámetros" y distribuciones sobre los "datos latentes", la "mejor" distribución derivada para cada variable estaba en la misma familia que la distribución correspondiente. distribución previa sobre la variable. Este es un resultado general que se cumple para todas las distribuciones anteriores derivadas de la familia exponencial.
(leer más)
(leer más)
Un metanálisis es un análisis estadístico que combina los resultados de múltiples estudios científicos. Los metanálisis se pueden realizar cuando hay... (leer más)