Distribución predictiva posterior

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En las estadísticas bayesianas, la distribución predictiva posterior es la distribución de posibles valores no observados condicionados a los valores observados.

Dado un conjunto de N iid observaciones, se extraerá mathbf {X} ={x_{1},puntos,x_{N}}un nuevo valor de una distribución que depende de un parámetro: { tilde {x}}theta en theta{displaystyle p({tilde {x}}|theta)}

Puede parecer tentador incluir una mejor estimación única hat{theta}para  theta, pero esto ignora la incertidumbre sobre  theta, y debido a que se ignora una fuente de incertidumbre, la distribución predictiva será demasiado estrecha. Dicho de otra manera, las predicciones de valores extremos de { tilde {x}}tendrán una probabilidad menor que si se tuviera en cuenta la incertidumbre en los parámetros dada por su distribución posterior.

Una distribución predictiva posterior explica la incertidumbre sobre  theta. La distribución posterior de los  thetavalores posibles depende de mathbf{X}:{displaystyle p(theta |mathbf {X})}

Y la distribución predictiva posterior de { tilde {x}}dado mathbf{X}se calcula marginando la distribución de { tilde {x}}dado  thetasobre la distribución posterior de  thetadado mathbf{X}:{displaystyle p({tilde {x}}|mathbf {X})=int _{Theta }p({tilde {x}}|theta,mathbf {X}),p(theta |mathbf {X})nombre del operador {d} !theta }

Debido a que tiene en cuenta la incertidumbre acerca de  theta, la distribución predictiva posterior será, en general, más amplia que una distribución predictiva que conecta una mejor estimación única para  theta.

Distribución predictiva previa vs. posterior

La distribución predictiva previa, en un contexto bayesiano, es la distribución de un punto de datos marginalizado sobre su distribución previa. Es decir, si {tilde {x}}sim F({tilde {x}}|theta)y theta sim G(theta |alpha), entonces la distribución predictiva previa es la distribución correspondiente H({tilde {x}}|alfa), dondep_{H}({tilde {x}}|alpha)=int _{theta }p_{F}({tilde {x}}|theta),p_{G}(theta | alpha)nombre del operador {d} !theta

Esto es similar a la distribución predictiva posterior, excepto que la marginación (o, de manera equivalente, la expectativa) se toma con respecto a la distribución anterior en lugar de la distribución posterior.

Además, si la distribución previa G(theta |alfa)es una previa conjugada, entonces la distribución predictiva posterior pertenecerá a la misma familia de distribuciones que la distribución predictiva previa. Esto es fácil de ver. Si la distribución anterior G(theta |alfa)es conjugada, entoncesp(theta |mathbf {X},alpha)=p_{G}(theta |alpha '),

es decir, la distribución posterior también pertenece a G(theta |alfa),pero simplemente con un parámetro diferente alfa 'en lugar del parámetro original alfa.Entonces,{begin{alineado}p({tilde {x}}|mathbf {X},alpha)&=int_{theta }p_{F}({tilde {x}}|theta) ,p(theta |mathbf {X},alpha)operatorname {d} !theta \&=int _{theta }p_{F}({tilde {x}}| theta),p_{G}(theta |alpha ')operatorname {d} !theta \&=p_{H}({tilde {x}}|alpha ')end{alineado }}

Por tanto, la distribución predictiva posterior sigue la misma distribución H que la distribución predictiva anterior, pero con los valores posteriores de los hiperparámetros sustituidos por los anteriores.

La distribución predictiva anterior tiene la forma de una distribución compuesta y, de hecho, se usa a menudo para definir una distribución compuesta, debido a la falta de factores complicados, como la dependencia de los datos mathbf{X}y la cuestión de la conjugación. Por ejemplo, la distribución t de Student se puede definir como la distribución predictiva previa de una distribución normal con una media conocida μ pero una varianza desconocida σ x, con una distribución previa conjugada de chi cuadrado inversa escalada colocada en σ x, con hiperparámetros ν y σ. La distribución compuesta resultantet(x|mu,nu,sigma^{2})es de hecho una distribución t de Student no estandarizada y sigue una de las dos parametrizaciones más comunes de esta distribución. Entonces, la distribución predictiva posterior correspondiente sería nuevamente la t de Student, con los hiperparámetros actualizados nu ',{sigma^{2}}'que aparecen en la distribución posterior que también aparecen directamente en la distribución predictiva posterior.

En algunos casos, la distribución compuesta apropiada se define usando una parametrización diferente a la que sería más natural para las distribuciones predictivas en el problema actual en cuestión. A menudo, esto se debe a que la distribución anterior utilizada para definir la distribución compuesta es diferente de la utilizada en el problema actual. Por ejemplo, como se indicó anteriormente, la distribución t de Student se definió en términos de una distribución de chi-cuadrado inverso escalada colocada en la varianza. Sin embargo, es más común usar una distribución gamma inversa como el conjugado previo en esta situación. Los dos son de hecho equivalentes excepto por la parametrización; por lo tanto, la distribución t de Student todavía se puede usar para cualquier distribución predictiva, pero los hiperparámetros se deben reparar antes de conectarlos.

En familias exponenciales

La mayoría de las familias comunes de distribuciones, pero no todas, pertenecen a la familia exponencial de distribuciones. Las familias exponenciales tienen un gran número de propiedades útiles. Uno de los cuales es que todos los miembros tienen distribuciones previas conjugadas, mientras que muy pocas distribuciones tienen distribuciones previas conjugadas.

Distribución predictiva previa en familias exponenciales

Otra propiedad útil es que la función de densidad de probabilidad de la distribución compuesta correspondiente a la distribución predictiva previa de una distribución familiar exponencial marginalizada sobre su distribución previa conjugada puede determinarse analíticamente. Suponga que F(x|{boldsymbol {theta}})es un miembro de la familia exponencial con parámetro { símbolo de negrita { theta}}que se parametriza de acuerdo con el parámetro natural {boldsymbol {eta }}={boldsymbol {eta }}({boldsymbol {theta }})y se distribuye comop_{F}(x|{boldsymbol {eta }})=h(x)g({boldsymbol {eta }})e^{{boldsymbol {eta }}^{rm {T} }mathbf {T} (x)}

while G({símbolo en negrita {eta }}|{símbolo en negrita {chi }},nu)es el conjugado previo apropiado, distribuido comop_{G}({boldsymbol {eta }}|{boldsymbol {chi }},nu)=f({boldsymbol {chi }},nu)g({boldsymbol {eta } })^{nu }e^{{boldsymbol {eta }}^{rm {T}}{boldsymbol {chi }}}

Entonces la distribución predictiva previa H(el resultado de la capitalización Fcon GRAMO) es{begin{alineado}p_{H}(x|{boldsymbol {chi }},nu)&={displaystyle int limits_{boldsymbol {eta }}p_{F}(x| {boldsymbol {eta }})p_{G}({boldsymbol {eta }}|{boldsymbol {chi }},nu),operatorname {d} {boldsymbol {eta }} }\&={displaystyle int limits _{boldsymbol {eta }}h(x)g({boldsymbol {eta }})e^{{boldsymbol {eta }}^{ rm {T}}mathbf {T} (x)}f({boldsymbol {chi }},nu)g({boldsymbol {eta }})^{nu }e^{{boldsymbol {eta }}^{rm {T}}{boldsymbol {chi }}},operatorname {d} {boldsymbol {eta }}}\&={displaystyle h(x)f ({boldsymbol {chi }},nu)int limits _{boldsymbol {eta }}g({boldsymbol {eta }})^{nu +1}e^{{boldsymbol {eta }}^{rm {T}}({boldsymbol {chi }}+mathbf {T} (x))},operatorname {d} {boldsymbol {eta }}} &=h(x){dfrac {f({boldsymbol {chi }},nu)}{f({boldsymbol {chi }}+mathbf {T} (x),nu +1)}}end{alineado}}

La última línea se deriva de la anterior al reconocer que la función dentro de la integral es la función de densidad de una variable aleatoria distribuida como G({boldsymbol {eta}}|{boldsymbol {chi}}+mathbf {T} (x),nu +1), excluyendo la función normalizadora f(puntos),. Por tanto, el resultado de la integración será el recíproco de la función normalizadora.

El resultado anterior es independiente de la elección de parametrización de { símbolo de negrita { theta}}, ya que no aparece ninguno de { símbolo de negrita { theta}}, { símbolo de negrita { eta}}y g(puntos),. (g(puntos),es una función del parámetro y, por lo tanto, asumirá diferentes formas según la elección de la parametrización). Para las opciones estándar de Fy GRAMO, a menudo es más fácil trabajar directamente con los parámetros habituales en lugar de reescribir en términos de los parámetros naturales.

La razón por la que la integral es manejable es que implica calcular la constante de normalización de una densidad definida por el producto de una distribución previa y una probabilidad. Cuando los dos son conjugados, el producto es una distribución posterior y, por suposición, se conoce la constante de normalización de esta distribución. Como se muestra arriba, la función de densidad de la distribución compuesta sigue una forma particular, que consiste en el producto de la función h(x)que forma parte de la función de densidad para F, con el cociente de dos formas de la normalización "constante" para GRAMO, una derivada de un distribución anterior y el otro de una distribución posterior. La distribución binomial beta es un buen ejemplo de cómo funciona este proceso.

A pesar de la manejabilidad analítica de tales distribuciones, en sí mismas no suelen ser miembros de la familia exponencial. Por ejemplo, la distribución t de Student de tres parámetros, la distribución binomial beta y la distribución multinomial de Dirichlet son distribuciones predictivas de distribuciones de familias exponenciales (la distribución normal, la distribución binomial y las distribuciones multinomiales, respectivamente), pero ninguna es miembro de la distribución exponencial. familia. Esto se puede ver arriba debido a la presencia de dependencia funcional en{boldsymbol {chi}}+mathbf {T} (x). En una distribución de familia exponencial, debe ser posible separar toda la función de densidad en factores multiplicativos de tres tipos: (1) factores que contienen solo variables, (2) factores que contienen solo parámetros y (3) factores cuyo logaritmo factoriza entre variables y parámetros. La presencia de {boldsymbol {chi }}+mathbf {T} (x){chi }hace que esto sea imposible a menos que la función de "normalización" f(puntos),ignore el argumento correspondiente por completo o lo use solo en el exponente de una expresión.

Distribución predictiva posterior en familias exponenciales

Cuando se usa una distribución previa conjugada, la distribución predictiva posterior pertenece a la misma familia que la distribución predictiva previa y se determina simplemente conectando los hiperparámetros actualizados para la distribución posterior de los parámetros en la fórmula para la distribución predictiva previa. Usando la forma general de las ecuaciones de actualización posterior para distribuciones de familias exponenciales (consulte la sección correspondiente en el artículo sobre familias exponenciales), podemos escribir una fórmula explícita para la distribución predictiva posterior:{begin{matriz}{lcl}p({tilde {x}}|mathbf {X},{boldsymbol {chi }},nu)&=&p_{H}left({tilde { x}}|{boldsymbol {chi }}+mathbf {T} (mathbf {X}),nu +Nright)end{matriz}}

dóndemathbf {T} (mathbf {X})=sum _{i=1}^{N}mathbf {T} (x_{i})

Esto muestra que la distribución predictiva posterior de una serie de observaciones, en el caso de que las observaciones sigan una familia exponencial con el anterior conjugado adecuado, tiene la misma densidad de probabilidad que la distribución compuesta, con los parámetros especificados anteriormente. Las observaciones mismas entran sólo en la forma mathbf {T} (mathbf {X})=sum _{i=1}^{N}mathbf {T} (x_{i}).

Esto se denomina estadística suficiente de las observaciones, porque nos dice todo lo que necesitamos saber sobre las observaciones para calcular una distribución predictiva posterior o posterior basada en ellas (o, para el caso, cualquier otra cosa basada en la probabilidad de la observaciones, como la probabilidad marginal).

Distribución predictiva conjunta, probabilidad marginal

También es posible considerar el resultado de componer una distribución conjunta sobre un número fijo de muestras independientes distribuidas idénticamente con una distribución previa sobre un parámetro compartido. En un entorno bayesiano, esto surge en varios contextos: calcular la distribución predictiva anterior o posterior de múltiples observaciones nuevas y calcular la probabilidad marginal de los datos observados (el denominador en la ley de Bayes). Cuando la distribución de las muestras es de la familia exponencial y la distribución previa es conjugada, la distribución compuesta resultante será manejable y seguirá una forma similar a la expresión anterior. Es fácil demostrar, de hecho, que la distribución compuesta conjunta de un conjunto mathbf {X} ={x_{1},puntos,x_{N}}de norteobservaciones esp_{H}(mathbf {X} |{boldsymbol {chi }},nu)=left(prod _{i=1}^{N}h(x_{i})right){ dfrac {f({boldsymbol {chi }},nu)}{fleft({boldsymbol {chi }}+mathbf {T} (mathbf {X}),nu +N Correcto)}}

Este resultado y el resultado anterior para una única distribución compuesta se extienden trivialmente al caso de una distribución sobre una observación con valores vectoriales, como una distribución gaussiana multivariada.

Relación con el muestreo de Gibbs

Colapsar un nodo en un muestreador Gibbs colapsado es equivalente a la composición. Como resultado, cuando un conjunto de nodos independientes distribuidos idénticamente (iid) dependen todos del mismo nodo anterior, y ese nodo se colapsa, la probabilidad condicional resultante de un nodo dados los otros, así como los padres del colapsado (pero sin condicionar a ningún otro nodo, por ejemplo, ningún nodo hijo) es igual a la distribución predictiva posterior de todos los nodos iid restantes (o más correctamente, antes nodos iid, ya que colapsar introduce dependencias entre los nodos). Es decir, generalmente es posible implementar el colapso de un nodo simplemente adjuntando todos los padres del nodo directamente a todos los hijos, y reemplazando la distribución de probabilidad condicional anterior asociada con cada hijo con la distribución predictiva posterior correspondiente para el hijo condicionado en sus padres y los otros nodos anteriormente iid que también eran hijos del nodo eliminado. Para ver un ejemplo, una discusión más específica y algunas advertencias sobre ciertos temas complicados, consulte el artículo de distribución multinomial de Dirichlet.

Contenido relacionado

Probabilidad marginal

Una verosimilitud marginal o probabilidad marginal es una función de verosimilitud que se ha integrado sobre el espacio de parámetros. En las estadísticas...

Área estadística metropolitana

Diagrama de árbol (probabilidades)

En la teoría de la probabilidad, se puede usar un diagrama de árbol para representar un espacio de probabilidad o árbol de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save