Método empírico de Bayes

Compartir Imprimir Citar

Los métodos empíricos de Bayes son procedimientos de inferencia estadística en los que se estima la distribución de probabilidad previa a partir de los datos. Este enfoque contrasta con los métodos bayesianos estándar, para los cuales la distribución previa se fija antes de que se observen los datos. A pesar de esta diferencia de perspectiva, el Bayes empírico puede verse como una aproximación a un tratamiento totalmente bayesiano de un modelo jerárquico en el que los parámetros en el nivel más alto de la jerarquía se establecen en sus valores más probables, en lugar de integrarse. Bayes empírico, también conocido como máxima verosimilitud marginal,representa un enfoque conveniente para establecer hiperparámetros, pero ha sido reemplazado en su mayoría por análisis jerárquicos totalmente bayesianos desde la década de 2000 con la creciente disponibilidad de técnicas de cálculo de buen rendimiento.

Introducción

Los métodos empíricos de Bayes pueden verse como una aproximación a un tratamiento totalmente bayesiano de un modelo jerárquico de Bayes.

En, por ejemplo, un modelo Bayes jerárquico de dos etapas, y = {y_1, y_2, puntos, y_n}se supone que los datos observados se generan a partir de un conjunto de parámetros no observados de theta = {theta_1, theta_2, puntos, theta_n}acuerdo con una distribución de probabilidad {displaystyle p(ymid theta),}. A su vez, los parámetros  thetapueden ser considerados muestras extraídas de una población caracterizada por hiperparámetros eta ,según una distribución de probabilidad {displaystyle p(theta mid eta),}. En el modelo jerárquico de Bayes, aunque no en la aproximación empírica de Bayes, eta ,se considera que los hiperparámetros se extraen de una distribución no parametrizada p(eta),.

Por lo tanto, la información sobre una determinada cantidad de interés theta_i;proviene no solo de las propiedades de los datos yque dependen directamente de ella, sino también de las propiedades de la población de parámetros theta;como un todo, inferida de los datos como un todo, resumida por los hiperparámetros eta;.

Usando el teorema de Bayes,{displaystyle p(theta mid y)={frac {p(ymid theta)p(theta)}{p(y)}}={frac {p(ymid theta) }{p(y)}}int p(theta mid eta)p(eta),deta ,.}

En general, esta integral no será tratable analítica o simbólicamente y debe evaluarse mediante métodos numéricos. Se pueden utilizar aproximaciones estocásticas (aleatorias) o deterministas. Ejemplos de métodos estocásticos son la Cadena de Markov Monte Carlo y el muestreo Monte Carlo. Las aproximaciones deterministas se discuten en cuadratura.

Alternativamente, la expresión se puede escribir como{displaystyle p(theta mid y)=int p(theta mid eta,y)p(eta mid y);deta =int {frac {p(ymid theta)p(theta mid eta)}{p(ymid eta)}}p(eta mid y);deta ,,}

y el factor final en la integral puede a su vez expresarse como{displaystyle p(eta mid y)=int p(eta mid theta)p(theta mid y);dtheta.}

Estos sugieren un esquema iterativo, cualitativamente similar en estructura a un muestreador de Gibbs, para evolucionar sucesivamente aproximaciones mejoradas a {displaystyle p(theta mid y);}y {displaystyle p(eta mid y);}. Primero, calcule una aproximación inicial para {displaystyle p(theta mid y);}ignorar etacompletamente la dependencia; luego calcule una aproximación a {displaystyle p(eta mid y);}basada en la distribución aproximada inicial de {displaystyle p(theta mid y);}; luego use esto {displaystyle p(eta mid y);}para actualizar la aproximación para {displaystyle p(theta mid y);}; luego actualiza {displaystyle p(eta mid y);}; y así.

Cuando la distribución real {displaystyle p(eta mid y);}tiene un pico pronunciado, la determinación integral {displaystyle p(theta mid y);}puede no cambiar mucho al reemplazar la distribución de probabilidad eta;con una estimación puntual que eta^{*};representa el pico de la distribución (o, alternativamente, su media),{displaystyle p(theta mid eta)simeq {frac {p(ymid theta);p(theta mid eta ^{*})}{p(ymid eta ^ {*})}},.}

Con esta aproximación, el esquema iterativo anterior se convierte en el algoritmo EM.

El término "Bayes empírico" puede cubrir una amplia variedad de métodos, pero la mayoría puede considerarse como un truncamiento temprano del esquema anterior o algo parecido. Las estimaciones puntuales, en lugar de la distribución completa, se utilizan normalmente para los parámetros eta;. Las estimaciones de eta^{*};se realizan típicamente desde la primera aproximación {displaystyle p(theta mid y);}sin refinamiento posterior. Estas estimaciones de eta^{*};se suelen realizar sin considerar una distribución previa adecuada de eta.

Estimación puntual

Método de Robbins: Bayes empírico no paramétrico (NPEB)

Robbins consideró un caso de muestreo de una distribución mixta, donde la probabilidad para cada uno y_{yo}(condicional a theta _{i}) se especifica mediante una distribución de Poisson,{displaystyle p(y_{i}mid theta _{i})={{theta _{i}}^{y_{i}}e^{-theta _{i}} over {y_ {i}}!}}

mientras que el anterior en θ no está especificado, excepto que también es iid de una distribución desconocida, con una función de distribución acumulativa G(theta). El muestreo compuesto surge en una variedad de problemas de estimación estadística, como las tasas de accidentes y los ensayos clínicos. Simplemente buscamos una predicción puntual de theta _{i}dados todos los datos observados. Debido a que el prior no está especificado, buscamos hacer esto sin conocimiento de G.

Bajo la pérdida de error al cuadrado (SEL), la expectativa condicional E(θ i | Y i = y i) es una cantidad razonable para usar en la predicción. Para el modelo de muestreo compuesto de Poisson, esta cantidad es{displaystyle operatorname {E} (theta _{i}mid y_{i})={int (theta ^{y_{i}+1}e^{-theta }/{y_{i }}!),dG(theta) over {int (theta ^{y_{i}}e^{-theta }/{y_{i}}!),dG(theta }) }.}

Esto se puede simplificar multiplicando tanto el numerador como el denominador por { estilo de visualización ({y_ {i}} + 1)}, dando como resultado{displaystyle operatorname {E} (theta _{i}mid y_{i})={{(y_{i}+1)p_{G}(y_{i}+1)} over {p_ {G}(y_{i})}},}

donde p G es la distribución marginal obtenida al integrar θ sobre G.

Para aprovechar esto, Robbins sugirió estimar las marginales con sus frecuencias empíricas ({ estilo de visualización  #  {Y_ {j} }}), obteniendo una estimación totalmente no paramétrica como:{displaystyle operatorname {E} (theta _{i}mid y_{i})approx (y_{i}+1){{#{Y_{j}=y_{i}+1 }} sobre {#{Y_{j}=y_{i}}}},}

donde #denota "número de". (Ver también estimación de frecuencia de Good-Turing).Ejemplo – Índices de accidentes

Supongamos que cada cliente de una compañía de seguros tiene una "tasa de accidentes" Θ y está asegurado contra accidentes; la distribución de probabilidad de Θ es la distribución subyacente y se desconoce. El número de accidentes sufridos por cada cliente en un período de tiempo específico tiene una distribución de Poisson con un valor esperado igual a la tasa de accidentes del cliente en particular. El número real de accidentes experimentados por un cliente es la cantidad observable. Una forma aproximada de estimar la distribución de probabilidad subyacente de la tasa de accidentes Θ es estimar la proporción de miembros de la población total que sufren 0, 1, 2, 3,... accidentes durante el período de tiempo especificado como la proporción correspondiente en el observado. muestra aleatoria. Una vez hecho esto, se desea predecir la tasa de accidentes de cada cliente de la muestra. Como anteriormente, se puede utilizar el valor esperado condicional de la tasa de accidentes Θ dado el número observado de accidentes durante el período de referencia. Por lo tanto, si un cliente sufre seis accidentes durante el período de referencia, la tasa de accidentes estimada de ese cliente es 7 × [la proporción de la muestra que sufrió 7 accidentes] / [la proporción de la muestra que sufrió 6 accidentes]. Tenga en cuenta que si la proporción de personas que sufrenk accidentes es una función decreciente de k, la tasa de accidentes pronosticada del cliente a menudo será menor que la cantidad observada de accidentes.

Este efecto de contracción es típico de los análisis empíricos de Bayes.

Bayes empírico paramétrico

Si la verosimilitud y su anterior toman formas paramétricas simples (como funciones de verosimilitud de 1 o 2 dimensiones con anteriores conjugados simples), entonces el problema empírico de Bayes es solo para estimar los parámetros marginales { Displaystyle m (y  mid  eta)}e hiperparámetros etausando el conjunto completo de medidas empíricas. Por ejemplo, un enfoque común, llamado estimación de punto de Bayes empírica paramétrica, es aproximar el marginal utilizando la estimación de máxima verosimilitud (MLE), o una expansión de Momentos, que permite expresar los hiperparámetros etaen términos de media empírica y varianza. Este marginal simplificado permite conectar los promedios empíricos en una estimación puntual para el anterior  theta. La ecuación resultante para el anterior  thetaestá muy simplificada, como se muestra a continuación.

Hay varios modelos bayesianos empíricos paramétricos comunes, incluido el modelo Poisson-gamma (abajo), el modelo beta-binomial, el modelo gaussiano-gaussiano, el modelo multinomial de Dirichlet, así como modelos específicos para la regresión lineal bayesiana (ver a continuación) y Regresión lineal multivariada bayesiana. Los enfoques más avanzados incluyen modelos bayesianos jerárquicos y modelos mixtos bayesianos.

Modelo gaussiano-gaussiano

Para ver un ejemplo de estimación empírica de Bayes utilizando un modelo gaussiano-gaussiano, consulte Estimadores empíricos de Bayes.

Modelo de Poisson-gamma

Por ejemplo, en el ejemplo anterior, deje que la probabilidad sea una distribución de Poisson, y deje que el anterior ahora se especifique mediante el conjugado anterior, que es una distribución gamma (G(alfa,beta)) (donde eta = (alfa,beta)):{displaystyle rho (theta mid alpha,beta)={frac {theta ^{alpha -1},e^{-theta /beta }}{beta ^{alpha }Gamma (alpha)}} mathrm {para}  theta >0,alpha >0,beta >0,!.}

Es sencillo mostrar que la parte posterior también es una distribución gamma. Escribe{displaystyle rho (theta mid y)propto rho (ymid theta)rho (theta mid alpha,beta),}

donde se ha omitido la distribución marginal ya que no depende explícitamente de  theta. La expansión de los términos que dependen de  thetada la posterior como:{displaystyle rho (theta mid y)propto (theta ^{y},e^{-theta })(theta ^{alpha -1},e^{-theta / beta })=theta ^{y+alpha -1},e^{-theta (1+1/beta)}.}

Así que la densidad posterior también es una distribución gamma G(alfa',beta'), donde alfa' = y + alfa, y beta' = (1+1 / beta)^{-1}. Observe también que la marginal es simplemente la integral de la posterior sobre todo Theta, que resulta ser una distribución binomial negativa.

Para aplicar Bayes empírico, aproximaremos el marginal utilizando la estimación de máxima verosimilitud (MLE). Pero dado que la posterior es una distribución gamma, el MLE de la marginal resulta ser solo la media de la posterior, que es la estimación puntual { estilo de visualización  nombre del operador {E} ( theta  mid y)}que necesitamos. Recordando que la media mude una distribución gamma G(alfa', beta')es simplemente Alfa Beta', tenemos{displaystyle operatorname {E} (theta mid y)=alpha 'beta '={frac {{bar {y}}+alpha }{1+1/beta }}={ fracción {beta }{1+beta }}{bar {y}}+{frac {1}{1+beta }}(alfa beta).}

Para obtener los valores de alfay beta, el empírico Bayes prescribe estimar la media Alfa Betay la varianza alfabeta^2utilizando el conjunto completo de datos empíricos.

Por lo tanto, la estimación puntual resultante { estilo de visualización  nombre del operador {E} ( theta  mid y)}es como un promedio ponderado de la media muestral {bar {y}}y la media anterior mu = alfabeta. Esta resulta ser una característica general del Bayes empírico; las estimaciones puntuales para la anterior (es decir, la media) se verán como promedios ponderados de la estimación de la muestra y la estimación anterior (al igual que las estimaciones de la varianza).