Estimación máxima a posteriori

Compartir Imprimir Citar

En las estadísticas bayesianas, una estimación de probabilidad máxima a posteriori (MAP) es una estimación de una cantidad desconocida, que es igual a la moda de la distribución posterior. El MAP se puede utilizar para obtener una estimación puntual de una cantidad no observada sobre la base de datos empíricos. Está estrechamente relacionado con el método de estimación de máxima verosimilitud (ML), pero emplea un objetivo de optimización aumentada que incorpora una distribución previa (que cuantifica la información adicional disponible a través del conocimiento previo de un evento relacionado) sobre la cantidad que se quiere estimar. Por lo tanto, la estimación de MAP puede verse como una regularización de la estimación de máxima verosimilitud.

Descripción

Supongamos que queremos estimar un parámetro de población no observado  thetasobre la base de las observaciones X. Sea Fla distribución muestral de X, por lo que { Displaystyle f (x  mid  theta)}es la probabilidad de Xque el parámetro de población subyacente sea  theta. Entonces la función:{displaystyle theta mapsto f(xmid theta)!}

se conoce como la función de verosimilitud y la estimación:{displaystyle {hat {theta }}_{mathrm {MLE} }(x)={underset {theta }{operatorname {arg,max} }} f(xmid theta) !}

es la estimación de máxima verosimilitud de  theta.

Ahora suponga que existe una distribución previa gramosobre.  thetaEsto nos permite tratar  thetacomo una variable aleatoria como en las estadísticas bayesianas. Podemos calcular la distribución posterior de  thetausando el teorema de Bayes:{displaystyle theta mapsto f(theta mid x)={frac {f(xmid theta),g(theta)}{displaystyle int _{Theta }f(x mediados vartheta),g(vartheta),dvartheta }}!}

donde gramoes función de densidad de  theta, Thetaes el dominio de gramo.

El método de estimación máxima a posteriori estima entonces  thetacomo la moda de la distribución posterior de esta variable aleatoria:{displaystyle {begin{alineado}{hat {theta }}_{mathrm {MAP} }(x)&={underset {theta }{operatorname {arg,max} }} f (theta mid x)\&={underset {theta }{operatorname {arg,max} }} {frac {f(xmid theta),g(theta)} {displaystyle int _{Theta }f(xmid vartheta),g(vartheta),dvartheta }}\&={underset {theta }{operatorname {arg, max} }} f(xmid theta),g(theta).end{alineado}}!}

El denominador de la distribución posterior (la llamada verosimilitud marginal) es siempre positivo y no depende  thetay por lo tanto no juega ningún papel en la optimización. Observe que la estimación MAP de  thetacoincide con la estimación ML cuando la anterior gramoes uniforme (es decir, gramoes una función constante).

Cuando la función de pérdida es de la forma{displaystyle L(theta,a)={begin{cases}0,&{text{if }}|a-theta |<c,\1,&{text{de lo contrario}}, \end{casos}}}

a medida Cque tiende a 0, el estimador Bayes se aproxima al estimador MAP, siempre que la distribución de  thetasea cuasi cóncava. Pero generalmente un estimador MAP no es un estimador Bayes a menos que  thetasea discreto.

Cálculo

Las estimaciones de MAP se pueden calcular de varias maneras:

  1. Analíticamente, cuando la(s) moda(s) de la distribución posterior se pueden dar en forma cerrada. Este es el caso cuando se utilizan anteriores conjugados.
  2. Mediante optimización numérica como el método del gradiente conjugado o el método de Newton. Esto generalmente requiere derivadas primeras o segundas, que deben evaluarse analítica o numéricamente.
  3. A través de una modificación de un algoritmo de maximización de expectativas. Esto no requiere derivados de la densidad posterior.
  4. A través de un método de Monte Carlo usando recocido simulado

Limitaciones

Si bien solo se requieren condiciones leves para que la estimación de MAP sea un caso límite de la estimación de Bayes (bajo la función de pérdida 0-1),no es muy representativo de los métodos bayesianos en general. Esto se debe a que las estimaciones MAP son estimaciones puntuales, mientras que los métodos bayesianos se caracterizan por el uso de distribuciones para resumir datos y sacar inferencias: por lo tanto, los métodos bayesianos tienden a informar la media posterior o la mediana, junto con intervalos creíbles. Esto se debe a que estos estimadores son óptimos con pérdida de error cuadrático y error lineal respectivamente, que son más representativos de las funciones de pérdida típicas, y para una distribución posterior continua no hay una función de pérdida que sugiera que MAP es el estimador de punto óptimo. Además, la distribución posterior a menudo puede no tener una forma analítica simple: en este caso, la distribución se puede simular usando técnicas de cadena de Markov Monte Carlo,

En muchos tipos de modelos, como los modelos mixtos, el posterior puede ser multimodal. En tal caso, la recomendación habitual es que se debe elegir el modo más alto: esto no siempre es factible (la optimización global es un problema difícil), ni en algunos casos incluso posible (como cuando surgen problemas de identificabilidad). Además, el modo más alto puede no ser característico de la mayoría de los posteriores.

Finalmente, a diferencia de los estimadores ML, la estimación MAP no es invariante bajo reparametrización. Pasar de una parametrización a otra implica introducir un jacobiano que incide en la ubicación del máximo.

Como ejemplo de la diferencia entre los estimadores Bayes mencionados anteriormente (estimadores de media y mediana) y el uso de una estimación MAP, considere el caso en el que es necesario clasificar las entradas Xcomo positivas o negativas (por ejemplo, préstamos como riesgosos o seguros). Supongamos que solo hay tres hipótesis posibles sobre el método correcto de clasificación h_{1}, h_{2}y h_{3}con posteriores 0.4, 0.3 y 0.3 respectivamente. Supongamos que dada una nueva instancia, X, h_{1}la clasifica como positiva, mientras que las otras dos la clasifican como negativa. Usando la estimación MAP para el clasificador correcto h_{1}, Xse clasifica como positivo, mientras que los estimadores de Bayes promediarían todas las hipótesis y se clasificarían Xcomo negativos.

Ejemplo

Supongamos que tenemos una secuencia (x_{1},puntos,x_{n})de variables aleatorias IID N(mu,sigma _{v}^{2})y una distribución previa de muestá dada por N(mu_{0},sigma_{m}^{2}). Deseamos encontrar la estimación MAP de mu. Tenga en cuenta que la distribución normal es su propio conjugado anterior, por lo que podremos encontrar una solución de forma cerrada analíticamente.

La función a maximizar viene dada por{displaystyle f(mu)f(xmid mu)=pi (mu)L(mu)={frac {1}{{sqrt {2pi }}sigma _{m }}}exp left(-{frac {1}{2}}left({frac {mu -mu _{0}}{sigma _{m}}}right)^{ 2}right)prod _{j=1}^{n}{frac {1}{{sqrt {2pi }}sigma _{v}}}exp left(-{frac {1}{2}}left({frac {x_{j}-mu }{sigma _{v}}}right)^{2}right),}

lo que equivale a minimizar la siguiente función de mu:sum _{j=1}^{n}left({frac {x_{j}-mu }{sigma _{v}}}right)^{2}+left({frac {mu -mu _{0}}{sigma _{m}}}right)^{2}.

Por lo tanto, vemos que el estimador MAP para μ está dado por{displaystyle {hat {mu }}_{mathrm {MAPA} }={frac {sigma _{m}^{2},n}{sigma _{m}^{2},n+sigma _{v}^{2}}}left({frac {1}{n}}sum _{j=1}^{n}x_{j}right)+{frac {sigma _{v}^{2}}{sigma _{m}^{2},n+sigma _{v}^{2}}},mu _{0}={frac {sigma_{m}^{2}left(sum_{j=1}^{n}x_{j}right)+sigma_{v}^{2},mu_{ 0}}{sigma _{m}^{2},n+sigma _{v}^{2}}}.}

que resulta ser una interpolación lineal entre la media anterior y la media muestral ponderada por sus respectivas covarianzas.

El caso de sigma _{m} to inftyse denomina a priori no informativo y conduce a una distribución de probabilidad a priori mal definida; en este caso{displaystyle {hat {mu }}_{mathrm {MAP} }to {hat {mu }}_{mathrm {ML} }.}