Estimación máxima a posteriori
En las estadísticas bayesianas, una estimación de probabilidad máxima a posteriori (MAP) es una estimación de una cantidad desconocida, que es igual a la moda de la distribución posterior. El MAP se puede utilizar para obtener una estimación puntual de una cantidad no observada sobre la base de datos empíricos. Está estrechamente relacionado con el método de estimación de máxima verosimilitud (ML), pero emplea un objetivo de optimización aumentada que incorpora una distribución previa (que cuantifica la información adicional disponible a través del conocimiento previo de un evento relacionado) sobre la cantidad que se quiere estimar. Por lo tanto, la estimación de MAP puede verse como una regularización de la estimación de máxima verosimilitud.
Descripción
Supongamos que queremos estimar un parámetro de población no observado sobre la base de las observaciones
. Sea
la distribución muestral de
, por lo que
es la probabilidad de
que el parámetro de población subyacente sea
. Entonces la función:
se conoce como la función de verosimilitud y la estimación:
es la estimación de máxima verosimilitud de .
Ahora suponga que existe una distribución previa sobre.
Esto nos permite tratar
como una variable aleatoria como en las estadísticas bayesianas. Podemos calcular la distribución posterior de
usando el teorema de Bayes:
donde es función de densidad de
,
es el dominio de
.
El método de estimación máxima a posteriori estima entonces como la moda de la distribución posterior de esta variable aleatoria:
El denominador de la distribución posterior (la llamada verosimilitud marginal) es siempre positivo y no depende y por lo tanto no juega ningún papel en la optimización. Observe que la estimación MAP de
coincide con la estimación ML cuando la anterior
es uniforme (es decir,
es una función constante).
Cuando la función de pérdida es de la forma
a medida que tiende a 0, el estimador Bayes se aproxima al estimador MAP, siempre que la distribución de
sea cuasi cóncava. Pero generalmente un estimador MAP no es un estimador Bayes a menos que
sea discreto.
Cálculo
Las estimaciones de MAP se pueden calcular de varias maneras:
- Analíticamente, cuando la(s) moda(s) de la distribución posterior se pueden dar en forma cerrada. Este es el caso cuando se utilizan anteriores conjugados.
- Mediante optimización numérica como el método del gradiente conjugado o el método de Newton. Esto generalmente requiere derivadas primeras o segundas, que deben evaluarse analítica o numéricamente.
- A través de una modificación de un algoritmo de maximización de expectativas. Esto no requiere derivados de la densidad posterior.
- A través de un método de Monte Carlo usando recocido simulado
Limitaciones
Si bien solo se requieren condiciones leves para que la estimación de MAP sea un caso límite de la estimación de Bayes (bajo la función de pérdida 0-1),no es muy representativo de los métodos bayesianos en general. Esto se debe a que las estimaciones MAP son estimaciones puntuales, mientras que los métodos bayesianos se caracterizan por el uso de distribuciones para resumir datos y sacar inferencias: por lo tanto, los métodos bayesianos tienden a informar la media posterior o la mediana, junto con intervalos creíbles. Esto se debe a que estos estimadores son óptimos con pérdida de error cuadrático y error lineal respectivamente, que son más representativos de las funciones de pérdida típicas, y para una distribución posterior continua no hay una función de pérdida que sugiera que MAP es el estimador de punto óptimo. Además, la distribución posterior a menudo puede no tener una forma analítica simple: en este caso, la distribución se puede simular usando técnicas de cadena de Markov Monte Carlo,
En muchos tipos de modelos, como los modelos mixtos, el posterior puede ser multimodal. En tal caso, la recomendación habitual es que se debe elegir el modo más alto: esto no siempre es factible (la optimización global es un problema difícil), ni en algunos casos incluso posible (como cuando surgen problemas de identificabilidad). Además, el modo más alto puede no ser característico de la mayoría de los posteriores.
Finalmente, a diferencia de los estimadores ML, la estimación MAP no es invariante bajo reparametrización. Pasar de una parametrización a otra implica introducir un jacobiano que incide en la ubicación del máximo.
Como ejemplo de la diferencia entre los estimadores Bayes mencionados anteriormente (estimadores de media y mediana) y el uso de una estimación MAP, considere el caso en el que es necesario clasificar las entradas como positivas o negativas (por ejemplo, préstamos como riesgosos o seguros). Supongamos que solo hay tres hipótesis posibles sobre el método correcto de clasificación
,
y
con posteriores 0.4, 0.3 y 0.3 respectivamente. Supongamos que dada una nueva instancia,
,
la clasifica como positiva, mientras que las otras dos la clasifican como negativa. Usando la estimación MAP para el clasificador correcto
,
se clasifica como positivo, mientras que los estimadores de Bayes promediarían todas las hipótesis y se clasificarían
como negativos.
Ejemplo
Supongamos que tenemos una secuencia de variables aleatorias IID
y una distribución previa de
está dada por
. Deseamos encontrar la estimación MAP de
. Tenga en cuenta que la distribución normal es su propio conjugado anterior, por lo que podremos encontrar una solución de forma cerrada analíticamente.
La función a maximizar viene dada por
lo que equivale a minimizar la siguiente función de :
Por lo tanto, vemos que el estimador MAP para μ está dado por
que resulta ser una interpolación lineal entre la media anterior y la media muestral ponderada por sus respectivas covarianzas.
El caso de se denomina a priori no informativo y conduce a una distribución de probabilidad a priori mal definida; en este caso
Contenido relacionado
Demografía de Alemania
Secuencia aleatoria
Cálculo bayesiano aproximado