Estimador bayesiano
En la teoría de la estimación y la teoría de la decisión, un estimador de Bayes o una acción de Bayes es un estimador o una regla de decisión que minimiza el valor esperado posterior de una función de pérdida (es decir, la pérdida esperada posterior). De manera equivalente, maximiza la expectativa posterior de una función de utilidad. Una forma alternativa de formular un estimador dentro de la estadística bayesiana es la estimación máxima a posteriori.
Definición
Supongamos que se sabe que un parámetro desconocido tiene una distribución previa
. Sea
un estimador de
(basado en algunas medidas x), y
sea una función de pérdida, como el error al cuadrado. El riesgo de Bayes de
se define como
, donde la expectativa se toma sobre la distribución de probabilidad de
: esto define la función de riesgo como una función de
. Se
dice que un estimador es un estimador de Bayes si minimiza el riesgo de Bayes entre todos los estimadores. De manera equivalente, el estimador que minimiza la pérdida esperada posterior para cada uno también minimiza el riesgo de Bayes y, por lo tanto, es un estimador de Bayes.
Si el anterior es impropio, entonces un estimador que minimiza la pérdida esperada posterior para cada uno se llama estimador de Bayes generalizado.
Ejemplos
Estimación del error cuadrático medio mínimo
La función de riesgo más común utilizada para la estimación bayesiana es el error cuadrático medio (MSE), también llamado riesgo de error cuadrático. El MSE se define por
donde se asume la expectativa sobre la distribución conjunta de y
.
Medio posterior
Usando el MSE como riesgo, la estimación de Bayes del parámetro desconocido es simplemente la media de la distribución posterior,
Esto se conoce como el estimador del error cuadrático medio mínimo (MMSE).
Estimadores bayesianos para anteriores conjugados
Si no hay una razón inherente para preferir una distribución de probabilidad previa sobre otra, a veces se elige una distribución previa conjugada por simplicidad. Una previa conjugada se define como una distribución previa que pertenece a alguna familia paramétrica, para la cual la distribución posterior resultante también pertenece a la misma familia. Esta es una propiedad importante, ya que el estimador de Bayes, así como sus propiedades estadísticas (varianza, intervalo de confianza, etc.), pueden derivarse de la distribución posterior.
Los previos conjugados son especialmente útiles para la estimación secuencial, donde el posterior de la medición actual se usa como anterior en la siguiente medición. En la estimación secuencial, a menos que se use un previo conjugado, la distribución posterior generalmente se vuelve más compleja con cada medición agregada, y el estimador de Bayes generalmente no se puede calcular sin recurrir a métodos numéricos.
Los siguientes son algunos ejemplos de anteriores conjugados.
- Si
es Normal,
y el anterior es normal,
entonces el posterior también es Normal y el estimador de Bayes bajo MSE está dado por
- Si
son iid variables aleatorias de Poisson
, y si la previa tiene distribución Gamma
, entonces la posterior también tiene distribución Gamma, y el estimador de Bayes bajo MSE está dado por
- Si
los iid están uniformemente distribuidos
, y si el anterior tiene una distribución de Pareto
, entonces el posterior también tiene una distribución de Pareto, y el estimador de Bayes bajo MSE está dado por
Funciones alternativas de riesgo
Las funciones de riesgo se eligen dependiendo de cómo se mida la distancia entre la estimación y el parámetro desconocido. El MSE es la función de riesgo más común en uso, principalmente debido a su simplicidad. Sin embargo, las funciones de riesgo alternativas también se utilizan ocasionalmente. Los siguientes son varios ejemplos de tales alternativas. Denotamos la función de distribución generalizada posterior por .
Mediana posterior y otros cuantiles
- Una función de pérdida "lineal", con
, que produce la mediana posterior como la estimación de Bayes:
- Otra función de pérdida "lineal", que asigna diferentes "pesos"
a la sobre o subestimación. Produce un cuantil de la distribución posterior y es una generalización de la función de pérdida anterior:
Modo posterior
- La siguiente función de pérdida es más complicada: produce el modo posterior o un punto cercano a él, según la curvatura y las propiedades de la distribución posterior. Se recomiendan valores pequeños del parámetro
, para utilizar la moda como una aproximación (
):
Se pueden concebir otras funciones de pérdida, aunque el error cuadrático medio es la más utilizada y validada. Otras funciones de pérdida se utilizan en estadísticas, particularmente en estadísticas robustas.
Estimadores Bayesianos Generalizados
Hasta ahora se ha supuesto que la distribución anterior es una verdadera distribución de probabilidad, en el sentido de que
Sin embargo, ocasionalmente esto puede ser un requisito restrictivo. Por ejemplo, no existe una distribución (que abarque el conjunto R de todos los números reales) para la cual todos los números reales sean igualmente probables. Sin embargo, en cierto sentido, tal "distribución" parece una elección natural para una distribución previa no informativa, es decir, una distribución previa que no implica una preferencia por ningún valor particular del parámetro desconocido. Todavía se puede definir una función , pero esta no sería una distribución de probabilidad adecuada ya que tiene una masa infinita,
Estas medidas , que no son distribuciones de probabilidad, se denominan medidas previas impropias.
El uso de un previo impropio significa que el riesgo de Bayes no está definido (dado que el previo no es una distribución de probabilidad y no podemos tomar una expectativa bajo él). Como consecuencia, ya no tiene sentido hablar de un estimador bayesiano que minimice el riesgo bayesiano. Sin embargo, en muchos casos, se puede definir la distribución posterior
Esta es una definición y no una aplicación del teorema de Bayes, ya que el teorema de Bayes solo se puede aplicar cuando todas las distribuciones son adecuadas. Sin embargo, no es raro que el "posterior" resultante sea una distribución de probabilidad válida. En este caso, la pérdida esperada posterior
es típicamente bien definida y finita. Recuerde que, para un previo adecuado, el estimador de Bayes minimiza la pérdida esperada posterior. Cuando el anterior es impropio, un estimador que minimiza la pérdida esperada posterior se denomina estimador de Bayes generalizado.
Ejemplo
Un ejemplo típico es la estimación de un parámetro de ubicación con una función de pérdida del tipo . Aquí
hay un parámetro de ubicación, es decir,
.
Es común utilizar el previo impropio en este caso, especialmente cuando no se dispone de otra información más subjetiva. Esto produce
por lo que la pérdida esperada posterior
El estimador de Bayes generalizado es el valor que minimiza esta expresión para un determinado
. Esto es equivalente a minimizar
para un dado
(1)
En este caso se puede demostrar que el estimador de Bayes generalizado tiene la forma , para alguna constante
. Para ver esto,
sea el valor minimizando (1) cuando
. Entonces, dado un valor diferente
, debemos minimizar
(2)
Esto es idéntico a (1), excepto que ha sido reemplazado por
. Así, la expresión minimizando viene dada por
, de modo que el estimador óptimo tiene la forma
Estimadores empíricos de Bayes
Un estimador de Bayes derivado a través del método empírico de Bayes se llama estimador empírico de Bayes. Los métodos empíricos de Bayes permiten el uso de datos empíricos auxiliares, a partir de observaciones de parámetros relacionados, en el desarrollo de un estimador de Bayes. Esto se hace bajo el supuesto de que los parámetros estimados se obtienen a partir de un previo común. Por ejemplo, si se realizan observaciones independientes de diferentes parámetros, a veces se puede mejorar el rendimiento de la estimación de un parámetro en particular mediante el uso de datos de otras observaciones.
Existen enfoques paramétricos y no paramétricos para la estimación empírica de Bayes. Bayes empírico paramétrico suele ser preferible ya que es más aplicable y más preciso en pequeñas cantidades de datos.
Ejemplo
El siguiente es un ejemplo simple de estimación Bayesiana empírica paramétrica. Dadas las observaciones pasadas que tienen distribución condicional
, uno está interesado en estimar
con base en
. Suponga que los
's tienen un previo común
que depende de parámetros desconocidos. Por ejemplo, supongamos que
es normal con media
y varianza desconocidas
. Entonces podemos usar las observaciones pasadas para determinar la media y la varianza de
de la siguiente manera.
Primero, estimamos la media y la varianza
de la distribución marginal
usando el enfoque de máxima verosimilitud:
Luego, usamos la ley de la expectativa total para calcular y la ley de la varianza total para calcular
tal que
donde y
son los momentos de la distribución condicional
, que se suponen conocidos. En particular, supóngase eso
y aquello
; entonces tenemos
Finalmente, obtenemos los momentos estimados del anterior,
Por ejemplo, si , y si asumimos un previo normal (que es un previo conjugado en este caso), concluimos que, a partir del cual se puede calcular
el estimador de Bayes
basado en.
Propiedades
Admisibilidad
Las reglas de Bayes que tienen un riesgo de Bayes finito suelen ser admisibles. Los siguientes son algunos ejemplos específicos de teoremas de admisibilidad.
- Si una regla de Bayes es única, entonces es admisible. Por ejemplo, como se indicó anteriormente, bajo el error cuadrático medio (MSE) la regla de Bayes es única y, por lo tanto, admisible.
- Si θ pertenece a un conjunto discreto, todas las reglas de Bayes son admisibles.
- Si θ pertenece a un conjunto continuo (no discreto), y si la función de riesgo R(θ,δ) es continua en θ para todo δ, entonces todas las reglas de Bayes son admisibles.
Por el contrario, las reglas de Bayes generalizadas a menudo tienen un riesgo de Bayes indefinido en el caso de antecedentes impropios. Estas reglas son a menudo inadmisibles y la verificación de su admisibilidad puede ser difícil. Por ejemplo, el estimador de Bayes generalizado de un parámetro de ubicación θ basado en muestras gaussianas (descrito en la sección anterior "Estimador de Bayes generalizado") es inadmisible para ; esto se conoce como fenómeno de Stein.
Eficiencia asintótica
Sea θ una variable aleatoria desconocida y supongamos que son muestras iid con densidad
. Sea
una secuencia de estimadores Bayesianos de θ basados en un número creciente de medidas. Nos interesa analizar el desempeño asintótico de esta secuencia de estimadores, es decir, el desempeño de
para n grande.
Con este fin, se acostumbra considerar a θ como un parámetro determinista cuyo verdadero valor es . Bajo condiciones específicas, para muestras grandes (grandes valores de n), la densidad posterior de θ es aproximadamente normal. En otras palabras, para n grande, el efecto de la probabilidad previa sobre la posterior es insignificante. Además, si δ es el estimador de Bayes bajo riesgo MSE, entonces es asintóticamente insesgado y converge en distribución a la distribución normal:
donde I (θ 0) es la información del pescador de θ 0. De ello se deduce que el estimador de Bayes δ n bajo MSE es asintóticamente eficiente.
Otro estimador asintóticamente normal y eficiente es el estimador de máxima verosimilitud (MLE). Las relaciones entre los estimadores de máxima verosimilitud y Bayes se pueden mostrar en el siguiente ejemplo simple.
Ejemplo: estimar p en una distribución binomial
Considere el estimador de θ basado en una muestra binomial x ~b(θ, n) donde θ denota la probabilidad de éxito. Suponiendo que θ se distribuye de acuerdo con el conjugado previo, que en este caso es la distribución Beta B(a, b), se sabe que la distribución posterior es B(a+x,b+nx). Por lo tanto, el estimador de Bayes bajo MSE es
El MLE en este caso es x/n y así obtenemos,
La última ecuación implica que, para n → ∞, el estimador de Bayes (en el problema descrito) está cerca del MLE.
Por otro lado, cuando n es pequeño, la información previa sigue siendo relevante para el problema de decisión y afecta la estimación. Para ver el peso relativo de la información previa, supongamos que a = b; en este caso cada medida aporta 1 nuevo bit de información; la fórmula anterior muestra que la información previa tiene el mismo peso que a+b bits de la nueva información. En las aplicaciones, a menudo se sabe muy poco sobre los detalles finos de la distribución anterior; en particular, no hay razón para suponer que coincide con B(a, b) exactamente. En tal caso, una posible interpretación de este cálculo es: "existe una distribución previa no patológica con el valor medio 0,5 y la desviación estándar d que da el peso de la información previa igual a 1/(4 d)-1 bits de nueva información".
Otro ejemplo del mismo fenómeno es el caso cuando la estimación previa y una medición se distribuyen normalmente. Si el anterior está centrado en B con desviación Σ, y la medición está centrada en b con desviación σ, entonces el posterior está centrado en , siendo los pesos en este promedio ponderado α=σ², β=Σ². Además, la desviación posterior al cuadrado es Σ²+σ². Es decir, se combina lo previo con la medida exactamente igual que si fuera una medida extra a tener en cuenta.
Por ejemplo, si Σ=σ/2, entonces la desviación de 4 mediciones combinadas coincide con la desviación de la anterior (suponiendo que los errores de las mediciones sean independientes). Y los pesos α, β en la fórmula para posterior coinciden con esto: el peso del anterior es 4 veces el peso de la medida. Combinando este anterior con n mediciones con promedio v da como resultado el posterior centrado en ; en particular, el previo juega el mismo papel que 4 mediciones realizadas por adelantado. En general, el previo tiene el peso de las medidas (σ/Σ)².
Compare con el ejemplo de distribución binomial: allí el anterior tiene el peso de (σ/Σ)²−1 medidas. Se puede ver que el peso exacto depende de los detalles de la distribución, pero cuando σ≫Σ, la diferencia se vuelve pequeña.
Ejemplo práctico de estimadores de Bayes
Internet Movie Database utiliza una fórmula para calcular y comparar las calificaciones de las películas por parte de sus usuarios, incluidos sus 250 títulos mejor calificados, que se afirma que brinda "una verdadera estimación bayesiana". La siguiente fórmula bayesiana se usó inicialmente para calcular un puntaje promedio ponderado para los 250 principales, aunque la fórmula ha cambiado desde entonces:
dónde:= calificación ponderada
= calificación promedio de la película como un número del 1 al 10 (media) = (calificación)
= número de votos/calificaciones de la película = (votos)
= peso dado a la estimación previa (en este caso, el número de votos que IMDB consideró necesarios para que la calificación promedio se acerque a la validez estadística)
= el voto medio en todo el grupo (actualmente 7,0)
Tenga en cuenta que W es solo la media aritmética ponderada de R y C con el vector de peso (v, m). A medida que el número de calificaciones supera m, la confianza de la calificación promedio supera la confianza del voto medio para todas las películas (C), y la calificación bayesiana ponderada (W) se acerca a un promedio directo (R). Cuanto más se acerque v (el número de calificaciones de la película) a cero, más se acercará W a C, donde W es la calificación ponderada y C es la calificación promedio de todas las películas. Entonces, en términos más simples, cuantas menos calificaciones/votos se emitan para una película, más se inclinará la calificación ponderada de esa película hacia el promedio de todas las películas, mientras que las películas con muchas calificaciones/votos tendrán una calificación cercana a su calificación promedio aritmética pura.
El enfoque de IMDb asegura que una película con solo unas pocas calificaciones, todas con 10, no se ubicaría por encima de "El Padrino", por ejemplo, con un promedio de 9.2 de más de 500,000 calificaciones.
Contenido relacionado
Probabilidad frecuentista
Demografía del Reino Unido
Modelado de datos