Estimador bayesiano

Compartir Imprimir Citar

En la teoría de la estimación y la teoría de la decisión, un estimador de Bayes o una acción de Bayes es un estimador o una regla de decisión que minimiza el valor esperado posterior de una función de pérdida (es decir, la pérdida esperada posterior). De manera equivalente, maximiza la expectativa posterior de una función de utilidad. Una forma alternativa de formular un estimador dentro de la estadística bayesiana es la estimación máxima a posteriori.

Definición

Supongamos que  thetase sabe que un parámetro desconocido tiene una distribución previa Pi. Sea {sombrero ancho {theta }}={sombrero ancho {theta }}(x)un estimador de  theta (basado en algunas medidas x), y L(theta,{widehat {theta }})sea una función de pérdida, como el error al cuadrado. El riesgo de Bayes de { sombrero ancho { theta}}se define como E_{pi }(L(theta,{widehat {theta }})), donde la expectativa se toma sobre la distribución de probabilidad de  theta: esto define la función de riesgo como una función de { sombrero ancho { theta}}. Se { sombrero ancho { theta}}dice que un estimador es un estimador de Bayes si minimiza el riesgo de Bayes entre todos los estimadores. De manera equivalente, el estimador que minimiza la pérdida esperada posterior para cada uno también minimiza el riesgo de Bayes y, por lo tanto, es un estimador de Bayes.E(L(theta,{widehat {theta }})|x)

Si el anterior es impropio, entonces un estimador que minimiza la pérdida esperada posterior para cada uno se llama estimador de Bayes generalizado.

Ejemplos

Estimación del error cuadrático medio mínimo

La función de riesgo más común utilizada para la estimación bayesiana es el error cuadrático medio (MSE), también llamado riesgo de error cuadrático. El MSE se define pormathrm {MSE} =Eleft[({widehat {theta }}(x)-theta)^{2}right],

donde se asume la expectativa sobre la distribución conjunta de  thetay X.

Medio posterior

Usando el MSE como riesgo, la estimación de Bayes del parámetro desconocido es simplemente la media de la distribución posterior,{displaystyle {widehat {theta }}(x)=E[theta |x]=int theta ,p(theta |x),dtheta.}

Esto se conoce como el estimador del error cuadrático medio mínimo (MMSE).

Estimadores bayesianos para anteriores conjugados

Si no hay una razón inherente para preferir una distribución de probabilidad previa sobre otra, a veces se elige una distribución previa conjugada por simplicidad. Una previa conjugada se define como una distribución previa que pertenece a alguna familia paramétrica, para la cual la distribución posterior resultante también pertenece a la misma familia. Esta es una propiedad importante, ya que el estimador de Bayes, así como sus propiedades estadísticas (varianza, intervalo de confianza, etc.), pueden derivarse de la distribución posterior.

Los previos conjugados son especialmente útiles para la estimación secuencial, donde el posterior de la medición actual se usa como anterior en la siguiente medición. En la estimación secuencial, a menos que se use un previo conjugado, la distribución posterior generalmente se vuelve más compleja con cada medición agregada, y el estimador de Bayes generalmente no se puede calcular sin recurrir a métodos numéricos.

Los siguientes son algunos ejemplos de anteriores conjugados.

{widehat {theta }}(x)={frac {sigma ^{2}}{sigma ^{2}+tau ^{2}}}mu +{frac {tau ^{ 2}}{sigma ^{2}+tau^{2}}}x.

{displaystyle {widehat {theta }}(X)={frac {n{overline {X}}+a}{n+b}}.}

{widehat {theta }}(X)={frac {(a+n)max {(theta _{0},x_{1},...,x_{n})}}{a +n-1}}.

Funciones alternativas de riesgo

Las funciones de riesgo se eligen dependiendo de cómo se mida la distancia entre la estimación y el parámetro desconocido. El MSE es la función de riesgo más común en uso, principalmente debido a su simplicidad. Sin embargo, las funciones de riesgo alternativas también se utilizan ocasionalmente. Los siguientes son varios ejemplos de tales alternativas. Denotamos la función de distribución generalizada posterior por F.

Mediana posterior y otros cuantiles

L(theta,{widehat {theta }})=a|theta -{widehat {theta }}|F({widehat {theta }}(x)|X)={tfrac {1}{2}}.

L(theta,{widehat {theta }})={begin{cases}a|theta -{widehat {theta }}|,&{mbox{for }}theta -{widehat {theta }}geq 0\b|theta -{widehat {theta }}|,&{mbox{para }}theta -{widehat {theta }}<0end{casos }}F({widehat {theta }}(x)|X)={frac {a}{a+b}}.

Modo posterior

L(theta,{widehat {theta }})={begin{cases}0,&{mbox{for }}|theta -{widehat {theta }}|<K\L, &{mbox{para }}|theta -{widehat {theta }}|geq K.end{casos}}

Se pueden concebir otras funciones de pérdida, aunque el error cuadrático medio es la más utilizada y validada. Otras funciones de pérdida se utilizan en estadísticas, particularmente en estadísticas robustas.

Estimadores Bayesianos Generalizados

pagsHasta ahora se ha supuesto que la distribución anterior es una verdadera distribución de probabilidad, en el sentido de queint p(theta)dtheta =1.

Sin embargo, ocasionalmente esto puede ser un requisito restrictivo. Por ejemplo, no existe una distribución (que abarque el conjunto R de todos los números reales) para la cual todos los números reales sean igualmente probables. Sin embargo, en cierto sentido, tal "distribución" parece una elección natural para una distribución previa no informativa, es decir, una distribución previa que no implica una preferencia por ningún valor particular del parámetro desconocido. Todavía se puede definir una función p(theta)=1, pero esta no sería una distribución de probabilidad adecuada ya que tiene una masa infinita,int {p(theta)dtheta }=infty.

Estas medidas p(theta), que no son distribuciones de probabilidad, se denominan medidas previas impropias.

El uso de un previo impropio significa que el riesgo de Bayes no está definido (dado que el previo no es una distribución de probabilidad y no podemos tomar una expectativa bajo él). Como consecuencia, ya no tiene sentido hablar de un estimador bayesiano que minimice el riesgo bayesiano. Sin embargo, en muchos casos, se puede definir la distribución posteriorp(theta |x)={frac {p(x|theta)p(theta)}{int p(x|theta)p(theta)dtheta }}.

Esta es una definición y no una aplicación del teorema de Bayes, ya que el teorema de Bayes solo se puede aplicar cuando todas las distribuciones son adecuadas. Sin embargo, no es raro que el "posterior" resultante sea una distribución de probabilidad válida. En este caso, la pérdida esperada posteriorint {L(theta,a)p(theta |x)dtheta }

es típicamente bien definida y finita. Recuerde que, para un previo adecuado, el estimador de Bayes minimiza la pérdida esperada posterior. Cuando el anterior es impropio, un estimador que minimiza la pérdida esperada posterior se denomina estimador de Bayes generalizado.

Ejemplo

Un ejemplo típico es la estimación de un parámetro de ubicación con una función de pérdida del tipo L(a-theta). Aquí  thetahay un parámetro de ubicación, es decir, p(x|theta)=f(x-theta).

Es común utilizar el previo impropio p(theta)=1en este caso, especialmente cuando no se dispone de otra información más subjetiva. Esto producep(theta |x)={frac {p(x|theta)p(theta)}{p(x)}}={frac {f(x-theta)}{p(x) }}

por lo que la pérdida esperada posteriorE[L(a-theta)|x]=int {L(a-theta)p(theta |x)dtheta }={frac {1}{p(x)}}int L(a-theta)f(x-theta)dtheta.

El estimador de Bayes generalizado es el valor hacha)que minimiza esta expresión para un determinado X. Esto es equivalente a minimizarint L(a-theta)f(x-theta)dthetapara un dado X. (1)

En este caso se puede demostrar que el estimador de Bayes generalizado tiene la forma x+a_{0}, para alguna constante un_{0}. Para ver esto, un_{0}sea el valor minimizando (1) cuando x=0. Entonces, dado un valor diferente x_{1}, debemos minimizarint L(a-theta)f(x_{1}-theta)dtheta =int L(a-x_{1}-theta ')f(-theta ')dtheta '. (2)

Esto es idéntico a (1), excepto que aha sido reemplazado por a-x_{1}. Así, la expresión minimizando viene dada por a-x_{1}=a_{0}, de modo que el estimador óptimo tiene la formaa(x)=a_{0}+x.,!

Estimadores empíricos de Bayes

Un estimador de Bayes derivado a través del método empírico de Bayes se llama estimador empírico de Bayes. Los métodos empíricos de Bayes permiten el uso de datos empíricos auxiliares, a partir de observaciones de parámetros relacionados, en el desarrollo de un estimador de Bayes. Esto se hace bajo el supuesto de que los parámetros estimados se obtienen a partir de un previo común. Por ejemplo, si se realizan observaciones independientes de diferentes parámetros, a veces se puede mejorar el rendimiento de la estimación de un parámetro en particular mediante el uso de datos de otras observaciones.

Existen enfoques paramétricos y no paramétricos para la estimación empírica de Bayes. Bayes empírico paramétrico suele ser preferible ya que es más aplicable y más preciso en pequeñas cantidades de datos.

Ejemplo

El siguiente es un ejemplo simple de estimación Bayesiana empírica paramétrica. Dadas las observaciones pasadas que x_{1},ldots,x_{n}tienen distribución condicional f(x_{i}|theta _{i}), uno está interesado en estimar theta _{n+1}con base en x_{n+1}. Suponga que los theta _{i}'s tienen un previo común Pique depende de parámetros desconocidos. Por ejemplo, supongamos que Pies normal con media mu _{pi},!y varianza desconocidas sigma _{pi},!.. Entonces podemos usar las observaciones pasadas para determinar la media y la varianza de Pide la siguiente manera.

Primero, estimamos la media mamá},!y la varianza sigma _{m},!de la distribución marginal x_{1},ldots,x_{n}usando el enfoque de máxima verosimilitud:{ sombrero ancho { mu}}_{m}={frac {1}{n}}sum {x_{i}},{sombrero ancho {sigma}}_{m}^{2}={frac {1}{n}}sum {(x_{i}-{sombrero ancho {mu }}_{m})^ {2}}.

Luego, usamos la ley de la expectativa total para calcular mamá}y la ley de la varianza total para calcular { estilo de visualización  sigma _ {m} ^ {2}}tal quemu _{m}=E_{pi }[mu _{f}(theta)],!,{displaystyle sigma _{m}^{2}=E_{pi }[sigma _{f}^{2}(theta)]+E_{pi }[(mu _{f}(theta)-mu _{m})^{2}],}

donde mu _{f}(theta)y sigma _{f}(theta)son los momentos de la distribución condicional f(x_{i}|theta _{i}), que se suponen conocidos. En particular, supóngase eso mu _{f}(theta)=thetay aquello sigma _{f}^{2}(theta)=K; entonces tenemosmu _{pi}=mu _{m},!,sigma_{pi}^{2}=sigma_{m}^{2}-sigma_{f}^{2}=sigma_{m}^{2}-K.

Finalmente, obtenemos los momentos estimados del anterior,{sombrero ancho {mu }}_{pi }={sombrero ancho {mu }}_{m},{widehat {sigma }}_{pi }^{2}={widehat {sigma }}_{m}^{2}-K.

Por ejemplo, si x_{i}|theta _{i}sim N(theta _{i},1), y si asumimos un previo normal (que es un previo conjugado en este caso), concluimos que, a partir del cual se puede calcular theta _{n+1}sim N({widehat {mu }}_{pi },{widehat {sigma }}_{pi }^{2})el estimador de Bayes theta _{n+1}basado en.x_{n+1}

Propiedades

Admisibilidad

Las reglas de Bayes que tienen un riesgo de Bayes finito suelen ser admisibles. Los siguientes son algunos ejemplos específicos de teoremas de admisibilidad.

Por el contrario, las reglas de Bayes generalizadas a menudo tienen un riesgo de Bayes indefinido en el caso de antecedentes impropios. Estas reglas son a menudo inadmisibles y la verificación de su admisibilidad puede ser difícil. Por ejemplo, el estimador de Bayes generalizado de un parámetro de ubicación θ basado en muestras gaussianas (descrito en la sección anterior "Estimador de Bayes generalizado") es inadmisible para pag>2; esto se conoce como fenómeno de Stein.

Eficiencia asintótica

Sea θ una variable aleatoria desconocida y supongamos que x_{1},x_{2},l puntosson muestras iid con densidad f(x_{i}|theta). Sea delta _{n}=delta _{n}(x_{1},ldots,x_{n})una secuencia de estimadores Bayesianos de θ basados ​​en un número creciente de medidas. Nos interesa analizar el desempeño asintótico de esta secuencia de estimadores, es decir, el desempeño de delta _{n}para n grande.

Con este fin, se acostumbra considerar a θ como un parámetro determinista cuyo verdadero valor es  theta _ {0}. Bajo condiciones específicas, para muestras grandes (grandes valores de n), la densidad posterior de θ es aproximadamente normal. En otras palabras, para n grande, el efecto de la probabilidad previa sobre la posterior es insignificante. Además, si δ es el estimador de Bayes bajo riesgo MSE, entonces es asintóticamente insesgado y converge en distribución a la distribución normal:{sqrt {n}}(delta _{n}-theta _{0})a Nleft(0,{frac {1}{I(theta _{0})}}right),

donde I0) es la información del pescador de θ 0. De ello se deduce que el estimador de Bayes δ n bajo MSE es asintóticamente eficiente.

Otro estimador asintóticamente normal y eficiente es el estimador de máxima verosimilitud (MLE). Las relaciones entre los estimadores de máxima verosimilitud y Bayes se pueden mostrar en el siguiente ejemplo simple.

Ejemplo: estimar p en una distribución binomial

Considere el estimador de θ basado en una muestra binomial x ~b(θ, n) donde θ denota la probabilidad de éxito. Suponiendo que θ se distribuye de acuerdo con el conjugado previo, que en este caso es la distribución Beta B(a, b), se sabe que la distribución posterior es B(a+x,b+nx). Por lo tanto, el estimador de Bayes bajo MSE esdelta _{n}(x)=E[theta |x]={frac {a+x}{a+b+n}}.

El MLE en este caso es x/n y así obtenemos,delta _{n}(x)={frac {a+b}{a+b+n}}E[theta]+{frac {n}{a+b+n}}delta _{ MLE}.

La última ecuación implica que, para n → ∞, el estimador de Bayes (en el problema descrito) está cerca del MLE.

Por otro lado, cuando n es pequeño, la información previa sigue siendo relevante para el problema de decisión y afecta la estimación. Para ver el peso relativo de la información previa, supongamos que a = b; en este caso cada medida aporta 1 nuevo bit de información; la fórmula anterior muestra que la información previa tiene el mismo peso que a+b bits de la nueva información. En las aplicaciones, a menudo se sabe muy poco sobre los detalles finos de la distribución anterior; en particular, no hay razón para suponer que coincide con B(a, b) exactamente. En tal caso, una posible interpretación de este cálculo es: "existe una distribución previa no patológica con el valor medio 0,5 y la desviación estándar d que da el peso de la información previa igual a 1/(4 d)-1 bits de nueva información".

Otro ejemplo del mismo fenómeno es el caso cuando la estimación previa y una medición se distribuyen normalmente. Si el anterior está centrado en B con desviación Σ, y la medición está centrada en b con desviación σ, entonces el posterior está centrado en {frac {alfa }{alfa +beta }}B+{frac {beta }{alfa +beta }}b, siendo los pesos en este promedio ponderado α=σ², β=Σ². Además, la desviación posterior al cuadrado es Σ²+σ². Es decir, se combina lo previo con la medida exactamente igual que si fuera una medida extra a tener en cuenta.

Por ejemplo, si Σ=σ/2, entonces la desviación de 4 mediciones combinadas coincide con la desviación de la anterior (suponiendo que los errores de las mediciones sean independientes). Y los pesos α, β en la fórmula para posterior coinciden con esto: el peso del anterior es 4 veces el peso de la medida. Combinando este anterior con n mediciones con promedio v da como resultado el posterior centrado en {frac{4}{4+n}}V+{frac{n}{4+n}}v; en particular, el previo juega el mismo papel que 4 mediciones realizadas por adelantado. En general, el previo tiene el peso de las medidas (σ/Σ)².

Compare con el ejemplo de distribución binomial: allí el anterior tiene el peso de (σ/Σ)²−1 medidas. Se puede ver que el peso exacto depende de los detalles de la distribución, pero cuando σ≫Σ, la diferencia se vuelve pequeña.

Ejemplo práctico de estimadores de Bayes

Internet Movie Database utiliza una fórmula para calcular y comparar las calificaciones de las películas por parte de sus usuarios, incluidos sus 250 títulos mejor calificados, que se afirma que brinda "una verdadera estimación bayesiana". La siguiente fórmula bayesiana se usó inicialmente para calcular un puntaje promedio ponderado para los 250 principales, aunque la fórmula ha cambiado desde entonces:W={Rv+Cm sobre v+m}

dónde:W= calificación ponderadaR= calificación promedio de la película como un número del 1 al 10 (media) = (calificación)v= número de votos/calificaciones de la película = (votos)metro= peso dado a la estimación previa (en este caso, el número de votos que IMDB consideró necesarios para que la calificación promedio se acerque a la validez estadística)C= el voto medio en todo el grupo (actualmente 7,0)

Tenga en cuenta que W es solo la media aritmética ponderada de R y C con el vector de peso (v, m). A medida que el número de calificaciones supera m, la confianza de la calificación promedio supera la confianza del voto medio para todas las películas (C), y la calificación bayesiana ponderada (W) se acerca a un promedio directo (R). Cuanto más se acerque v (el número de calificaciones de la película) a cero, más se acercará W a C, donde W es la calificación ponderada y C es la calificación promedio de todas las películas. Entonces, en términos más simples, cuantas menos calificaciones/votos se emitan para una película, más se inclinará la calificación ponderada de esa película hacia el promedio de todas las películas, mientras que las películas con muchas calificaciones/votos tendrán una calificación cercana a su calificación promedio aritmética pura.

El enfoque de IMDb asegura que una película con solo unas pocas calificaciones, todas con 10, no se ubicaría por encima de "El Padrino", por ejemplo, con un promedio de 9.2 de más de 500,000 calificaciones.