Probabilidad a posteriori

Compartir Imprimir Citar

La probabilidad posterior es un tipo de probabilidad condicional que resulta de actualizar la probabilidad previa con información resumida por la verosimilitud, mediante una aplicación del teorema de Bayes. Desde una perspectiva epistemológica, la probabilidad posterior contiene todo lo que hay que saber sobre una proposición incierta (como una hipótesis científica o valores de parámetros), dado el conocimiento previo y un modelo matemático que describe las observaciones disponibles en un momento determinado. Después de la llegada de nueva información, la probabilidad posterior actual puede servir como anterior en otra ronda de actualización bayesiana.

En el contexto de las estadísticas bayesianas, la distribución de probabilidad posterior generalmente describe la incertidumbre epistémica sobre los parámetros estadísticos condicionados a una colección de datos observados. A partir de una distribución posterior dada, se pueden derivar varias estimaciones de puntos e intervalos, como el máximo a posteriori (MAP) o el intervalo de densidad posterior más alto (HPDI). Pero aunque conceptualmente es simple, la distribución posterior generalmente no es tratable y, por lo tanto, debe aproximarse analítica o numéricamente.

Definición en el caso distributivo

En los métodos bayesianos variacionales, la probabilidad posterior es la probabilidad de los parámetros $theta$ dada la evidencia $X$ y se denota como ${displaystyle p(theta |X)}$ .

Se contrasta con la función de verosimilitud, que es la probabilidad de la evidencia dados los parámetros: $p(X|theta)$ .

Los dos están relacionados de la siguiente manera:

Dada una creencia previa de que una función de distribución de probabilidad es $p(theta)$ y que las observaciones $X$ tienen una probabilidad $p(x|theta)$ , entonces la probabilidad posterior se define como ${displaystyle p(theta |x)={frac {p(x|theta)}{p(x)}}p(theta)}$

donde $p(x)$ es la constante de normalización y se calcula como ${displaystyle p(x)=int p(x|theta)p(theta)dtheta }$

para continuo $theta$ , o sumando ${ estilo de visualización p (x | theta) p ( theta)}$ todos los valores posibles de $theta$ para discreto $theta$ .

La probabilidad posterior es por tanto proporcional al producto Verosimilitud · Probabilidad previa.

Ejemplo

Supongamos que hay una escuela que tiene un 60% de niños y un 40% de niñas como estudiantes. Las niñas visten pantalón o falda en igual número; todos los niños usan pantalones. Un observador ve a un estudiante (al azar) desde la distancia; todo lo que el observador puede ver es que este estudiante lleva pantalones. ¿Cuál es la probabilidad de que este estudiante sea una niña? La respuesta correcta se puede calcular usando el teorema de Bayes.

El evento $GRAMO$ es que el estudiante observado es una niña, y el evento $T$ es que el estudiante observado lleva pantalones. Para calcular la probabilidad posterior $P(G|T)$ , primero necesitamos saber:

$P(G)$ , o la probabilidad de que el estudiante sea una niña independientemente de cualquier otra información. Dado que el observador ve a un alumno al azar, lo que significa que todos los alumnos tienen la misma probabilidad de ser observados, y el porcentaje de chicas entre los alumnos es del 40 %, esta probabilidad es igual a 0,4.
$P(B)$ , o la probabilidad de que el estudiante no sea una niña (es decir, un niño) independientemente de cualquier otra información ( $B$ es el evento complementario de $GRAMO$ ). Esto es 60%, o 0.6.
$P(T|G)$ , o la probabilidad de que el estudiante use pantalones dado que el estudiante es una niña. Como es más probable que usen faldas que pantalones, esto es 0,5.
$P(T|B)$ , o la probabilidad de que el estudiante use pantalones dado que el estudiante es un niño. Esto se da como 1.
$P(T)$ , o la probabilidad de que un estudiante (seleccionado al azar) use pantalones independientemente de cualquier otra información. Dado que $P(T)=P(T|G)P(G)+P(T|B)P(B)$ (a través de la ley de probabilidad total), esto es $P(T)=0.5veces 0.4+1veces 0.6=0.8$ .

Dada toda esta información, la probabilidad posterior de que el observador haya visto a una niña dado que el estudiante observado lleva pantalones se puede calcular sustituyendo estos valores en la fórmula: $P(G|T)={frac {P(T|G)P(G)}{P(T)}}={frac {0,5times 0,4}{0,8}}=0,25.$

Una forma intuitiva de resolver esto es asumir que la escuela tiene N estudiantes. Número de niños = 0,6N y número de niñas = 0,4N. Si N es suficientemente grande, el número total de usuarios de pantalones = 0,6N+ 50% de 0,4N. Y número de chicas que usan pantalones = 50% de 0.4N. Por lo tanto, en la población de pantalones, las niñas son (50% de 0,4N)/(0,6N+ 50% de 0,4N) = 25%. En otras palabras, si separó el grupo de los que usan pantalones, una cuarta parte de ese grupo serán niñas. Por lo tanto, si ve pantalones, lo más que puede deducir es que está viendo una sola muestra de un subconjunto de estudiantes donde el 25% son niñas. Y, por definición, la probabilidad de que este estudiante aleatorio sea una niña es del 25 %. Todos los problemas del teorema de Bayes se pueden resolver de esta manera.

Cálculo

La distribución de probabilidad posterior de una variable aleatoria dado el valor de otra puede calcularse con el teorema de Bayes multiplicando la distribución de probabilidad anterior por la función de probabilidad y luego dividiéndola por la constante de normalización, de la siguiente manera: ${displaystyle f_{Xmid Y=y}(x)={f_{X}(x){mathcal {L}}_{Xmid Y=y}(x) over {int_{ -infty }^{infty }f_{X}(u){mathcal {L}}_{Xmid Y=y}(u),du}}}$

da la función de densidad de probabilidad posterior para una variable aleatoria $X$ dados los datos $Y=y$ , donde

$f_{X}(x)$ es la densidad previa de $X$ ,
${displaystyle {mathcal {L}}_{Xmid Y=y}(x)=f_{Ymid X=x}(y)}$ es la función de verosimilitud en función de $X$ ,
${displaystyle int_{-infty}^{infty}f_{X}(u){mathcal {L}}_{Xmid Y=y}(u),du}$ es la constante de normalización, y
$f_{Xmid Y=y}(x)$ es la densidad posterior de $X$ dados los datos $Y=y$ .

Intervalo creíble

La probabilidad posterior es una probabilidad condicional condicionada a datos observados aleatoriamente. Por lo tanto, es una variable aleatoria. Para una variable aleatoria, es importante resumir su cantidad de incertidumbre. Una forma de lograr este objetivo es proporcionar un intervalo creíble de la probabilidad posterior.

Clasificación

En la clasificación, las probabilidades posteriores reflejan la incertidumbre de evaluar una observación a una clase en particular, consulte también Probabilidades de pertenencia a clases. Mientras que los métodos de clasificación estadística, por definición, generan probabilidades posteriores, los aprendices automáticos suelen proporcionar valores de pertenencia que no inducen ninguna confianza probabilística. Es deseable transformar o volver a escalar los valores de membresía a las probabilidades de membresía de clase, ya que son comparables y, además, se aplican más fácilmente para el procesamiento posterior.

Probabilidad a posteriori

Definición en el caso distributivo

Ejemplo

Cálculo

Intervalo creíble

Clasificación

Observación (probabilidades)

Axiomas de probabilidad

Gráfico de violín