Inferencia bayesiana

Compartir Imprimir Citar

La inferencia bayesiana es un método de inferencia estadística en el que se utiliza el teorema de Bayes para actualizar la probabilidad de una hipótesis a medida que se dispone de más pruebas o información. La inferencia bayesiana es una técnica importante en estadística, y especialmente en estadística matemática. La actualización bayesiana es particularmente importante en el análisis dinámico de una secuencia de datos. La inferencia bayesiana ha encontrado aplicación en una amplia gama de actividades, incluidas la ciencia, la ingeniería, la filosofía, la medicina, el deporte y el derecho. En la filosofía de la teoría de la decisión, la inferencia bayesiana está estrechamente relacionada con la probabilidad subjetiva, a menudo denominada "probabilidad bayesiana".

Introducción a la regla de Bayes

Explicación formal

HipótesisEvidenciaSatisfacela hipótesisHViolahipótesis ¬HTotal
Tiene evidenciaEP(H|E)·P(E)= P(E|H)·P(H)P(¬H|E)·P(E)= P(E|¬H)·P(¬H)EDUCACIÓN FÍSICA)
Sin pruebas¬EP(H|¬E)·P(¬E)= P(¬E|H)·P(H)P(¬H|¬E)·P(¬E)= P(¬E|¬H)·P(¬H)P(¬E) =1−P(E)
Total P(H)P(¬H) = 1−P(H)1

La inferencia bayesiana deriva la probabilidad posterior como consecuencia de dos antecedentes: una probabilidad previa y una "función de verosimilitud" derivada de un modelo estadístico para los datos observados. La inferencia bayesiana calcula la probabilidad posterior de acuerdo con el teorema de Bayes:

{displaystyle P(Hmid E)={frac {P(Emid H)cdot P(H)}{P(E)}}}

dónde

Para diferentes valores de { estilo de texto H}, solo los factores { estilo de texto P (H)}y { estilo de texto PAG (E  mid H)}, ambos en el numerador, afectan el valor de { estilo de texto P (H  mid E)}– la probabilidad posterior de una hipótesis es proporcional a su probabilidad anterior (su probabilidad inherente) y la probabilidad recién adquirida (su compatibilidad con la nueva evidencia observada).).

La regla de Bayes también se puede escribir de la siguiente manera:

{displaystyle {begin{alineado}P(Hmid E)&={frac {P(Emid H)P(H)}{P(E)}}\\&={frac {P(Emid H)P(H)}{P(Emid H)P(H)+P(Emid neg H)P(neg H)}}\\&={ frac {1}{1+left({frac {1}{P(H)}}-1right){frac {P(Emid neg H)}{P(Emid H)}}}}\end{alineado}}}

porque

{displaystyle P(E)=P(Emid H)P(H)+P(Emid neg H)P(neg H)}

y

{displaystyle P(H)+P(neg H)=1}

donde { estilo de visualización  neg H}está "no { estilo de texto H}", la negación lógica de { estilo de texto H}.

Una forma rápida y fácil de recordar la ecuación sería usar la regla de la multiplicación:

{displaystyle P(Ecap H)=P(Emid H)P(H)=P(Hmid E)P(E)}

Alternativas a la actualización bayesiana

La actualización bayesiana es ampliamente utilizada y computacionalmente conveniente. Sin embargo, no es la única regla de actualización que podría considerarse racional.

Ian Hacking señaló que los argumentos tradicionales del "libro holandés" no especificaban la actualización bayesiana: dejaban abierta la posibilidad de que las reglas de actualización no bayesianas pudieran evitar los libros holandeses. Hacking escribió: "Y ni el argumento del libro holandés ni ningún otro en el arsenal personalista de pruebas de los axiomas de probabilidad implica la suposición dinámica. Ninguno implica el bayesianismo. Entonces, el personalista requiere que la suposición dinámica sea bayesiana. Es cierto que en consistencia un personalista podría abandonar el modelo bayesiano de aprender de la experiencia. La sal podría perder su sabor".

De hecho, existen reglas de actualización no bayesianas que también evitan los libros holandeses (como se discute en la literatura sobre "cinemática de la probabilidad") luego de la publicación de la regla de Richard C. Jeffrey, que aplica la regla de Bayes al caso en el que se asigna la evidencia misma. una probabilidad Las hipótesis adicionales necesarias para requerir únicamente la actualización bayesiana se han considerado sustanciales, complicadas e insatisfactorias.

Inferencia sobre posibilidades exclusivas y exhaustivas

Si la evidencia se usa simultáneamente para actualizar la creencia sobre un conjunto de proposiciones exclusivas y exhaustivas, se puede pensar que la inferencia bayesiana actúa sobre esta distribución de creencias como un todo.

Formulación general

Suponga que un proceso genera eventos independientes e idénticamente distribuidos {displaystyle E_{n},,,n=1,2,3,ldots}, pero se desconoce la distribución de probabilidad. Deje que el espacio de eventos Omegarepresente el estado actual de creencia para este proceso. Cada modelo está representado por event M_{m}. Las probabilidades condicionales P(E_{n}mid M_{m})se especifican para definir los modelos. P(M_{m})es el grado de creencia en M_{m}. Antes del primer paso de inferencia, {P(M_{m})}hay un conjunto de probabilidades previas iniciales. Estos deben sumar 1, pero por lo demás son arbitrarios.

Suponga que se observa que el proceso genera {textstyle Een {E_{n}}}. Para cada uno Mpulgadas {M_{m}}, el anterior PM)se actualiza al posterior P(Mmedia E). Del teorema de Bayes:

{displaystyle P(Mmid E)={frac {P(Emid M)}{sum _{m}{P(Emid M_{m})P(M_{m})}} }cdot P(M)}

Tras la observación de más pruebas, este procedimiento puede repetirse.

Múltiples observaciones

Para una secuencia de observaciones independientes e idénticamente distribuidas mathbf {E} =(e_{1},puntos,e_{n}), se puede demostrar por inducción que la aplicación repetida de lo anterior es equivalente a

{displaystyle P(Mmid mathbf {E})={frac {P(mathbf {E} mid M)}{sum _{m}{P(mathbf {E} mid M_{ m})P(M_{m})}}}cdot P(M)}

dónde

{displaystyle P(mathbf {E} mid M)=prod_{k}{P(e_{k}mid M)}.}

Formulación paramétrica: motivando la descripción formal

Al parametrizar el espacio de modelos, la creencia en todos los modelos puede actualizarse en un solo paso. La distribución de creencias sobre el espacio modelo puede pensarse entonces como una distribución de creencias sobre el espacio de parámetros. Las distribuciones en esta sección se expresan como continuas, representadas por densidades de probabilidad, ya que esta es la situación habitual. Sin embargo, la técnica es igualmente aplicable a distribuciones discretas.

Deje que el vector mathbf {theta}abarque el espacio de parámetros. Deje que la distribución previa inicial mathbf {theta}sea p(mathbf {theta } mid mathbf {alpha }), donde mathbf {alfa}es un conjunto de parámetros para el anterior en sí mismo, o hiperparámetros. Sea mathbf {E} =(e_{1},puntos,e_{n})una secuencia de observaciones de eventos independientes e idénticamente distribuidas, donde todas e_{yo}están distribuidas como p(emid mathbf {theta})para algunas mathbf {theta}. Se aplica el teorema de Bayes para encontrar la distribución posterior sobre mathbf {theta}:

{displaystyle {begin{alineado}p(mathbf {theta } mid mathbf {E},mathbf {alpha })&={frac {p(mathbf {E} mid mathbf { theta },mathbf {alpha })}{p(mathbf {E} mid mathbf {alpha })}}cdot p(mathbf {theta } mid mathbf {alpha }) \&={frac {p(mathbf {E} mid mathbf {theta },mathbf {alpha })}{int p(mathbf {E} |mathbf {theta }, mathbf {alpha })p(mathbf {theta } mid mathbf {alpha }),dmathbf {theta } }}cdot p(mathbf {theta } mid mathbf { alpha })end{alineado}}}

dónde

{displaystyle p(mathbf {E} mid mathbf {theta },mathbf {alpha })=prod_{k}p(e_{k}mid mathbf {theta })}

Descripción formal de la inferencia bayesiana

Definiciones

Inferencia bayesiana

Predicción bayesiana

La teoría bayesiana exige el uso de la distribución predictiva posterior para realizar inferencias predictivas, es decir, para predecir la distribución de un nuevo punto de datos no observado. Es decir, en lugar de un punto fijo como predicción, se devuelve una distribución sobre puntos posibles. Solo así se utiliza toda la distribución posterior del parámetro o parámetros. En comparación, la predicción en las estadísticas frecuentistas a menudo implica encontrar una estimación puntual óptima de los parámetros, por ejemplo, por máxima verosimilitud o estimación máxima a posteriori (MAP), y luego conectar esta estimación en la fórmula para la distribución de un punto de datos.. Esto tiene la desventaja de que no tiene en cuenta ninguna incertidumbre en el valor del parámetro y, por lo tanto, subestimará la varianza de la distribución predictiva.

En algunos casos, las estadísticas frecuentistas pueden solucionar este problema. Por ejemplo, los intervalos de confianza y los intervalos de predicción en las estadísticas frecuentistas cuando se construyen a partir de una distribución normal con media y varianza desconocidas se construyen utilizando una distribución t de Student. Esto estima correctamente la varianza, debido a que (1) el promedio de variables aleatorias distribuidas normalmente también se distribuye normalmente, y (2) la distribución predictiva de un punto de datos distribuido normalmente con media y varianza desconocidas, utilizando antecedentes conjugados o no informativos, tiene una distribución t de Student. Sin embargo, en las estadísticas bayesianas, la distribución predictiva posterior siempre se puede determinar con exactitud, o al menos con un nivel arbitrario de precisión cuando se utilizan métodos numéricos.

Ambos tipos de distribuciones predictivas tienen la forma de una distribución de probabilidad compuesta (al igual que la probabilidad marginal). De hecho, si la distribución previa es una previa conjugada, de modo que las distribuciones anterior y posterior provienen de la misma familia, se puede ver que las distribuciones predictivas anterior y posterior también provienen de la misma familia de distribuciones compuestas. La única diferencia es que la distribución predictiva posterior usa los valores actualizados de los hiperparámetros (aplicando las reglas de actualización bayesianas dadas en el artículo anterior conjugado), mientras que la distribución predictiva previa usa los valores de los hiperparámetros que aparecen en la distribución anterior.

Propiedades matematicas

Interpretación del factor

1Rightarrow P(Emid M)>P(E)}">. Es decir, si el modelo fuera verdadero, la evidencia sería más probable de lo que predice el estado actual de creencia. Lo contrario se aplica a una disminución en la creencia. Si la creencia no cambia, {textstyle {frac {P(Emid M)}{P(E)}}=1Rightarrow P(Emid M)=P(E)}. Es decir, la evidencia es independiente del modelo. Si el modelo fuera cierto, la evidencia sería exactamente tan probable como la predicha por el estado actual de creencia.

Regla de cromwell

Si { estilo de visualización P (M) = 0}entonces {displaystyle PAG(Mmid E)=0}_ Si { estilo de visualización PAG (M) = 1}, entonces {displaystyle PAG(M|E)=1}. Esto puede interpretarse en el sentido de que las convicciones duras son insensibles a las pruebas en contrario.

El primero se sigue directamente del teorema de Bayes. Este último se puede derivar aplicando la primera regla al evento "no METRO" en lugar de " METRO", produciendo "si { estilo de visualización 1-P (M) = 0}, entonces {displaystyle 1-P(Mmid E)=0}", del cual se sigue inmediatamente el resultado.

Comportamiento asintótico de posterior

Considere el comportamiento de una distribución de creencias a medida que se actualiza una gran cantidad de veces con ensayos independientes e idénticamente distribuidos. Para probabilidades previas suficientemente agradables, el teorema de Bernstein-von Mises establece que, en el límite de intentos infinitos, el posterior converge a una distribución gaussiana independiente del anterior inicial bajo algunas condiciones descritas por primera vez y rigurosamente probadas por Joseph L. Doob en 1948, a saber si la variable aleatoria en consideración tiene un espacio de probabilidad finito. Los resultados más generales fueron obtenidos más tarde por el estadístico David A. Freedman, quien publicó en dos artículos de investigación seminales en 1963 y 1965.cuándo y bajo qué circunstancias se garantiza el comportamiento asintótico de posterior. Su artículo de 1963 trata, como Doob (1949), el caso finito y llega a una conclusión satisfactoria. Sin embargo, si la variable aleatoria tiene un espacio de probabilidad infinito pero numerable (es decir, correspondiente a un dado con muchas caras infinitas), el artículo de 1965 demuestra que para un subconjunto denso de priores, el teorema de Bernstein-von Mises no es aplicable. En este caso es casi seguro que no hay convergencia asintótica. Más tarde, en las décadas de 1980 y 1990, Freedman y Persi Diaconis continuaron trabajando en el caso de espacios de probabilidad numerables infinitos. Para resumir, puede haber ensayos insuficientes para suprimir los efectos de la elección inicial y, especialmente para sistemas grandes (pero finitos), la convergencia puede ser muy lenta.

Anteriores conjugados

En forma parametrizada, a menudo se supone que la distribución previa proviene de una familia de distribuciones llamadas distribuciones previas conjugadas. La utilidad de una previa conjugada es que la distribución posterior correspondiente estará en la misma familia, y el cálculo puede expresarse en forma cerrada.

Estimaciones de parámetros y predicciones

A menudo se desea utilizar una distribución posterior para estimar un parámetro o variable. Varios métodos de estimación bayesiana seleccionan medidas de tendencia central a partir de la distribución posterior.

Para problemas unidimensionales, existe una mediana única para problemas continuos prácticos. La mediana posterior es atractiva como estimador robusto.

Si existe una media finita para la distribución posterior, entonces la media posterior es un método de estimación.

{displaystyle {tilde {theta }}=operatorname {E} [theta ]=int theta ,p(theta mid mathbf {X},alpha),dtheta }

Tomar un valor con la mayor probabilidad define las estimaciones máximas a posteriori (MAP):

{displaystyle {theta _{text{MAP}}}subset arg max _{theta }p(theta mid mathbf {X},alpha).}

Hay ejemplos en los que no se alcanza el máximo, en cuyo caso el conjunto de estimaciones de MAP está vacío.

Existen otros métodos de estimación que minimizan el riesgo posterior (pérdida posterior esperada) con respecto a una función de pérdida, y estos son de interés para la teoría de la decisión estadística utilizando la distribución muestral ("estadística frecuentista").

La distribución predictiva posterior de una nueva observación { tilde {x}}(que es independiente de las observaciones anteriores) está determinada por

{displaystyle p({tilde {x}}|mathbf {X},alpha)=int p({tilde {x}},theta mid mathbf {X},alpha), dtheta =int p({tilde {x}}mid theta)p(theta mid mathbf {X},alpha),dtheta.}

Ejemplos

Probabilidad de una hipótesis

Supongamos que hay dos tazones llenos de galletas. El tazón #1 tiene 10 chispas de chocolate y 30 galletas simples, mientras que el tazón #2 tiene 20 de cada uno. Nuestro amigo Fred elige un tazón al azar y luego elige una galleta al azar. Podemos suponer que no hay razón para creer que Fred trata un tazón de manera diferente a otro, al igual que las galletas. La galleta resulta ser simple. ¿Qué tan probable es que Fred lo haya sacado del tazón #1?

Intuitivamente, parece claro que la respuesta debería ser más de la mitad, ya que hay más galletas simples en el tazón #1. La respuesta precisa la da el teorema de Bayes. Que H_{1}corresponda al tazón #1 y H_{2}al tazón #2. Se da que los tazones son idénticos desde el punto de vista de Fred, por lo tanto P(H_{1})=P(H_{2}), y los dos deben sumar 1, por lo que ambos son iguales a 0.5. El evento mies la observación de una simple galleta. Por el contenido de los tazones, sabemos que P(Emid H_{1})=30/40=0.75y P(Emid H_{2})=20/40=0,5.la fórmula de Bayes entonces produce

{displaystyle {begin{alineado}P(H_{1}mid E)&={frac {P(Emid H_{1}),P(H_{1})}{P(E medio H_{1}),P(H_{1});+;P(Emedio H_{2}),P(H_{2})}}\\ &={ fracción {0,75times 0,5}{0,75times 0,5+0,5times 0,5}}\\ &=0,6end{alineado}}}

Antes de que observáramos la galleta, la probabilidad que asignábamos a Fred de haber elegido el tazón n.° 1 era la probabilidad previa, P(H_{1}), que era 0,5. Después de observar la galleta, debemos revisar la probabilidad a P(H_{1}mid E), que es 0.6.

Haciendo una predicción

Un arqueólogo está trabajando en un sitio que se cree que es de la época medieval, entre el siglo XI y el siglo XVI. Sin embargo, no se sabe exactamente cuándo en este período estuvo habitado el sitio. Se encuentran fragmentos de cerámica, algunos vidriados y otros decorados. Se espera que si el sitio estuvo habitado durante el período altomedieval, entonces el 1% de la cerámica estaría vidriada y el 50% de su área decorada, mientras que si hubiera estado habitado en el período medieval tardío, el 81% estaría vidriado y 5% de su superficie decorada. ¿Cuán confiado puede estar el arqueólogo en la fecha de la habitación a medida que se desentierran los fragmentos?

Se debe calcular el grado de creencia en la variable continua C(siglo), con el conjunto discreto de eventos {GD,G{bar {D}},{bar {G}}D,{bar {G}}{bar {D}}}como evidencia. Suponiendo una variación lineal del vidriado y la decoración con el tiempo, y que estas variables son independientes,

{displaystyle P(E=GDmid C=c)=(0,01+{frac {0,81-0,01}{16-11}}(c-11))(0,5-{frac {0,5-0,05}{ 16-11}}(c-11))}
{displaystyle P(E=G{bar {D}}mid C=c)=(0,01+{frac {0,81-0,01}{16-11}}(c-11))(0,5+{ fracción {0.5-0.05}{16-11}}(c-11))}
{displaystyle PAG(E={bar {G}}Dmid C=c)=((1-0.01)-{frac {0.81-0.01}{16-11}}(c-11))(0.5-{frac{0.5-0.05}{16-11}}(c-11))}
{displaystyle P(E={bar {G}}{bar {D}}mid C=c)=((1-0.01)-{frac {0.81-0.01}{16-11}}(c-11))(0.5+{frac{0.5-0.05}{16-11}}(c-11))}

Suponga un prior uniforme de {textstyle f_{C}(c)=0.2}, y que los ensayos son independientes e idénticamente distribuidos. Cuando se descubre un nuevo fragmento de tipo mi, se aplica el teorema de Bayes para actualizar el grado de creencia de cada uno C:

{displaystyle f_{C}(cmid E=e)={frac {P(E=emid C=c)}{P(E=e)}}f_{C}(c)={ frac {P(E=emid C=c)}{int _{11}^{16}{P(E=emid C=c)f_{C}(c)dc}}}f_ {C}(c)}

En el gráfico se muestra una simulación por computadora de la creencia cambiante a medida que se desentierran 50 fragmentos. En la simulación, el sitio fue habitado alrededor de 1420, o c=15,2. Al calcular el área bajo la parte relevante del gráfico para 50 intentos, el arqueólogo puede decir que prácticamente no hay posibilidad de que el sitio haya estado habitado en los siglos XI y XII, aproximadamente un 1% de probabilidad de que haya estado habitado durante el siglo XIII, 63 % de probabilidad durante el siglo XIV y 36% durante el siglo XV. El teorema de Bernstein-von Mises afirma aquí la convergencia asintótica a la distribución "verdadera" porque el espacio de probabilidad correspondiente al conjunto discreto de eventos {GD,G{bar {D}},{bar {G}}D,{bar {G}}{bar {D}}}es finito (ver la sección anterior sobre el comportamiento asintótico de la distribución posterior).

En estadística frecuentista y teoría de la decisión

Abraham Wald dio una justificación teórica de la decisión del uso de la inferencia bayesiana, quien demostró que todo procedimiento bayesiano único es admisible. A la inversa, todo procedimiento estadístico admisible es un procedimiento bayesiano o un límite de procedimientos bayesianos.

Wald caracterizó los procedimientos admisibles como procedimientos bayesianos (y límites de los procedimientos bayesianos), lo que convirtió al formalismo bayesiano en una técnica central en áreas de inferencia frecuentista como la estimación de parámetros, la prueba de hipótesis y el cálculo de intervalos de confianza. Por ejemplo:

Selección de modelo

La metodología bayesiana también desempeña un papel en la selección de modelos, donde el objetivo es seleccionar un modelo de un conjunto de modelos en competencia que represente lo más fielmente posible el proceso subyacente que generó los datos observados. En la comparación de modelos bayesianos, se selecciona el modelo con la probabilidad posterior más alta dados los datos. La probabilidad posterior de un modelo depende de la evidencia, o probabilidad marginal, que refleja la probabilidad de que el modelo genere los datos, y de la creencia previa del modelo. Cuando dos modelos en competencia se consideran a priori equiprobables, la relación de sus probabilidades posteriores corresponde al factor de Bayes. Dado que la comparación del modelo bayesiano tiene como objetivo seleccionar el modelo con la probabilidad posterior más alta, esta metodología también se conoce como regla de selección máxima a posteriori (MAP).o la regla de probabilidad MAP.

Programación probabilística

Si bien son conceptualmente simples, los métodos bayesianos pueden ser matemática y numéricamente desafiantes. Los lenguajes de programación probabilísticos (PPL) implementan funciones para construir fácilmente modelos bayesianos junto con métodos de inferencia automáticos eficientes. Esto ayuda a separar la construcción del modelo de la inferencia, lo que permite a los profesionales centrarse en sus problemas específicos y dejar que los PPL manejen los detalles computacionales por ellos.

Aplicaciones

Análisis de datos estadísticos

Consulte la entrada separada de Wikipedia sobre estadísticas bayesianas, específicamente la sección de modelado estadístico en esa página.

Aplicaciones computacionales

La inferencia bayesiana tiene aplicaciones en inteligencia artificial y sistemas expertos. Las técnicas de inferencia bayesiana han sido una parte fundamental de las técnicas de reconocimiento de patrones computarizados desde finales de la década de 1950. También existe una conexión cada vez mayor entre los métodos bayesianos y las técnicas de Monte Carlo basadas en simulación, ya que los modelos complejos no pueden procesarse de forma cerrada mediante un análisis bayesiano, mientras que una estructura de modelo gráfico puede permitir algoritmos de simulación eficientes como el muestreo de Gibbs y otros métodos de Metropolis. –Esquemas de algoritmos de Hastings. Recientemente, la inferencia bayesiana ha ganado popularidad entre la comunidad filogenética por estas razones; varias aplicaciones permiten estimar simultáneamente muchos parámetros demográficos y evolutivos.

Tal como se aplica a la clasificación estadística, la inferencia bayesiana se ha utilizado para desarrollar algoritmos para identificar el correo electrónico no deseado. Las aplicaciones que utilizan la inferencia bayesiana para el filtrado de spam incluyen CRM114, DSPAM, Bogofilter, SpamAssassin, SpamBayes, Mozilla, XEAMS y otras. La clasificación del spam se trata con más detalle en el artículo sobre el clasificador naïve Bayes.

La inferencia inductiva de Solomonoff es la teoría de la predicción basada en observaciones; por ejemplo, predecir el siguiente símbolo basado en una serie dada de símbolos. La única suposición es que el entorno sigue una distribución de probabilidad desconocida pero computable. Es un marco inductivo formal que combina dos principios bien estudiados de inferencia inductiva: estadísticas bayesianas y la navaja de Occam. La probabilidad previa universal de Solomonoff de cualquier prefijo p de una secuencia computable x es la suma de las probabilidades de todos los programas (para una computadora universal) que calculan algo comenzando con p. Dada alguna p y cualquier distribución de probabilidad computable pero desconocida a partir de la cual xse muestrea, el anterior universal y el teorema de Bayes se pueden usar para predecir las partes aún no vistas de x de manera óptima.

Bioinformática y aplicaciones sanitarias

La inferencia bayesiana se ha aplicado en diferentes aplicaciones de la bioinformática, incluido el análisis de expresión génica diferencial. La inferencia bayesiana también se utiliza en un modelo general de riesgo de cáncer, llamado CIRI (Índice de riesgo individualizado continuo), donde se incorporan mediciones en serie para actualizar un modelo bayesiano que se construye principalmente a partir de conocimientos previos.

En la sala del tribunal

Los miembros del jurado pueden utilizar la inferencia bayesiana para acumular coherentemente las pruebas a favor y en contra de un acusado, y para ver si, en su totalidad, alcanza su umbral personal de 'más allá de una duda razonable'. El teorema de Bayes se aplica sucesivamente a todas las pruebas presentadas, y la posterior de una etapa se convierte en la previa de la siguiente. El beneficio de un enfoque bayesiano es que le da al jurado un mecanismo racional e imparcial para combinar evidencia. Puede ser apropiado explicar el teorema de Bayes a los miembros del jurado en forma de cuotas, ya que las cuotas de las apuestas se entienden más ampliamente que las probabilidades. Alternativamente, un enfoque logarítmico, reemplazando la multiplicación con la suma, podría ser más fácil de manejar para un jurado.

Si no se pone en duda la existencia del delito, sino sólo la identidad del culpable, se ha sugerido que el prior debe ser uniforme sobre la población calificada. Por ejemplo, si 1000 personas pudieran haber cometido el crimen, la probabilidad previa de culpabilidad sería 1/1000.

El uso del teorema de Bayes por los miembros del jurado es controvertido. En el Reino Unido, un testigo experto de la defensa explicó el teorema de Bayes al jurado en R v Adams. El jurado condenó, pero el caso fue a apelación sobre la base de que no se había proporcionado ningún medio de acumular evidencia para los jurados que no deseaban utilizar el teorema de Bayes. El Tribunal de Apelación confirmó la condena, pero también opinó que "introducir el teorema de Bayes, o cualquier método similar, en un juicio penal sumerge al jurado en terrenos teóricos y complejos inapropiados e innecesarios, desviándolos de la tarea que les corresponde".."

Gardner-Medwin argumenta que el criterio en el que se debe basar un veredicto en un juicio penal no es la probabilidad de culpabilidad, sino la probabilidad de la evidencia, dado que el acusado es inocente (similar a un valor p frecuentista). Argumenta que si se va a calcular la probabilidad posterior de culpabilidad mediante el teorema de Bayes, se debe conocer la probabilidad previa de culpabilidad. Esto dependerá de la incidencia del delito, que es una prueba inusual a considerar en un juicio penal. Considere las siguientes tres proposiciones:

Gardner-Medwin argumenta que el jurado debe creer tanto en A como en no B para poder condenar. A y no-B implica la verdad de C, pero lo contrario no es cierto. Es posible que tanto B como C sean ciertas, pero en este caso argumenta que un jurado debería absolver, aunque saben que dejarán en libertad a algunos culpables. Véase también la paradoja de Lindley.

Epistemología bayesiana

La epistemología bayesiana es un movimiento que aboga por la inferencia bayesiana como un medio para justificar las reglas de la lógica inductiva.

Karl Popper y David Miller han rechazado la idea del racionalismo bayesiano, es decir, usar la regla de Bayes para hacer inferencias epistemológicas: es propenso al mismo círculo vicioso que cualquier otra epistemología justificacionista, porque presupone lo que intenta justificar. De acuerdo con este punto de vista, una interpretación racional de la inferencia bayesiana la vería simplemente como una versión probabilística de la falsación, rechazando la creencia, comúnmente sostenida por los bayesianos, de que la alta probabilidad lograda por una serie de actualizaciones bayesianas probaría la hipótesis más allá de toda duda razonable. o incluso con una probabilidad mayor que 0.

Otro

Inferencia bayesiana y bayesiana

El problema considerado por Bayes en la Proposición 9 de su ensayo, "Un ensayo para resolver un problema en la doctrina de las posibilidades", es la distribución posterior para el parámetro a (la tasa de éxito) de la distribución binomial.

Historia

El término bayesiano se refiere a Thomas Bayes (1701-1761), quien demostró que se podían poner límites probabilísticos a un evento desconocido. Sin embargo, fue Pierre-Simon Laplace (1749–1827) quien introdujo (como Principio VI) lo que ahora se llama el teorema de Bayes y lo usó para abordar problemas de mecánica celeste, estadísticas médicas, confiabilidad y jurisprudencia. La inferencia bayesiana temprana, que usaba antecedentes uniformes siguiendo el principio de razón insuficiente de Laplace, se denominó "probabilidad inversa" (porque infiere hacia atrás desde las observaciones a los parámetros, o desde los efectos a las causas). Después de la década de 1920, la "probabilidad inversa" fue reemplazada en gran medida por una colección de métodos que se denominó estadística frecuentista.

En el siglo XX, las ideas de Laplace se desarrollaron aún más en dos direcciones diferentes, dando lugar a corrientes objetivas y subjetivas en la práctica bayesiana. En la corriente objetiva o "no informativa", el análisis estadístico depende únicamente del modelo asumido, los datos analizados y el método de asignación del prior, lo que difiere de un practicante bayesiano objetivo a otro. En la corriente subjetiva o "informativa", la especificación de lo previo depende de la creencia (es decir, proposiciones sobre las que el análisis está dispuesto a actuar), que puede resumir información de expertos, estudios previos, etc.

En la década de 1980, hubo un crecimiento espectacular en la investigación y las aplicaciones de los métodos bayesianos, atribuido principalmente al descubrimiento de los métodos Monte Carlo de la cadena de Markov, que eliminó muchos de los problemas computacionales y un interés creciente en aplicaciones complejas no estándar. A pesar del crecimiento de la investigación bayesiana, la mayor parte de la enseñanza de pregrado todavía se basa en estadísticas frecuentistas. No obstante, los métodos bayesianos son ampliamente aceptados y utilizados, como por ejemplo en el campo del aprendizaje automático.