Probabilidad a priori (bayesiana)

Compartir Imprimir Citar

En la inferencia estadística bayesiana, una distribución de probabilidad previa, a menudo llamada simplemente anterior, de una cantidad incierta es la distribución de probabilidad que expresaría las creencias de uno sobre esta cantidad antes de que se tenga en cuenta alguna evidencia. Por ejemplo, el anterior podría ser la distribución de probabilidad que representa las proporciones relativas de votantes que votarán por un político en particular en una elección futura. La cantidad desconocida puede ser un parámetro del modelo o una variable latente en lugar de una variable observable.

El teorema de Bayes calcula el producto puntual renormalizado de la anterior y la función de probabilidad, para producir la distribución de probabilidad posterior, que es la distribución condicional de la cantidad incierta dados los datos.

De manera similar, la probabilidad previa de un evento aleatorio o una proposición incierta es la probabilidad incondicional que se asigna antes de que se tenga en cuenta cualquier evidencia relevante.

Los antecedentes se pueden crear utilizando varios métodos. Un previo se puede determinar a partir de información pasada, como experimentos anteriores. Se puede obtener un a priori a partir de la evaluación puramente subjetiva de un experto experimentado. Se puede crear una información previa no informativa para reflejar un equilibrio entre los resultados cuando no hay información disponible. Los priores también se pueden elegir de acuerdo con algún principio, como la simetría o la maximización de la entropía dadas las restricciones; ejemplos son el anterior de Jeffreys o el anterior de referencia de Bernardo. Cuando existe una familia de anteriores conjugados, elegir un anterior de esa familia simplifica el cálculo de la distribución posterior.

Los parámetros de distribuciones anteriores son una especie de hiperparámetro. Por ejemplo, si se utiliza una distribución beta para modelar la distribución del parámetro p de una distribución de Bernoulli, entonces:

Los hiperparámetros en sí mismos pueden tener distribuciones hiperprevias que expresen creencias sobre sus valores. Un modelo bayesiano con más de un nivel de prioridad como este se denomina modelo bayesiano jerárquico.

Antecedentes informativos

Un previo informativo expresa información específica y definida sobre una variable. Un ejemplo es una distribución previa de la temperatura mañana al mediodía. Un enfoque razonable es hacer que la anterior sea una distribución normal con un valor esperado igual a la temperatura del mediodía de hoy, con una varianza igual a la varianza diaria de la temperatura atmosférica, o una distribución de la temperatura para ese día del año.

Este ejemplo tiene una propiedad en común con muchos anteriores, a saber, que el posterior de un problema (la temperatura de hoy) se convierte en el anterior de otro problema (la temperatura de mañana); la evidencia preexistente que ya se ha tenido en cuenta es parte de la anterior y, a medida que se acumula más evidencia, la posterior está determinada en gran medida por la evidencia más que por cualquier suposición original, siempre que la suposición original admitiera la posibilidad de lo que es la evidencia sugerencia. Los términos "anterior" y "posterior" son generalmente relativos a un dato u observación específicos.

Antecedentes débilmente informativos

Un previo débilmente informativo expresa información parcial sobre una variable. Un ejemplo es, al establecer la distribución previa para la temperatura mañana al mediodía en St. Louis, usar una distribución normal con una media de 50 grados Fahrenheit y una desviación estándar de 40 grados, lo que restringe muy poco la temperatura al rango (10 grados, 90 grados) con una pequeña posibilidad de estar por debajo de -30 grados o por encima de 130 grados. El propósito de un previo débilmente informativo es para la regularización, es decir, para mantener las inferencias en un rango razonable.

Antecedentes no informativos

Un previo no informativo, plano o difuso expresa información vaga o general sobre una variable. El término "anterior no informativo" es algo inapropiado. Tal previo también podría llamarse un previo poco informativo, o un previo objetivo, es decir, uno que no es obtenido subjetivamente.

Los priores no informativos pueden expresar información "objetiva" como "la variable es positiva" o "la variable es menor que algún límite". La regla más simple y antigua para determinar un prior no informativo es el principio de indiferencia, que asigna probabilidades iguales a todas las posibilidades. En los problemas de estimación de parámetros, el uso de un previo no informativo generalmente produce resultados que no son muy diferentes del análisis estadístico convencional, ya que la función de probabilidad a menudo brinda más información que el previo no informativo.

Se han hecho algunos intentos de encontrar probabilidades a priori, es decir, distribuciones de probabilidad en algún sentido lógicamente requeridas por la naturaleza del estado de incertidumbre de uno; estos son un tema de controversia filosófica, y los bayesianos se dividen aproximadamente en dos escuelas: "bayesianos objetivos", que creen que tales priores existen en muchas situaciones útiles, y "bayesianos subjetivos" que creen que en la práctica los priores generalmente representan juicios subjetivos de opinión que no puede justificarse rigurosamente (Williamson 2010). Quizás los argumentos más sólidos a favor del bayesianismo objetivo los dio Edwin T. Jaynes, basados ​​principalmente en las consecuencias de las simetrías y en el principio de máxima entropía.

Como ejemplo de un a priori anterior, debido a Jaynes (2003), considere una situación en la que uno sabe que una pelota se ha escondido debajo de una de las tres copas, A, B o C, pero no hay otra información disponible sobre su ubicación.. En este caso un previo uniforme de p (A) = p (B) = p (C) = 1/3 parece intuitivamente como la única opción razonable. Más formalmente, podemos ver que el problema sigue siendo el mismo si intercambiamos las etiquetas ("A", "B" y "C") de los vasos. Por lo tanto, sería extraño elegir un anterior para el cual una permutación de las etiquetas provocaría un cambio en nuestras predicciones sobre en qué copa se encontrará la pelota; el prior uniforme es el único que conserva esta invariancia. Si uno acepta este principio de invariancia, entonces puede ver que el anterior uniforme es el anterior lógicamente correcto para representar este estado de conocimiento. Este prior es "objetivo" en el sentido de ser la elección correcta para representar un estado particular de conocimiento, pero no es objetivo en el sentido de ser una característica del mundo independiente del observador:

Como un ejemplo más polémico, Jaynes publicó un argumento (Jaynes 1968) basado en la invariancia del anterior bajo un cambio de parámetros que sugiere que el anterior que representa la incertidumbre completa sobre una probabilidad debería ser el anterior de Haldane p (1 − p). El ejemplo que da Jaynes es el de encontrar una sustancia química en un laboratorio y preguntar si se disolverá en agua en experimentos repetidos. El prior de Haldane da, con mucho, el mayor peso a pag=0ypag=1, lo que indica que la muestra se disolverá cada vez o nunca se disolverá, con la misma probabilidad. Sin embargo, si uno ha observado que las muestras de la sustancia química se disuelven en un experimento y no se disuelven en otro experimento, entonces este previo se actualiza a la distribución uniforme en el intervalo [0, 1]. Esto se obtiene aplicando el teorema de Bayes al conjunto de datos que consta de una observación de disolución y otra de no disolución, utilizando el anterior anterior. El prior de Haldane es una distribución previa impropia (lo que significa que tiene una masa infinita). Harold Jeffreys ideó una forma sistemática para diseñar priores no informativos como p. ej., Jeffreys prior p (1 − p) para la variable aleatoria de Bernoulli.

Se pueden construir a priori que sean proporcionales a la medida de Haar si el espacio de parámetros X lleva una estructura de grupo natural que deja invariable nuestro estado de conocimiento bayesiano (Jaynes, 1968). Esto puede verse como una generalización del principio de invariancia utilizado para justificar el uniforme antes de las tres copas en el ejemplo anterior. Por ejemplo, en física podríamos esperar que un experimento dé los mismos resultados independientemente de nuestra elección del origen de un sistema de coordenadas. Esto induce la estructura de grupo del grupo de traducción en X, que determina la probabilidad a priori como un a priori impropio constante. De manera similar, algunas medidas son naturalmente invariantes a la elección de una escala arbitraria (por ejemplo, ya sea que se usen centímetros o pulgadas, los resultados físicos deben ser iguales). En tal caso, el grupo de escala es la estructura de grupo natural, y el anterior correspondiente en X es proporcional a 1/ x. A veces importa si usamos la medida de Haar invariante a la izquierda o invariante a la derecha. Por ejemplo, las medidas de Haar invariantes izquierda y derecha en el grupo afín no son iguales. Berger (1985, p. 413) argumenta que la medida de Haar invariante a la derecha es la elección correcta.

Otra idea, defendida por Edwin T. Jaynes, es utilizar el principio de máxima entropía (MAXENT). La motivación es que la entropía de Shannon de una distribución de probabilidad mide la cantidad de información contenida en la distribución. Cuanto mayor es la entropía, menos información proporciona la distribución. Por lo tanto, al maximizar la entropía sobre un conjunto adecuado de distribuciones de probabilidad en X, se encuentra la distribución que es menos informativa en el sentido de que contiene la menor cantidad de información consistente con las restricciones que definen el conjunto. Por ejemplo, la máxima entropía previa en un espacio discreto, dado que la probabilidad está normalizada a 1, es la previa que asigna igual probabilidad a cada estado. Y en el caso continuo, la entropía máxima previa dado que la densidad está normalizada con media cero y la varianza unitaria es la distribución normal estándar. El principio de mínima entropía cruzada generaliza MAXENT al caso de "actualizar" una distribución previa arbitraria con restricciones adecuadas en el sentido de máxima entropía.

José-Miguel Bernardo introdujo una idea relacionada, los priores de referencia. Aquí, la idea es maximizar la divergencia esperada de Kullback-Leibler de la distribución posterior en relación con la anterior. Esto maximiza la información posterior esperada sobre X cuando la densidad previa es p (x); por lo tanto, en cierto sentido, p (x) es el "menos informativo" a priori sobre X. El a priori de referencia se define en el límite asintótico, es decir, se considera el límite de los a priori así obtenidos a medida que el número de puntos de datos tiende a infinito. En el presente caso, la divergencia KL entre las distribuciones anterior y posterior está dada por{displaystyle KL=int p(t)int p(xmid t)log {frac {p(xmid t)}{p(x)}},dx,dt.}

Aquí, thay una estadística suficiente para algún parámetro X. La integral interna es la divergencia KL entre las distribuciones {displaystyle p(xmid t)}anterior y posterior y { estilo de visualización p (x)}el resultado es la media ponderada de todos los valores de t. Dividiendo el logaritmo en dos partes, invirtiendo el orden de las integrales en la segunda parte y notando que { estilo de visualización  registro , [p (x)]}no depende de los trendimientos{displaystyle KL=int p(t)int p(xmid t)log[p(xmid t)],dx,dt,-,int log[p(x)],int p(t)p(xmid t),dt,dx.}

La integral interna en la segunda parte es la integral sobre tla densidad conjunta { estilo de visualización p (x, t)}. Esta es la distribución marginal { estilo de visualización p (x)}, por lo que tenemos{displaystyle KL=int p(t)int p(xmid t)log[p(xmid t)],dx,dt,-,int p(x)log [p(x)],dx.}

Ahora usamos el concepto de entropía que, en el caso de distribuciones de probabilidad, es el valor esperado negativo del logaritmo de la masa de probabilidad o función de densidad o {displaystyle H(x)=-int p(x)log[p(x)],dx.} Usando esto en la última ecuación se obtiene{displaystyle KL=-int p(t)H(xmid t),dt+,H(x).}

En palabras, KL es el valor esperado negativo tde la entropía de Xcondicional tmás la entropía marginal (es decir, incondicional) de X. En el caso límite donde el tamaño de la muestra tiende a infinito, el teorema de Bernstein-von Mises establece que la distribución de Xcondicional en un valor observado dado de tes normal con una varianza igual al recíproco de la información de Fisher en el valor 'verdadero' de X. La entropía de una función de densidad normal es igual a la mitad del logaritmo de { estilo de visualización 2  pi ev}donde ves la varianza de la distribución. En este caso, por lo tanto, ¿ {displaystyle H=log {sqrt {2pi e/[NI(x*)]}}}dónde norteestá el tamaño de muestra arbitrariamente grande (al que la información de Fisher es proporcional) y{ estilo de visualización x *}es el valor 'verdadero'. Como esto no depende de tél, se puede sacar de la integral, y como esta integral está sobre un espacio de probabilidad, es igual a uno. Por lo tanto, podemos escribir la forma asintótica de KL como{displaystyle KL=-log[1{sqrt {kI(x*)}}]-,int p(x)log[p(x)],dx.}

donde kes proporcional al tamaño de la muestra (asintóticamente grande). No sabemos el valor de { estilo de visualización x *}. De hecho, la idea misma va en contra de la filosofía de la inferencia bayesiana en la que los valores "verdaderos" de los parámetros son reemplazados por distribuciones previas y posteriores. Entonces eliminamos { estilo de visualización x *}reemplazándolo con Xy tomando el valor esperado de la entropía normal, que obtenemos al multiplicar por { estilo de visualización p (x)}e integrar sobre X. Esto nos permite combinar los logaritmos dando{displaystyle KL=-int p(x)log[p(x)/{sqrt {kI(x)}}],dx.}

Esta es una divergencia cuasi-KL ("cuasi" en el sentido de que la raíz cuadrada de la información de Fisher puede ser el núcleo de una distribución incorrecta). Debido al signo menos, necesitamos minimizar esto para maximizar la divergencia KL con la que comenzamos. El valor mínimo de la última ecuación ocurre donde las dos distribuciones en el argumento del logaritmo, impropias o no, no divergen. Esto a su vez ocurre cuando la distribución previa es proporcional a la raíz cuadrada de la información de Fisher de la función de verosimilitud. Por lo tanto, en el caso de un solo parámetro, los antecedentes de referencia y los antecedentes de Jeffreys son idénticos, aunque Jeffreys tiene una lógica muy diferente.

Los a priori de referencia son a menudo el a priori objetivo de elección en problemas multivariados, ya que otras reglas (p. ej., la regla de Jeffreys) pueden dar como resultado a priori con un comportamiento problemático.

Las distribuciones previas objetivas también pueden derivarse de otros principios, como la teoría de la información o la codificación (ver, por ejemplo, longitud mínima de descripción) o estadísticas frecuentistas (ver emparejamiento frecuentista). Estos métodos se utilizan en la teoría de la inferencia inductiva de Solomonoff. La construcción de antecedentes objetivos se ha introducido recientemente en bioinformática, y especialmente en la inferencia en biología de sistemas de cáncer, donde el tamaño de la muestra es limitado y se dispone de una gran cantidad de conocimiento previo. En estos métodos, ya sea un criterio basado en la teoría de la información, como la divergencia KL o la función de probabilidad logarítmica para problemas de aprendizaje supervisado binario y problemas de modelo mixto.

Los problemas filosóficos asociados con los antecedentes no informativos están asociados con la elección de una métrica o escala de medición apropiada. Supongamos que queremos un adelanto para la velocidad de carrera de un corredor que no conocemos. Podríamos especificar, digamos, una distribución normal como la anterior para su velocidad, pero alternativamente podríamos especificar una anterior normal para el tiempo que tarda en completar 100 metros, que es proporcional al recíproco de la primera anterior. Estos son antecedentes muy diferentes, pero no está claro cuál es el preferido. El método de grupos de transformación de Jaynes, a menudo pasado por alto, puede responder a esta pregunta en algunas situaciones.

De manera similar, si se nos pide que estimemos una proporción desconocida entre 0 y 1, podríamos decir que todas las proporciones son igualmente probables y usar un a priori uniforme. Alternativamente, podríamos decir que todos los órdenes de magnitud de la proporción son igualmente probables, elanterior logarítmico, que es el anterior uniforme en el logaritmo de la proporción. El anterior de Jeffreys intenta resolver este problema calculando un anterior que expresa la misma creencia sin importar qué métrica se utilice. El anterior de Jeffreys para una proporción desconocidapesp(1 − p), que difiere de la recomendación de Jaynes.

Los antecedentes basados ​​en nociones de probabilidad algorítmica se utilizan en la inferencia inductiva como base para la inducción en entornos muy generales.

Los problemas prácticos asociados con los previos no informativos incluyen el requisito de que la distribución posterior sea adecuada. Los previos no informativos habituales en variables continuas e ilimitadas son inadecuados. Esto no tiene por qué ser un problema si la distribución posterior es adecuada. Otra cuestión de importancia es que si se va a utilizar rutinariamente un dato previo no informativo, es decir, con muchos conjuntos de datos diferentes, debería tener buenas propiedades frecuentistas. Normalmente, un bayesiano no se preocuparía por tales problemas, pero puede ser importante en esta situación. Por ejemplo, uno querría que cualquier regla de decisión basada en la distribución posterior fuera admisible bajo la función de pérdida adoptada. Lamentablemente, la admisibilidad suele ser difícil de comprobar, aunque se conocen algunos resultados (p. ej., Berger y Strawderman 1996). El problema es particularmente grave con los modelos jerárquicos de Bayes; los anteriores habituales (p. ej., el anterior de Jeffreys) pueden dar reglas de decisión inadmisibles si se emplean en los niveles más altos de la jerarquía.

Antecedentes impropios

Que los eventos A_{1},A_{2},ldots,A_{n}sean mutuamente excluyentes y exhaustivos. Si el teorema de Bayes se escribe como{displaystyle P(A_{i}mid B)={frac {P(Bmid A_{i})P(A_{i})}{sum _{j}P(Bmid A_{ j})P(A_{j})}},,}

entonces es claro que se obtendría el mismo resultado si todas las probabilidades previas P (A i) y P (A j) se multiplicaran por una constante dada; lo mismo sería cierto para una variable aleatoria continua. Si la suma en el denominador converge, las probabilidades posteriores seguirán sumando (o integrando) a 1 incluso si los valores anteriores no lo hacen, por lo que es posible que solo sea necesario especificar las anteriores en la proporción correcta. Llevando esta idea más allá, en muchos casos la suma o la integral de los valores anteriores puede que ni siquiera necesite ser finita para obtener respuestas sensatas para las probabilidades posteriores. Cuando este es el caso, el anterior se llama un previo impropio.. Sin embargo, la distribución posterior no necesita ser una distribución adecuada si la anterior es incorrecta. Esto queda claro en el caso en que el evento B es independiente de todos los A j.

Los estadísticos a veces usan datos previos inadecuados como datos previos no informativos. Por ejemplo, si necesitan una distribución previa para la media y la varianza de una variable aleatoria, pueden asumir p (m, v) ~ 1/ v (para v > 0) lo que sugeriría que cualquier valor para la media es "igualmente probable" y que un valor para la varianza positiva se vuelve "menos probable" en proporción inversa a su valor. Muchos autores (Lindley, 1973; De Groot, 1937; Kass y Wasserman, 1996)advierten contra el peligro de sobreinterpretar esos a priori ya que no son densidades de probabilidad. La única relevancia que tienen se encuentra en el posterior correspondiente, siempre que esté bien definido para todas las observaciones. (El prior de Haldane es un contraejemplo típico.)

Por el contrario, las funciones de verosimilitud no necesitan ser integradas, y una función de verosimilitud que es uniformemente 1 corresponde a la ausencia de datos (todos los modelos son igualmente probables, dado que no hay datos): la regla de Bayes multiplica un anterior por la verosimilitud, y un el producto vacío es solo la probabilidad constante 1. Sin embargo, sin comenzar con una distribución de probabilidad anterior, uno no termina obteniendo una distribución de probabilidad posterior y, por lo tanto, no puede integrar o calcular los valores esperados o la pérdida. Consulte Función de probabilidad § No integrabilidad para obtener más información.

Ejemplos

Ejemplos de antecedentes impropios incluyen:

Tenga en cuenta que estas funciones, interpretadas como distribuciones uniformes, también pueden interpretarse como la función de probabilidad en ausencia de datos, pero no son priores adecuados.