Principio de máxima entropía

Ajustar Compartir Imprimir Citar

El principio de máxima entropía establece que la distribución de probabilidad que mejor representa el estado actual del conocimiento sobre un sistema es la que tiene la mayor entropía, en el contexto de datos previos establecidos con precisión (como una proposición que expresa información comprobable).

Otra forma de afirmar esto: tome datos previos establecidos con precisión o información comprobable sobre una función de distribución de probabilidad. Considere el conjunto de todas las distribuciones de probabilidad de prueba que codificarían los datos anteriores. De acuerdo con este principio, la distribución con máxima entropía de información es la mejor opción.

Dado que la distribución con la máxima entropía es la que hace menos suposiciones sobre la verdadera distribución de los datos, el principio de máxima entropía puede verse como una aplicación de la navaja de Occam.

Historia

El principio fue expuesto por primera vez por ET Jaynes en dos artículos en 1957, donde enfatizó una correspondencia natural entre la mecánica estadística y la teoría de la información. En particular, Jaynes ofreció una razón nueva y muy general de por qué funciona el método gibbsiano de mecánica estadística. Argumentó que la entropía de la mecánica estadística y la entropía de la información de la teoría de la información son básicamente lo mismo. En consecuencia, la mecánica estadística debe verse simplemente como una aplicación particular de una herramienta general de inferencia lógica y teoría de la información.

Visión general

En la mayoría de los casos prácticos, los datos previos establecidos o la información comprobable están dados por un conjunto de cantidades conservadas (valores promedio de algunas funciones de momento), asociadas con la distribución de probabilidad en cuestión. Esta es la forma en que el principio de máxima entropía se usa con mayor frecuencia en la termodinámica estadística. Otra posibilidad es prescribir algunas simetrías de la distribución de probabilidad. La equivalencia entre cantidades conservadas y grupos de simetría correspondientes implica una equivalencia similar para estas dos formas de especificar la información comprobable en el método de máxima entropía.

El principio de máxima entropía también es necesario para garantizar la unicidad y consistencia de las asignaciones de probabilidad obtenidas por diferentes métodos, en particular la mecánica estadística y la inferencia lógica.

El principio de máxima entropía hace explícita nuestra libertad en el uso de diferentes formas de datos previos. Como caso especial, se puede adoptar una densidad de probabilidad previa uniforme (principio de indiferencia de Laplace, a veces llamado principio de razón insuficiente). Por lo tanto, el principio de máxima entropía no es simplemente una forma alternativa de ver los métodos habituales de inferencia de la estadística clásica, sino que representa una generalización conceptual significativa de esos métodos.

Sin embargo, estas afirmaciones no implican que no sea necesario demostrar que los sistemas termodinámicos son ergódicos para justificar el tratamiento como un conjunto estadístico.

En lenguaje ordinario, se puede decir que el principio de máxima entropía expresa una pretensión de modestia epistémica o de máxima ignorancia. La distribución seleccionada es la que menos pretende estar informada más allá de los datos previos señalados, es decir, la que admite un mayor desconocimiento más allá de los datos previos señalados.

Información comprobable

El principio de máxima entropía es útil explícitamente sólo cuando se aplica a información comprobable. La información comprobable es una declaración sobre una distribución de probabilidad cuya verdad o falsedad está bien definida. Por ejemplo, las declaracionesla expectativa de la variable Xes 2.87

y{displaystyle p_{2}+p_{3}>0,6}

(donde p_{2}y p_{3}son probabilidades de eventos) son declaraciones de información comprobable.

Dada información comprobable, el procedimiento de máxima entropía consiste en buscar la distribución de probabilidad que maximiza la entropía de la información, sujeta a las restricciones de la información. Este problema de optimización con restricciones generalmente se resuelve utilizando el método de los multiplicadores de Lagrange.

La maximización de la entropía sin información comprobable respeta la "restricción" universal de que la suma de las probabilidades es uno. Bajo esta restricción, la distribución de probabilidad discreta de máxima entropía es la distribución uniforme,p_{i}={frac {1}{n}} {rm {para todos}} iin {,1,dots,n,}.

Aplicaciones

El principio de máxima entropía se aplica comúnmente de dos maneras a los problemas inferenciales:

Probabilidades previas

El principio de máxima entropía se usa a menudo para obtener distribuciones de probabilidad previas para la inferencia bayesiana. Jaynes fue un firme defensor de este enfoque, afirmando que la distribución máxima de entropía representaba la distribución menos informativa. Una gran cantidad de literatura ahora está dedicada a la obtención de priores de máxima entropía y vínculos con la codificación de canales.

Probabilidades posteriores

La entropía máxima es una regla de actualización suficiente para el probabilismo radical. La cinemática de probabilidad de Richard Jeffrey es un caso especial de inferencia de máxima entropía. Sin embargo, la entropía máxima no es una generalización de todas esas reglas de actualización suficientes.

Modelos de máxima entropía

Alternativamente, el principio se invoca a menudo para la especificación del modelo: en este caso, se supone que los datos observados en sí mismos son la información comprobable. Dichos modelos son ampliamente utilizados en el procesamiento del lenguaje natural. Un ejemplo de tal modelo es la regresión logística, que corresponde al clasificador de máxima entropía para observaciones independientes.

Estimación de densidad de probabilidad

Una de las principales aplicaciones del principio de máxima entropía es en la estimación de densidades discretas y continuas. De manera similar a los estimadores de máquinas de vectores de soporte, el principio de máxima entropía puede requerir la solución de un problema de programación cuadrática y, por lo tanto, proporcionar un modelo de mezcla dispersa como el estimador de densidad óptimo. Una ventaja importante del método es su capacidad para incorporar información previa en la estimación de la densidad.

Solución general para la distribución de máxima entropía con restricciones lineales

Caso discreto

Tenemos alguna información comprobable sobre una cantidad x que toma valores en { x 1, x 2,..., x n }. Suponemos que esta información tiene la forma de m restricciones sobre las expectativas de las funciones f k; es decir, requerimos que nuestra distribución de probabilidad satisfaga las restricciones de desigualdad/igualdad de momentos:{displaystyle sum_{i=1}^{n}Pr(x_{i})f_{k}(x_{i})geq F_{k}qquad k=1,ldots,m. }

donde {displaystyle F_{k}}son observables. También requerimos que la densidad de probabilidad sume uno, lo que puede verse como una restricción primitiva en la función de identidad y un observable igual a 1 que da la restricciónsum _{i=1}^{n}Pr(x_{i})=1.

La distribución de probabilidad con máxima entropía de información sujeta a estas restricciones de desigualdad/igualdad es de la forma:{displaystyle Pr(x_{i})={frac {1}{Z(lambda_{1},ldots,lambda_{m})}}exp left[lambda_{1 }f_{1}(x_{i})+cdots +lambda _{m}f_{m}(x_{i})derecha],}

{ estilo de visualización  lambda _ {1},  ldots,  lambda _ {m}}para algunos A veces se le llama distribución de Gibbs. La constante de normalización está determinada por:Z(lambda_{1},ldots,lambda_{m})=sum_{i=1}^{n}exp left[lambda_{1}f_{1}(x_{ i})+cdots +lambda _{m}f_{m}(x_{i})derecha],

y se llama convencionalmente la función de partición. (El teorema de Pitman-Koopman establece que la condición necesaria y suficiente para que una distribución de muestreo admita suficientes estadísticas de dimensión acotada es que tenga la forma general de una distribución de máxima entropía).

Los parámetros λk son multiplicadores de Lagrange. En el caso de restricciones de igualdad sus valores se determinan a partir de la solución de las ecuaciones no linealesF_{k}={frac {parcial }{parcial lambda _{k}}}log Z(lambda _{1},ldots,lambda _{m}).

En el caso de restricciones de desigualdad, los multiplicadores de Lagrange se determinan a partir de la solución de un programa de optimización convexo con restricciones lineales. En ambos casos, no existe una solución de forma cerrada y el cálculo de los multiplicadores de Lagrange generalmente requiere métodos numéricos.

Caso continuo

Para distribuciones continuas, la entropía de Shannon no se puede utilizar, ya que solo se define para espacios de probabilidad discretos. En cambio, Edwin Jaynes (1963, 1968, 2003) dio la siguiente fórmula, que está estrechamente relacionada con la entropía relativa (ver también entropía diferencial).{displaystyle H_{c}=-int p(x)log {frac {p(x)}{q(x)}},dx}

donde q (x), que Jaynes llamó la "medida invariante", es proporcional a la densidad límite de puntos discretos. Por ahora, supondremos que se sabe q; lo discutiremos más adelante después de que se den las ecuaciones de solución.

Una cantidad estrechamente relacionada, la entropía relativa, generalmente se define como la divergencia de Kullback-Leibler de p de q (aunque a veces, de manera confusa, se define como el negativo de esto). El principio de inferencia de minimizar esto, debido a Kullback, se conoce como Principio de Discriminación Mínima de la Información.

Tenemos alguna información comprobable sobre una cantidad x que toma valores en algún intervalo de los números reales (todas las integrales a continuación están sobre este intervalo). Suponemos que esta información tiene la forma de m restricciones sobre las expectativas de las funciones f k, es decir, requerimos que nuestra función de densidad de probabilidad satisfaga las restricciones de momento de desigualdad (o pura igualdad):{displaystyle int p(x)f_{k}(x),dxgeq F_{k}qquad k=1,dotsc,m.}

donde {displaystyle F_{k}}son observables. También requerimos que la densidad de probabilidad se integre a uno, lo que puede verse como una restricción primitiva en la función de identidad y un observable igual a 1 que da la restricción{ estilo de visualización  int p (x) , dx = 1.}

La función de densidad de probabilidad con máximo H c sujeto a estas restricciones es:{displaystyle p(x)={frac {1}{Z(lambda _{1},dotsc,lambda _{m})}}q(x)exp left[lambda _{1} }f_{1}(x)+dotsb +lambda _{m}f_{m}(x)right]}

con la función de partición determinada por{displaystyle Z(lambda_{1},dotsc,lambda_{m})=int q(x)exp left[lambda_{1}f_{1}(x)+dotsb +lambda _{m}f_{m}(x)right],dx.}

Como en el caso discreto, en el caso de que todas las restricciones de momento sean iguales, los valores de los lambda _{k}parámetros están determinados por el sistema de ecuaciones no lineales:F_{k}={frac {parcial }{parcial lambda _{k}}}log Z(lambda _{1},dotsc,lambda _{m}).

En el caso de restricciones de momentos de desigualdad, los multiplicadores de Lagrange se determinan a partir de la solución de un programa de optimización convexo.

La función de medida invariante q (x) se puede entender mejor suponiendo que se sabe que x toma valores solo en el intervalo acotado (a, b), y que no se proporciona ninguna otra información. Entonces la función de densidad de probabilidad de máxima entropía es{displaystyle p(x)=Acdot q(x),qquad a<x<b}

donde A es una constante de normalización. La función de medida invariable es en realidad la función de densidad anterior que codifica la "falta de información relevante". No puede determinarse por el principio de máxima entropía y debe determinarse por algún otro método lógico, como el principio de grupos de transformación o la teoría de la marginación.

Ejemplos

Para ver varios ejemplos de distribuciones de máxima entropía, consulte el artículo sobre distribuciones de probabilidad de máxima entropía.

Justificaciones del principio de máxima entropía

Los defensores del principio de máxima entropía justifican su uso en la asignación de probabilidades de varias formas, incluidos los siguientes dos argumentos. Estos argumentos toman el uso de la probabilidad bayesiana como dado y, por lo tanto, están sujetos a los mismos postulados.

La entropía de la información como medida de la 'falta de información'

Considere una distribución de probabilidad discreta entre metroproposiciones mutuamente excluyentes. La distribución más informativa ocurriría cuando se supiera que una de las proposiciones es verdadera. En ese caso, la entropía de la información sería igual a cero. La distribución menos informativa ocurriría cuando no hay razón para favorecer ninguna de las proposiciones sobre las demás. En ese caso, la única distribución de probabilidad razonable sería uniforme, y entonces la entropía de la información sería igual a su valor máximo posible, { estilo de visualización  log m}. Por lo tanto, la entropía de la información puede verse como una medida numérica que describe qué tan poco informativa es una distribución de probabilidad particular, que va desde cero (completamente informativa) a { estilo de visualización  log m}(completamente no informativa).

Al elegir usar la distribución con la máxima entropía permitida por nuestra información, según el argumento, estamos eligiendo la distribución menos informativa posible. Elegir una distribución con menor entropía sería asumir información que no poseemos. Por lo tanto, la distribución de máxima entropía es la única distribución razonable. Sin embargo, la dependencia de la solución de la medida dominante representada por m(x)es una fuente de críticas al enfoque ya que esta medida dominante es de hecho arbitraria.

La derivación de Wallis

El siguiente argumento es el resultado de una sugerencia hecha por Graham Wallis a ET Jaynes en 1962. Es esencialmente el mismo argumento matemático utilizado para las estadísticas de Maxwell-Boltzmann en mecánica estadística, aunque el énfasis conceptual es bastante diferente. Tiene la ventaja de ser de naturaleza estrictamente combinatoria, sin hacer referencia a la entropía de la información como una medida de "incertidumbre", "falta de información" o cualquier otro concepto definido de manera imprecisa. La función de entropía de la información no se asume a priori, sino que se encuentra en el curso del argumento; y el argumento lleva naturalmente al procedimiento de maximizar la entropía de la información, en lugar de tratarla de otra forma.

Supongamos que un individuo desea hacer una asignación de probabilidad entre metro proposiciones mutuamente excluyentes. Tiene alguna información comprobable, pero no está seguro de cómo incluir esta información en su evaluación de probabilidad. Por lo tanto, concibe el siguiente experimento aleatorio. Distribuirá nortecuantos de probabilidad (cada valor { estilo de visualización 1/N}) al azar entre las metroposibilidades. (Uno podría imaginar que lanzará nortepelotas enmetrocubos con los ojos vendados. Para ser lo más justo posible, cada lanzamiento debe ser independiente de cualquier otro, y cada balde debe ser del mismo tamaño). Una vez realizado el experimento, comprobará si la asignación de probabilidad así obtenida es consistente con su información.. (Para que este paso tenga éxito, la información debe ser una restricción dada por un conjunto abierto en el espacio de medidas de probabilidad). Si es inconsistente, lo rechazará y volverá a intentarlo. Si es consistente, su evaluación seráp_{i}={frac{n_{i}}{N}}

donde Pi}es la probabilidad de la iproposición, mientras que n i es el número de cuantos que se asignaron a la iproposición (es decir, el número de bolas que terminaron en el balde i).

Ahora bien, para reducir la "granularidad" de la asignación de probabilidad, será necesario utilizar un número bastante grande de cuantos de probabilidad. En lugar de llevar a cabo, y posiblemente tener que repetir, el experimento aleatorio bastante largo, el protagonista decide simplemente calcular y utilizar el resultado más probable. La probabilidad de cualquier resultado particular es la distribución multinomial,Pr(mathbf {p})=Wcdot m^{-N}

dóndeW={frac {N!}{n_{1}!,n_{2}!,dotsb ,n_{m}!}}

se conoce a veces como la multiplicidad del resultado.

El resultado más probable es el que maximiza la multiplicidad W. En lugar de maximizar Wdirectamente, el protagonista podría maximizar de manera equivalente cualquier función creciente monótona de W. Decide maximizar{displaystyle {begin{alineado}{frac {1}{N}}log W&={frac {1}{N}}log {frac {N!}{n_{1}!, n_{2}!,dotsb ,n_{m}!}}\[6pt]&={frac {1}{N}}log {frac {N!}{(Np_{1})!,(Np_{2})!,dotsb ,(Np_{m})!}}\[6pt]&={frac {1}{N}}left(log N! -sum _{i=1}^{m}log((Np_{i})!)right).end{alineado}}}

En este punto, para simplificar la expresión, el protagonista toma el límite como Ntoinfty, es decir, como los niveles de probabilidad van desde valores discretos granulados hasta valores continuos uniformes. Usando la aproximación de Stirling, encuentra{displaystyle {begin{alineado}lim _{Nto infty }left({frac {1}{N}}log Wright)&={frac {1}{N}} left(Nlog N-sum_{i=1}^{m}Np_{i}log(Np_{i})right)\[6pt]&=log N-sum_{ i=1}^{m}p_{i}log(Np_{i})\[6pt]&=log N-log Nsum _{i=1}^{m}p_{i} -sum_{i=1}^{m}p_{i}log p_{i}\[6pt]&=left(1-sum_{i=1}^{m}p_{i }right)log N-sum_{i=1}^{m}p_{i}log p_{i}\[6pt]&=-sum_{i=1}^{m} p_{i}log p_{i}\[6pt]&=H(mathbf {p}).end{alineado}}}

Todo lo que le queda al protagonista por hacer es maximizar la entropía bajo las restricciones de su información comprobable. Ha descubierto que la distribución de máxima entropía es la más probable de todas las distribuciones aleatorias "justas", en el límite a medida que los niveles de probabilidad van de discretos a continuos.

Compatibilidad con el teorema de Bayes

Giffin y Caticha (2007) afirman que el teorema de Bayes y el principio de máxima entropía son completamente compatibles y pueden verse como casos especiales del "método de máxima entropía relativa". Afirman que este método reproduce todos los aspectos de los métodos ortodoxos de inferencia bayesiana. Además, este nuevo método abre la puerta para abordar problemas que no podrían abordarse individualmente ni con el principio de máxima entropía ni con los métodos bayesianos ortodoxos. Además, contribuciones recientes (Lazar 2003 y Schennach 2005) muestran que los enfoques de inferencia basados ​​en la entropía relativa frecuentista (como la probabilidad empírica y la probabilidad empírica inclinada exponencialmente; véase, por ejemplo, Owen 2001 y Kitamura 2006) pueden combinarse con información previa para realizar análisis bayesianos. análisis posterior.

Jaynes afirmó que el teorema de Bayes era una forma de calcular una probabilidad, mientras que la entropía máxima era una forma de asignar una distribución de probabilidad previa.

Sin embargo, es posible, en concepto, resolver una distribución posterior directamente a partir de una distribución anterior establecida utilizando el principio de entropía cruzada mínima (o el principio de máxima entropía es un caso especial de uso de una distribución uniforme como el anterior dado), independientemente de cualquier consideración bayesiana al tratar el problema formalmente como un problema de optimización con restricciones, siendo el funcional de entropía la función objetivo. Para el caso de valores promedio dados como información comprobable (promediados sobre la distribución de probabilidad buscada), la distribución buscada es formalmente la distribución de Gibbs (o Boltzmann) cuyos parámetros deben resolverse para lograr la entropía cruzada mínima y satisfacer la información comprobable dada.

Relevancia para la física

El principio de máxima entropía guarda relación con una suposición clave de la teoría cinética de los gases conocida como caos molecular o Stosszahlansatz. Esto afirma que la función de distribución que caracteriza a las partículas que entran en una colisión se puede factorizar. Si bien esta afirmación puede entenderse como una hipótesis estrictamente física, también puede interpretarse como una hipótesis heurística sobre la configuración más probable de las partículas antes de chocar.