Divergencia Kullback-Leibler
En las estadísticas matemáticas, Kullback – Divergencia legible (también llamado relativa entropía y I-divergence), denotado , es un tipo de distancia estadística: una medida de cómo una distribución de probabilidad P es diferente de un segundo, distribución de probabilidad de referencia Q. Una simple interpretación de la divergencia KL P desde Q es el exceso esperado sorpresa de usar Q como modelo cuando la distribución real es P. Mientras que es una medida de lo diferentes dos distribuciones son, y en algún sentido es una "distancia", no es en realidad una métrica, que es el tipo más familiar y formal de distancia. En particular, no es simétrico en las dos distribuciones (en contraste con la variación de la información), y no satisface la desigualdad del triángulo. En cambio, en términos de geometría de información, es un tipo de divergencia, una generalización de distancia cuadrada, y para ciertas clases de distribuciones (en particular una familia exponencial), satisface un teorema pitagórico generalizado (que se aplica a distancias cuadradas).
En el caso simple, una entropía relativa de 0 indica que las dos distribuciones en cuestión tienen cantidades idénticas de información. La entropía relativa es una función no negativa de dos distribuciones o medidas. Tiene diversas aplicaciones, tanto teóricas, como caracterizar la entropía relativa (Shannon) en sistemas de información, la aleatoriedad en series de tiempo continuas y la ganancia de información al comparar modelos estadísticos de inferencia; y prácticas, como estadística aplicada, mecánica de fluidos, neurociencia y bioinformática.
Introducción y contexto
Considere dos distribuciones de probabilidad P y Q. Por lo general, P representa los datos, las observaciones o una distribución de probabilidad medida. Distribución Q representa en su lugar una teoría, un modelo, una descripción o una aproximación P. La divergencia Kullback-Leibler se interpreta entonces como la diferencia promedio del número de bits requeridos para las muestras de codificación de P usando un código optimizado para Q en lugar de uno optimizado para P. Note that the roles of P y Q se puede revertir en algunas situaciones en las que es más fácil calcular, como con el algoritmo de expectativa–maximización (EM) y las computaciones de menor límite (ELBO).
Etimología
La entropía relativa fue introducida por Solomon Kullback y Richard Leibler en Kullback & Leibler (1951) como "la información media para la discriminación entre y por observación ", donde se comparan dos medidas de probabilidad , y son las hipótesis que uno está seleccionando de medida (respectivamente). Denotó esto , y definió la "divergencia" entre y "como la cantidad simetrizada , que ya había sido definido y utilizado por Harold Jeffreys en 1948. En Kullback (1959), la forma simetrizada se conoce de nuevo como la "divergencia", y las entropías relativas en cada dirección se denominan "divergencias dirigidas" entre dos distribuciones; Kullback prefirió el término discriminación. El término "divergencia" es en contraste con una distancia (métrica), ya que la divergencia simetrizada no satisface la desigualdad del triángulo. Numerosas referencias a los usos anteriores de la divergencia simetrizada y a otras distancias estadísticas se dan en Kullback (1959, pp. 6-7, §1.3 Divergence). La divergencia asimétrica "directa" ha llegado a ser conocida como la divergencia Kullback-Leibler, mientras que la "divergencia" simetrizada ahora se conoce como la Jeffreys divergencia.
Definición
Para distribuciones discretas de probabilidad P y Q definido en el mismo espacio de muestra, la entropía relativa de Q a P se define como
que es equivalente a
En otras palabras, es la expectativa de la diferencia logarítmica entre las probabilidades P y Q, donde la expectativa se toma usando las probabilidades P.
La entropía relativa sólo se define de esta manera si, para todos x, implicación (continuidad absoluta). De lo contrario, a menudo se define como , pero el valor es posible incluso si en todas partes, siempre que es infinita en extensión. Los comentarios analógicos se aplican a los casos de medida continua y general definidos a continuación.
Siempre es cero la contribución del término correspondiente se interpreta como cero porque
Para distribuciones P y Q de una variable aleatoria continua, la entropía relativa se define como la integral
donde p y q< /span> denota las densidades de probabilidad de P y P.
Más generalmente, si P y Q son medidas de probabilidad en un espacio mensurable y P es absolutamente continuo con respecto a Q, entonces la entropía relativa de Q a P se define como
Donde es el derivado Radon-Nikodym de P con respecto a Q, es decir, el único Q casi todas las funciones definidas r on tales que que existe porque P es absolutamente continuo con respecto a Q. También suponemos que existe la expresión de la mano derecha. Equivalentemente (por la regla de la cadena), esto se puede escribir como
que es la entropía de P relativa a Q. Continuando en este caso, si es cualquier medida para los cuales las densidades p y q con y existen (que significa que P y Q son ambos absolutamente continuos con respecto a ), entonces la entropía relativa de Q a P se da como
Note that such a measure para qué densidades se pueden definir siempre existe, ya que se puede tomar Aunque en la práctica será generalmente uno que en el contexto como la medida de conteo para distribuciones discretas, o la medida Lebesgue o una variante conveniente de ella como medida Gausiana o la medida uniforme en la esfera, medida Haar en un grupo Lie, etc. para distribuciones continuas. Los logaritmos en estas fórmulas se suelen tomar a base 2 si la información se mide en unidades de bits, o a base e si la información se mide en nats. La mayoría de las fórmulas que implican entropía relativa sostienen independientemente de la base del logaritmo.
Existen diversas convenciones para referirse a en palabras. A menudo se conoce como la divergencia entre P y Q, pero esto no transmite la asimetría fundamental en la relación. A veces, como en este artículo, puede describirse como la divergencia de P desde Q o como la divergencia desde Q a P. Esto refleja la asimetría en la inferencia bayesiana, que comienza desde a prior Q y actualizaciones a el posterior P. Otra forma común de referirse a es como la entropía relativa de P con respecto a Q o el beneficio de la información P sobre Q.
Ejemplo básico
Kullback da el siguiente ejemplo (Tabla 2.1, Ejemplo 2.1). Vamos. P y Q sean las distribuciones mostradas en la tabla y la figura. P es la distribución en el lado izquierdo de la figura, una distribución binomial con y . Q es la distribución en el lado derecho de la figura, una distribución uniforme discreta con los tres resultados posibles 0, 1, 2 (es decir. ), cada uno con probabilidad .

x | 0 | 1 | 2 |
---|---|---|---|
Distribución | |||
Distribución |
Entropias relativas y se calculan como sigue. Este ejemplo utiliza el tronco natural con base e, designado In para obtener resultados en nats (ver unidades de información):
Interpretaciones
Estadísticas
En el campo de las estadísticas, la lema Neyman-Pearson afirma que la forma más poderosa de distinguir entre las dos distribuciones P y Q basado en una observación Y (traído de uno de ellos) es a través del registro de la relación de sus probabilidades: . La divergencia KL es el valor esperado de esta estadística si Y es realmente dibujado P. Kullback motivó la estadística como una relación de probabilidad de registro prevista.
Codificación
En el contexto de la teoría de la codificación, se puede construir midiendo el número esperado de bits adicionales requeridos para las muestras de código de P usando un código optimizado para Q más que el código optimizado para P.
Inferencia
En el contexto del aprendizaje automático, a menudo se llama el aumento de la información logrado si P se utilizaría en lugar de Q que se utiliza actualmente. Por analogía con la teoría de la información, se llama la relativa entropía de P con respecto a Q.
Expresado en el idioma de la inferencia bayesiana, es una medida de la información obtenida mediante la revisión de sus creencias de la distribución de probabilidad previa Q a la distribución de probabilidad posterior P. En otras palabras, es la cantidad de información perdida cuando Q se utiliza para aproximar P.
Geometría de la información
En aplicaciones, P normalmente representa el valor "verdadero" distribución de datos, observaciones o una distribución teórica calculada con precisión, mientras que Q normalmente representa una teoría, modelo, descripción o aproximación de P. Para encontrar una distribución Q que sea más cercana a P, podemos minimizar la divergencia KL y calcular una proyección de información.
Aunque es una distancia estadística, no es una métrica, el tipo más familiar de distancia, sino que es una divergencia. Mientras que las métricas son simétricas y generalizadas linear distancia, satisfaciendo la desigualdad del triángulo, las divergencias son asimétricas y generalizadas cuadrados distancia, en algunos casos satisfaciendo un teorema pitagórico generalizado. En general no es igual y la asimetría es una parte importante de la geometría. La forma infinitesimal de entropía relativa, específicamente su hesiano, da un tensor métrico que iguala la métrica de información Fisher; vea § Fisher información métrica. Entropía relativa satisfice un teorema pitagórico generalizado para familias exponenciales (geométricamente interpretado como dobles planos), y esto permite minimizar la entropía relativa por medios geométricos, por ejemplo por proyección de información y en estimación de máxima probabilidad.
La entropía relativa es la divergencia de Bregman generada por la entropía negativa, pero también tiene la forma de una divergencia f. Para probabilidades sobre un alfabeto finito, es único por ser miembro de ambas clases de divergencias estadísticas.
Finanzas (teoría de juegos)
Considere un inversor que optimice el crecimiento en un juego limpio con resultados mutuamente excluyentes (por ejemplo, una “carrera de caballos” en la que las probabilidades oficiales suman uno). La tasa de rendimiento esperada por dicho inversor es igual a la entropía relativa entre las probabilidades que cree el inversor y las probabilidades oficiales. Éste es un caso especial de una conexión mucho más general entre los rendimientos financieros y las medidas de divergencia.
Los riesgos financieros están conectados vía geometría de información. Las opiniones de los inversores, la visión del mercado prevaleciente y los escenarios arriesgados forman triángulos en el conjunto relevante de distribuciones de probabilidad. La forma de los triángulos determina los principales riesgos financieros (tanto cualitativa como cuantitativamente). Por ejemplo, los triángulos obtusos en los que las opiniones de los inversores y los escenarios de riesgo aparecen en “lados opuestos” en relación con el mercado describen los riesgos negativos, los triángulos agudos describen la exposición positiva, y la situación de ángulo recto en el centro corresponde a cero riesgo.
Motivación

En teoría de la información, el teorema Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificación de un mensaje para identificar un valor de un conjunto de posibilidades X puede ser visto como representa una distribución de probabilidad implícita sobre X, donde es la longitud del código para en pedazos. Por lo tanto, la entropía relativa puede ser interpretada como la longitud de mensaje adicional esperada por datum que debe ser comunicada si un código que es óptimo para una distribución dada (incorrecta) Q se utiliza, en comparación con el uso de un código basado en la distribución verdadera P: es el exceso Entropía.
Donde es la entropía de la cruz P y Q, y es la entropía de P (que es lo mismo que la cruz-entropía de P con sí mismo).
La entropía relativa puede ser pensado geométricamente como una distancia estadística, una medida de hasta qué punto la distribución Q es de la distribución P. Geométricamente es una divergencia: una forma asimétrica y generalizada de distancia cuadrada. El cross-entropy es en sí misma una medición (formalmente una función de pérdida), pero no se puede pensar como una distancia, ya que no es cero. Esto se puede fijar mediante subcontratación para hacer estar más de acuerdo con nuestra noción de distancia, como exceso pérdida. La función resultante es asimétrica, y aunque esto puede ser simetrizado (ver § Divergencia simetrizada), la forma asimétrica es más útil. Véase § Interpretaciones para más información sobre la interpretación geométrica.
La entropía relativa se relaciona con la "función de tasa" en la teoría de las grandes desviaciones.
Arthur Hobson demostró que la entropía relativa es la única medida de diferencia entre distribuciones de probabilidad que satisface algunas propiedades deseadas, que son la extensión canónica de aquellas que aparecen en una caracterización de entropía comúnmente utilizada. En consecuencia, la información mutua es la única medida de dependencia mutua que obedece a ciertas condiciones relacionadas, ya que puede definirse en términos de divergencia Kullback-Leibler.
Propiedades
- Entropía relativa es siempre no negativo, un resultado conocido como la desigualdad de Gibbs, equivale a cero si y sólo si como medidas.
En particular, si y Entonces - Casi en todas partes. La entropía por lo tanto establece un valor mínimo para la inter-entropía , el número esperado de bits requerido al utilizar un código basado en Q en lugar de P; y la divergencia Kullback-Leibler, por lo tanto, representa el número esperado de bits adicionales que deben ser transmitidos para identificar un valor x extraído X, si se utiliza un código correspondiente a la distribución de probabilidad Q, en lugar de la distribución "verdadera" P.
- No existe límite superior para el caso general. Sin embargo, se muestra que si P y Q son dos distribuciones discretas de probabilidad construidas mediante la distribución de la misma cantidad discreta, luego el valor máximo de se puede calcular.
- La entropía relativa permanece bien definida para las distribuciones continuas, y además es invariante en las transformaciones del parámetro. Por ejemplo, si una transformación está hecha de variable x a variable , entonces, desde y Donde es el valor absoluto del derivado o más generalmente del Jacobiano, la entropía relativa puede ser reescrita: Donde y . Aunque se suponía que la transformación era continua, esta necesidad no era el caso. Esto también muestra que la entropía relativa produce una cantidad dimensionalmente consistente, ya que si x es una variable dimensionada, y son también dimensionados, ya que por ejemplo. no tiene dimensión. El argumento del término logarítmico es y permanece sin dimensión, como debe ser. Por lo tanto, se puede ver como de alguna manera una cantidad más fundamental que algunas otras propiedades en la teoría de la información (como la autoinformación o la entropía Shannon), que pueden convertirse en indefinidos o negativos para probabilidades no discretas.
- La entropía relativa es aditiva para distribuciones independientes de la misma manera que la entropía Shannon. Si son distribuciones independientes, y , y también para las distribuciones independientes entonces
- Entropía relativa es convex en el par de medidas de probabilidad , es decir, si y son dos pares de medidas de probabilidad entonces
- La expansión de Taylor .
Fórmula de dualidad para la inferencia variacional
El siguiente resultado, debido a Donsker y Varadhan, se conoce como fórmula variacional de Donsker y Varadhan.
Theorem [Duality Formula for Variational Inference]—Vamos. ser un conjunto dotado con un apropiado -field , y dos medidas de probabilidad P y Q, que formula dos espacios de probabilidad y Con . () indica que Q es absolutamente continuo con respecto a P) Vamos. h ser una variable aleatoria de valor real . Entonces la siguiente igualdad es
Además, el supremum en el lado derecho se alcanza si y sólo si sostiene
casi seguro con respecto a la medida de probabilidad P, donde denota el derivado Radon-Nikodym de Q con respecto a P.
Para una prueba corta asumiendo la integración de con respecto a P, vamos han tenido P- Densidad , es decir. Entonces...
Por lo tanto,
donde la última desigualdad sigue , por lo que la igualdad ocurre si y sólo si . La conclusión sigue.
Para una prueba alternativa utilizando la teoría de la medida, consulte.
Ejemplos
Distribuciones normales multivariadas
Supongamos que tenemos dos distribuciones normales multivariables, con medios y con matrices de covariancia Si las dos distribuciones tienen la misma dimensión, k, entonces la entropía relativa entre las distribuciones es la siguiente:
El logaritmo en el último término debe ser llevado a la base e ya que todos los términos aparte de los últimos son base-e logaritmos de expresiones que son factores de la función de densidad o de otro modo surgen naturalmente. Por lo tanto, la ecuación da un resultado medido en nueces. Dividir toda la expresión anterior por cede la divergencia en pedazos.
En una implementación numérica, es útil expresar el resultado en términos de las descomposiciones de Cholesky tales que y . Entonces con M y Sí. soluciones a los sistemas lineales triangulares , y ,
Un caso especial, y una cantidad común en la inferencia variacional, es la entropía relativa entre una distribución normal multivariada diagonal y una distribución normal estándar (con media cero y varianza unitaria):
Para dos distribuciones normales univariadas p y q lo anterior se simplifica a
En el caso de distribuciones normales co-centradas con , esto simplifica:
Distribuciones uniformes
Considere dos distribuciones uniformes, con el apoyo de incluida en ()). Entonces el beneficio de la información es:
Intuitivamente, la información gana a k distribución uniforme más estrecha bits. Esto se conecta con el uso de bits en computación, donde se necesitarían bits para identificar un elemento de un k larga corriente.
Relación con las métricas
Aunque la entropía relativa es una distancia estadística, no es una métrica en el espacio de las distribuciones de probabilidad, sino que es una divergencia. Mientras que las métricas son simétricas y generalizadas linear distancia, satisfaciendo la desigualdad del triángulo, las divergencias son asimétricas en general y generalizar cuadrados distancia, en algunos casos satisfaciendo un teorema pitagórico generalizado. En general no es igual , y aunque esto puede ser simetrizado (ver § Divergencia simetrizada), la asimetría es una parte importante de la geometría.
Genera una topología en el espacio de distribuciones de probabilidad. Más concretamente, si es una secuencia de distribuciones tales que
- ,
entonces se dice que
- .
La desigualdad de Pinsker implica que
- ,
donde este último representa la convergencia habitual en la variación total.
Métrica de información de Fisher
La entropía relativa está directamente relacionada con la métrica de información Fisher. Esto puede hacerse explícito como sigue. Supongamos que las distribuciones de probabilidad P y Q son ambos parametrizados por algunos (posiblemente multidimensional) parámetro . Considerar entonces dos cerca por valores de y para que el parámetro difiere sólo por una pequeña cantidad del valor del parámetro . Específicamente, hasta el primer orden uno tiene (utilizando la convención de sumación de Einstein)
con un pequeño cambio en el j dirección, y la tasa de cambio correspondiente en la distribución de probabilidad. Puesto que la entropía relativa tiene un mínimo absoluto 0 para , es decir. , sólo cambia a segundo orden en los parámetros pequeños . Más formalmente, como mínimo, los primeros derivados de la desaparición de la divergencia
y por la expansión de Taylor uno tiene hasta segundo orden
donde se encuentra la matriz hessiana de la divergencia
debe ser semidefinido positivo. Letting (y bajando el subíndice 0) el Hessian define un (posiblemente degenerado) Riemannian metric on the Silencio espacio del parámetro, llamado la métrica de información Fisher.
Teorema de la métrica de información de Fisher
Cuando satisface las siguientes condiciones de regularidad:
- existen,
donde ξ es independiente de ρ
entonces:
Variación de información
Otra métrica de la teoría de la información es la variación de la información, que es aproximadamente una simetrización de la entropía condicional. Es una métrica sobre el conjunto de particiones de un espacio de probabilidad discreto.
Relación con otras cantidades de la teoría de la información
Muchas de las otras cantidades de la teoría de la información pueden interpretarse como aplicaciones de entropía relativa a casos específicos.
Autoinformación
La autoinformación, también conocida como contenido de información de una señal, variable aleatoria o evento, se define como el logaritmo negativo de la probabilidad de que ocurra un resultado dado.
Cuando se aplica a una variable aleatoria discreta, la autoinformación se puede representar como
es la entropía relativa de la distribución de probabilidad de un Kronecker delta que representa la certeza de que — es decir, el número de bits adicionales que deben transmitirse para identificar i si sólo la distribución de probabilidad está disponible para el receptor, no el hecho de que .
Información mutua
La información mutua,
es la entropía relativa de la distribución de probabilidad conjunta del producto de las dos distribuciones marginales de probabilidad, es decir, el número esperado de bits adicionales que deben transmitirse para identificar X y Y si están codificados usando sólo sus distribuciones marginales en lugar de la distribución conjunta. Equivalentemente, si la probabilidad conjunta es conocido, es el número esperado de bits adicionales que deben ser enviados en promedio para identificar Y si el valor de X no es ya conocido por el receptor.
Entropía de Shannon
La entropía de Shannon,
es el número de bits que tendrían que ser transmitidos para identificar X desde N igualmente probables posibilidades, menos la relativa entropía de la distribución uniforme en los variatos aleatorios X, , de la verdadera distribución - i.e. menos el número esperado de bits salvados, que habría tenido que ser enviado si el valor de X fueron codificados según la distribución uniforme más que la verdadera distribución . Esta definición de la entropía Shannon constituye la base de la generalización alternativa de E.T. Jaynes a las distribuciones continuas, la densidad limitante de puntos discretos (a diferencia de la entropía diferencial habitual), que define la entropía continua como
que equivale a:
Entropía condicional
La entropía condicional,
es el número de bits que tendrían que ser transmitidos para identificar X desde N igualmente probables posibilidades, menos la entropía relativa de la distribución del producto de la verdadera distribución conjunta - i.e. menos el número esperado de bits salvados que habría tenido que ser enviado si el valor de X fueron codificados según la distribución uniforme más que la distribución condicional de X dado Y.
Entropía cruzada
Cuando tenemos un conjunto de posibles eventos, provenientes de la distribución p, podemos codificarlos (con una compresión de datos sin pérdida) usando la codificación de entropía. Esto comprime los datos reemplazando cada símbolo de entrada de longitud fija con un código único, de longitud variable, sin prefijo (por ejemplo: los eventos (A, B, C) con probabilidades p = (1/2, 1/4, 1/4) se pueden codificar como los bits (0, 10, 11)). Si conocemos la distribución p de antemano, podemos diseñar una codificación que sería óptima (por ejemplo: usar codificación Huffman). Significando los mensajes que codificamos tendrán la longitud más corta en promedio (asumiendo que los eventos codificados se muestren desde p), que será igual a la Entropía de Shannon p (denominado como ). Sin embargo, si utilizamos una distribución de probabilidad diferente (q) al crear el esquema de codificación de entropía, entonces un mayor número de bits se utilizará (en promedio) para identificar un evento de un conjunto de posibilidades. Este nuevo (grande) número se mide por la entropía cruzada entre p y q.
La entropía cruzada entre dos distribuciones de probabilidad (p y q) mide el número promedio de bits necesarios para identificar un evento entre un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad determinada q, en lugar del "true" distribución p. La entropía cruzada para dos distribuciones p y q sobre el mismo espacio de probabilidad se define así de la siguiente manera.
Para obtener una derivación explícita de esto, consulte la sección Motivación anterior.
En este escenario, se pueden interpretar entropías relativas (kl-divergence) como el número extra de bits, en promedio, que se necesitan (más allá ) para la codificación de los eventos debido a utilizar q para construir el esquema de codificación en lugar de p.
Actualización bayesiana
En las estadísticas bayesianas, la entropía relativa se puede utilizar como medida de la ganancia de información para pasar de una distribución previa a una distribución posterior: . Si algo nuevo se descubre, se puede utilizar para actualizar la distribución posterior para X desde a una nueva distribución posterior usando el teorema de Bayes:
Esta distribución tiene una nueva entropía:
que puede ser menor o mayor que la entropía original . Sin embargo, desde el punto de vista de la nueva distribución de probabilidad uno puede estimar que haber utilizado el código original basado en en lugar de un nuevo código basado en habría añadido un número esperado de bits:
a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre X, que se ha aprendido descubriendo .
Si un nuevo pedazo de datos, , posteriormente entra, la distribución de probabilidad para x se puede actualizar más, para dar una nueva mejor conjetura . Si uno reinvestiga el beneficio de la información para utilizar en lugar de , resulta que puede ser mayor o menor de lo estimado anteriormente:
- puede ser ≤ o
y por lo tanto la ganancia de información combinada no obedece a la desigualdad del triángulo:
- puede ser
Todo lo que se puede decir es que promedio, promedio de uso Los dos lados saldrán en promedio.
Diseño experimental bayesiano
Un objetivo común en el diseño experimental bayesiano es maximizar la entropía relativa esperada entre el anterior y el posterior. Cuando las posteriores se aproximan a distribuciones gaussianas, un diseño que maximiza la entropía relativa esperada se denomina Bayes d-óptimo.
Información sobre discriminación
Entropía relativa también se puede interpretar como el discriminación para sobre : la información media por muestra para discriminar a favor de una hipótesis contra una hipótesis , cuando hipótesis es verdad. Otro nombre para esta cantidad, dado a ella por I. J. Good, es el peso esperado de evidencia para sobre que se espera de cada muestra.
El peso esperado de las pruebas sobre es no igual que el aumento de información esperado por muestra sobre la distribución de probabilidad de las hipótesis,
Cualquiera de las dos cantidades puede usarse como función de utilidad en el diseño experimental bayesiano, para elegir una siguiente pregunta óptima para investigar: pero en general conducirán a estrategias experimentales bastante diferentes.
En la escala de entropía de la ganancia de información hay muy poca diferencia entre certeza cercana y certeza absoluta: codificar según una certeza casi requiere apenas más bits que codificar según una certeza absoluta. Por otro lado, en la escala logit implícita en el peso de la evidencia, la diferencia entre los dos es enorme –quizás infinita–; esto podría reflejar la diferencia entre estar casi seguro (en un nivel probabilístico) de que, digamos, la hipótesis de Riemann es correcta, en comparación con estar seguro de que es correcta porque se tiene una demostración matemática. Estas dos escalas diferentes de función de pérdida para la incertidumbre son ambas útiles, según qué tan bien refleje cada una las circunstancias particulares del problema en cuestión.
Principio de información mínima de discriminación
La idea de la entropía relativa como información de discriminación llevó a Kullback a proponer el principio de Discriminación mínima Información (MDI): dados nuevos hechos, una nueva distribución f debe ser elegido que es tan difícil de discriminar de la distribución original lo que sea posible; de modo que los nuevos datos produzcan un pequeño aumento de la información como sea posible.
Por ejemplo, si uno tenía una distribución previa sobre x y a, y posteriormente aprendió la verdadera distribución de a era , entonces la entropía relativa entre la nueva distribución conjunta para x y a, , y la distribución anterior sería:
i.e. the sum of the relative entropy of la distribución anterior para a de la distribución actualizada , más el valor esperado (utilizando la distribución de probabilidad ) de la entropía relativa de la distribución condicional anterior de la nueva distribución condicional . (Nota que a menudo el valor esperado posterior se llama el condicional relativa entropía (o condicional Kullback – Divergencia de lectura) y denotado por ) Esto se minimiza si sobre todo el apoyo de ; y observamos que este resultado incorpora el teorema de Bayes, si la nueva distribución es de hecho una función δ que representa la certeza de que a tiene un valor particular.
El MDI puede verse como una extensión del Principio de Razón Insuficiente de Laplace y del Principio de Máxima Entropía de E.T. Jaynes. En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, para la cual la entropía de Shannon deja de ser tan útil (ver entropía diferencial), pero la entropía relativa sigue siendo justa. tan relevante.
En la literatura de ingeniería, MDI a veces se denomina Principio de entropía cruzada mínima (MCE) o Minxent para abreviar. Minimizar la entropía relativa de m a p< /span> con respecto a m equivale a minimizar la entropía cruzada de p y m, desde
que es apropiado si uno está tratando de elegir una aproximación adecuada p. Sin embargo, esto es tan a menudo no la tarea que uno está tratando de lograr. En su lugar, tan a menudo es m que es alguna medida de referencia anterior fija, y p que uno está tratando de optimizar al minimizar sujeto a alguna limitación. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores que intentan resolver la inconsistencia al redefinir la inter-entropía para ser , en lugar de .
Relación con el trabajo disponible

Los sorpresas agregan donde las probabilidades se multiplican. El sorpresa para un evento de probabilidad p se define como . Si k es entonces surprisal está en nats, bits, or por ejemplo, N bits of surprisal for landing all "heads" on a toss of N monedas.
Los estados de las mejores invitaciones (por ejemplo, para los átomos en un gas) se infiere al máximo el promedio surprisal S (entropía) para un determinado conjunto de parámetros de control (como presión) P o volumen V). Esta maximización limitada de la entropía, tanto clásica como cuántica mecánicamente, minimiza la disponibilidad de Gibbs en unidades de entropía Donde Z es una función de multiplicidad o partición limitada.
Cuando la temperatura T se fija, energía libre () también se minimiza. Así si y número de moléculas N son constantes, la energía libre Helmholtz (donde) U es energía y S es entropía) se minimiza como un sistema "equilibrados". Si T y P se mantienen constantes (por ejemplo durante procesos en su cuerpo), la energía libre Gibbs se minimiza en su lugar. El cambio de la energía libre en estas condiciones es una medida de trabajo disponible que podría hacerse en el proceso. Así trabajo disponible para un gas ideal a temperatura constante y presión es Donde y (ver también la desigualdad de Gibbs).
Más generalmente el trabajo disponible en relación con algún ambiente se obtiene multiplicando la temperatura ambiente por entropía relativa o net surprisal definido como el valor promedio Donde es la probabilidad de un estado dado en condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monatómico a los valores ambientales de y Así es. , donde entropía relativa
Los contornos resultantes de entropía relativa constante, que se muestran a la derecha para un mol de argón a temperatura y presión estándar, por ejemplo, ponen límites a la conversión de calor a frío como en el aire acondicionado accionado por llama o en el dispositivo sin alimentación para convertir agua hirviendo en agua helada que se analiza aquí. Así, la entropía relativa mide la disponibilidad termodinámica en bits.
Teoría de la información cuántica
Para matrices de densidad P y Q en un espacio de Hilbert, la entropía relativa cuántica de Q a P se define como
En la ciencia de la información cuántica el mínimo sobre todos los estados separables Q también se puede utilizar como una medida de enredamiento en el estado P.
Relación entre modelos y realidad
Así como la entropía relativa de "real desde ambiental" mide la disponibilidad termodinámica, la entropía relativa de la "realidad de un modelo" También es útil incluso si las únicas pistas que tenemos sobre la realidad son algunas mediciones experimentales. En el primer caso, la entropía relativa describe la distancia al equilibrio o (cuando se multiplica por la temperatura ambiente) la cantidad de trabajo disponible, mientras que en el último caso te informa sobre las sorpresas que la realidad tiene. tiene bajo la manga o, en otras palabras, cuánto le queda por aprender al modelo.
Aunque esta herramienta para evaluar modelos frente a sistemas a los que se puede acceder experimentalmente se puede aplicar en cualquier campo, su aplicación para seleccionar un modelo estadístico mediante el criterio de información de Akaike se describe particularmente bien en artículos y en un libro de Burnham y Anderson. En pocas palabras, la entropía relativa de la realidad de un modelo puede estimarse, dentro de un término aditivo constante, en función de las desviaciones observadas entre los datos y las predicciones del modelo (como la desviación cuadrática media). Las estimaciones de dicha divergencia para modelos que comparten el mismo término aditivo pueden, a su vez, usarse para seleccionar entre modelos.
Al intentar ajustar modelos parametrizados a los datos, existen varios estimadores que intentan minimizar la entropía relativa, como los estimadores de máxima verosimilitud y máximo espaciado.
Divergencia simetrizada
Kullback & Leibler (1951) También se considera la función simetrizada:
a la que se referían como "divergencia", aunque hoy en día la "divergencia KL" se refiere a la función asimétrica (ver § Etimología para la evolución del término). Esta función es simétrica y no negativa, y ya había sido definida y utilizada por Harold Jeffreys en 1948; en consecuencia, se denomina divergencia de Jeffreys.
Esta cantidad a veces se ha utilizado para la selección de características en problemas de clasificación, donde P y Q son los archivos PDF condicionales de una característica en dos clases diferentes. En los sectores bancario y financiero, esta cantidad se conoce como índice de estabilidad de la población (PSI) y se utiliza para evaluar los cambios distributivos en las características del modelo a lo largo del tiempo.
Una alternativa se da a través de -divergence,
que puede interpretarse como el aumento previsto de la información X de descubrir qué distribución de probabilidad X de, P o Q, si actualmente tienen probabilidades y respectivamente.
El valor da la divergencia Jensen-Shannon, definida por
donde M es el promedio de las dos distribuciones,
También podemos interpretar como la capacidad de un canal de información ruidoso con dos entradas dando las distribuciones de salida P y Q. La divergencia Jensen-Shannon, como todos f-divergencias, es localmente proporcional a la métrica de información Fisher. Es similar a la métrica Hellinger (en el sentido de que induce la misma conexión afinal en un múltiple estadístico).
Además, la divergencia de Jensen-Shannon se puede generalizar utilizando mezclas M estadísticas abstractas basadas en una media abstracta M.
Relación con otras medidas de probabilidad-distancia
Hay muchas otras medidas importantes de distancia de probabilidad. Algunos de ellos están particularmente relacionados con la entropía relativa. Por ejemplo:
- La distancia total de la variación, . Esto está conectado a la divergencia a través de la desigualdad de Pinsker: La desigualdad de Pinsker es vacua para cualquier distribución donde , ya que la distancia total de la variación es en la mayoría 1. Para tales distribuciones, se puede utilizar un límite alternativo, debido a Bretagnolle y Huber (véase también, Tsybakov):
- La familia de las divergencias Rényi generaliza la entropía relativa. Dependiendo del valor de un parámetro determinado, , pueden deducirse varias desigualdades.
Otras medidas notables de distancia incluyen la distancia de Hellinger, intersección de histograma, estadística de chi-cuadrado, distancia de forma cuadrática, coincidencia distancia, distancia Kolmogorov-Smirnov y distancia del movimiento de tierras.
Diferenciación de datos
Así como la entropía absoluta sirve como base teórica para la compresión de datos, la entropía relativa sirve como base teórica para la diferenciación de datos (la entropía absoluta de un conjunto de datos en este sentido). siendo los datos necesarios para reconstruirlo (tamaño mínimo comprimido), mientras que la entropía relativa de un conjunto de datos de destino, dado un conjunto de datos de origen, son los datos necesarios para reconstruir el objetivo dada la fuente (tamaño mínimo de un parche).
Contenido relacionado
Conjunto vacío
Historia de la lógica
Ley de los grandes números