Concepto en la teoría de la información
La entropía diferencial (también conocida como entropía continua) es un concepto de la teoría de la información que comenzó como un intento de Claude Shannon de ampliar la idea de la entropía (Shannon). , una medida del promedio (sorpresa) de una variable aleatoria, a distribuciones de probabilidad continuas. Desafortunadamente, Shannon no derivó esta fórmula y simplemente asumió que era el análogo continuo correcto de la entropía discreta, pero no lo es. La versión continua real de la entropía discreta es la densidad límite de puntos discretos (LDDP). La entropía diferencial (descrita aquí) se encuentra comúnmente en la literatura, pero es un caso limitante del LDDP y uno que pierde su asociación fundamental con la entropía discreta.
En términos de teoría de la medida, la entropía diferencial de una medida de probabilidad es la entropía relativa negativa de esa medida a la medida de Lebesgue, donde esta última se trata como si fuera una medida de probabilidad, a pesar de no estar normalizada.
Definición
Vamos.
ser una variable aleatoria con una función de densidad de probabilidad
cuyo apoyo es un conjunto
. El diferencial entropía
o
se define como
![{\displaystyle h(X)=\operatorname {E} [-\log(f(X))]=-\int _{\mathcal {X}}f(x)\log f(x)\,dx}](https://wikimedia.org/api/rest_v1/media/math/render/svg/81077fcafadbbfda2e8493256a6167b21a3aeca6)
Para las distribuciones de probabilidad que no tienen una expresión explícita de función de densidad, pero tienen una expresión explícita de función cuántil,
Entonces
puede definirse en términos del derivado de
i.e. la función de densidad cuántil
como
.
Como con su analógico discreto, las unidades de entropía diferencial dependen de la base del logaritmo, que suele ser 2 (es decir, las unidades son bits). Ver unidades logarítmicas para logaritmos tomadas en diferentes bases. Los conceptos relacionados como entropía diferencial articular, condicional y entropía relativa se definen de manera similar. A diferencia del análogo discreto, la entropía diferencial tiene un offset que depende de las unidades utilizadas para medir
. Por ejemplo, la entropía diferencial de una cantidad medida en milímetros será log(1000) más de la misma cantidad medida en metros; una cantidad sin dimensiones tendrá entropía diferencial de log(1000) más que la misma cantidad dividida por 1000.
Uno debe tener cuidado en tratar de aplicar propiedades de entropía discreta a la entropía diferencial, ya que las funciones de densidad de probabilidad pueden ser superiores a 1. Por ejemplo, la distribución uniforme
tiene negativo entropía diferencial; es decir, es mejor ordenado que
como se muestra ahora

ser menos que el de
que tiene cero entropía diferencial. Así, la entropía diferencial no comparte todas las propiedades de la entropía discreta.
La información mutua continua
tiene la distinción de conservar su significado fundamental como medida de información discreta, ya que en realidad es el límite de la información mutua discreta particiones de
y
como estas particiones se vuelven más finas y más finas. Por lo tanto es invariable bajo homeomorfismos no lineales (mapas continuas e invertibles únicas), incluyendo transformaciones lineales de
y
, y aún representa la cantidad de información discreta que se puede transmitir a través de un canal que admite un espacio continuo de valores.
Para conocer el análogo directo de la entropía discreta extendida al espacio continuo, consulte densidad límite de puntos discretos.
Propiedades de la entropía diferencial
- Para densidades de probabilidad
y
, la divergencia Kullback-Leibler
es mayor o igual a 0 con igualdad solamente si
casi en todas partes. Del mismo modo, para dos variables aleatorias
y
,
y
con igualdad si
y
son independientes. - La regla de cadena para la entropía diferencial sostiene como en el caso discreto
.
- La entropía diferencial es la traducción invariante, es decir, para una constante
.

- La entropía diferencial es en general no invariante bajo mapas invertibles arbitrarios.
- En particular, para una constante


- Para una variable aleatoria valorada por vectores
y una matriz invertible (cuadra) 

- En general, para una transformación de un vector aleatorio a otro vector aleatorio con la misma dimensión
, las entropías correspondientes se relacionan a través

- Donde
es el Jacobiano de la transformación
. La desigualdad arriba se convierte en igualdad si la transformación es una bijeción. Además, cuando
es una rotación rígida, traducción o combinación de ella, el determinante jacobio es siempre 1, y
.
- Si un vector aleatorio
tiene cero y matriz de covariancia
,
con igualdad si
es conjuntamente gaussian (ver abajo).
Sin embargo, la entropía diferencial no tiene otras propiedades deseables:
- No es invariante bajo el cambio de variables, y por lo tanto es más útil con variables sin dimensiones.
- Puede ser negativo.
Una modificación de la entropía diferencial que aborda estos inconvenientes es la entropía de información relativa, también conocida como divergencia Kullback-Leibler, que incluye un factor de medida invariante (ver densidad límite de puntos discretos).
Maximización en la distribución normal
Teorema
Con una distribución normal, la entropía diferencial se maximiza para una varianza dada. Una variable aleatoria gaussiana tiene la entropía más grande entre todas las variables aleatorias de igual varianza o, alternativamente, la distribución de entropía máxima bajo restricciones de media y varianza es la gaussiana.
Prueba
Vamos.
ser un PDF Gaussiano con media μ y diferencia
y
un PDF arbitrario con la misma varianza. Puesto que la entropía diferencial es la traducción invariable podemos asumir que
tiene la misma media de
como
.
Considere la divergencia de Kullback-Leibler entre las dos distribuciones

Ahora tenga en cuenta que

porque el resultado no depende de
aparte de la varianza. Combinando los dos resultados

con igualdad cuando
siguiendo las propiedades de la divergencia Kullback-Leibler.
Prueba alternativa
Este resultado también se puede demostrar mediante el cálculo de variaciones. Una función lagrangiana con dos multiplicadores lagrangianos se puede definir como:

Donde g(x) es una función con media μ. Cuando la entropía de g(x) está en un máximo y las ecuaciones de restricción, que consisten en la condición de normalización
y el requisito de la varianza fija
, ambos están satisfechos, luego una pequeña variación δg()xsobre g()x) producirá una variación δL sobre L que es igual a cero:

Dado que esto debe ser válido para cualquier δg(x) pequeño, el término entre paréntesis debe ser cero y resolver para g(x) produce:

Usando las ecuaciones de restricción para resolver λ0 y λ se obtiene la distribución normal:

Ejemplo: Distribución exponencial
Vamos.
ser una variable aleatoria distribuida exponencialmente con parámetro
, es decir, con función de densidad de probabilidad

Su entropía diferencial es entonces
 |  |
|  |
| ![{\displaystyle =-\log \lambda \int _{0}^{\infty }f(x)\,dx+\lambda E[X]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6c7b858aa24c447280834a8065f2d9a6759f3573) |
|  |
Aquí,
era usado en lugar de
para hacerlo explícito que el logaritmo fue llevado a la base ePara simplificar el cálculo.
Relación con el error del estimador
La entropía diferencial produce un límite inferior en el error cuadrado esperado de un estimador. Para cualquier variable aleatoria
y estimación
las siguientes bodegas:
![{\displaystyle \operatorname {E} [(X-{\widehat {X}})^{2}]\geq {\frac {1}{2\pi e}}e^{2h(X)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/193356f1025ca886f56feaa3db5b9de11938bee5)
con igualdad si
es una variable aleatoria gaissa y
es la media de
.
Entropías diferenciales para varias distribuciones
En el cuadro siguiente
es la función gamma,
es la función digamma,
es la función beta, y γE Es la constante de Euler.
Tabla de entropías diferenciales
Nombre de distribución | Función de densidad de probabilidad (pdf) | Entropía diferencial en nats | Apoyo
|
---|
Uniforme uniforme |  |  | ![{\displaystyle [a,b]\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/23cb97ebba2cd3175f9a77446963c1849fc353ee) |
Normal |  |  |  |
Exponential |  |  |  |
Rayleigh |  |  |  |
Beta | para  | ![{\displaystyle \ln B(\alpha\beta)-(\alpha -1)[\psi (\alpha)-\psi (\alpha +\beta)]\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f895ba55b433458d4ca28193a968b02eb4442d87)
![{\displaystyle -(\beta -1)[\psi (\beta)-\psi (\alpha +\beta)]\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/37ba6804a6f89b52cc726a7c85f220ad1556cc5d) | ![{\displaystyle [0,1]\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/43e2b417e116123c724ee6f69cf309f6ad17a2d0) |
Cauchy |  |  |  |
Chi |  |  |  |
Chi-squared |  |  |  |
Erlang |  |  |  |
F |  | 
 |  |
Gamma |  |  |  |
Laplace |  |  |  |
Logística |  |  |  |
Normal |  |  |  |
Maxwell-Boltzmann |  |  |  |
Normal generalizado |  |  |  |
Pareto |  |  |  |
Estudiante |  |  |  |
Triangular | ![{\displaystyle f(x)={\begin{cases}{\frac {2(x-a)}{(b-a)(c-a)}}&\mathrm {for\ } a\leq x\leq c,\\[4pt]{\frac {2(b-x)}{(b-a)(b-c)}}&\mathrm {for\ } c<x\leq b,\\[4pt]\end{cases}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8cd3efe322344b7468261ffc3db8d631817a2c52) |  | ![{\displaystyle [a,b]\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/23cb97ebba2cd3175f9a77446963c1849fc353ee) |
Weibull |  |  |  |
Normal multivariable | 
 |  |  |
Muchas de las entropías diferenciales son de.
Variantes
Como se describió anteriormente, la entropía diferencial no comparte todas las propiedades de la entropía discreta. Por ejemplo, la entropía diferencial puede ser negativa; Además, no es invariante bajo transformaciones de coordenadas continuas. Edwin Thompson Jaynes demostró de hecho que la expresión anterior no es el límite correcto de la expresión para un conjunto finito de probabilidades.
Una modificación de la entropía diferencial añade un factor de medida invariante para corregir esto (ver densidad de limitación de puntos discretos). Si
se limita además a ser una densidad de probabilidad, la noción resultante se llama entropía relativa en la teoría de la información:

La definición de entropía diferencial arriba se puede obtener partiendo el rango de
en contenedores de longitud
con puntos de muestra asociados
dentro de los contenedores, para
Riemann integrado. Esto da una versión cuantificada
, definida por
si
. Entonces la entropía de
es

El primer término en la derecha aproxima la entropía diferencial, mientras que el segundo término es aproximadamente
. Tenga en cuenta que este procedimiento sugiere que la entropía en el sentido discreto de una variable aleatoria continua debe ser
.
Más resultados...