Entropía (información)

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En la teoría de la información, la entropía de una variable aleatoria es el nivel promedio de "información", "sorpresa" o "incertidumbre" inherente a los posibles resultados de la variable. Dada una variable aleatoria discreta $X$ , que toma valores en el alfabeto ${ matemáticas {X}}$ y se distribuye de acuerdo a ${displaystyle p:{mathcal {X}}to [0,1]}$ :

{displaystyle mathrm {H} (X):=-sum _{xin {mathcal {X}}}p(x)log p(x)=mathbb {E} [-log p (X)],}

donde $Sigma$ denota la suma de los posibles valores de la variable. La elección de la base para $Iniciar sesión$ , el logaritmo, varía según las diferentes aplicaciones. La base 2 da la unidad de bits (o "shannons"), mientras que la base e da "unidades naturales" nat, y la base 10 da unidades de "dits", "bans" o "hartleys". Una definición equivalente de entropía es el valor esperado de la autoinformación de una variable.

El concepto de entropía de la información fue introducido por Claude Shannon en su artículo de 1948 "Una teoría matemática de la comunicación", y también se conoce como entropía de Shannon. La teoría de Shannon define un sistema de comunicación de datos compuesto por tres elementos: una fuente de datos, un canal de comunicación y un receptor. El "problema fundamental de la comunicación" -como lo expresó Shannon- es que el receptor sea capaz de identificar qué datos generó la fuente, en función de la señal que recibe a través del canal.Shannon consideró varias formas de codificar, comprimir y transmitir mensajes desde una fuente de datos, y demostró en su famoso teorema de codificación de fuentes que la entropía representa un límite matemático absoluto sobre qué tan bien se pueden comprimir sin pérdidas los datos de la fuente en un canal perfectamente silencioso. Shannon reforzó considerablemente este resultado para canales ruidosos en su teorema de codificación de canales ruidosos.

La entropía en la teoría de la información es directamente análoga a la entropía en la termodinámica estadística. La analogía resulta cuando los valores de la variable aleatoria designan energías de microestados, por lo que la fórmula de Gibbs para la entropía es formalmente idéntica a la fórmula de Shannon. La entropía tiene relevancia para otras áreas de las matemáticas, como la combinatoria y el aprendizaje automático. La definición se puede derivar de un conjunto de axiomas que establecen que la entropía debe ser una medida de cuán "sorprendente" es el resultado promedio de una variable. Para una variable aleatoria continua, la entropía diferencial es análoga a la entropía.

Introducción

La idea central de la teoría de la información es que el "valor informativo" de un mensaje comunicado depende del grado en que el contenido del mensaje sea sorprendente. Si ocurre un evento muy probable, el mensaje contiene muy poca información. Por otro lado, si ocurre un evento altamente improbable, el mensaje es mucho más informativo. Por ejemplo, el conocimiento de que algún número en particular no será el número ganador de una lotería proporciona muy poca información, porque es casi seguro que cualquier número elegido en particular no ganará. Sin embargo, el conocimiento de que un número en particular ganará una lotería tiene un alto valor informativo porque comunica el resultado de un evento de muy baja probabilidad.

El contenido de información, también llamado sorpresa o autoinformación, de un evento $mi$ es una función que aumenta a medida que disminuye la probabilidad ${ estilo de visualización p (E)}$ de un evento. Cuando ${ estilo de visualización p (E)}$ está cerca de 1, la sorpresa del evento es baja, pero si ${ estilo de visualización p (E)}$ está cerca de 0, la sorpresa del evento es alta. Esta relación está descrita por la función

{displaystyle log left({frac {1}{p(E)}}right),}

donde $Iniciar sesión$ es el logaritmo, que da 0 sorpresa cuando la probabilidad del evento es 1. De hecho, $Iniciar sesión$ es la única función que satisface este conjunto específico de caracterización.

Por lo tanto, podemos definir la información, o sorpresa, de un evento $mi$ por

o equivalente,

{displaystyle I(E)=log _{2}left({frac {1}{p(E)}}right).}

La entropía mide la cantidad esperada (es decir, promedio) de información transmitida al identificar el resultado de una prueba aleatoria. Esto implica que lanzar un dado tiene una entropía más alta que lanzar una moneda porque cada resultado de un lanzamiento de dado tiene una probabilidad menor (alrededor ${ estilo de visualización p = 1/6}$ de) que cada resultado de un lanzamiento de moneda ( $p=1/2$ ).

Considere una moneda sesgada con probabilidad p de caer en cara y probabilidad 1 − p de caer en cruz. La sorpresa máxima es cuando p = 1/2, por lo que no se espera un resultado sobre el otro. En este caso, el lanzamiento de una moneda tiene una entropía de un bit. (Del mismo modo, un trit con valores equiprobables contiene $log _ {2} 3$ (alrededor de 1,58496) bits de información porque puede tener uno de tres valores). La sorpresa mínima es cuando p = 0 o p = 1, cuando el resultado del evento se conoce con anticipación y la entropía es cero bits. Cuando la entropía es cero bits, esto a veces se denomina unidad, donde no hay incertidumbre en absoluto, ni libertad de elección, ni información. Otros valores de p dan entropías entre cero y uno bits.

La teoría de la información es útil para calcular la cantidad mínima de información requerida para transmitir un mensaje, como en la compresión de datos. Por ejemplo, considere la transmisión de secuencias que comprenden los 4 caracteres 'A', 'B', 'C' y 'D' a través de un canal binario. Si las 4 letras son igualmente probables (25%), no se puede hacer nada mejor que usar dos bits para codificar cada letra. 'A' podría codificarse como '00', 'B' como '01', 'C' como '10' y 'D' como '11'. Sin embargo, si las probabilidades de cada letra son desiguales, digamos que 'A' ocurre con un 70 % de probabilidad, 'B' con un 26 % y 'C' y 'D' con un 2 % cada una, se podrían asignar códigos de longitud variable. En este caso, 'A' se codificaría como '0', 'B' como '10', 'C' como '110', y D como '111'. Con esta representación, el 70% de las veces solo se necesita enviar un bit, el 26% de las veces dos bits y solo el 4% de las veces 3 bits. En promedio, se requieren menos de 2 bits ya que la entropía es más baja (debido a la alta prevalencia de 'A' seguida de 'B', juntos el 96% de los caracteres). El cálculo de la suma de las probabilidades logarítmicas ponderadas por probabilidad mide y captura este efecto. El texto en inglés, tratado como una cadena de caracteres, tiene una entropía bastante baja, es decir, es bastante predecible. Podemos estar bastante seguros de que, por ejemplo, 'e' será mucho más común que 'z', que la combinación 'qu' será mucho más común que cualquier otra combinación con una 'q' en ella, y que la combinación 'th' será más común que 'z', 'q' o 'qu'. Después de las primeras letras, a menudo se puede adivinar el resto de la palabra. El texto en inglés tiene entre 0,6 y 1,3 bits de entropía por carácter del mensaje.

Definición

Llamado así por el teorema Η de Boltzmann, Shannon definió la entropía Η (letra griega eta mayúscula) de una variable aleatoria discreta ${ estilo de texto X}$ , que toma valores en el alfabeto ${ matemáticas {X}}$ y se distribuye de ${displaystyle p:{mathcal {X}}to [0,1]}$ tal manera que ${displaystyle p(x):=mathbb {P} [X=x]}$ :

{displaystyle mathrm {H} (X)=mathbb {E} [operatorname {I} (X)]=mathbb {E} [-log p(X)].}

Aquí $matemáticas {E}$ está el operador de valor esperado e I es el contenido de información de X. es en sí misma una variable aleatoria. ${ estilo de visualización nombre del operador {I} (X)}$

La entropía se puede escribir explícitamente como:

{displaystyle mathrm {H} (X)=-sum _{xin {mathcal {X}}}p(x)log _{b}p(x),}

donde b es la base del logaritmo utilizado. Los valores comunes de b son 2, el número de Euler e y 10, y las unidades de entropía correspondientes son los bits para b = 2, nats para b = e y bans para b = 10.

En el caso de $p(x) = 0$ para algunos $xin {mathcal {X}}$ , el valor del correspondiente sumando 0 log _b (0) se toma como 0, lo cual es consistente con el límite:

{displaystyle lim _{pto 0^{+}}plog(p)=0.}

También se puede definir la entropía condicional de dos variables $X$ y $Y$ tomando valores de conjuntos ${ matemáticas {X}}$ y ${ matemáticas {Y}}$ respectivamente, como:

{displaystyle mathrm {H} (X|Y)=-sum _{x,yin {mathcal {X}}times {mathcal {Y}}}p_{X,Y}(x, y)log {frac{p_{X,Y}(x,y)}{p_{Y}(y)}},}

donde ${displaystyle p_{X,Y}(x,y):=mathbb {P} [X=x,Y=y]}$ y ${displaystyle p_{Y}(y)=mathbb {P} [Y=y]}$ . Esta cantidad debe entenderse como la aleatoriedad restante en la variable aleatoria $X$ dada la variable aleatoria $Y$ .

Teoría de la medida

La entropía se puede definir formalmente en el lenguaje de la teoría de la medida de la siguiente manera: Sea ${ estilo de visualización (X, Sigma, mu)}$ un espacio de probabilidad. Sea $A en Sigma$ un evento. La sorpresa de $A$ es

{ estilo de visualización sigma _ { mu} (A) = - ln mu (A).}

La sorpresa esperada de $A$ es

{displaystyle h_{mu }(A)=mu (A)sigma _{mu }(A).}

Una $mu$ casi partición es un conjunto familiar ${displaystyle Psubseteq {mathcal {P}}(X)}$ tal que ${displaystyle mu (mahop {taza} PAG)=1}$ y ${ estilo de visualización mu (A cap B) = 0}$ para todos distintos ${ estilo de visualización A, B en P}$ . (Esta es una relajación de las condiciones usuales para una partición.) La entropía de $PAGS$ es

{displaystyle mathrm {H}_{mu}(P)=sum_{Ain P}h_{mu}(A).}

Sea $METRO$ un sigma-álgebra sobre $X$ . La entropía de $METRO$ es

{displaystyle mathrm {H}_{mu}(M)=sup_{Psubseteq M}mathrm {H}_{mu}(P).}

Finalmente, la entropía del espacio de probabilidad es ${ Displaystyle mathrm {H} _ { mu} ( Sigma)}$ , es decir, la entropía con respecto a $mu$ del sigma-álgebra de todos los subconjuntos medibles de $X$ .

Ejemplo

Considere lanzar una moneda con probabilidades conocidas, no necesariamente justas, de salir cara o cruz; esto se puede modelar como un proceso de Bernoulli.

La entropía del resultado desconocido del siguiente lanzamiento de la moneda se maximiza si la moneda es justa (es decir, si cara y cruz tienen la misma probabilidad 1/2). Esta es la situación de máxima incertidumbre ya que es más difícil predecir el resultado del próximo lanzamiento; el resultado de cada lanzamiento de la moneda entrega un bit completo de información. Esto es porque

{displaystyle {begin{alineado}mathrm {H} (X)&=-sum _{i=1}^{n}{p(x_{i})log _{b}p(x_{ i})}\&=-sum _{i=1}^{2}{{frac {1}{2}}log _{2}{frac {1}{2}}} &=-sum _{i=1}^{2}{{frac {1}{2}}cdot (-1)}=1end{alineado}}}

Sin embargo, si sabemos que la moneda no es justa, pero sale cara o cruz con probabilidades p y q, donde p ≠ q, entonces hay menos incertidumbre. Cada vez que se lanza, es más probable que salga un lado que el otro. La incertidumbre reducida se cuantifica en una entropía más baja: en promedio, cada lanzamiento de la moneda entrega menos de un bit completo de información. Por ejemplo, si p = 0.7, entonces

{displaystyle {begin{alineado}mathrm {H} (X)&=-plog _{2}(p)-qlog _{2}(q)\&=-0.7log _ {2}(0.7)-0.3log _{2}(0.3)\&approx -0.7cdot (-0.515)-0.3cdot (-1.737)\&=0.8816<1end{alineado} }}

La probabilidad uniforme produce la máxima incertidumbre y, por lo tanto, la máxima entropía. La entropía, entonces, solo puede disminuir desde el valor asociado con la probabilidad uniforme. El caso extremo es el de una moneda de dos caras que nunca sale cruz, o una moneda de dos caras que nunca sale cara. Entonces no hay incertidumbre. La entropía es cero: cada lanzamiento de la moneda no proporciona información nueva ya que el resultado de cada lanzamiento de la moneda siempre es seguro.

La entropía se puede normalizar dividiéndola por la longitud de la información. Esta relación se llama entropía métrica y es una medida de la aleatoriedad de la información.

Caracterización

Para comprender el significado de −Σ p _i log(p _i), primero defina una función de información I en términos de un evento i con probabilidad p _i. La cantidad de información adquirida debido a la observación del evento i se deriva de la solución de Shannon de las propiedades fundamentales de la información:

I(p) es monótonamente decreciente en p: un aumento en la probabilidad de un evento disminuye la información de un evento observado, y viceversa.
I(1) = 0: eventos que siempre ocurren no comunican información.
I(p ₁ · p ₂) = I(p ₁) + I(p ₂): la información aprendida de eventos independientes es la suma de la información aprendida de cada evento.

Dados dos eventos independientes, si el primer evento puede producir uno de n resultados equiprobables y otro tiene uno de m resultados equiprobables, entonces hay mn resultados equiprobables del evento conjunto. Esto significa que si se necesitan log ₂ (n) bits para codificar el primer valor y log ₂ (m) para codificar el segundo, se necesita log ₂ (mn) = log ₂ (m) + log ₂ (n) para codificar ambos.

Shannon descubrió que una elección adecuada de ${ estilo de visualización nombre del operador {yo}}$ está dada por:

{displaystyle operatorname {I} (p)=log left({tfrac {1}{p}}right)=-log(p)}

De hecho, los únicos valores posibles de ${ estilo de visualización nombre del operador {yo}}$ son ${ estilo de visualización nombre del operador {I} (u) = k log u}$ para $k<0$ . Además, elegir un valor para k es equivalente a elegir un valor $x>1$ para ${displaystyle k=-1/log x}$ , de modo que x corresponda a la base del logaritmo. Por lo tanto, la entropía se caracteriza por las cuatro propiedades anteriores.

Las diferentes unidades de información (bits para el logaritmo binario log ₂, nats para el logaritmo natural ln, bans para el logaritmo decimal log ₁₀ y así sucesivamente) son múltiplos constantes entre sí. Por ejemplo, en el caso de un lanzamiento justo de una moneda, cara proporciona log ₂ (2) = 1 bit de información, que es aproximadamente 0,693 nats o 0,301 dígitos decimales. Debido a la aditividad, n lanzamientos proporcionan n bits de información, que son aproximadamente 0,693 n nats o 0,301 n dígitos decimales.

El significado de los eventos observados (el significado de los mensajes) no importa en la definición de entropía. La entropía solo tiene en cuenta la probabilidad de observar un evento específico, por lo que la información que encapsula es información sobre la distribución de probabilidad subyacente, no el significado de los eventos en sí.

Caracterización alternativa

Otra caracterización de la entropía utiliza las siguientes propiedades. Denotamos p _yo = Pr (X = x _yo) y Η norte ₍ pag 1 _,..., pag _norte) = Η (X).

Continuidad: H debe ser continuo, por lo que cambiar los valores de las probabilidades en una cantidad muy pequeña solo debería cambiar la entropía en una cantidad pequeña.
Simetría: H debe permanecer sin cambios si se reordenan los resultados x _i.Es decir, ${displaystyle mathrm {H} _{n}left(p_{1},p_{2},ldots p_{n}right)=mathrm {H} _{n}left(p_{i_ {1}},p_{i_{2}},ldots,p_{i_{n}}right)}$ para cualquier permutación ${ estilo de visualización {i_ {1},..., i_ {n}}}$ de ${1,...,n}$ .
Máximo: ${ estilo de visualización mathrm {H} _ {n}}$ debe ser máximo si todos los resultados son igualmente probables, es decir ${displaystyle mathrm {H} _{n}(p_{1},ldots,p_{n})leq mathrm {H} _{n}left({frac {1}{n}},ldots,{frac {1}{n}}right)}$ .
Número creciente de resultados: para eventos equiprobables, la entropía debería aumentar con el número de resultados, es decir ${displaystyle mathrm {H} _{n}{bigg (}underbrace {{frac {1}{n}},ldots,{frac {1}{n}}} _{n}{ bigg)}<mathrm {H} _{n+1}{bigg (}underbrace {{frac {1}{n+1}},ldots,{frac {1}{n+1 }}} _{n+1}{bigg)}.}$
Aditividad: dado un conjunto de n elementos distribuidos uniformemente que se dividen en k cajas (subsistemas) con b ₁,..., b _k elementos cada una, la entropía de todo el conjunto debe ser igual a la suma de la entropía de el sistema de cajas y las entropías individuales de las cajas, cada una ponderada con la probabilidad de estar en esa caja en particular.

La regla de la aditividad tiene las siguientes consecuencias: para enteros positivos b _i donde b ₁ +... + b _k = n, $mathrm {H} _{n}left({frac {1}{n}},ldots,{frac {1}{n}}right)=mathrm {H}_{k} izquierda({frac {b_{1}}{n}},ldots,{frac {b_{k}}{n}}derecha)+sum_{i=1}^{k}{ fracción {b_{i}}{n}},mathrm {H} _{b_{i}}left({frac {1}{b_{i}}},ldots,{frac {1 {b_{i}}}derecha).$

Elegir k = n, b ₁ =... = b _n = 1 implica que la entropía de cierto resultado es cero: Η ₁ (1) = 0. Esto implica que la eficiencia de un alfabeto fuente con n símbolos puede definirse simplemente como igual a su entropía n -aria. Véase también Redundancia (teoría de la información).

Otras propiedades

La entropía de Shannon satisface las siguientes propiedades, para algunas de las cuales es útil interpretar la entropía como la cantidad esperada de información aprendida (o incertidumbre eliminada) al revelar el valor de una variable aleatoria X:

Agregar o eliminar un evento con probabilidad cero no contribuye a la entropía:

$mathrm {H} _{n+1}(p_{1},ldots,p_{n},0)=mathrm {H} _{n}(p_{1},ldots,p_{n})$ .

Se puede confirmar usando la desigualdad de Jensen que

${displaystyle mathrm {H} (X)=mathbb {E} [-log _{b}p(X)]leq -log _{b}left(mathbb {E} [p(X)]right)=log _{b}n}$ .Esta entropía máxima de log _b (n) se logra efectivamente mediante un alfabeto fuente que tiene una distribución de probabilidad uniforme: la incertidumbre es máxima cuando todos los eventos posibles son equiprobables.

La entropía o la cantidad de información revelada al evaluar (X, Y) (es decir, evaluar X e Y simultáneamente) es igual a la información revelada al realizar dos experimentos consecutivos: primero evaluando el valor de Y, luego revelando el valor de X dado que conoce el valor de Y. Esto puede escribirse como:

$mathrm {H} (X,Y)=mathrm {H} (X|Y)+mathrm {H} (Y)=mathrm {H} (Y|X)+mathrm {H} (X).$

Si $Y=f(X)$ donde $F$ es una función, entonces ${ estilo de visualización matemáticas {H} (f (X) | X) = 0}$ . Aplicando la fórmula anterior a los ${ estilo de visualización matemáticas {H} (X, f (X))}$ rendimientos

$mathrm {H} (X)+mathrm {H} (f(X)|X)=mathrm {H} (f(X))+mathrm {H} (X|f(X)),$ entonces ${displaystyle mathrm {H} (f(X))leq mathrm {H} (X)}$ , la entropía de una variable solo puede disminuir cuando esta última se pasa a través de una función.

Si X e Y son dos variables aleatorias independientes, entonces conocer el valor de Y no influye en nuestro conocimiento del valor de X (ya que las dos no se influyen entre sí por independencia):

$mathrm {H} (X|Y)=mathrm {H} (X).$

Más generalmente, para cualquier variable aleatoria X e Y, tenemos

${displaystyle mathrm {H} (X|Y)leq mathrm {H} (X)}$ .

La entropía de dos eventos simultáneos no es más que la suma de las entropías de cada evento individual, es decir ${displaystyle mathrm {H} (X,Y)leq mathrm {H} (X)+mathrm {H} (Y)}$ , con igualdad si y sólo si los dos eventos son independientes.
La entropía ${ estilo de visualización matemáticas {H} (p)}$ es cóncava en la función de masa de probabilidad $pags$ , es decir

${displaystyle mathrm {H} (lambda p_{1}+(1-lambda)p_{2})geq lambda mathrm {H} (p_{1})+(1-lambda) matemáticas {H} (p_{2})}$ para todas las funciones de masa de probabilidad ${displaystyle p_{1},p_{2}}$ y ${ estilo de visualización 0 leq lambda leq 1}$ .

En consecuencia, la función de entropía negativa (neguentropía) es convexa y su conjugado convexo es LogSumExp.

Aspectos

Relación con la entropía termodinámica

La inspiración para adoptar la palabra entropía en la teoría de la información provino del gran parecido entre la fórmula de Shannon y fórmulas conocidas muy similares de la mecánica estadística.

En termodinámica estadística, la fórmula más general para la entropía termodinámica S de un sistema termodinámico es la entropía de Gibbs, ${displaystyle S=-k_{text{B}}sum p_{i}ln p_{i},}$

donde k _B es la constante de Boltzmann y p _i es la probabilidad de un microestado. La entropía de Gibbs fue definida por J. Willard Gibbs en 1878 después de un trabajo anterior de Boltzmann (1872).

La entropía de Gibbs se traduce casi sin cambios en el mundo de la física cuántica para dar la entropía de von Neumann, introducida por John von Neumann en 1927, ${displaystyle S=-k_{text{B}},{rm {Tr}}(rho ln rho),}$

donde ρ es la matriz de densidad del sistema mecánico cuántico y Tr es la traza.

A un nivel práctico cotidiano, los vínculos entre la entropía de la información y la entropía termodinámica no son evidentes. Los físicos y los químicos tienden a estar más interesados en los cambios de entropía a medida que un sistema evoluciona espontáneamente alejándose de sus condiciones iniciales, de acuerdo con la segunda ley de la termodinámica, en lugar de una distribución de probabilidad invariable. Como indica la minuciosidad de la constante de Boltzmann k _B, los cambios en S / k _Bya que incluso pequeñas cantidades de sustancias en los procesos químicos y físicos representan cantidades de entropía que son extremadamente grandes en comparación con cualquier cosa en la compresión de datos o el procesamiento de señales. En la termodinámica clásica, la entropía se define en términos de medidas macroscópicas y no hace referencia a ninguna distribución de probabilidad, que es fundamental para la definición de la entropía de la información.

La conexión entre la termodinámica y lo que ahora se conoce como teoría de la información fue realizada por primera vez por Ludwig Boltzmann y expresada por su famosa ecuación: ${displaystyle S=k_{text{B}}ln W}$

donde $S$ es la entropía termodinámica de un macroestado particular (definido por parámetros termodinámicos como temperatura, volumen, energía, etc.), W es el número de microestados (varias combinaciones de partículas en varios estados de energía) que pueden producir el macroestado dado, y k _B es la constante de Boltzmann. Se supone que cada microestado es igualmente probable, por lo que la probabilidad de un microestado dado es p _i = 1/ W. Cuando estas probabilidades se sustituyen en la expresión anterior para la entropía de Gibbs (o equivalentemente k _Bveces la entropía de Shannon), resulta la ecuación de Boltzmann. En términos teóricos de la información, la entropía de la información de un sistema es la cantidad de información "faltante" necesaria para determinar un microestado, dado el macroestado.

En opinión de Jaynes (1957), la entropía termodinámica, tal como la explica la mecánica estadística, debería verse como una aplicación de la teoría de la información de Shannon: la entropía termodinámica se interpreta como proporcional a la cantidad de información adicional de Shannon necesaria para definir el estado microscópico detallado. estado del sistema, que permanece sin comunicar mediante una descripción únicamente en términos de las variables macroscópicas de la termodinámica clásica, siendo la constante de proporcionalidad solo la constante de Boltzmann. Agregar calor a un sistema aumenta su entropía termodinámica porque aumenta la cantidad de posibles estados microscópicos del sistema que son consistentes con los valores medibles de sus variables macroscópicas, lo que hace que cualquier descripción completa del estado sea más larga. (Ver artículo:termodinámica de máxima entropía). El demonio de Maxwell puede (hipotéticamente) reducir la entropía termodinámica de un sistema utilizando información sobre los estados de moléculas individuales; pero, como han demostrado Landauer (desde 1961) y sus colaboradores, para funcionar, el demonio mismo debe aumentar la entropía termodinámica en el proceso, al menos en la cantidad de información de Shannon que propone adquirir y almacenar primero; y así la entropía termodinámica total no disminuye (lo que resuelve la paradoja). El principio de Landauer impone un límite inferior a la cantidad de calor que debe generar una computadora para procesar una determinada cantidad de información, aunque las computadoras modernas son mucho menos eficientes.

Compresión de datos

La definición de entropía de Shannon, cuando se aplica a una fuente de información, puede determinar la capacidad mínima del canal requerida para transmitir de manera confiable la fuente como dígitos binarios codificados. La entropía de Shannon mide la información contenida en un mensaje en oposición a la parte del mensaje que está determinada (o predecible). Ejemplos de esto último incluyen la redundancia en la estructura del lenguaje o las propiedades estadísticas relacionadas con las frecuencias de ocurrencia de pares de letras o palabras, trillizos, etc. La capacidad mínima del canal puede lograrse en teoría usando el conjunto típico o en la práctica usando Huffman, Lempel-Ziv o codificación aritmética. (Véase también Complejidad de Kolmogorov.) En la práctica, los algoritmos de compresión incluyen deliberadamente cierta redundancia juiciosa en forma de sumas de comprobación para protegerse contra errores. La tasa de entropía de una fuente de datos es el número promedio de bits por símbolo necesarios para codificarla. Los experimentos de Shannon con predictores humanos muestran una tasa de información entre 0,6 y 1,3 bits por carácter en inglés;el algoritmo de compresión PPM puede lograr una relación de compresión de 1,5 bits por carácter en texto en inglés.

Si un esquema de compresión no tiene pérdidas, en el que siempre puede recuperar el mensaje original completo mediante la descompresión, entonces un mensaje comprimido tiene la misma cantidad de información que el original pero se comunica en menos caracteres. Tiene más información (mayor entropía) por carácter. Un mensaje comprimido tiene menos redundancia. El teorema de codificación fuente de Shannon establece que un esquema de compresión sin pérdidas no puede comprimir mensajes, en promedio, para tener más de un bit de información por bit de mensaje, pero que cualquier valor menosse puede obtener más de un bit de información por bit de mensaje empleando un esquema de codificación adecuado. La entropía de un mensaje por bit multiplicada por la longitud de ese mensaje es una medida de cuánta información total contiene el mensaje. El teorema de Shannon también implica que ningún esquema de compresión sin pérdidas puede acortar todos los mensajes. Si algunos mensajes salen más cortos, al menos uno debe salir más largo debido al principio del casillero. En el uso práctico, esto generalmente no es un problema, ya que uno generalmente solo está interesado en comprimir ciertos tipos de mensajes, como un documento en inglés, en lugar de texto incomprensible, o fotografías digitales en lugar de ruido, y no es importante si un El algoritmo de compresión hace que algunas secuencias improbables o poco interesantes sean más grandes.

Un estudio de 2011 en Science estima la capacidad tecnológica mundial para almacenar y comunicar información comprimida de manera óptima normalizada en los algoritmos de compresión más efectivos disponibles en el año 2007, estimando así la entropía de las fuentes tecnológicamente disponibles.

Tipo de información	1986	2007
Almacenamiento	2.6	295
Transmisión	432	mil novecientos
telecomunicaciones	0.281	sesenta y cinco

Los autores estiman la capacidad tecnológica de la humanidad para almacenar información (totalmente comprimida entrópicamente) en 1986 y nuevamente en 2007. Dividen la información en tres categorías: almacenar información en un medio, recibir información a través de redes de transmisión unidireccionales o intercambiar información. a través de redes de telecomunicaciones bidireccionales.

La entropía como medida de la diversidad

La entropía es una de varias formas de medir la biodiversidad y se aplica en forma de índice de Shannon. Un índice de diversidad es una medida estadística cuantitativa de cuántos tipos diferentes existen en un conjunto de datos, como especies en una comunidad, que representan la riqueza ecológica, la uniformidad y la dominancia. Específicamente, la entropía de Shannon es el logaritmo de D, el verdadero índice de diversidad con parámetro igual a 1. El índice de Shannon está relacionado con las abundancias proporcionales de los tipos.

Limitaciones de la entropía

Hay una serie de conceptos relacionados con la entropía que cuantifican matemáticamente el contenido de la información de alguna manera:

la autoinformación de un mensaje o símbolo individual tomado de una distribución de probabilidad dada,
la entropía de una distribución de probabilidad dada de mensajes o símbolos, y
la tasa de entropía de un proceso estocástico.

(La "tasa de autoinformación" también se puede definir para una secuencia particular de mensajes o símbolos generados por un proceso estocástico dado: siempre será igual a la tasa de entropía en el caso de un proceso estacionario). Otras cantidades de información también se utilizan para comparar o relacionar diferentes fuentes de información.

Es importante no confundir los conceptos anteriores. A menudo, solo está claro por el contexto a qué se refiere. Por ejemplo, cuando alguien dice que la "entropía" del idioma inglés es de aproximadamente 1 bit por carácter, en realidad está modelando el idioma inglés como un proceso estocástico y hablando de su tasa de entropía. El mismo Shannon usó el término de esta manera.

Si se utilizan bloques muy grandes, la estimación de la tasa de entropía por carácter puede volverse artificialmente baja porque la distribución de probabilidad de la secuencia no se conoce con exactitud; es solo una estimación. Si uno considera el texto de cada libro publicado como una secuencia, con cada símbolo siendo el texto de un libro completo, y si hay N libros publicados, y cada libro se publica solo una vez, la estimación de la probabilidad de cada libro es 1/ N, y la entropía (en bits) es −log ₂ (1/ N) = log ₂ (N). Como código práctico, esto corresponde a asignar a cada libro un identificador único y usarlo en lugar del texto del libro cada vez que se quiera hacer referencia al libro. Esto es enormemente útil para hablar de libros, pero no lo es tanto para caracterizar el contenido de información de un libro individual, o del lenguaje en general: no es posible reconstruir el libro a partir de su identificador sin conocer la distribución de probabilidad, es decir, el texto completo de todos los libros. La idea clave es que se debe considerar la complejidad del modelo probabilístico. La complejidad de Kolmogorov es una generalización teórica de esta idea que permite considerar el contenido de información de una secuencia independientemente de cualquier modelo de probabilidad particular; considera el programa más corto para una computadora universal que genera la secuencia.

La secuencia de Fibonacci es 1, 1, 2, 3, 5, 8, 13,.... tratando la secuencia como un mensaje y cada número como un símbolo, hay casi tantos símbolos como caracteres en el mensaje, dando una entropía de aproximadamente log ₂ (n). Los primeros 128 símbolos de la secuencia de Fibonacci tienen una entropía de aproximadamente 7 bits/símbolo, pero la secuencia se puede expresar mediante una fórmula [ F(n) = F(n −1) + F(n −2) para n = 3, 4, 5,..., F(1) =1, F(2) = 1 ] y esta fórmula tiene una entropía mucho menor y se aplica a cualquier longitud de la secuencia de Fibonacci.

Limitaciones de la entropía en criptografía

En el criptoanálisis, la entropía a menudo se usa de manera aproximada como una medida de la imprevisibilidad de una clave criptográfica, aunque su incertidumbre real no se puede medir. Por ejemplo, una clave de 128 bits que se genera de manera uniforme y aleatoria tiene 128 bits de entropía. También se necesitan (en promedio) ${ estilo de visualización 2^{127}}$ conjeturas para romper por la fuerza bruta. La entropía no logra capturar el número de conjeturas requeridas si las claves posibles no se eligen de manera uniforme. En cambio, se puede usar una medida llamada conjetura para medir el esfuerzo requerido para un ataque de fuerza bruta.

Pueden surgir otros problemas de distribuciones no uniformes utilizadas en criptografía. Por ejemplo, un bloc de notas binario de un solo uso de 1.000.000 de dígitos con o exclusivo. Si el pad tiene 1.000.000 de bits de entropía, es perfecto. Si el bloc tiene 999.999 bits de entropía, distribuidos uniformemente (cada bit individual del bloc tiene 0,999999 bits de entropía), puede proporcionar una buena seguridad. Pero si el pad tiene 999 999 bits de entropía, donde el primer bit es fijo y los 999 999 bits restantes son perfectamente aleatorios, el primer bit del texto cifrado no se cifrará en absoluto.

Los datos como un proceso de Markov

Una forma común de definir la entropía del texto se basa en el modelo de texto de Markov. Para una fuente de orden 0 (cada carácter se selecciona independientemente de los últimos caracteres), la entropía binaria es: ${displaystyle mathrm {H} ({mathcal {S}})=-sum p_{i}log p_{i},}$

donde p _i es la probabilidad de i. Para una fuente de Markov de primer orden (una en la que la probabilidad de seleccionar un carácter depende solo del carácter inmediatamente anterior), la tasa de entropía es: ${displaystyle mathrm {H} ({mathcal {S}})=-sum_{i}p_{i}sum_{j} p_{i}(j)log p_{i}(j),}$

donde i es un estado (ciertos caracteres anteriores) y $p_{i}(j)$ es la probabilidad de j dado i como el carácter anterior.

Para una fuente de Markov de segundo orden, la tasa de entropía es ${displaystyle mathrm {H} ({mathcal {S}})=-sum_{i}p_{i}sum_{j}p_{i}(j)sum_{k}p_{ i,j}(k) logp_{i,j}(k).}$

Eficiencia (entropía normalizada)

Un alfabeto fuente con una distribución no uniforme tendrá menos entropía que si esos símbolos tuvieran una distribución uniforme (es decir, el "alfabeto optimizado"). Esta deficiencia de entropía se puede expresar como una relación denominada eficiencia: ${displaystyle eta (X)={frac {H}{H_{max}}}=-sum _{i=1}^{n}{frac {p(x_{i})log _ {b}(p(x_{i}))}{log _{b}(n)}}}$

Aplicando las propiedades básicas del logaritmo, esta cantidad también se puede expresar como: ${displaystyle eta (X)=-sum _{i=1}^{n}{frac {p(x_{i})log _{b}(p(x_{i}))}{ log _{b}(n)}}=sum _{i=1}^{n}{frac {log _{b}(p(x_{i})^{-p(x_{i })})}{log _{b}(n)}}=sum _{i=1}^{n}log _{n}(p(x_{i})^{-p(x_ {i})})=log _{n}(prod _{i=1}^{n}p(x_{i})^{-p(x_{i})})}$

La eficiencia tiene utilidad para cuantificar el uso efectivo de un canal de comunicación. Esta formulación también se conoce como entropía normalizada, ya que la entropía se divide por la entropía máxima ${log _{b}(n)}$ . Además, la eficiencia es indiferente a la elección de la base b (positiva), como lo indica la insensibilidad dentro del logaritmo final por encima de ella.

Entropía para variables aleatorias continuas

Entropía diferencial

La entropía de Shannon está restringida a variables aleatorias que toman valores discretos. La fórmula correspondiente para una variable aleatoria continua con función de densidad de probabilidad f (x) con soporte finito o infinito $matemáticas {X}$ en la línea real se define por analogía, usando la forma anterior de la entropía como expectativa: ${displaystyle mathrm {H} (X)=mathbb {E} [-log f(X)]=-int _{mathbb {X} }f(x)log f(x), mathrm {d} x.}$

Esta es la entropía diferencial (o entropía continua). Un precursor de la entropía continua h [ f ] es la expresión del funcional Η en el teorema H de Boltzmann.

Aunque la analogía entre ambas funciones es sugerente, cabe plantearse la siguiente pregunta: ¿es la entropía diferencial una extensión válida de la entropía discreta de Shannon? La entropía diferencial carece de una serie de propiedades que tiene la entropía discreta de Shannon, incluso puede ser negativa, y se han sugerido correcciones, en particular limitando la densidad de puntos discretos.

Para responder a esta pregunta, se debe establecer una conexión entre las dos funciones:

Con el fin de obtener una medida generalmente finita a medida que el tamaño del contenedor llega a cero. En el caso discreto, el tamaño del intervalo es el ancho (implícito) de cada uno de los n intervalos (finitos o infinitos) cuyas probabilidades se denotan por p _n. Como el dominio continuo se generaliza, el ancho debe hacerse explícito.

Para hacer esto, comience con una función continua f discretizada en contenedores de tamaño $Delta$ . Por el teorema del valor medio, existe un valor x _i en cada contenedor tal que

{displaystyle f(x_{i})Delta =int _{iDelta }^{(i+1)Delta }f(x),dx}

la integral de la función f se puede aproximar (en el sentido de Riemann) por

{displaystyle int_{-infty}^{infty}f(x),dx=lim_{Delta to 0}sum_{i=-infty}^{infty}f (x_{i})Delta,}

donde este límite y "el tamaño del contenedor llega a cero" son equivalentes.

denotaremos

{displaystyle mathrm {H} ^{Delta }:=-sum _{i=-infty }^{infty }f(x_{i})Delta log left(f(x_{i) })Deltaderecha)}

y desarrollando el logaritmo, tenemos

{displaystyle mathrm {H} ^{Delta }=-sum _{i=-infty }^{infty }f(x_{i})Delta log(f(x_{i})) -sum _{i=-infty }^{infty }f(x_{i})Delta log(Delta).}

Como Δ → 0, tenemos ${begin{alineado}sum_{i=-infty}^{infty}f(x_{i})Delta &to int_{-infty}^{infty}f(x) ,dx=1\sum _{i=-infty }^{infty }f(x_{i})Delta log(f(x_{i}))&to int _{- infty }^{infty }f(x)log f(x),dx.end{alineado}}$

Nota; log(Δ) → −∞ como Δ → 0, requiere una definición especial de la entropía diferencial o continua: $h[f]=lim _{Delta to 0}left(mathrm {H} ^{Delta }+log Delta right)=-int _{-infty }^{infty }f(x)log f(x),dx,$

que, como se dijo antes, se denomina entropía diferencial. Esto significa que la entropía diferencial no es un límite de la entropía de Shannon para n → ∞. Más bien, difiere del límite de la entropía de Shannon por un desplazamiento infinito (ver también el artículo sobre la dimensión de la información).

Limitación de la densidad de puntos discretos

Resulta como resultado que, a diferencia de la entropía de Shannon, la entropía diferencial no es en general una buena medida de incertidumbre o información. Por ejemplo, la entropía diferencial puede ser negativa; tampoco es invariante bajo transformaciones de coordenadas continuas. Este problema puede ilustrarse mediante un cambio de unidades cuando x es una variable dimensionada. f (x) tendrá entonces las unidades de 1/ x. El argumento del logaritmo debe ser adimensional, de lo contrario es impropio, por lo que la entropía diferencial dada anteriormente será impropia. Si Δ es un valor "estándar" de x(es decir, "tamaño de contenedor") y, por lo tanto, tiene las mismas unidades, entonces una entropía diferencial modificada puede escribirse en forma adecuada como:

{displaystyle mathrm {H} =int _{-infty}^{infty}f(x)log(f(x),Delta),dx,}

y el resultado será el mismo para cualquier elección de unidades para x. De hecho, el límite de entropía discreta como ${ estilo de visualización N flecha derecha infinito}$ también incluiría un término de ${ estilo de visualización registro (N)}$ , que en general sería infinito. Esto era de esperar: las variables continuas normalmente tendrían una entropía infinita cuando se discretizaran. La densidad límite de puntos discretos es realmente una medida de cuánto más fácil es describir una distribución que una distribución que es uniforme en su esquema de cuantificación.

Entropía relativa

Otra medida útil de la entropía que funciona igualmente bien en el caso discreto y continuo es la entropía relativa de una distribución. Se define como la divergencia de Kullback-Leibler de la distribución a una medida de referencia m de la siguiente manera. Suponga que una distribución de probabilidad p es absolutamente continua con respecto a una medida m, es decir, es de la forma p (dx) = f (x) m (dx) para alguna función m integrable f no negativa con m - integral 1, entonces la entropía relativa se puede definir como $D_{mathrm {KL} }(p|m)=int log(f(x))p(dx)=int f(x)log(f(x))m(dx).$

De esta forma, la entropía relativa generaliza (hasta el cambio de signo) tanto la entropía discreta, donde la medida m es la medida de cuenta, como la entropía diferencial, donde la medida m es la medida de Lebesgue. Si la medida m es en sí misma una distribución de probabilidad, la entropía relativa no es negativa y cero si p = m como medidas. Se define para cualquier espacio de medida, por lo que es independiente de las coordenadas e invariante bajo reparametrizaciones de coordenadas si se tiene en cuenta correctamente la transformación de la medida m. La entropía relativa y (implícitamente) la entropía y la entropía diferencial dependen de la medida de "referencia" m.

Uso en combinatoria

La entropía se ha convertido en una cantidad útil en combinatoria.

Desigualdad de Loomis-Whitney

Un ejemplo simple de esto es una prueba alternativa de la desigualdad de Loomis-Whitney: para cada subconjunto A ⊆ Z, tenemos $|A|^{d-1}leq prod _{i=1}^{d}|P_{i}(A)|$

donde P _i es la proyección ortogonal en la i -ésima coordenada: $P_{i}(A)={(x_{1},ldots,x_{i-1},x_{i+1},ldots,x_{d}):(x_{1},ldots,x_{d})en A}.$

La demostración sigue como un simple corolario de la desigualdad de Shearer: si X ₁,..., X _d son variables aleatorias y S ₁,..., S _n son subconjuntos de {1,..., d } tales que todo número entero entre 1 y d se encuentra exactamente en r de estos subconjuntos, entonces $mathrm {H} [(X_{1},ldots,X_{d})]leq {frac {1}{r}}sum _{i=1}^{n}mathrm {H} [(X_{j})_{jen S_{i}}]$

donde $(X_{j})_{jen S_{i}}$ es el producto cartesiano de variables aleatorias X _j con índices j en S _i (por lo que la dimensión de este vector es igual al tamaño de S _i).

Esbozamos cómo se sigue Loomis-Whitney de esto: De hecho, sea X una variable aleatoria uniformemente distribuida con valores en A y de modo que cada punto en A ocurra con la misma probabilidad. Entonces (por las propiedades adicionales de la entropía mencionadas anteriormente) Η(X) = log| un |, donde | un | denota la cardinalidad de A. Sea S _i = {1, 2,..., i −1, i +1,..., d }. El rango de $(X_{j})_{jen S_{i}}$ está contenido en P _i (A) y por lo tanto $mathrm {H} [(X_{j})_{jin S_{i}}]leq log |P_{i}(A)|$ . Ahora usa esto para acotar el lado derecho de la desigualdad de Shearer y exponenciar los lados opuestos de la desigualdad resultante que obtengas.

Aproximación al coeficiente binomial

Para números enteros 0 < k < n sea q = k / n. Después ${frac {2^{nmathrm {H} (q)}}{n+1}}leq {tbinom {n}{k}}leq 2^{nmathrm {H} (q) },$

dónde $mathrm {H} (q)=-qlog _{2}(q)-(1-q)log _{2}(1-q).$

Una buena interpretación de esto es que el número de cadenas binarias de longitud n con exactamente k muchos 1 es aproximadamente $2^{nmathrm {H} (k/n)}$ .

Uso en aprendizaje automático

Las técnicas de aprendizaje automático surgen en gran medida de las estadísticas y también de la teoría de la información. En general, la entropía es una medida de incertidumbre y el objetivo del aprendizaje automático es minimizar la incertidumbre.

Los algoritmos de aprendizaje del árbol de decisión utilizan la entropía relativa para determinar las reglas de decisión que rigen los datos en cada nodo. La Ganancia de información en los árboles de decisión ${ estilo de visualización IG (Y, X)}$ , que es igual a la diferencia entre la entropía de $Y$ y la entropía condicional de $Y$ dado $X$ , cuantifica la información esperada, o la reducción de entropía, al conocer adicionalmente el valor de un atributo $X$ . La ganancia de información se usa para identificar qué atributos del conjunto de datos proporcionan la mayor cantidad de información y se debe usar para dividir los nodos del árbol de manera óptima.

Los modelos de inferencia bayesiana suelen aplicar el principio de máxima entropía para obtener distribuciones de probabilidad previas. La idea es que la distribución que mejor representa el estado actual de conocimiento de un sistema es la que tiene la mayor entropía, y por lo tanto es apta para ser la anterior.

La clasificación en el aprendizaje automático realizada por regresión logística o redes neuronales artificiales a menudo emplea una función de pérdida estándar, llamada pérdida de entropía cruzada, que minimiza la entropía cruzada promedio entre las distribuciones reales y predichas. En general, la entropía cruzada es una medida de las diferencias entre dos conjuntos de datos similar a la divergencia KL (también conocida como entropía relativa).

Contenido relacionado

Más resultados...