Entropía (teoría de la información)

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En la teoría de la información, entropía de una variable aleatoria es el nivel promedio de "información", "sorpresa", o "incertidumbre" inherente a los resultados posibles de la variable. Dada una variable discreta al azar ${displaystyle X}$ , que toma valores en el alfabeto ${displaystyle {fnMithcal}}$ y se distribuye según $[0,1]$ :

{displaystyle mathrm {H} (X):=-sum _{xin {mathcal {X}}p(x)log p(x)=mathbb {E} [-log p(X)],}

{displaystyle Sigma }

{displaystyle log }

Dos pedazos de entropía: En el caso de dos tos de monedas justas, la información entropía en bits es el logaritmo base-2 del número de posibles resultados; con dos monedas hay cuatro posibles resultados, y dos bits de entropía. En general, la entropía de la información es la cantidad media de información transmitida por un evento, al examinar todos los resultados posibles.

El concepto de entropía de la información fue introducido por Claude Shannon en su artículo de 1948 "A Mathematical Theory of Communication", y también se conoce como entropía de Shannon. La teoría de Shannon define un sistema de comunicación de datos compuesto por tres elementos: una fuente de datos, un canal de comunicación y un receptor. El "problema fundamental de la comunicación" -como lo expresa Shannon- es que el receptor pueda identificar qué datos generó la fuente, en función de la señal que recibe a través del canal. Shannon consideró varias formas de codificar, comprimir y transmitir mensajes desde una fuente de datos, y demostró en su famoso teorema de codificación de fuentes que la entropía representa un límite matemático absoluto sobre qué tan bien se pueden comprimir sin pérdidas los datos de la fuente en un canal perfectamente silencioso. Shannon reforzó considerablemente este resultado para canales ruidosos en su teorema de codificación de canales ruidosos.

La entropía en la teoría de la información es directamente análoga a la entropía en la termodinámica estadística. La analogía resulta cuando los valores de la variable aleatoria designan energías de microestados, por lo que la fórmula de Gibbs para la entropía es formalmente idéntica a la fórmula de Shannon. La entropía tiene relevancia para otras áreas de las matemáticas, como la combinatoria y el aprendizaje automático. La definición puede derivarse de un conjunto de axiomas que establecen que la entropía debe ser una medida de cuán "sorprendente" el resultado promedio de una variable es. Para una variable aleatoria continua, la entropía diferencial es análoga a la entropía.

Introducción

La idea central de la teoría de la información es que el "valor informativo" de un mensaje comunicado depende del grado de sorpresa del contenido del mensaje. Si ocurre un evento muy probable, el mensaje contiene muy poca información. Por otro lado, si ocurre un evento altamente improbable, el mensaje es mucho más informativo. Por ejemplo, el conocimiento de que algún número en particular no será el número ganador de una lotería proporciona muy poca información, porque es casi seguro que cualquier número elegido en particular no ganará. Sin embargo, el conocimiento de que un número particular ganará una lotería tiene un alto valor informativo porque comunica el resultado de un evento de muy baja probabilidad.

El contenido de información, también llamado surprisal o autoinformación, de un evento ${displaystyle E}$ es una función que aumenta como la probabilidad ${displaystyle p(E)}$ de un evento disminuye. Cuando ${displaystyle p(E)}$ está cerca de 1, el surprisal del evento es bajo, pero si ${displaystyle p(E)}$ está cerca de 0, el surprisal del evento es alto. Esta relación es descrita por la función

{displaystyle log left({frac {1}{p(E)}right),}

{displaystyle log }

{displaystyle log }

Por lo tanto, podemos definir la información, o surprisal, de un evento ${displaystyle E}$ por

{displaystyle I(E)=-log _{2}(p(E)}

{displaystyle I(E)=log _{2}left({frac {1}{p(E)}right). }

Entropy mide la cantidad prevista (es decir, promedio) de información transmitida identificando el resultado de un juicio aleatorio. Esto implica que la fundición de una muerte tiene mayor entropía que tirar una moneda porque cada resultado de un despido tiene menor probabilidad (sobre ${displaystyle p=1/6}$ ) que cada resultado de un lanzamiento de monedas ( ${displaystyle p=1/2}$ ).

Considere una moneda sesgada con probabilidad $p$ de aterrizaje en cabezas y probabilidad $1 - p$ de aterrizar en la cola. La sorpresa máxima es cuando $p = 1/2$ , por el cual no se espera un resultado sobre el otro. En este caso una moneda tiene una entropía de un poco. (Similarly, un trío con valores equiprobable contiene ${displaystyle log _{2}3}$ (alrededor de 1.58496) bits de información porque puede tener uno de tres valores.) La sorpresa mínima es cuando $p = 0$ o $p = 1$ , cuando el resultado del evento se conoce por adelantado, y la entropía es cero bits. Cuando la entropía es cero bits, esto a veces se conoce como unidad, donde no hay incertidumbre en absoluto - ninguna libertad de elección - ninguna información. Otros valores p dar entropies entre cero y un pedazo.

La teoría de la información es útil para calcular la cantidad mínima de información requerida para transmitir un mensaje, como en la compresión de datos. Por ejemplo, considere la transmisión de secuencias que comprenden los 4 caracteres 'A', 'B', 'C' y 'D' sobre un canal binario. Si las 4 letras tienen la misma probabilidad (25 %), no se puede hacer nada mejor que usar dos bits para codificar cada letra. 'A' podría codificarse como '00', 'B' como '01', 'C' como '10' y 'D' como '11'. Sin embargo, si las probabilidades de cada letra son desiguales, diga 'A' ocurre con un 70% de probabilidad, 'B' con un 26%, y 'C' y 'D' con 2% cada uno, se podrían asignar códigos de longitud variable. En este caso, 'A' se codificaría como '0', 'B' como '10', 'C' como '110', y D como '111'. Con esta representación, el 70% de las veces solo se necesita enviar un bit, el 26% de las veces dos bits y solo el 4% de las veces 3 bits. En promedio, se requieren menos de 2 bits ya que la entropía es más baja (debido a la alta prevalencia de 'A' seguido de 'B', juntos el 96% de los caracteres). El cálculo de la suma de las probabilidades logarítmicas ponderadas por probabilidad mide y captura este efecto. El texto en inglés, tratado como una cadena de caracteres, tiene una entropía bastante baja, es decir, es bastante predecible. Podemos estar bastante seguros de que, por ejemplo, 'e' será mucho más común que 'z', que la combinación 'qu' será mucho más común que cualquier otra combinación con 'q' en él, y que la combinación 'th' será más común que 'z', 'q' o 'qu'. Después de las primeras letras, a menudo se puede adivinar el resto de la palabra. El texto en inglés tiene entre 0,6 y 1,3 bits de entropía por carácter del mensaje.

Definición

Nombrado después del teorema de Boltzmann, Shannon definió la entropía $Hola.$ (Carta de capital griego eta) de una variable discreta ${textstyle X}$ , que toma valores en el alfabeto ${displaystyle {fnMithcal}}$ y se distribuye según $[0,1]$ tales que $[X=x]$ :

{displaystyle mathrm {H} (X)=mathbb {E} [operatorname {I} (X)]=mathbb {E} [-log p(X)].}

Aquí. ${displaystyle mathbb {E}$ es el operador de valor esperado, y $I$ es el contenido de información $X$ . ${displaystyle operatorname {I} (X)}$ es una variable aleatoria.

La entropía se puede escribir explícitamente como:

{displaystyle mathrm {H} (X)=-sum _{xin {mathcal {X}}p(x)log _{b}p(x),}

b

b

b = 2

b = e

b = 10

En el caso de ${displaystyle p(x)=0}$ para algunos ${displaystyle xin {fn\fnMitcal {X}}$ , el valor del summand correspondiente $0 log b (0)$ se ha tomado $0$ , que es consistente con el límite:

{displaystyle lim _{pto 0^{+}plog(p)=0}

También se puede definir la entropía condicional de dos variables ${displaystyle X}$ y ${displaystyle Sí.$ tomar valores de conjuntos ${displaystyle {fnMithcal}}$ y ${displaystyle {fnMithcal}}$ respectivamente, como:

{displaystyle mathrm {H} {cH}=-sum _{x,yin {mathcal {X}times {mathcal {Y}}}p_{X,Y}(x,y)log {frac {p_{X,Y}(x,y)}{y}}}}} {f}}} {f}}}}}}} {f}}}}}}}} {f} {f}}}}}}}

{displaystyle p_{X,Y}(x,y):=mathbb {P} [X=x,Y=y]}

{displaystyle ¿Qué?

{displaystyle X}

{displaystyle Sí.

Teoría de la medida

La entropía se puede definir formalmente en el lenguaje de la teoría de la medida como sigue: Vamos ${displaystyle (X,Sigmamu)}$ ser un espacio de probabilidad. Vamos ${displaystyle Ain Sigma }$ ser un evento. El surprisal de ${displaystyle A}$ es

{displaystyle sigma _{mu }(A)=-ln mu (A).}

El previstos surprisal of ${displaystyle A}$ es

{displaystyle h_{mu }(A)=mu (A)sigma _{mu }(A).}

A ${displaystyle mu }$ - casi la partición es una familia establecida ${displaystyle Psubseteq {mathcal {}(X)}$ tales que ${displaystyle mu (mathop {cup } P)=1}$ y ${displaystyle mu (Acap B)=0}$ para todos ${displaystyle A,Bin P}$ . (Esta es una relajación de las condiciones habituales para una partición.) La entropía de ${displaystyle P}$ es

{displaystyle mathrm {H} _{mu }(P)=sum ¿Qué?

Vamos ${displaystyle M}$ ser un sigma-algebra en ${displaystyle X}$ . La entropía de ${displaystyle M}$ es

{displaystyle mathrm {H} _{mu }(M)=sup ¿Por qué?

{displaystyle mathrm {H} _{mu }(Sigma)}

{displaystyle mu }

Todos

{displaystyle X}

Definición de Ellerman

David Ellerman quería explicar por qué la entropía condicional y otras funciones tenían propiedades similares a las funciones de la teoría de la probabilidad. Afirma que las definiciones anteriores basadas en la teoría de la medida solo funcionaban con potencias de 2.

Ellerman creó una "lógica de particiones" que es el dual de subconjuntos de un conjunto universal. La información se cuantifica como "dits" (distinciones), una medida sobre particiones. "Ditos" se puede convertir en bits de Shannon, para obtener las fórmulas de la entropía condicional, etc.

Ejemplo

Entropy

¿Quién? X)

(es decir, el surprisal esperado) de una moneda voltereta, medida en bits, graficado contra el sesgo de la moneda

Pr(X = 1)

, donde

X = 1

representa un resultado de la cabeza.

Aquí, la entropía es a la mayoría de 1 bit, y para comunicar el resultado de un cambio de moneda (2 valores posibles) requerirá un promedio de al menos 1 bit (exactamente 1 bit para una moneda justa). El resultado de una muerte justa (6 posibles valores) tendría tronco entropía₂6 bits.

Considere lanzar una moneda con probabilidades conocidas, no necesariamente justas, de que salga cara o cruz; esto se puede modelar como un proceso de Bernoulli.

La entropía del resultado desconocido del siguiente lanzamiento de la moneda se maximiza si la moneda es justa (es decir, si cara y cruz tienen la misma probabilidad 1/2). Esta es la situación de máxima incertidumbre ya que es más difícil predecir el resultado del próximo lanzamiento; el resultado de cada lanzamiento de la moneda entrega un bit completo de información. Esto es porque

{displaystyle {begin{aligned}mathrm {H} (X) Due=-sum _{i=1}{n}{p(x_{i})log _{b}p(x_{i})}\\ ¿Por qué? {1}{2}log _{2}{frac {1}{2}}\\\\cH00}\\cH00}\\\\\\\cH00}}\\\\\\cH00}\\\\\\\\\\cH00}\\cH3}}}}}\\\\\\\\\\\\\\\\cH3}}}}}}}}}}}}\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\cH}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} ¿Por qué? {1} {2}cdot (-1)}=1end{aligned}}

Sin embargo, si sabemos que la moneda no es justa, pero sale cara o cruz con probabilidades $p$ y $q$ , donde $p \neq q$ , entonces hay menos incertidumbre. Cada vez que se lanza, es más probable que salga un lado que el otro. La incertidumbre reducida se cuantifica en una entropía más baja: en promedio, cada lanzamiento de la moneda entrega menos de un bit completo de información. Por ejemplo, si $p$ = 0,7, entonces

{displaystyle {begin{aligned}mathrm {H} (X) implica=-plog _{2}(p)-qlog _{2}(q)\ quedarse=-0.7log _{2}(0.7)-0.3log _{2}(0.3)\\c0.7cdot (-0.515)-0.3cdot (-1.737)11