Entropía (teoría de la información)
En la teoría de la información, entropía de una variable aleatoria es el nivel promedio de "información", "sorpresa", o "incertidumbre" inherente a los resultados posibles de la variable. Dada una variable discreta al azar , que toma valores en el alfabeto y se distribuye según :
El concepto de entropía de la información fue introducido por Claude Shannon en su artículo de 1948 "A Mathematical Theory of Communication", y también se conoce como entropía de Shannon. La teoría de Shannon define un sistema de comunicación de datos compuesto por tres elementos: una fuente de datos, un canal de comunicación y un receptor. El "problema fundamental de la comunicación" -como lo expresa Shannon- es que el receptor pueda identificar qué datos generó la fuente, en función de la señal que recibe a través del canal. Shannon consideró varias formas de codificar, comprimir y transmitir mensajes desde una fuente de datos, y demostró en su famoso teorema de codificación de fuentes que la entropía representa un límite matemático absoluto sobre qué tan bien se pueden comprimir sin pérdidas los datos de la fuente en un canal perfectamente silencioso. Shannon reforzó considerablemente este resultado para canales ruidosos en su teorema de codificación de canales ruidosos.
La entropía en la teoría de la información es directamente análoga a la entropía en la termodinámica estadística. La analogía resulta cuando los valores de la variable aleatoria designan energías de microestados, por lo que la fórmula de Gibbs para la entropía es formalmente idéntica a la fórmula de Shannon. La entropía tiene relevancia para otras áreas de las matemáticas, como la combinatoria y el aprendizaje automático. La definición puede derivarse de un conjunto de axiomas que establecen que la entropía debe ser una medida de cuán "sorprendente" el resultado promedio de una variable es. Para una variable aleatoria continua, la entropía diferencial es análoga a la entropía.
Introducción
La idea central de la teoría de la información es que el "valor informativo" de un mensaje comunicado depende del grado de sorpresa del contenido del mensaje. Si ocurre un evento muy probable, el mensaje contiene muy poca información. Por otro lado, si ocurre un evento altamente improbable, el mensaje es mucho más informativo. Por ejemplo, el conocimiento de que algún número en particular no será el número ganador de una lotería proporciona muy poca información, porque es casi seguro que cualquier número elegido en particular no ganará. Sin embargo, el conocimiento de que un número particular ganará una lotería tiene un alto valor informativo porque comunica el resultado de un evento de muy baja probabilidad.
El contenido de información, también llamado surprisal o autoinformación, de un evento es una función que aumenta como la probabilidad de un evento disminuye. Cuando está cerca de 1, el surprisal del evento es bajo, pero si está cerca de 0, el surprisal del evento es alto. Esta relación es descrita por la función
Por lo tanto, podemos definir la información, o surprisal, de un evento por
Entropy mide la cantidad prevista (es decir, promedio) de información transmitida identificando el resultado de un juicio aleatorio. Esto implica que la fundición de una muerte tiene mayor entropía que tirar una moneda porque cada resultado de un despido tiene menor probabilidad (sobre ) que cada resultado de un lanzamiento de monedas ().
Considere una moneda sesgada con probabilidad p de aterrizaje en cabezas y probabilidad 1 − p de aterrizar en la cola. La sorpresa máxima es cuando p = 1/2, por el cual no se espera un resultado sobre el otro. En este caso una moneda tiene una entropía de un poco. (Similarly, un trío con valores equiprobable contiene (alrededor de 1.58496) bits de información porque puede tener uno de tres valores.) La sorpresa mínima es cuando p = 0 o p = 1, cuando el resultado del evento se conoce por adelantado, y la entropía es cero bits. Cuando la entropía es cero bits, esto a veces se conoce como unidad, donde no hay incertidumbre en absoluto - ninguna libertad de elección - ninguna información. Otros valores p dar entropies entre cero y un pedazo.
La teoría de la información es útil para calcular la cantidad mínima de información requerida para transmitir un mensaje, como en la compresión de datos. Por ejemplo, considere la transmisión de secuencias que comprenden los 4 caracteres 'A', 'B', 'C' y 'D' sobre un canal binario. Si las 4 letras tienen la misma probabilidad (25 %), no se puede hacer nada mejor que usar dos bits para codificar cada letra. 'A' podría codificarse como '00', 'B' como '01', 'C' como '10' y 'D' como '11'. Sin embargo, si las probabilidades de cada letra son desiguales, diga 'A' ocurre con un 70% de probabilidad, 'B' con un 26%, y 'C' y 'D' con 2% cada uno, se podrían asignar códigos de longitud variable. En este caso, 'A' se codificaría como '0', 'B' como '10', 'C' como '110', y D como '111'. Con esta representación, el 70% de las veces solo se necesita enviar un bit, el 26% de las veces dos bits y solo el 4% de las veces 3 bits. En promedio, se requieren menos de 2 bits ya que la entropía es más baja (debido a la alta prevalencia de 'A' seguido de 'B', juntos el 96% de los caracteres). El cálculo de la suma de las probabilidades logarítmicas ponderadas por probabilidad mide y captura este efecto. El texto en inglés, tratado como una cadena de caracteres, tiene una entropía bastante baja, es decir, es bastante predecible. Podemos estar bastante seguros de que, por ejemplo, 'e' será mucho más común que 'z', que la combinación 'qu' será mucho más común que cualquier otra combinación con 'q' en él, y que la combinación 'th' será más común que 'z', 'q' o 'qu'. Después de las primeras letras, a menudo se puede adivinar el resto de la palabra. El texto en inglés tiene entre 0,6 y 1,3 bits de entropía por carácter del mensaje.
Definición
Nombrado después del teorema de Boltzmann, Shannon definió la entropía Hola. (Carta de capital griego eta) de una variable discreta , que toma valores en el alfabeto y se distribuye según tales que :
Aquí. es el operador de valor esperado, y I es el contenido de información X. es una variable aleatoria.
La entropía se puede escribir explícitamente como:
En el caso de para algunos , el valor del summand correspondiente 0 logb(0) se ha tomado 0, que es consistente con el límite:
También se puede definir la entropía condicional de dos variables y tomar valores de conjuntos y respectivamente, como:
Teoría de la medida
La entropía se puede definir formalmente en el lenguaje de la teoría de la medida como sigue: Vamos ser un espacio de probabilidad. Vamos ser un evento. El surprisal de es
El previstos surprisal of es
A - casi la partición es una familia establecida tales que y para todos . (Esta es una relajación de las condiciones habituales para una partición.) La entropía de es
Vamos ser un sigma-algebra en . La entropía de es
Definición de Ellerman
David Ellerman quería explicar por qué la entropía condicional y otras funciones tenían propiedades similares a las funciones de la teoría de la probabilidad. Afirma que las definiciones anteriores basadas en la teoría de la medida solo funcionaban con potencias de 2.
Ellerman creó una "lógica de particiones" que es el dual de subconjuntos de un conjunto universal. La información se cuantifica como "dits" (distinciones), una medida sobre particiones. "Ditos" se puede convertir en bits de Shannon, para obtener las fórmulas de la entropía condicional, etc.
Ejemplo
Considere lanzar una moneda con probabilidades conocidas, no necesariamente justas, de que salga cara o cruz; esto se puede modelar como un proceso de Bernoulli.
La entropía del resultado desconocido del siguiente lanzamiento de la moneda se maximiza si la moneda es justa (es decir, si cara y cruz tienen la misma probabilidad 1/2). Esta es la situación de máxima incertidumbre ya que es más difícil predecir el resultado del próximo lanzamiento; el resultado de cada lanzamiento de la moneda entrega un bit completo de información. Esto es porque
Sin embargo, si sabemos que la moneda no es justa, pero sale cara o cruz con probabilidades p y q, donde p ≠ q, entonces hay menos incertidumbre. Cada vez que se lanza, es más probable que salga un lado que el otro. La incertidumbre reducida se cuantifica en una entropía más baja: en promedio, cada lanzamiento de la moneda entrega menos de un bit completo de información. Por ejemplo, si p = 0,7, entonces