Codificación de entropía
En la teoría de la información, una codificación de entropía (o codificación de entropía) es cualquier método de compresión de datos sin pérdida que intenta acercarse al límite inferior declarado por la fuente de Shannon. teorema de codificación, que establece que cualquier método de compresión de datos sin pérdidas debe tener una longitud de código esperada mayor o igual a la entropía de la fuente.
Más precisamente, el teorema de codificación fuente declara que para cualquier distribución de la fuente, la longitud de código espera satisfies , donde es el número de símbolos en una palabra clave, es la función de codificación, es el número de símbolos utilizados para hacer códigos de salida y es la probabilidad del símbolo fuente. An entropy coding attempts to approach this lower bound.
Dos de las técnicas de codificación de entropía más comunes son la codificación de Huffman y la codificación aritmética. Si las características de entropía aproximadas de un flujo de datos se conocen de antemano (especialmente para la compresión de señales), puede ser útil un código estático más simple. Estos códigos estáticos incluyen códigos universales (como la codificación gamma de Elias o la codificación de Fibonacci) y códigos de Golomb (como la codificación unaria o la codificación de Rice).
Desde 2014, los compresores de datos han comenzado a utilizar la familia de sistemas numéricos asimétricos de técnicas de codificación de entropía, que permite combinar la relación de compresión de la codificación aritmética con un costo de procesamiento similar al de la codificación de Huffman.
Entropía como medida de similitud
Además de usar la codificación de entropía como una forma de comprimir datos digitales, un codificador de entropía también se puede usar para medir la cantidad de similitud entre flujos de datos y clases de datos ya existentes. Esto se hace generando un codificador/compresor de entropía para cada clase de datos; Luego, los datos desconocidos se clasifican alimentando los datos sin comprimir a cada compresor y viendo qué compresor produce la compresión más alta. El codificador con la mejor compresión es probablemente el codificador entrenado en los datos que eran más similares a los datos desconocidos.
Contenido relacionado
Generador de números pseudoaleatorios
Protocolo de puerta de enlace fronteriza
Algoritmo de Dijkstra