Conjunto típico

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En la teoría de la información, el conjunto típico es un conjunto de secuencias cuya probabilidad es cercana a dos elevada a la potencia negativa de la entropía de su fuente de distribución. Que este conjunto tenga una probabilidad total cercana a uno es consecuencia de la propiedad de equipartición asintótica (AEP) que es una especie de ley de los grandes números. La noción de tipicidad solo se relaciona con la probabilidad de una secuencia y no con la secuencia real en sí.

Esto tiene un gran uso en la teoría de la compresión ya que proporciona un medio teórico para comprimir datos, permitiéndonos representar cualquier secuencia Xⁿ usando nH(X) bits en promedio y, por lo tanto, justifica el uso de la entropía como medida de información de una fuente.

El AEP también se puede probar para una gran clase de procesos ergódicos estacionarios, lo que permite definir el conjunto típico en casos más generales.

Secuencias típicas (débilmente) (tipicidad débil, tipicidad de entropía)

Si una secuencia x₁,...,x_n se extrae de una distribución i.i.d. X definido sobre un alfabeto finito ${mathcal {X}}$ , entonces el conjunto típico, A_ε⁽⁾ⁿ⁾ $in {mathcal {X}}$ ⁽⁾ⁿ⁾ se define como las secuencias que satisfacen:

{displaystyle 2^{-n(H(X)+varepsilon)}leqslant p(x_{1},x_{2},dotsx_{n})leqslant 2^{-n(H(X)-varepsilon)}}

dónde

{displaystyle H(X)=-sum _{xin {mathcal {X}}}p(x)log _{2}p(x)}

es la entropía de la información de X. La probabilidad anterior solo necesita estar dentro de un factor de 2^{n ε}. Tomando el logaritmo en todos los lados y dividiendo por -n, esta definición se puede establecer de manera equivalente como

{displaystyle H(X)-varepsilon leq -{frac {1}{n}}log _{2}p(x_{1},x_{2},ldotsx_{n})leq H(X)+varepsilon.}

Para la secuencia i.i.d, ya que

{displaystyle p(x_{1},x_{2},ldotsx_{n})=prod _{i=1}^{n}p(x_{i}),}

Además tenemos

{displaystyle H(X)-varepsilon leq -{frac {1}{n}}sum _{i=1}^{n}log _{2}p(x_{i})leq H(X)+varepsilon.}

Por la ley de los grandes números, para n suficientemente grandes

{displaystyle -{frac {1}{n}}sum _{i=1}^{n}log _{2}p(x_{i})rightarrow H(X).}

Propiedades

Una característica esencial del conjunto típico es que, si se dibuja un gran número n de muestras aleatorias independientes de la distribución X, la secuencia resultante (x₁,x₂,...,x_n) es muy probable que sea miembro del conjunto típico, aunque el conjunto típico comprende sólo una pequeña fracción de todas las secuencias posibles. Formalmente, dado cualquier $0}" xmlns="http://www.w3.org/1998/Math/MathML">ε ε ■0{displaystyle varepsilon }0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/e04ec3670b50384a3ce48aca42e7cc5131a06b12" style="vertical-align: -0.338ex; width:5.344ex; height:2.176ex;"/>$ , uno puede elegir n tal que:

La probabilidad de una secuencia desde Xⁿ⁾ ser extraído A_ε⁽⁾ⁿ⁾ es mayor que 1 -ε, es decir. ${displaystyle Pr[x^{(n)}in A_{epsilon }^{(n)}]geq 1-varepsilon }$
$left|{A_{varepsilon }}^{{(n)}}right|leqslant 2^{{n(H(X)+varepsilon)}}$
$left|{A_{varepsilon }}^{{(n)}}right|geqslant (1-varepsilon)2^{{n(H(X)-varepsilon)}}$
Si la distribución sobre ${mathcal {X}}$ no es uniforme, entonces la fracción de secuencias que son típicas es

{displaystyle {frac {|A_{epsilon }^{(n)}|}{|{mathcal {X}}^{(n)}|}}equiv {frac {2^{nH(X)}}{2^{nlog _{2}|{mathcal {X}}|}}}=2^{-n(log _{2}|{mathcal {X}}|-H(X))}rightarrow 0}

como n se vuelve muy grande, ya que

<math alttext="{displaystyle H(X)H()X).log2⁡ ⁡ SilencioXSilencio,{displaystyle H(X) _{2} sobrevivir {mathcal {X}<img alt="{displaystyle H(X)

Donde

|mathcal{X}|

es el cardenalismo

{mathcal {X}}

Para un proceso estocástico general {X(t)} con AEP, el conjunto típico (débil) se puede definir de manera similar con p (x₁, x₂,..., x_n) reemplazado por p(x₀^τ) (es decir, la probabilidad de la muestra limitada al intervalo de tiempo [0, τ]), siendo n el grado de libertad del proceso en el intervalo de tiempo y H(X) siendo la tasa de entropía. Si el proceso es de valor continuo, se utiliza en su lugar la entropía diferencial.

Ejemplo

En contra de la intuición, la secuencia más probable a menudo no es un miembro del conjunto típico. Por ejemplo, suponga que X es una variable aleatoria i.i.d de Bernoulli con p(0)=0.1 y p(1)=0.9. En n ensayos independientes, dado que p(1)>p(0), la secuencia de resultados más probable es la secuencia de todos los 1& #39;s, (1,1,...,1). Aquí la entropía de X es H(X)=0.469, mientras que

{displaystyle -{frac {1}{n}}log _{2}pleft(x^{(n)}=(1,1,ldots1)right)=-{frac {1}{n}}log _{2}(0.9^{n})=0.152}

Entonces, esta secuencia no está en el conjunto típico porque su probabilidad logarítmica promedio no puede acercarse arbitrariamente a la entropía de la variable aleatoria X sin importar cuán grande tomemos el valor de n.

Para las variables aleatorias de Bernoulli, el conjunto típico consta de secuencias con números promedio de 0 y 1 en n pruebas independientes. Esto se demuestra fácilmente: si p(1) = p y p(0) = 1-p, entonces para n ensayos con m 1's, tenemos

{displaystyle -{frac {1}{n}}log _{2}p(x^{(n)})=-{frac {1}{n}}log _{2}p^{m}(1-p)^{n-m}=-{frac {m}{n}}log _{2}p-left({frac {n-m}{n}}right)log _{2}(1-p).}

El número promedio de 1 en una secuencia de ensayos de Bernoulli es m = np. Así, tenemos

{displaystyle -{frac {1}{n}}log _{2}p(x^{(n)})=-plog _{2}p-(1-p)log _{2}(1-p)=H(X).}

Para este ejemplo, si n=10, entonces el conjunto típico consta de todas las secuencias que tienen un solo 0 en toda la secuencia. En el caso p(0)=p(1)=0.5, entonces todas las secuencias binarias posibles pertenecen al conjunto típico.

Secuencias fuertemente típicas (tipicidad fuerte, tipicidad de letras)

Si una secuencia x₁,... x_n se extrae de alguna distribución conjunta especificada definida sobre un finito o un alfabeto infinito ${mathcal {X}}$ , entonces el conjunto muy típico, A_ε,strong⁽⁾ⁿ⁾ $in {mathcal {X}}$ se define como el conjunto de secuencias que satisfacen

<math alttext="{displaystyle left|{frac {N(x_{i})}{n}}-p(x_{i})right|SilencioN()xi)n− − p()xi)Silencio.ε ε .. X.. .{displaystyle left WordPress{frac {N(x_{i}} {n}}-p(x_{i})right sometida{frac {varepsilon }{\mathcal {X}h}fnh}}}<img alt="left|{frac {N(x_{i})}{n}}-p(x_{i})right|

Donde ${N(x_{i})}$ es el número de ocurrencias de un símbolo específico en la secuencia.

Se puede demostrar que las secuencias fuertemente típicas también son débilmente típicas (con una constante ε diferente), y de ahí el nombre. Las dos formas, sin embargo, no son equivalentes. A menudo, es más fácil trabajar con una tipicidad fuerte para probar teoremas para canales sin memoria. Sin embargo, como se desprende de la definición, esta forma de tipicidad solo se define para variables aleatorias que tienen un soporte finito.

Secuencias típicas conjuntas

Dos secuencias $x^{n}$ y $y^n$ son conjuntamente ε-typical si el par $(x^{n},y^{n})$ es ε-typical con respecto a la distribución conjunta $p(x^{n},y^{n})=prod _{{i=1}}^{n}p(x_{i},y_{i})$ y ambos $x^{n}$ y $y^n$ ε-typical with respect to their marginal distributions $p(x^{n})$ y $p(y^{n})$ . El conjunto de todos estos pares de secuencias $(x^{n},y^{n})$ es denotado por $A_{{varepsilon }}^{n}(X,Y)$ . Jointly ε-typical n- secuencias de tropiezo se definen de forma similar.

Vamos ${tilde {X}}^{n}$ y ${tilde {Y}}^{n}$ ser dos secuencias independientes de variables aleatorias con las mismas distribuciones marginales $p(x^{n})$ y $p(y^{n})$ . Entonces para cualquier ε ratio0, para lo suficientemente grande n, secuencias típicas conjuntas satisfacen las siguientes propiedades:

$Pleft[(X^{n},Y^{n})in A_{{varepsilon }}^{n}(X,Y)right]geqslant 1-epsilon$
$left|A_{{varepsilon }}^{n}(X,Y)right|leqslant 2^{{n(H(X,Y)+epsilon)}}$
$left|A_{{varepsilon }}^{n}(X,Y)right|geqslant (1-epsilon)2^{{n(H(X,Y)-epsilon)}}$
$Pleft[({tilde {X}}^{n},{tilde {Y}}^{n})in A_{{varepsilon }}^{n}(X,Y)right]leqslant 2^{{-n(I(X;Y)-3epsilon)}}$
$Pleft[({tilde {X}}^{n},{tilde {Y}}^{n})in A_{{varepsilon }}^{n}(X,Y)right]geqslant (1-epsilon)2^{{-n(I(X;Y)+3epsilon)}}$

Aplicaciones de tipicidad

Codificación de conjunto típica

En la teoría de la información, la codificación de conjuntos típica codifica solo las secuencias en el conjunto típico de una fuente estocástica con códigos de bloque de longitud fija. Dado que el tamaño del conjunto típico es de aproximadamente 2^nH(X), solo se requieren nH(X) bits para la codificación, mientras que en al mismo tiempo, asegurando que las posibilidades de error de codificación se limiten a ε. Asintóticamente, según el AEP, no tiene pérdidas y alcanza la tasa mínima igual a la tasa de entropía de la fuente.

Descodificación típica de conjuntos

En la teoría de la información, la decodificación de conjuntos típicos se usa junto con la codificación aleatoria para estimar el mensaje transmitido como el que tiene una palabra clave que es ε-típica junto con la observación. es decir.

{hat {w}}=wiff (exists w)((x_{1}^{n}(w),y_{1}^{n})in A_{{varepsilon }}^{n}(X,Y))

Donde ${hat {w}},x_{1}^{n}(w),y_{1}^{n}$ son la estimación del mensaje, palabra clave del mensaje $w$ y la observación respectivamente. $A_{{varepsilon }}^{n}(X,Y)$ se define con respecto a la distribución conjunta $p(x_{1}^{n})p(y_{1}^{n}|x_{1}^{n})$ Donde $p(y_{1}^{n}|x_{1}^{n})$ es la probabilidad de transición que caracteriza las estadísticas del canal, y $p(x_{1}^{n})$ es una distribución de entrada utilizada para generar las palabras clave en el código aleatorio.

Prueba universal de hipótesis nula

Código de canal universal

Contenido relacionado

Más resultados...