Desigualdad de Jensen

Ajustar Compartir Imprimir Citar
Teorema de funciones convexas
La desigualdad de Jensen generaliza la afirmación de que una línea secant de una función convexa está por encima de su gráfico.
Visualizar la convexidad y la desigualdad de Jensen

En matemáticas, la desigualdad de Jensen, llamada así por el matemático danés Johan Jensen, relaciona el valor de una función convexa de una integral con la integral de la función convexa. Jensen la demostró en 1906, basándose en una demostración anterior de la misma desigualdad para funciones doblemente diferenciables realizada por Otto Hölder en 1889. Dada su generalidad, la desigualdad aparece de muchas formas según el contexto, algunas de las cuales se presentan a continuación. En su forma más simple, la desigualdad establece que la transformación convexa de una media es menor o igual que la media aplicada después de la transformación convexa; es un simple corolario que lo contrario es cierto para las transformaciones cóncavas.

La desigualdad de Jensen generaliza la afirmación de que la recta secante de una función convexa se encuentra encima de la gráfica de la función, que es la desigualdad de Jensen para dos puntos: la recta secante consiste en medias ponderadas de la función convexa (para t ∈ [0,1]),

tf()x1)+()1− − t)f()x2),{displaystyle tf(x_{1})+(1-t)f(x_{2}),}

mientras que la gráfica de la función es la función convexa de las medias ponderadas,

f()tx1+()1− − t)x2).{displaystyle f(tx_{1}+(1-t)x_{2}). }
Showing translation for

This, Jensen 's inequality is

f()tx1+()1− − t)x2)≤ ≤ tf()x1)+()1− − t)f()x2).{displaystyle f(tx_{1}+(1-t)x_{2})leq tf(x_{1})+(1-t)f(x_{2}). }

En el contexto de la teoría de la probabilidad, generalmente se expresa de la siguiente forma: si X es una variable aleatoria y φ es una función convexa, entonces

φ φ ()E⁡ ⁡ [X])≤ ≤ E⁡ ⁡ [φ φ ()X)].{displaystyle varphi (operatorname {E} [X])leq operatorname {E} left[varphi (X)right].}

La diferencia entre los dos lados de la desigualdad, E⁡ ⁡ [φ φ ()X)]− − φ φ ()E⁡ ⁡ [X]){displaystyle operatorname {E} left[varphi (X)right]-varphi left(operatorname {E} [X]right)}Se llama la brecha Jensen.

Declaraciones

La forma clásica de la desigualdad de Jensen involucra varios números y pesos. La desigualdad se puede establecer de manera bastante general utilizando el lenguaje de la teoría de la medida o (equivalentemente) la probabilidad. En el entorno probabilístico, la desigualdad se puede generalizar aún más a su fuerza total.

Forma finita

Para una función convexa real φ φ {displaystyle varphi }, números x1,x2,...... ,xn{displaystyle x_{1},x_{2},ldotsx_{n} en su dominio, y pesos positivos ai{displaystyle A_{i}, la desigualdad de Jensen se puede decir como:

φ φ ().. aixi.. ai)≤ ≤ .. aiφ φ ()xi).. ai{displaystyle varphi left({frac {sum a_{i}x_{i} {sum a_{i}}right)leq {frac {sum}{i} {i} {i}} {i}}}}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i} a_{i}varphi (x_{i}}{sum A_{i}}}

()1)

y la desigualdad se revierte si φ φ {displaystyle varphi } es cóncavo, que es

φ φ ().. aixi.. ai)≥ ≥ .. aiφ φ ()xi).. ai.{displaystyle varphi left({frac {sum a_{i}x_{i} {sum a_{i}}right)geq {frac {sum a_{i}varphi (x_{i}}{sum A_{i}}}

()2)

La igualdad es si y sólo si x1=x2=⋯ ⋯ =xn{displaystyle x_{1}=x_{2}=cdots =x_{n} o φ φ {displaystyle varphi } es lineal en un dominio que contiene x1,x2,⋯ ⋯ ,xn{displaystyle x_{1},x_{2},cdotsx_{n}.

Como caso particular, si los pesos ai{displaystyle A_{i} son todos iguales, entonces (1) y (2)

φ φ ().. xin)≤ ≤ .. φ φ ()xi)n{displaystyle varphi left({frac {sum ¿Por qué?

()3)

φ φ ().. xin)≥ ≥ .. φ φ ()xi)n{displaystyle varphi left({frac {sum {fn} {fn}}}}}

()4)

Por ejemplo, la función log(x) es concave, así que sustitución φ φ ()x)=log⁡ ⁡ ()x){displaystyle varphi (x)=log(x)} en la fórmula anterior (4) establece el (logaritmo de la) familiar aritmética-mean/geometric-mean desigualdad:

log().. i=1nxin)≥ ≥ .. i=1nlog()xi)nox1+x2+⋯ ⋯ +xnn≥ ≥ x1⋅ ⋅ x2⋯ ⋯ xnn{displaystyle log !left({frac {sum ¿Por qué? {fnMicroc {fnMicroc} ¿Por qué? {x_{1}+x_{2}+cdots {fn}cdot x_{2}cdots #

Una aplicación común tiene x como función de otra variable (o conjunto de variables) t, es decir, xi=g()ti){displaystyle x_{i}=g(t_{i}}. Todo esto lleva directamente al caso continuo general: los pesos ai son reemplazados por una función integradora no negativa f()x), como una distribución de probabilidad, y las sumas son reemplazadas por integrales.

Forma teórica de medida

Vamos ()Ω Ω ,A,μ μ ){displaystyle (OmegaA,mu)} ser un espacio de probabilidad. Vamos f:Ω Ω → → R{displaystyle f: Omega to mathbb {R} ser un μ μ {displaystyle mu }- función mensurable y φ φ :R→ → R{displaystyle varphi:mathbb {R} to mathbb {R} Sé convex. Entonces:

φ φ ()∫ ∫ Ω Ω fdμ μ )≤ ≤ ∫ ∫ Ω Ω φ φ ∘ ∘ fdμ μ {displaystyle varphi left(int _{ Omega }f,mathrm {d} mu right)leq int _{\ Omega } varphi circ f,mathrm {d} mu }

En un análisis real, es posible que necesitemos una estimación de

φ φ ()∫ ∫ abf()x)dx){displaystyle varphi left(int _{a}^{b}f(x),dxright)}

Donde a,b▪ ▪ R{displaystyle a,bin mathbb {R}, y f:: [a,b]→ → R{displaystyle fcolon [a,b]to mathbb {R} es una función no negativa-integrable Lebesgue. En este caso, la medida de Lebesgue [a,b]{displaystyle [a,b]} no necesita ser unidad. Sin embargo, mediante la integración por sustitución, el intervalo puede ser reescalculado para que tenga unidad de medida. Entonces la desigualdad de Jensen se puede aplicar para conseguir

φ φ ()1b− − a∫ ∫ abf()x)dx)≤ ≤ 1b− − a∫ ∫ abφ φ ()f()x))dx.{displaystyle varphi left({frac {1}{b-a}int _{a}^{b}f(x),dxright)leq {frac} {1}{b-a}int _{a}varphi (f(x)),dx.}

Forma probabilística

El mismo resultado se puede decir equivalentemente en un entorno de teoría de probabilidad, por un simple cambio de notación. Vamos ()Ω Ω ,F,P){displaystyle (Omega{mathfrak {F},operatorname {P})} ser un espacio de probabilidad, X una variable aleatoria de valor real integrado y φ una función convexa. Entonces:

φ φ ()E⁡ ⁡ [X])≤ ≤ E⁡ ⁡ [φ φ ()X)].{displaystyle varphi left(operatorname {E} [X]right)leq operatorname {E} left[varphi (X)right].}

En este entorno de probabilidad, la medida μ es una probabilidad P{displaystyle operatorname {P}, la integral con respecto a μ como valor esperado E{displaystyle operatorname {E}, y la función f{displaystyle f} como variable aleatoria X.

Tenga en cuenta que la igualdad tiene si y sólo si φ es una función lineal en un conjunto convexo A{displaystyle A} tales que P()X▪ ▪ A)=1{displaystyle mathrm {P} (Xin A)=1} (que sigue inspeccionando la medida-prueba teórica abajo).

Desigualdad general en un entorno probabilístico

Más generalmente, dejar T ser un espacio vectorial topológico real, y X a T-valorada variable aleatoria integrada. En este contexto general, integrador significa que existe un elemento E⁡ ⁡ [X]{displaystyle operatorname {E} [X]} dentro T, tal que para cualquier elemento z en el espacio dual T: <math alttext="{displaystyle operatorname {E} |langle z,Xrangle |E⁡ ⁡ Silencio.. z,X.. Silencio.JUEGO JUEGO {displaystyle operatorname {E} Silenciolangle z,Xrangle<img alt="{displaystyle operatorname {E} |langle z,Xrangle |, y .. z,E⁡ ⁡ [X].. =E⁡ ⁡ [.. z,X.. ]{displaystyle langle z,operatorname {E} [X]rangle =operatorname [langle z,Xrangle]. Entonces, para cualquier función convexa mensurable φ y cualquier sub-σ-algebra G{displaystyle {Mathfrak}} de F{displaystyle {Mathfrak}}:

φ φ ()E⁡ ⁡ [X▪ ▪ G])≤ ≤ E⁡ ⁡ [φ φ ()X)▪ ▪ G].{displaystyle varphi left(operatorname {E} left[Xmid {mathfrak {G}right]leq operatorname {E} left[varphi (X)mid {mathfrak {G}right]. }

Aquí. E⁡ ⁡ [⋅ ⋅ ▪ ▪ G]{displaystyle operatorname {E} [cdot mid {mathfrak {G}]} representa la expectativa condicionada al álgebra σ G{displaystyle {Mathfrak}}. Esta declaración general reduce a las anteriores cuando el espacio vectorial topológico T es el eje real, y G{displaystyle {Mathfrak}} es lo trivial σ- álgebra {Acceso, Ω} (donde) es el conjunto vacío, y Ω es el espacio de muestra).

Una forma agudizada y generalizada

Vamos X ser una variable aleatoria unidimensional con media μ μ {displaystyle mu } y diferencia σ σ 2≥ ≥ 0{displaystyle sigma ^{2}geq 0}. Vamos φ φ ()x){displaystyle varphi (x)} ser una función dos veces diferente, y definir la función

h()x)≜ ≜ φ φ ()x)− − φ φ ()μ μ )()x− − μ μ )2− − φ φ .()μ μ )x− − μ μ .{displaystyle h(x)triangleq {varphi left(xright)-varphi left(mu right)}{left(x-muright)}}-{frac {varphi 'left(mu right)}{x-mu }}}}}

Entonces

σ σ 2infφ φ .()x)2≤ ≤ σ σ 2infh()x)≤ ≤ E[φ φ ()X)]− − φ φ ()E[X])≤ ≤ σ σ 2Suph()x)≤ ≤ σ σ 2Supφ φ .()x)2.{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {c}ccH} {cccH}cccH}ccccccHsigmaccH00}cccH00cH00cH0cH0}cH0}ccccH00ccccccH00cH00cH00cH00cH00cH00cH00cH00cH00cH00cH00cH00cH00cH00}cH00}ccH00cH00cH00cH00cH00cH00}cH009cH00cH00cH004cH00cH00}ccH00

En particular, cuando φ φ ()x){displaystyle varphi (x)} es convexo, entonces φ φ .()x)≥ ≥ 0{displaystyle varphi '(x)geq 0}, y la forma estándar de la desigualdad de Jensen sigue inmediatamente para el caso donde φ φ ()x){displaystyle varphi (x)} se supone que es dos veces diferente.

Pruebas

Una "prueba" gráfica de la desigualdad de Jensen para el caso probabilístico. La curva desgarrada a lo largo de la X axis es la distribución hipotética X, mientras la curva desgarrada a lo largo de la Y axis es la distribución correspondiente Y valores. Note que el mapeo convex Y()X) cada vez másestiramientos"la distribución para aumentar los valores de X.
Esta es una prueba sin palabras de la desigualdad de Jensen n variables. Sin pérdida de generalidad, la suma de los pesos positivos es 1. Se deduce que el punto ponderado se encuentra en el casco convexo de los puntos originales, que se encuentra por encima de la función misma por la definición de convexidad. La conclusión sigue.

La desigualdad de Jensen puede probarse de varias maneras, y se ofrecerán tres pruebas diferentes correspondientes a las diferentes declaraciones anteriores. Antes de embarcarse en estas derivaciones matemáticas, sin embargo, vale la pena analizar un argumento gráfico intuitivo basado en el caso probabilístico donde X es un número real (ver figura). Suponiendo una distribución hipotética X valores, uno puede identificar inmediatamente la posición de E⁡ ⁡ [X]{displaystyle operatorname {E} [X]} y su imagen φ φ ()E⁡ ⁡ [X]){displaystyle varphi (operatorname {E} [X])} en el gráfico. Noticing that for convex mappings Y = φ()X) la distribución correspondiente Y los valores son cada vez más "estrezados" para aumentar los valores X, es fácil ver que la distribución de Y es más amplio en el intervalo correspondiente a XX0 y más estrecha en X. X0 para cualquier X0; en particular, esto también es cierto para X0=E⁡ ⁡ [X]{displaystyle X_{0}=operatorname {E} [X]}. En consecuencia, en esta imagen la expectativa de Y siempre cambiará hacia arriba con respecto a la posición de φ φ ()E⁡ ⁡ [X]){displaystyle varphi (operatorname {E} [X])}. Un razonamiento similar sostiene si la distribución de X cubre una porción decreciente de la función convex, o tanto una disminución y una porción creciente de ella. Esto "prueba" la desigualdad, es decir.

φ φ ()E⁡ ⁡ [X])≤ ≤ E⁡ ⁡ [φ φ ()X)]=E⁡ ⁡ [Y],{displaystyle varphi (operatorname {E} [X])leq operatorname [varphi (X)]=operatorname {E} [Y],}

con igualdad cuando φ(X) no es estrictamente convexo, p. cuando es una línea recta, o cuando X sigue una distribución degenerada (es decir, es una constante).

Las siguientes pruebas formalizan esta noción intuitiva.

Prueba 1 (forma finita)

Si λ1 y λ2 son dos números reales no negativos arbitrarios tales que λ1 + λ2 = 1 entonces la convexidad de φ implica

О О x1,x2:φ φ ()λ λ 1x1+λ λ 2x2)≤ ≤ λ λ 1φ φ ()x1)+λ λ 2φ φ ()x2).{displaystyle forall x_{1},x_{2}:qquad varphi left(lambda ##{1}x_{1}+lambda _{2}x_{2}right)leq lambda _{1}varphi (x_{1})+lambda _{2},varphi (x_{2}). }

Esto se puede generalizar: si λ1,..., λn son números reales no negativos tales que λ1 +... + λ n = 1, entonces

φ φ ()λ λ 1x1+λ λ 2x2+⋯ ⋯ +λ λ nxn)≤ ≤ λ λ 1φ φ ()x1)+λ λ 2φ φ ()x2)+⋯ ⋯ +λ λ nφ φ ()xn),{displaystyle varphi (lambda ##{1}x_{1}+lambda _{2}x_{2}+cdots +lambda _{n}x_{n})leq lambda _{1},varphi (x_{1})+lambda _{2},varphi (x_{2})+cdots +lambda _{n},varphi (x_{n})

para cualquier x1,..., xn .

La forma finita de la desigualdad de Jensen se puede probar por inducción: por hipótesis de convexidad, el enunciado es verdadero para n = 2. Supongamos que el enunciado es cierto para algunos n, entonces

φ φ ().. i=1nλ λ ixi)≤ ≤ .. i=1nλ λ iφ φ ()xi){displaystyle varphi left(sum) ################################################################################################################################################################################################################################################################ _{i}x_{i}right)leq sum _{i=1}lambda _{i}varphi left(x_{i}right)}
Did you mean:

for any λ1,..., λn such that λ1 +... + λn = 1.

Uno necesita probarlo para n + 1. Al menos uno de los λi es estrictamente menor que 1{displaystyle 1}, di λn+ 1; por lo tanto, por la desigualdad de convexidad:

φ φ ().. i=1n+1λ λ ixi)=φ φ ()()1− − λ λ n+1).. i=1nλ λ i1− − λ λ n+1xi+λ λ n+1xn+1)≤ ≤ ()1− − λ λ n+1)φ φ ().. i=1nλ λ i1− − λ λ n+1xi)+λ λ n+1φ φ ()xn+1).{displaystyle {begin{aligned}varphi left(sum) ################################################################################################################################################################################################################################################################ ¿Por qué? - ¿Qué? {fnMicrode ##{i}{1-lambda ### {n+1}x_{i}+lambda _{n+1}x_{n+1}derecha)\fn1lambda _{n+1})varphi left(sum) ¿Por qué? ##{i}{1-lambda ################################################################################################################################################################################################################################################################ {n+1},varphi (x_{n+1}).end{aligned}}
Did you mean:

Since λ1 +... +λn + λn+1 = 1,

.. i=1nλ λ i1− − λ λ n+1=1{displaystyle sum _{i=1}{n}{frac {fnMicrode ##{i}{1-lambda ¿Qué?,

aplicando la hipótesis inductiva se obtiene

φ φ ().. i=1nλ λ i1− − λ λ n+1xi)≤ ≤ .. i=1nλ λ i1− − λ λ n+1φ φ ()xi){displaystyle varphi left(sum) ¿Qué? ##{i}{1-lambda ¿Por qué? sum _{i=1}{n}{frac {lambda ##{i}{1-lambda ¿Qué?

por lo tanto

φ φ ().. i=1n+1λ λ ixi)≤ ≤ ()1− − λ λ n+1).. i=1nλ λ i1− − λ λ n+1φ φ ()xi)+λ λ n+1φ φ ()xn+1)=.. i=1n+1λ λ iφ φ ()xi){displaystyle {begin{aligned}varphi left(sum) ################################################################################################################################################################################################################################################################ ¿Por qué? - ¿Qué? {fnMicrode ##{i}{1-lambda. _{n+1},varphi (x_{n+1})=sum ################################################################################################################################################################################################################################################################ ¿Qué?

Deducimos que la igualdad es cierta para n + 1, por inducción se deduce que el resultado también es cierto para todos los enteros n mayor que 2.

Para obtener la desigualdad general de esta forma finita, se necesita usar un argumento de densidad. La forma finita se puede reescribir como:

φ φ ()∫ ∫ xdμ μ n()x))≤ ≤ ∫ ∫ φ φ ()x)dμ μ n()x),{displaystyle varphi left(int x,dmu _{n}(x)right)leq int varphi (x),dmu _{n}(x),}

donde μn es una medida dada por una combinación convexa arbitraria de deltas de Dirac:

μ μ n=.. i=1nλ λ iδ δ xi.{displaystyle mu _{n}=sum ################################################################################################################################################################################################################################################################ ¿Qué? - ¿Qué?

Dado que las funciones convexas son continuas, y dado que las combinaciones convexas de deltas de Dirac son débilmente densas en el conjunto de medidas de probabilidad (como podría verificarse fácilmente), el enunciado general se obtiene simplemente mediante un procedimiento de limitación.

Prueba 2 (forma de medida teórica)

Vamos g{displaystyle g} ser un valor real μ μ {displaystyle mu }- función integrada en un espacio de probabilidad Ω Ω {displaystyle Omega }, y dejar φ φ {displaystyle varphi } ser una función convexa en los números reales. Desde φ φ {displaystyle varphi } es convex, en cada número real x{displaystyle x} tenemos un conjunto no vacío de subderivativos, que puede ser pensado como líneas que tocan el gráfico de φ φ {displaystyle varphi } a x{displaystyle x}, pero que están debajo del gráfico φ φ {displaystyle varphi } en todos los puntos (líneas de soporte del gráfico).

Ahora, si definimos

x0:=∫ ∫ Ω Ω gdμ μ ,{displaystyle x_{0}:=int ¿Qué? Omega

por la existencia de subderivativos para funciones convexas, podemos elegir a{displaystyle a} y b{displaystyle b} tales que

ax+b≤ ≤ φ φ ()x),{displaystyle ax+bleq varphi (x),}

para siempre real x{displaystyle x} y

ax0+b=φ φ ()x0).{displaystyle ax_{0}+b=varphi (x_{0}). }

Pero luego tenemos eso

φ φ ∘ ∘ g()⋅ ⋅ )≥ ≥ ag()⋅ ⋅ )+b{displaystyle varphi circ g(omega)geq ag(omega)+b}

para casi todo ⋅ ⋅ ▪ ▪ Ω Ω {displaystyle omega in Omega }. Puesto que tenemos una medida de probabilidad, la integral es monotona con μ μ ()Ω Ω )=1{displaystyle mu (Omega)=1} así

∫ ∫ Ω Ω φ φ ∘ ∘ gdμ μ ≥ ≥ ∫ ∫ Ω Ω ()ag+b)dμ μ =a∫ ∫ Ω Ω gdμ μ +b∫ ∫ Ω Ω dμ μ =ax0+b=φ φ ()x0)=φ φ ()∫ ∫ Ω Ω gdμ μ ),{displaystyle int _{ Omega } varphi circ g,dmu geq int _{Omega }(ag+b),dmu =aint ¿Qué? Omega... Omega =ax_{0}+b=varphi (x_{0})=varphi left(int) ¿Qué? Omega }g,dmuright),}

como desee.

Prueba 3 (desigualdad general en un entorno probabilístico)

Vamos X ser una variable aleatoria integradora que toma valores en un espacio vectorial topológico real T. Desde φ φ :T→ → R{displaystyle varphi: Tto mathbb {R} es convex, para cualquier x,Sí.▪ ▪ T{displaystyle x,yin T}, la cantidad

φ φ ()x+Silencio Silencio Sí.)− − φ φ ()x)Silencio Silencio ,{displaystyle {frac {varphi (x+theta ,y)-varphi (x)}{theta }}}}}

está disminuyendo como Silencio enfoques 0+. En particular, subdiferencial de φ φ {displaystyle varphi } evaluados x en la dirección Sí. está bien definido por

()Dφ φ )()x)⋅ ⋅ Sí.:=limSilencio Silencio ↓ ↓ 0φ φ ()x+Silencio Silencio Sí.)− − φ φ ()x)Silencio Silencio =infSilencio Silencio ل ل 0φ φ ()x+Silencio Silencio Sí.)− − φ φ ()x)Silencio Silencio .{displaystyle (Dvarphi)(x)cdot y:=lim _{theta downarrow 0}{frac {varphi (x+theta ,y)-varphi (x)}{theta }=inf _{theta neq 0}{varphi (x+thetatheta)

Es fácil ver que el subdiferencial es lineal en y (eso es falso y la afirmación requiere el teorema de Hahn-Banach para demostrarse) y, dado que el mínimo tomado en el lado derecho de la fórmula anterior es menor que el valor del mismo término para θ = 1, uno obtiene

φ φ ()x)≤ ≤ φ φ ()x+Sí.)− − ()Dφ φ )()x)⋅ ⋅ Sí..{displaystyle varphi (x)leq varphi (x+y)-(Dvarphi)(x)cdot y.}

In particular, for an arbitrary sub-σ- álgebra G{displaystyle {Mathfrak}} podemos evaluar la última desigualdad cuando x=E⁡ ⁡ [X▪ ▪ G],Sí.=X− − E⁡ ⁡ [X▪ ▪ G]{displaystyle x= {E} [Xmid {mathfrak {G}],,y=X-operatorname {E} [Xmid {fnMithfrak {}] para obtener

φ φ ()E⁡ ⁡ [X▪ ▪ G])≤ ≤ φ φ ()X)− − ()Dφ φ )()E⁡ ⁡ [X▪ ▪ G])⋅ ⋅ ()X− − E⁡ ⁡ [X▪ ▪ G]).{displaystyle varphi (operatorname {E} [Xmid {mathfrak {G}])leq varphi (X)-(Dvarphi)(operatorname {E} [Xmid {mathfrak {G}])cdot (X-operatorname {E} [Xmid {mathfrak {G}]). }

Ahora, si tomamos la expectativa condicionada a G{displaystyle {Mathfrak}} en ambos lados de la expresión anterior, obtenemos el resultado desde:

E⁡ ⁡ [[()Dφ φ )()E⁡ ⁡ [X▪ ▪ G])⋅ ⋅ ()X− − E⁡ ⁡ [X▪ ▪ G])]▪ ▪ G]=()Dφ φ )()E⁡ ⁡ [X▪ ▪ G])⋅ ⋅ E⁡ ⁡ [()X− − E⁡ ⁡ [X▪ ▪ G])▪ ▪ G]=0,{displaystyle operatorname {E} left[left[(Dvarphi)(operatorname {E} [Xmid {mathfrak {G}])cdot (X-operatorname {E} [Xmid {mathfrak {G}]])right {mathfrak {G}right]=(Dvarphi)(operatorname) {E} [Xmid {mathfrak {G}])cdot operatorname [left(X-operatorname] {E} [Xmid {fnMithfrak {fnMicrosoft Sans Serif}}=0,}

por la linealidad del subdiferencial en la variable y, y la siguiente propiedad bien conocida de la expectativa condicional:

E⁡ ⁡ [()E⁡ ⁡ [X▪ ▪ G])▪ ▪ G]=E⁡ ⁡ [X▪ ▪ G].{displaystyle operatorname {E} left[left(operatorname) {E} [Xmid {fnMitfrak {G}}}derecha)midmthfrak {G}derecha]=operatorname {E} [Xmid {mathfrak {G}].

Aplicaciones y casos especiales

Forma que implica una función de densidad de probabilidad

Did you mean:

Suppose Ω is a measurable subset of the real line and f(x) is a non-negative function such that

∫ ∫ − − JUEGO JUEGO JUEGO JUEGO f()x)dx=1.{displaystyle int _{-infty }{infty }f(x),dx=1.}

En lenguaje probabilístico, f es una función de densidad de probabilidad.

Did you mean:

Then Jensen 's inequality becomes the following statement about convex integrals:

Si g es cualquier función medible de valor real y φ φ {textstyle varphi } es convex sobre el rango de g, entonces

φ φ ()∫ ∫ − − JUEGO JUEGO JUEGO JUEGO g()x)f()x)dx)≤ ≤ ∫ ∫ − − JUEGO JUEGO JUEGO JUEGO φ φ ()g()x))f()x)dx.{displaystyle varphi left(int _{-infty }{infty }g(x)f(x),dxright)leq int _{-infty }infty }varphi (g(x))f(x),dx.}

Si g(x) = x, entonces esta forma de desigualdad se reduce a un caso especial de uso común:

φ φ ()∫ ∫ − − JUEGO JUEGO JUEGO JUEGO xf()x)dx)≤ ≤ ∫ ∫ − − JUEGO JUEGO JUEGO JUEGO φ φ ()x)f()x)dx.{displaystyle varphi left(int _{-infty }{infty }x,f(x),dxright)leq int _{-infty }infty }varphi (x),f(x),dx.}

Esto se aplica en los métodos bayesianos variacionales.

Ejemplo: momentos pares de una variable aleatoria

Si g(x) = x2n, y X es una variable aleatoria, entonces g es convexo como

d2gdx2()x)=2n()2n− − 1)x2n− − 2≥ ≥ 0О О x▪ ▪ R{displaystyle {frac {d^{2}g}{dx^{2}}(x)=2n(2n-1)x^{2n-2}geq 0quad forall xin mathbb {R}

y así

g()E⁡ ⁡ [X])=()E⁡ ⁡ [X])2n≤ ≤ E⁡ ⁡ [X2n].{displaystyle g(operatorname {E} [X])=(operatorname {E} [X])^{2n}leq operatorname [X^{2n]].

En particular, si algún momento 2n de X es finito, X tiene una media finita. Una extensión de este argumento muestra X tiene momentos finitos de cada orden l▪ ▪ N{displaystyle lin mathbb {N} división n.

Forma finita alternativa

Sea Ω = {x1,... xn}, y tome μ como la medida de conteo en Ω, entonces la forma general se reduce a una declaración sobre sumas:

φ φ ().. i=1ng()xi)λ λ i)≤ ≤ .. i=1nφ φ ()g()xi))λ λ i,{displaystyle varphi left(sum _{i=1}{n}g(x_{i})lambda _{i}right)leq sum _{i=1} {n}varphi (g(x_{i})lambda _{i},}
Did you mean:

provided that λi ≥ 0 and

λ λ 1+⋯ ⋯ +λ λ n=1.{displaystyle lambda ¿Qué? +lambda - Sí.

También hay una forma discreta infinita.

Física estadística

Did you mean:

Jensen 's inequality is of particular importance in statistical physics when the convex function is an exponential, giving:

eE⁡ ⁡ [X]≤ ≤ E⁡ ⁡ [eX],{displaystyle e^{fnMimbre de operador {E} [X]}leq operatorname {E} left[e^{X}right],}
Did you mean:

where the expected values are with respect to some probability distribution in the random variable X.

Prueba: φ φ ()x)=ex{displaystyle varphi (x)=e^{x} dentro φ φ ()E⁡ ⁡ [X])≤ ≤ E⁡ ⁡ [φ φ ()X)].{displaystyle varphi left(operatorname {E} [X]right)leq operatorname {E} left[varphi (X)right].}

Teoría de la información

Si p(x) es la verdadera densidad de probabilidad para X, y q(x) es otra densidad, luego aplicando la desigualdad de Jensen para la variable aleatoria Y(X) = q(X)/p(X) y la función convexa φ (y) = −log(y) da

E⁡ ⁡ [φ φ ()Y)]≥ ≥ φ φ ()E⁡ ⁡ [Y]){displaystyle operatorname {E} [varphi (Y)]geq varphi (operatorname {E} [Y])}

Por lo tanto:

− − D()p()x).. q()x))=∫ ∫ p()x)log⁡ ⁡ ()q()x)p()x))dx≤ ≤ log⁡ ⁡ ()∫ ∫ p()x)q()x)p()x)dx)=log⁡ ⁡ ()∫ ∫ q()x)dx)=0{displaystyle -D(p(x)fnq(x)=int p(x)log left({frac {q(x)}{p(x)}right),dxlog log left(int p(x){frac {q(x)}{p(x)}},dxright
Did you mean:

a result called Gibbs ' inequality.

Muestra que la longitud media de los mensajes se minimiza cuando los códigos se asignan sobre la base de las probabilidades reales p en lugar de cualquier otra distribución q. La cantidad que no es negativa se denomina divergencia Kullback-Leibler de q de p.

Dado que −log(x) es una función estrictamente convexa para x > 0, se sigue que la igualdad se cumple cuando p(x) es igual a <span class="texhtml" q(x) en casi todas partes.

Teorema de Rao-Blackwell

Si L es una función convexa y G{displaystyle {Mathfrak}} un sub-sigma-algebra, entonces, de la versión condicional de la desigualdad de Jensen, obtenemos

L()E⁡ ⁡ [δ δ ()X)▪ ▪ G])≤ ≤ E⁡ ⁡ [L()δ δ ()X))▪ ▪ G]⟹ ⟹ E⁡ ⁡ [L()E⁡ ⁡ [δ δ ()X)▪ ▪ G])]≤ ≤ E⁡ ⁡ [L()δ δ ()X))].{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}]leq operatorname {E} [L(delta (X))mid {mathfrak {G}]quad Longrightarrow quad operatorname {E} [L(operatorname {E}

Entonces, si δ(X) es un estimador de un parámetro no observado θ dado un vector de observables X; y si T(X) es un estadístico suficiente para θ; entonces se puede obtener un estimador mejorado, en el sentido de tener una menor pérdida esperada L, calculando

δ δ 1()X)=ESilencio Silencio ⁡ ⁡ [δ δ ()X.)▪ ▪ T()X.)=T()X)],{displaystyle delta ### {1}(X)=operatorname {E} _{theta }[delta (X')mid T(X')=T(X)],}

el valor esperado de δ con respecto a θ, tomado sobre todos los posibles vectores de observaciones X compatible con el mismo valor T()X) como se observó. Además, dado que T es una estadística suficiente, δ δ 1()X){displaystyle delta _{1}(X)} no depende de θ, por lo tanto, se convierte en una estadística.

Este resultado se conoce como el teorema de Rao-Blackwell.

Simulación de rendimiento financiero

Un método popular para medir el rendimiento de una inversión es la Tasa Interna de Retorno (IRR), que es la tasa por la cual una serie de flujos de efectivo futuros inciertos se descuentan utilizando la Teoría del Valor Presente para generar la suma del efectivo futuro. flujos para igualar la inversión inicial. Si bien es tentador realizar la simulación Monte Carlo de la TIR, la desigualdad de Jensen introduce un sesgo debido al hecho de que la función TIR es una función curva y el operador de expectativa es una función lineal.