Desigualdad de Jensen

Ajustar Compartir Imprimir Citar

Teorema de funciones convexas

**La desigualdad de Jensen** generaliza la afirmación de que una línea secant de una función convexa está por encima de su gráfico.

Visualizar la convexidad y la desigualdad de Jensen

En matemáticas, la desigualdad de Jensen, llamada así por el matemático danés Johan Jensen, relaciona el valor de una función convexa de una integral con la integral de la función convexa. Jensen la demostró en 1906, basándose en una demostración anterior de la misma desigualdad para funciones doblemente diferenciables realizada por Otto Hölder en 1889. Dada su generalidad, la desigualdad aparece de muchas formas según el contexto, algunas de las cuales se presentan a continuación. En su forma más simple, la desigualdad establece que la transformación convexa de una media es menor o igual que la media aplicada después de la transformación convexa; es un simple corolario que lo contrario es cierto para las transformaciones cóncavas.

La desigualdad de Jensen generaliza la afirmación de que la recta secante de una función convexa se encuentra encima de la gráfica de la función, que es la desigualdad de Jensen para dos puntos: la recta secante consiste en medias ponderadas de la función convexa (para t ∈ [0,1]),

tf(x_{1})+(1-t)f(x_{2}),

mientras que la gráfica de la función es la función convexa de las medias ponderadas,

{displaystyle f(tx_{1}+(1-t)x_{2}).}

Showing translation for

This, Jensen 's inequality is

{displaystyle f(tx_{1}+(1-t)x_{2})leq tf(x_{1})+(1-t)f(x_{2}).}

En el contexto de la teoría de la probabilidad, generalmente se expresa de la siguiente forma: si X es una variable aleatoria y $φ$ es una función convexa, entonces

{displaystyle varphi (operatorname {E} [X])leq operatorname {E} left[varphi (X)right].}

La diferencia entre los dos lados de la desigualdad, ${displaystyle operatorname {E} left[varphi (X)right]-varphi left(operatorname {E} [X]right)}$ Se llama la brecha Jensen.

Declaraciones

La forma clásica de la desigualdad de Jensen involucra varios números y pesos. La desigualdad se puede establecer de manera bastante general utilizando el lenguaje de la teoría de la medida o (equivalentemente) la probabilidad. En el entorno probabilístico, la desigualdad se puede generalizar aún más a su fuerza total.

Forma finita

Para una función convexa real $varphi$ , números $x_{1},x_{2},ldotsx_{n}$ en su dominio, y pesos positivos $a_{i}$ , la desigualdad de Jensen se puede decir como:

{displaystyle varphi left({frac {sum a_{i}x_{i}}{sum a_{i}}}right)leq {frac {sum a_{i}varphi (x_{i})}{sum a_{i}}}}

()1)

y la desigualdad se revierte si $varphi$ es cóncavo, que es

{displaystyle varphi left({frac {sum a_{i}x_{i}}{sum a_{i}}}right)geq {frac {sum a_{i}varphi (x_{i})}{sum a_{i}}}.}

()2)

La igualdad es si y sólo si $x_{1}=x_{2}=cdots =x_{n}$ o $varphi$ es lineal en un dominio que contiene ${displaystyle x_{1},x_{2},cdotsx_{n}}$ .

Como caso particular, si los pesos $a_{i}$ son todos iguales, entonces (1) y (2)

{displaystyle varphi left({frac {sum x_{i}}{n}}right)leq {frac {sum varphi (x_{i})}{n}}}

()3)

{displaystyle varphi left({frac {sum x_{i}}{n}}right)geq {frac {sum varphi (x_{i})}{n}}}

()4)

Por ejemplo, la función $log(x)$ es concave, así que sustitución ${displaystyle varphi (x)=log(x)}$ en la fórmula anterior (4) establece el (logaritmo de la) familiar aritmética-mean/geometric-mean desigualdad:

{displaystyle log !left({frac {sum _{i=1}^{n}x_{i}}{n}}right)geq {frac {sum _{i=1}^{n}log !left(x_{i}right)}{n}}quad {text{or}}quad {frac {x_{1}+x_{2}+cdots +x_{n}}{n}}geq {sqrt[{n}]{x_{1}cdot x_{2}cdots x_{n}}}}

Una aplicación común tiene $x$ como función de otra variable (o conjunto de variables) $t$ , es decir, ${displaystyle x_{i}=g(t_{i})}$ . Todo esto lleva directamente al caso continuo general: los pesos $a i$ son reemplazados por una función integradora no negativa $f () x)$ , como una distribución de probabilidad, y las sumas son reemplazadas por integrales.

Forma teórica de medida

Vamos ${displaystyle (OmegaA,mu)}$ ser un espacio de probabilidad. Vamos ${displaystyle f:Omega to mathbb {R} }$ ser un $mu$ - función mensurable y ${displaystyle varphi:mathbb {R} to mathbb {R} }$ Sé convex. Entonces:

{displaystyle varphi left(int _{Omega }f,mathrm {d} mu right)leq int _{Omega }varphi circ f,mathrm {d} mu }

En un análisis real, es posible que necesitemos una estimación de

{displaystyle varphi left(int _{a}^{b}f(x),dxright)}

Donde ${displaystyle a,bin mathbb {R} }$ , y ${displaystyle fcolon [a,b]to mathbb {R} }$ es una función no negativa-integrable Lebesgue. En este caso, la medida de Lebesgue $[a,b]$ no necesita ser unidad. Sin embargo, mediante la integración por sustitución, el intervalo puede ser reescalculado para que tenga unidad de medida. Entonces la desigualdad de Jensen se puede aplicar para conseguir

{displaystyle varphi left({frac {1}{b-a}}int _{a}^{b}f(x),dxright)leq {frac {1}{b-a}}int _{a}^{b}varphi (f(x)),dx.}

Forma probabilística

El mismo resultado se puede decir equivalentemente en un entorno de teoría de probabilidad, por un simple cambio de notación. Vamos ${displaystyle (Omega{mathfrak {F}},operatorname {P})}$ ser un espacio de probabilidad, X una variable aleatoria de valor real integrado y $φ$ una función convexa. Entonces:

{displaystyle varphi left(operatorname {E} [X]right)leq operatorname {E} left[varphi (X)right].}

En este entorno de probabilidad, la medida $μ$ es una probabilidad $operatorname {P}$ , la integral con respecto a $μ$ como valor esperado $operatorname {E}$ , y la función $f$ como variable aleatoria X.

Tenga en cuenta que la igualdad tiene si y sólo si $φ$ es una función lineal en un conjunto convexo $A$ tales que ${displaystyle mathrm {P} (Xin A)=1}$ (que sigue inspeccionando la medida-prueba teórica abajo).

Desigualdad general en un entorno probabilístico

Más generalmente, dejar T ser un espacio vectorial topológico real, y X a T-valorada variable aleatoria integrada. En este contexto general, integrador significa que existe un elemento $operatorname {E} [X]$ dentro T, tal que para cualquier elemento z en el espacio dual T: $<math alttext="{displaystyle operatorname {E} |langle z,Xrangle |E Silencio.. z,X.. Silencio.JUEGO JUEGO {displaystyle operatorname {E} Silenciolangle z,Xrangle <img alt="{displaystyle operatorname {E} |langle z,Xrangle |$ , y ${displaystyle langle z,operatorname {E} [X]rangle =operatorname {E} [langle z,Xrangle ]}$ . Entonces, para cualquier función convexa mensurable $φ$ y cualquier sub-σ-algebra ${mathfrak {G}}$ de ${mathfrak {F}}$ :

{displaystyle varphi left(operatorname {E} left[Xmid {mathfrak {G}}right]right)leq operatorname {E} left[varphi (X)mid {mathfrak {G}}right].}

Aquí. ${displaystyle operatorname {E} [cdot mid {mathfrak {G}}]}$ representa la expectativa condicionada al álgebra σ ${mathfrak {G}}$ . Esta declaración general reduce a las anteriores cuando el espacio vectorial topológico $T$ es el eje real, y ${mathfrak {G}}$ es lo trivial $σ$ - álgebra ${Acceso, Ω}$ (donde) $\emptyset$ es el conjunto vacío, y $Ω$ es el espacio de muestra).

Una forma agudizada y generalizada

Vamos X ser una variable aleatoria unidimensional con media $mu$ y diferencia ${displaystyle sigma ^{2}geq 0}$ . Vamos $varphi (x)$ ser una función dos veces diferente, y definir la función

{displaystyle h(x)triangleq {frac {varphi left(xright)-varphi left(mu right)}{left(x-mu right)^{2}}}-{frac {varphi 'left(mu right)}{x-mu }}.}

Entonces

{displaystyle sigma ^{2}inf {frac {varphi ''(x)}{2}}leq sigma ^{2}inf h(x)leq Eleft[varphi left(Xright)right]-varphi left(E[X]right)leq sigma ^{2}sup h(x)leq sigma ^{2}sup {frac {varphi ''(x)}{2}}.}

En particular, cuando $varphi (x)$ es convexo, entonces ${displaystyle varphi ''(x)geq 0}$ , y la forma estándar de la desigualdad de Jensen sigue inmediatamente para el caso donde $varphi (x)$ se supone que es dos veces diferente.

Pruebas

La desigualdad de Jensen puede probarse de varias maneras, y se ofrecerán tres pruebas diferentes correspondientes a las diferentes declaraciones anteriores. Antes de embarcarse en estas derivaciones matemáticas, sin embargo, vale la pena analizar un argumento gráfico intuitivo basado en el caso probabilístico donde $X$ es un número real (ver figura). Suponiendo una distribución hipotética $X$ valores, uno puede identificar inmediatamente la posición de $operatorname {E} [X]$ y su imagen ${displaystyle varphi (operatorname {E} [X])}$ en el gráfico. Noticing that for convex mappings $Y = φ () X)$ la distribución correspondiente $Y$ los valores son cada vez más "estrezados" para aumentar los valores $X$ , es fácil ver que la distribución de $Y$ es más amplio en el intervalo correspondiente a $X ■ X 0$ y más estrecha en $X . X 0$ para cualquier $X 0$ ; en particular, esto también es cierto para ${displaystyle X_{0}=operatorname {E} [X]}$ . En consecuencia, en esta imagen la expectativa de $Y$ siempre cambiará hacia arriba con respecto a la posición de ${displaystyle varphi (operatorname {E} [X])}$ . Un razonamiento similar sostiene si la distribución de $X$ cubre una porción decreciente de la función convex, o tanto una disminución y una porción creciente de ella. Esto "prueba" la desigualdad, es decir.

{displaystyle varphi (operatorname {E} [X])leq operatorname {E} [varphi (X)]=operatorname {E} [Y],}

con igualdad cuando $φ (X)$ no es estrictamente convexo, p. cuando es una línea recta, o cuando $X$ sigue una distribución degenerada (es decir, es una constante).

Las siguientes pruebas formalizan esta noción intuitiva.

Prueba 1 (forma finita)

Si $λ 1$ y $λ 2$ son dos números reales no negativos arbitrarios tales que $λ 1 + λ 2 = 1$ entonces la convexidad de $φ$ implica

forall x_{1},x_{2}:qquad varphi left(lambda _{1}x_{1}+lambda _{2}x_{2}right)leq lambda _{1},varphi (x_{1})+lambda _{2},varphi (x_{2}).

Esto se puede generalizar: si $λ 1,..., λ n$ son números reales no negativos tales que $λ 1 +... + λ n = 1$ , entonces

varphi (lambda _{1}x_{1}+lambda _{2}x_{2}+cdots +lambda _{n}x_{n})leq lambda _{1},varphi (x_{1})+lambda _{2},varphi (x_{2})+cdots +lambda _{n},varphi (x_{n}),

para cualquier $x 1,..., x n$ .

La forma finita de la desigualdad de Jensen se puede probar por inducción: por hipótesis de convexidad, el enunciado es verdadero para n = 2. Supongamos que el enunciado es cierto para algunos n, entonces

{displaystyle varphi left(sum _{i=1}^{n}lambda _{i}x_{i}right)leq sum _{i=1}^{n}lambda _{i}varphi left(x_{i}right)}

Did you mean:

for any λ₁,..., λ_n such that λ₁ +... + λ_n = 1.

Uno necesita probarlo para $n + 1$ . Al menos uno de los $λ i$ es estrictamente menor que $1$ , di $λ n + 1$ ; por lo tanto, por la desigualdad de convexidad:

{displaystyle {begin{aligned}varphi left(sum _{i=1}^{n+1}lambda _{i}x_{i}right)&=varphi left((1-lambda _{n+1})sum _{i=1}^{n}{frac {lambda _{i}}{1-lambda _{n+1}}}x_{i}+lambda _{n+1}x_{n+1}right)\&leq (1-lambda _{n+1})varphi left(sum _{i=1}^{n}{frac {lambda _{i}}{1-lambda _{n+1}}}x_{i}right)+lambda _{n+1},varphi (x_{n+1}).end{aligned}}}

Did you mean:

Since λ₁ +... +λ_n + λ_n+1 = 1,

{displaystyle sum _{i=1}^{n}{frac {lambda _{i}}{1-lambda _{n+1}}}=1}

aplicando la hipótesis inductiva se obtiene

{displaystyle varphi left(sum _{i=1}^{n}{frac {lambda _{i}}{1-lambda _{n+1}}}x_{i}right)leq sum _{i=1}^{n}{frac {lambda _{i}}{1-lambda _{n+1}}}varphi (x_{i})}

por lo tanto

{displaystyle {begin{aligned}varphi left(sum _{i=1}^{n+1}lambda _{i}x_{i}right)&leq (1-lambda _{n+1})sum _{i=1}^{n}{frac {lambda _{i}}{1-lambda _{n+1}}}varphi (x_{i})+lambda _{n+1},varphi (x_{n+1})=sum _{i=1}^{n+1}lambda _{i}varphi (x_{i})end{aligned}}}

Deducimos que la igualdad es cierta para $n + 1$ , por inducción se deduce que el resultado también es cierto para todos los enteros $n$ mayor que 2.

Para obtener la desigualdad general de esta forma finita, se necesita usar un argumento de densidad. La forma finita se puede reescribir como:

varphi left(int x,dmu _{n}(x)right)leq int varphi (x),dmu _{n}(x),

donde μ_n es una medida dada por una combinación convexa arbitraria de deltas de Dirac:

mu _{n}=sum _{i=1}^{n}lambda _{i}delta _{x_{i}}.

Dado que las funciones convexas son continuas, y dado que las combinaciones convexas de deltas de Dirac son débilmente densas en el conjunto de medidas de probabilidad (como podría verificarse fácilmente), el enunciado general se obtiene simplemente mediante un procedimiento de limitación.

Prueba 2 (forma de medida teórica)

Vamos $g$ ser un valor real $mu$ - función integrada en un espacio de probabilidad $Omega$ , y dejar $varphi$ ser una función convexa en los números reales. Desde $varphi$ es convex, en cada número real $x$ tenemos un conjunto no vacío de subderivativos, que puede ser pensado como líneas que tocan el gráfico de $varphi$ a $x$ , pero que están debajo del gráfico $varphi$ en todos los puntos (líneas de soporte del gráfico).

Ahora, si definimos

x_{0}:=int _{Omega }g,dmu

por la existencia de subderivativos para funciones convexas, podemos elegir $a$ y $b$ tales que

ax+bleq varphi (x),

para siempre real $x$ y

ax_{0}+b=varphi (x_{0}).

Pero luego tenemos eso

{displaystyle varphi circ g(omega)geq ag(omega)+b}

para casi todo $omega in Omega$ . Puesto que tenemos una medida de probabilidad, la integral es monotona con ${displaystyle mu (Omega)=1}$ así

int _{Omega }varphi circ g,dmu geq int _{Omega }(ag+b),dmu =aint _{Omega }g,dmu +bint _{Omega }dmu =ax_{0}+b=varphi (x_{0})=varphi left(int _{Omega }g,dmu right),

como desee.

Prueba 3 (desigualdad general en un entorno probabilístico)

Vamos X ser una variable aleatoria integradora que toma valores en un espacio vectorial topológico real T. Desde ${displaystyle varphi:Tto mathbb {R} }$ es convex, para cualquier $x,yin T$ , la cantidad

{frac {varphi (x+theta ,y)-varphi (x)}{theta }},

está disminuyendo como $Silencio$ enfoques 0⁺. En particular, subdiferencial de $varphi$ evaluados $x$ en la dirección $Sí.$ está bien definido por

(Dvarphi)(x)cdot y:=lim _{theta downarrow 0}{frac {varphi (x+theta ,y)-varphi (x)}{theta }}=inf _{theta neq 0}{frac {varphi (x+theta ,y)-varphi (x)}{theta }}.

Es fácil ver que el subdiferencial es lineal en $y$ (eso es falso y la afirmación requiere el teorema de Hahn-Banach para demostrarse) y, dado que el mínimo tomado en el lado derecho de la fórmula anterior es menor que el valor del mismo término para $θ = 1$ , uno obtiene

varphi (x)leq varphi (x+y)-(Dvarphi)(x)cdot y.

In particular, for an arbitrary sub- $σ$ - álgebra ${displaystyle {mathfrak {G}}}$ podemos evaluar la última desigualdad cuando ${displaystyle x=operatorname {E} [Xmid {mathfrak {G}}],,y=X-operatorname {E} [Xmid {mathfrak {G}}]}$ para obtener

{displaystyle varphi (operatorname {E} [Xmid {mathfrak {G}}])leq varphi (X)-(Dvarphi)(operatorname {E} [Xmid {mathfrak {G}}])cdot (X-operatorname {E} [Xmid {mathfrak {G}}]).}

Ahora, si tomamos la expectativa condicionada a ${displaystyle {mathfrak {G}}}$ en ambos lados de la expresión anterior, obtenemos el resultado desde:

{displaystyle operatorname {E} left[left[(Dvarphi)(operatorname {E} [Xmid {mathfrak {G}}])cdot (X-operatorname {E} [Xmid {mathfrak {G}}])right]mid {mathfrak {G}}right]=(Dvarphi)(operatorname {E} [Xmid {mathfrak {G}}])cdot operatorname {E} [left(X-operatorname {E} [Xmid {mathfrak {G}}]right)mid {mathfrak {G}}]=0,}

por la linealidad del subdiferencial en la variable y, y la siguiente propiedad bien conocida de la expectativa condicional:

{displaystyle operatorname {E} left[left(operatorname {E} [Xmid {mathfrak {G}}]right)mid {mathfrak {G}}right]=operatorname {E} [Xmid {mathfrak {G}}].}

Aplicaciones y casos especiales

Forma que implica una función de densidad de probabilidad

Did you mean:

Suppose Ω is a measurable subset of the real line and f(x) is a non-negative function such that

int _{-infty }^{infty }f(x),dx=1.

En lenguaje probabilístico, f es una función de densidad de probabilidad.

Did you mean:

Then Jensen 's inequality becomes the following statement about convex integrals:

Si g es cualquier función medible de valor real y ${textstyle varphi }$ es convex sobre el rango de g, entonces

varphi left(int _{-infty }^{infty }g(x)f(x),dxright)leq int _{-infty }^{infty }varphi (g(x))f(x),dx.

Si g(x) = x, entonces esta forma de desigualdad se reduce a un caso especial de uso común:

varphi left(int _{-infty }^{infty }x,f(x),dxright)leq int _{-infty }^{infty }varphi (x),f(x),dx.

Esto se aplica en los métodos bayesianos variacionales.

Ejemplo: momentos pares de una variable aleatoria

Si g(x) = x²ⁿ, y X es una variable aleatoria, entonces g es convexo como

{displaystyle {frac {d^{2}g}{dx^{2}}}(x)=2n(2n-1)x^{2n-2}geq 0quad forall xin mathbb {R} }

y así

{displaystyle g(operatorname {E} [X])=(operatorname {E} [X])^{2n}leq operatorname {E} [X^{2n}].}

En particular, si algún momento 2n de X es finito, X tiene una media finita. Una extensión de este argumento muestra X tiene momentos finitos de cada orden ${displaystyle lin mathbb {N} }$ división n.

Forma finita alternativa

Sea $Ω = {x 1,... x n},$ y tome $μ$ como la medida de conteo en $Ω$ , entonces la forma general se reduce a una declaración sobre sumas:

varphi left(sum _{i=1}^{n}g(x_{i})lambda _{i}right)leq sum _{i=1}^{n}varphi (g(x_{i}))lambda _{i},

Did you mean:

provided that λ_i ≥ 0 and

lambda _{1}+cdots +lambda _{n}=1.

También hay una forma discreta infinita.

Física estadística

Did you mean:

Jensen 's inequality is of particular importance in statistical physics when the convex function is an exponential, giving:

{displaystyle e^{operatorname {E} [X]}leq operatorname {E} left[e^{X}right],}

Did you mean:

where the expected values are with respect to some probability distribution in the random variable X.

Prueba: ${displaystyle varphi (x)=e^{x}}$ dentro ${displaystyle varphi left(operatorname {E} [X]right)leq operatorname {E} left[varphi (X)right].}$

Teoría de la información

Si $p (x)$ es la verdadera densidad de probabilidad para $X$ , y $q (x)$ es otra densidad, luego aplicando la desigualdad de Jensen para la variable aleatoria $Y (X) = q (X)/ p (X)$ y la función convexa $φ (y) = -log(y)$ da

{displaystyle operatorname {E} [varphi (Y)]geq varphi (operatorname {E} [Y])}

Por lo tanto:

-D(p(x)|q(x))=int p(x)log left({frac {q(x)}{p(x)}}right),dxleq log left(int p(x){frac {q(x)}{p(x)}},dxright)=log left(int q(x),dxright)=0

Did you mean:

a result called Gibbs ' inequality.

Muestra que la longitud media de los mensajes se minimiza cuando los códigos se asignan sobre la base de las probabilidades reales p en lugar de cualquier otra distribución q. La cantidad que no es negativa se denomina divergencia Kullback-Leibler de q de p.

Dado que $-log(x)$ es una función estrictamente convexa para $x > 0$ , se sigue que la igualdad se cumple cuando $p (x)$ es igual a <span class="texhtml" q(x) en casi todas partes.

Teorema de Rao-Blackwell

Si L es una función convexa y ${mathfrak {G}}$ un sub-sigma-algebra, entonces, de la versión condicional de la desigualdad de Jensen, obtenemos

{displaystyle L(operatorname {E} [delta (X)mid {mathfrak {G}}])leq operatorname {E} [L(delta (X))mid {mathfrak {G}}]quad Longrightarrow quad operatorname {E} [L(operatorname {E} [delta (X)mid {mathfrak {G}}])]leq operatorname {E} [L(delta (X))].}

Entonces, si δ(X) es un estimador de un parámetro no observado θ dado un vector de observables X; y si T(X) es un estadístico suficiente para θ; entonces se puede obtener un estimador mejorado, en el sentido de tener una menor pérdida esperada L, calculando

{displaystyle delta _{1}(X)=operatorname {E} _{theta }[delta (X')mid T(X')=T(X)],}

el valor esperado de δ con respecto a θ, tomado sobre todos los posibles vectores de observaciones X compatible con el mismo valor T()X) como se observó. Además, dado que T es una estadística suficiente, ${displaystyle delta _{1}(X)}$ no depende de θ, por lo tanto, se convierte en una estadística.

Este resultado se conoce como el teorema de Rao-Blackwell.

Simulación de rendimiento financiero

Un método popular para medir el rendimiento de una inversión es la Tasa Interna de Retorno (IRR), que es la tasa por la cual una serie de flujos de efectivo futuros inciertos se descuentan utilizando la Teoría del Valor Presente para generar la suma del efectivo futuro. flujos para igualar la inversión inicial. Si bien es tentador realizar la simulación Monte Carlo de la TIR, la desigualdad de Jensen introduce un sesgo debido al hecho de que la función TIR es una función curva y el operador de expectativa es una función lineal.

Desigualdad de Jensen

Declaraciones

Forma finita

Forma teórica de medida

Forma probabilística

Desigualdad general en un entorno probabilístico

Una forma agudizada y generalizada

Pruebas

Prueba 1 (forma finita)

Prueba 2 (forma de medida teórica)

Prueba 3 (desigualdad general en un entorno probabilístico)

Aplicaciones y casos especiales

Forma que implica una función de densidad de probabilidad

Ejemplo: momentos pares de una variable aleatoria

Forma finita alternativa

Física estadística

Teoría de la información

Teorema de Rao-Blackwell

Simulación de rendimiento financiero

49 (número)

Ludolph van Ceulen

Relación de aspecto (aeronáutica)