49 (número)
49 es el número natural que sigue al 48 y precede al... (leer más)
En matemáticas, la desigualdad de Jensen, llamada así por el matemático danés Johan Jensen, relaciona el valor de una función convexa de una integral con la integral de la función convexa. Jensen la demostró en 1906, basándose en una demostración anterior de la misma desigualdad para funciones doblemente diferenciables realizada por Otto Hölder en 1889. Dada su generalidad, la desigualdad aparece de muchas formas según el contexto, algunas de las cuales se presentan a continuación. En su forma más simple, la desigualdad establece que la transformación convexa de una media es menor o igual que la media aplicada después de la transformación convexa; es un simple corolario que lo contrario es cierto para las transformaciones cóncavas.
La desigualdad de Jensen generaliza la afirmación de que la recta secante de una función convexa se encuentra encima de la gráfica de la función, que es la desigualdad de Jensen para dos puntos: la recta secante consiste en medias ponderadas de la función convexa (para t ∈ [0,1]),
mientras que la gráfica de la función es la función convexa de las medias ponderadas,
This, Jensen 's inequality is
En el contexto de la teoría de la probabilidad, generalmente se expresa de la siguiente forma: si X es una variable aleatoria y φ es una función convexa, entonces
La diferencia entre los dos lados de la desigualdad, E [φ φ ()X)]− − φ φ ()E [X]){displaystyle operatorname {E} left[varphi (X)right]-varphi left(operatorname {E} [X]right)}Se llama la brecha Jensen.
La forma clásica de la desigualdad de Jensen involucra varios números y pesos. La desigualdad se puede establecer de manera bastante general utilizando el lenguaje de la teoría de la medida o (equivalentemente) la probabilidad. En el entorno probabilístico, la desigualdad se puede generalizar aún más a su fuerza total.
Para una función convexa real φ φ {displaystyle varphi }, números x1,x2,...... ,xn{displaystyle x_{1},x_{2},ldotsx_{n} en su dominio, y pesos positivos ai{displaystyle A_{i}, la desigualdad de Jensen se puede decir como:
φ φ ().. aixi.. ai)≤ ≤ .. aiφ φ ()xi).. ai{displaystyle varphi left({frac {sum a_{i}x_{i} {sum a_{i}}right)leq {frac {sum}{i} {i} {i}} {i}}}}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i}i} a_{i}varphi (x_{i}}{sum A_{i}}} | ()1) |
y la desigualdad se revierte si φ φ {displaystyle varphi } es cóncavo, que es
φ φ ().. aixi.. ai)≥ ≥ .. aiφ φ ()xi).. ai.{displaystyle varphi left({frac {sum a_{i}x_{i} {sum a_{i}}right)geq {frac {sum a_{i}varphi (x_{i}}{sum A_{i}}} | ()2) |
La igualdad es si y sólo si x1=x2=⋯ ⋯ =xn{displaystyle x_{1}=x_{2}=cdots =x_{n} o φ φ {displaystyle varphi } es lineal en un dominio que contiene x1,x2,⋯ ⋯ ,xn{displaystyle x_{1},x_{2},cdotsx_{n}.
Como caso particular, si los pesos ai{displaystyle A_{i} son todos iguales, entonces (1) y (2)
φ φ ().. xin)≤ ≤ .. φ φ ()xi)n{displaystyle varphi left({frac {sum ¿Por qué? | ()3) |
φ φ ().. xin)≥ ≥ .. φ φ ()xi)n{displaystyle varphi left({frac {sum {fn} {fn}}}}} | ()4) |
Por ejemplo, la función log(x) es concave, así que sustitución φ φ ()x)=log ()x){displaystyle varphi (x)=log(x)} en la fórmula anterior (4) establece el (logaritmo de la) familiar aritmética-mean/geometric-mean desigualdad:
Una aplicación común tiene x como función de otra variable (o conjunto de variables) t, es decir, xi=g()ti){displaystyle x_{i}=g(t_{i}}. Todo esto lleva directamente al caso continuo general: los pesos ai son reemplazados por una función integradora no negativa f()x), como una distribución de probabilidad, y las sumas son reemplazadas por integrales.
Vamos ()Ω Ω ,A,μ μ ){displaystyle (OmegaA,mu)} ser un espacio de probabilidad. Vamos f:Ω Ω → → R{displaystyle f: Omega to mathbb {R} ser un μ μ {displaystyle mu }- función mensurable y φ φ :R→ → R{displaystyle varphi:mathbb {R} to mathbb {R} Sé convex. Entonces:
En un análisis real, es posible que necesitemos una estimación de
Donde a,b▪ ▪ R{displaystyle a,bin mathbb {R}, y f:: [a,b]→ → R{displaystyle fcolon [a,b]to mathbb {R} es una función no negativa-integrable Lebesgue. En este caso, la medida de Lebesgue [a,b]{displaystyle [a,b]} no necesita ser unidad. Sin embargo, mediante la integración por sustitución, el intervalo puede ser reescalculado para que tenga unidad de medida. Entonces la desigualdad de Jensen se puede aplicar para conseguir
El mismo resultado se puede decir equivalentemente en un entorno de teoría de probabilidad, por un simple cambio de notación. Vamos ()Ω Ω ,F,P){displaystyle (Omega{mathfrak {F},operatorname {P})} ser un espacio de probabilidad, X una variable aleatoria de valor real integrado y φ una función convexa. Entonces:
En este entorno de probabilidad, la medida μ es una probabilidad P{displaystyle operatorname {P}, la integral con respecto a μ como valor esperado E{displaystyle operatorname {E}, y la función f{displaystyle f} como variable aleatoria X.
Tenga en cuenta que la igualdad tiene si y sólo si φ es una función lineal en un conjunto convexo A{displaystyle A} tales que P()X▪ ▪ A)=1{displaystyle mathrm {P} (Xin A)=1} (que sigue inspeccionando la medida-prueba teórica abajo).
Más generalmente, dejar T ser un espacio vectorial topológico real, y X a T-valorada variable aleatoria integrada. En este contexto general, integrador significa que existe un elemento E [X]{displaystyle operatorname {E} [X]} dentro T, tal que para cualquier elemento z en el espacio dual T: <math alttext="{displaystyle operatorname {E} |langle z,Xrangle |E Silencio.. z,X.. Silencio.JUEGO JUEGO {displaystyle operatorname {E} Silenciolangle z,Xrangle<img alt="{displaystyle operatorname {E} |langle z,Xrangle |, y .. z,E [X].. =E [.. z,X.. ]{displaystyle langle z,operatorname {E} [X]rangle =operatorname [langle z,Xrangle]. Entonces, para cualquier función convexa mensurable φ y cualquier sub-σ-algebra G{displaystyle {Mathfrak}} de F{displaystyle {Mathfrak}}:
Aquí. E [⋅ ⋅ ▪ ▪ G]{displaystyle operatorname {E} [cdot mid {mathfrak {G}]} representa la expectativa condicionada al álgebra σ G{displaystyle {Mathfrak}}. Esta declaración general reduce a las anteriores cuando el espacio vectorial topológico T es el eje real, y G{displaystyle {Mathfrak}} es lo trivial σ- álgebra {Acceso, Ω} (donde) ∅ es el conjunto vacío, y Ω es el espacio de muestra).
Vamos X ser una variable aleatoria unidimensional con media μ μ {displaystyle mu } y diferencia σ σ 2≥ ≥ 0{displaystyle sigma ^{2}geq 0}. Vamos φ φ ()x){displaystyle varphi (x)} ser una función dos veces diferente, y definir la función
Entonces
En particular, cuando φ φ ()x){displaystyle varphi (x)} es convexo, entonces φ φ .()x)≥ ≥ 0{displaystyle varphi '(x)geq 0}, y la forma estándar de la desigualdad de Jensen sigue inmediatamente para el caso donde φ φ ()x){displaystyle varphi (x)} se supone que es dos veces diferente.
La desigualdad de Jensen puede probarse de varias maneras, y se ofrecerán tres pruebas diferentes correspondientes a las diferentes declaraciones anteriores. Antes de embarcarse en estas derivaciones matemáticas, sin embargo, vale la pena analizar un argumento gráfico intuitivo basado en el caso probabilístico donde X es un número real (ver figura). Suponiendo una distribución hipotética X valores, uno puede identificar inmediatamente la posición de E [X]{displaystyle operatorname {E} [X]} y su imagen φ φ ()E [X]){displaystyle varphi (operatorname {E} [X])} en el gráfico. Noticing that for convex mappings Y = φ()X) la distribución correspondiente Y los valores son cada vez más "estrezados" para aumentar los valores X, es fácil ver que la distribución de Y es más amplio en el intervalo correspondiente a X ■ X0 y más estrecha en X. X0 para cualquier X0; en particular, esto también es cierto para X0=E [X]{displaystyle X_{0}=operatorname {E} [X]}. En consecuencia, en esta imagen la expectativa de Y siempre cambiará hacia arriba con respecto a la posición de φ φ ()E [X]){displaystyle varphi (operatorname {E} [X])}. Un razonamiento similar sostiene si la distribución de X cubre una porción decreciente de la función convex, o tanto una disminución y una porción creciente de ella. Esto "prueba" la desigualdad, es decir.
con igualdad cuando φ(X) no es estrictamente convexo, p. cuando es una línea recta, o cuando X sigue una distribución degenerada (es decir, es una constante).
Las siguientes pruebas formalizan esta noción intuitiva.
Si λ1 y λ2 son dos números reales no negativos arbitrarios tales que λ1 + λ2 = 1 entonces la convexidad de φ implica
Esto se puede generalizar: si λ1,..., λn son números reales no negativos tales que λ1 +... + λ n = 1, entonces
para cualquier x1,..., xn .
La forma finita de la desigualdad de Jensen se puede probar por inducción: por hipótesis de convexidad, el enunciado es verdadero para n = 2. Supongamos que el enunciado es cierto para algunos n, entonces
for any λ1,..., λn such that λ1 +... + λn = 1.
Uno necesita probarlo para n + 1. Al menos uno de los λi es estrictamente menor que 1{displaystyle 1}, di λn+ 1; por lo tanto, por la desigualdad de convexidad:
Since λ1 +... +λn + λn+1 = 1,
aplicando la hipótesis inductiva se obtiene
por lo tanto
Deducimos que la igualdad es cierta para n + 1, por inducción se deduce que el resultado también es cierto para todos los enteros n mayor que 2.
Para obtener la desigualdad general de esta forma finita, se necesita usar un argumento de densidad. La forma finita se puede reescribir como:
donde μn es una medida dada por una combinación convexa arbitraria de deltas de Dirac:
Dado que las funciones convexas son continuas, y dado que las combinaciones convexas de deltas de Dirac son débilmente densas en el conjunto de medidas de probabilidad (como podría verificarse fácilmente), el enunciado general se obtiene simplemente mediante un procedimiento de limitación.
Vamos g{displaystyle g} ser un valor real μ μ {displaystyle mu }- función integrada en un espacio de probabilidad Ω Ω {displaystyle Omega }, y dejar φ φ {displaystyle varphi } ser una función convexa en los números reales. Desde φ φ {displaystyle varphi } es convex, en cada número real x{displaystyle x} tenemos un conjunto no vacío de subderivativos, que puede ser pensado como líneas que tocan el gráfico de φ φ {displaystyle varphi } a x{displaystyle x}, pero que están debajo del gráfico φ φ {displaystyle varphi } en todos los puntos (líneas de soporte del gráfico).
Ahora, si definimos
por la existencia de subderivativos para funciones convexas, podemos elegir a{displaystyle a} y b{displaystyle b} tales que
para siempre real x{displaystyle x} y
Pero luego tenemos eso
para casi todo ⋅ ⋅ ▪ ▪ Ω Ω {displaystyle omega in Omega }. Puesto que tenemos una medida de probabilidad, la integral es monotona con μ μ ()Ω Ω )=1{displaystyle mu (Omega)=1} así
como desee.
Vamos X ser una variable aleatoria integradora que toma valores en un espacio vectorial topológico real T. Desde φ φ :T→ → R{displaystyle varphi: Tto mathbb {R} es convex, para cualquier x,Sí.▪ ▪ T{displaystyle x,yin T}, la cantidad
está disminuyendo como Silencio enfoques 0+. En particular, subdiferencial de φ φ {displaystyle varphi } evaluados x en la dirección Sí. está bien definido por
Es fácil ver que el subdiferencial es lineal en y (eso es falso y la afirmación requiere el teorema de Hahn-Banach para demostrarse) y, dado que el mínimo tomado en el lado derecho de la fórmula anterior es menor que el valor del mismo término para θ = 1, uno obtiene
In particular, for an arbitrary sub-σ- álgebra G{displaystyle {Mathfrak}} podemos evaluar la última desigualdad cuando x=E [X▪ ▪ G],Sí.=X− − E [X▪ ▪ G]{displaystyle x= {E} [Xmid {mathfrak {G}],,y=X-operatorname {E} [Xmid {fnMithfrak {}] para obtener
Ahora, si tomamos la expectativa condicionada a G{displaystyle {Mathfrak}} en ambos lados de la expresión anterior, obtenemos el resultado desde:
por la linealidad del subdiferencial en la variable y, y la siguiente propiedad bien conocida de la expectativa condicional:
Suppose Ω is a measurable subset of the real line and f(x) is a non-negative function such that
En lenguaje probabilístico, f es una función de densidad de probabilidad.
Did you mean:Then Jensen 's inequality becomes the following statement about convex integrals:
Si g es cualquier función medible de valor real y φ φ {textstyle varphi } es convex sobre el rango de g, entonces
Si g(x) = x, entonces esta forma de desigualdad se reduce a un caso especial de uso común:
Esto se aplica en los métodos bayesianos variacionales.
Si g(x) = x2n, y X es una variable aleatoria, entonces g es convexo como
y así
En particular, si algún momento 2n de X es finito, X tiene una media finita. Una extensión de este argumento muestra X tiene momentos finitos de cada orden l▪ ▪ N{displaystyle lin mathbb {N} división n.
Sea Ω = {x1,... xn}, y tome μ como la medida de conteo en Ω, entonces la forma general se reduce a una declaración sobre sumas:
provided that λi ≥ 0 and
También hay una forma discreta infinita.
Jensen 's inequality is of particular importance in statistical physics when the convex function is an exponential, giving:
where the expected values are with respect to some probability distribution in the random variable X.
Prueba: φ φ ()x)=ex{displaystyle varphi (x)=e^{x} dentro φ φ ()E [X])≤ ≤ E [φ φ ()X)].{displaystyle varphi left(operatorname {E} [X]right)leq operatorname {E} left[varphi (X)right].}
Si p(x) es la verdadera densidad de probabilidad para X, y q(x) es otra densidad, luego aplicando la desigualdad de Jensen para la variable aleatoria Y(X) = q(X)/p(X) y la función convexa φ (y) = −log(y) da
Por lo tanto:
a result called Gibbs ' inequality.
Muestra que la longitud media de los mensajes se minimiza cuando los códigos se asignan sobre la base de las probabilidades reales p en lugar de cualquier otra distribución q. La cantidad que no es negativa se denomina divergencia Kullback-Leibler de q de p.
Dado que −log(x) es una función estrictamente convexa para x > 0, se sigue que la igualdad se cumple cuando p(x) es igual a <span class="texhtml" q(x) en casi todas partes.
Si L es una función convexa y G{displaystyle {Mathfrak}} un sub-sigma-algebra, entonces, de la versión condicional de la desigualdad de Jensen, obtenemos
Entonces, si δ(X) es un estimador de un parámetro no observado θ dado un vector de observables X; y si T(X) es un estadístico suficiente para θ; entonces se puede obtener un estimador mejorado, en el sentido de tener una menor pérdida esperada L, calculando
el valor esperado de δ con respecto a θ, tomado sobre todos los posibles vectores de observaciones X compatible con el mismo valor T()X) como se observó. Además, dado que T es una estadística suficiente, δ δ 1()X){displaystyle delta _{1}(X)} no depende de θ, por lo tanto, se convierte en una estadística.
Este resultado se conoce como el teorema de Rao-Blackwell.
Un método popular para medir el rendimiento de una inversión es la Tasa Interna de Retorno (IRR), que es la tasa por la cual una serie de flujos de efectivo futuros inciertos se descuentan utilizando la Teoría del Valor Presente para generar la suma del efectivo futuro. flujos para igualar la inversión inicial. Si bien es tentador realizar la simulación Monte Carlo de la TIR, la desigualdad de Jensen introduce un sesgo debido al hecho de que la función TIR es una función curva y el operador de expectativa es una función lineal.
49 es el número natural que sigue al 48 y precede al... (leer más)
Ludolph van Ceulen fue un matemático alemán-holandés de Hildesheim. Emigró a los Países... (leer más)
En aeronáutica, la relación de aspecto de un ala es la relación entre su envergadura y su cuerda media. Es igual al cuadrado de la envergadura dividido por... (leer más)