Desigualdad de Markov
En la teoría de la probabilidad, la desigualdad de Markov proporciona un límite superior para la probabilidad de que una función no negativa de una variable aleatoria sea mayor o igual que alguna constante positiva. Lleva el nombre del matemático ruso Andrey Markov, aunque apareció antes en el trabajo de Pafnuty Chebyshev (maestro de Markov), y muchas fuentes, especialmente en el análisis, se refieren a ella como la desigualdad de Chebyshev (a veces, llamándola la primera desigualdad de Chebyshev, mientras que se refiere a la desigualdad de Chebyshev como la segunda desigualdad de Chebyshev) o desigualdad de Bienaymé.
La desigualdad de Markov (y otras desigualdades similares) relacionan las probabilidades con las expectativas y proporcionan límites (frecuentemente imprecisos pero aún útiles) para la función de distribución acumulativa de una variable aleatoria.
Declaración
Si X es una variable aleatoria no negativa y a > 0, entonces la probabilidad que X es al menos a es como máximo la expectativa de X dividida por a:
- P ()X≥ ≥ a)≤ ≤ E ()X)a.{displaystyle operatorname {P}(Xgeq a)leq {frac {operatorname {E}{a}}}}}
Vamos a=a~ ~ ⋅ ⋅ E ()X){displaystyle a={tilde {a}cdot operatorname {E} (X)} (donde) 0}" xmlns="http://www.w3.org/1998/Math/MathML">a~ ~ ■0{displaystyle {tilde {a} {fnK}} {fnMicrosoft}} {fnMicrosoft}}}} {fnK}}}0}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/a9f75812b542a4ab9205a6b5983c887ea43029ca" style="vertical-align: -0.338ex; width:5.491ex; height:2.176ex;"/>); entonces podemos reescribir la desigualdad anterior como
- P ()X≥ ≥ a~ ~ ⋅ ⋅ E ()X))≤ ≤ 1a~ ~ .{displaystyle operatorname {P} (Xgeq {tilde {a}cdot operatorname {E} (X))leq {frac {1}{tilde {a}}}}
En el lenguaje de la teoría de la medida, la desigualdad de Markov afirma que si ()X,μ) es un espacio de medida, f{displaystyle f} es una función de valor real ampliable, y ε ■ 0, entonces
- μ μ (){}x▪ ▪ X:Silenciof()x)Silencio≥ ≥ ε ε })≤ ≤ 1ε ε ∫ ∫ XSilenciofSilenciodμ μ .{displaystyle mu ({xin X: preservef(x) Hola.
Esta definición teórica de la medida a veces se denomina desigualdad de Chebyshev.
Versión extendida para funciones no decrecientes
Si φ es una función no negativa no decreciente, X es una variable aleatoria (no necesariamente no negativa), y φ(a) > 0, entonces
- P ()X≥ ≥ a)≤ ≤ E ()φ φ ()X))φ φ ()a).{displaystyle operatorname {P} {xgeq a)leq {frac {fnMicroc}{varphi (X)}{varphi (a)}}}
Un corolario inmediato, usando momentos más altos de X admitidos en valores mayores que 0, es
- P ()SilencioXSilencio≥ ≥ a)≤ ≤ E ()SilencioXSilencion)an.{displaystyle operatorname {P} (Principiox sobrevivientegeq a)leq {frac {operatorname {E} {fn}}{a^{n}}}}}}
Pruebas
Separamos el caso en el que el espacio de medida es un espacio de probabilidad del caso más general porque el caso de probabilidad es más accesible para el lector general.
Intuición
<math alttext="{displaystyle operatorname {E} (X)=operatorname {P} (X<a)cdot operatorname {E} (X|XE ()X)=P ()X.a)⋅ ⋅ E ()XSilencioX.a)+P ()X≥ ≥ a)⋅ ⋅ E ()XSilencioX≥ ≥ a){displaystyle operatorname {E} (X)=operatorname {P} (Xtraducido)cdot operatorname {E} (X sometidaX)+operatorname {P} (Xgeq a)cdot operatorname {E} (X sometidaXgeq a)}<img alt="{displaystyle operatorname {E} (X)=operatorname {P} (X<a)cdot operatorname {E} (X|X Donde <math alttext="{displaystyle operatorname {E} (X|XE ()XSilencioX.a){displaystyle operatorname {E} (X sometidaX hizo)}<img alt="{displaystyle operatorname {E} (X|X es mayor o igual a 0 como la variable aleatoria X{displaystyle X} no negativo y E ()XSilencioX≥ ≥ a){displaystyle operatorname {E} (X sometidaXgeq a)} es mayor o igual a a{displaystyle a} porque la expectativa condicional sólo tiene en cuenta valores mayores o iguales a{displaystyle a} que r.v. X{displaystyle X} puede tomar.
Por lo tanto intuitivamente E ()X)≥ ≥ P ()X≥ ≥ a)⋅ ⋅ E ()XSilencioX≥ ≥ a)≥ ≥ a⋅ ⋅ P ()X≥ ≥ a){displaystyle operatorname {E} (X)geq operatorname {P} (Xgeq a)cdot operatorname {E} (X sometidaXgeq a)gq acdot operatorname {P} (Xgeq a)}}, que conduce directamente a P ()X≥ ≥ a)≤ ≤ E ()X)a{displaystyle operatorname {P}(Xgeq a)leq {frac {fone {f}{a}}}}} {fn}}}}.
Probabilidad-demostración teórica
Método 1: De la definición de expectativa:
- E ()X)=∫ ∫ − − JUEGO JUEGO JUEGO JUEGO xf()x)dx{displaystyle operatorname {E} (X)=int _{-infty }{infty }xf(x),dx}
Sin embargo, X es una variable aleatoria no negativa, por lo tanto,
- E ()X)=∫ ∫ − − JUEGO JUEGO JUEGO JUEGO xf()x)dx=∫ ∫ 0JUEGO JUEGO xf()x)dx{displaystyle operatorname {E} (X)=int _{-infty }{infty }xf(x),dx=int _{0}{infty }xf(x),dx}
De esto podemos derivar,
- E ()X)=∫ ∫ 0axf()x)dx+∫ ∫ aJUEGO JUEGO xf()x)dx≥ ≥ ∫ ∫ aJUEGO JUEGO xf()x)dx≥ ≥ ∫ ∫ aJUEGO JUEGO af()x)dx=a∫ ∫ aJUEGO JUEGO f()x)dx=aPr ()X≥ ≥ a){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f}gnMicrosoft Sans Serif} {f}fnMicrosoft Sans Serif} (Xgeq a)}
Desde aquí, dividiendo por a{displaystyle a} nos permite ver que
- Pr()X≥ ≥ a)≤ ≤ E ()X)/a{displaystyle Pr(Xgeq a)leq operatorname {E} (X)/a}
Método 2:Para cualquier evento E{displaystyle E}, vamos IE{displaystyle Yo... ser la variable aleatoria del indicador E{displaystyle E}, es decir, IE=1{displaystyle I_{E}=1} si E{displaystyle E} ocurre y IE=0{displaystyle I_{E}=0} De lo contrario.
Usando esta notación, tenemos I()X≥ ≥ a)=1{displaystyle I_{(Xgeq a)}=1} si el evento X≥ ≥ a{displaystyle Xgeq a} ocurre, y I()X≥ ≥ a)=0{displaystyle I_{(Xgeq a)}=0} si <math alttext="{displaystyle XX.a{displaystyle X<img alt="{displaystyle X. Entonces, dado 0}" xmlns="http://www.w3.org/1998/Math/MathML">a■0{displaystyle a confía0}0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1f34a80ea013edb56e340b19550430a8b6dfd7b9" style="vertical-align: -0.338ex; width:5.491ex; height:2.176ex;"/>,
- aI()X≥ ≥ a)≤ ≤ X{displaystyle aI_{(Xgeq a)}leq X}
que es claro si consideramos los dos posibles valores X≥ ≥ a{displaystyle Xgeq a}. Si <math alttext="{displaystyle XX.a{displaystyle X<img alt="{displaystyle X, entonces I()X≥ ≥ a)=0{displaystyle I_{(Xgeq a)}=0}, y así aI()X≥ ≥ a)=0≤ ≤ X{displaystyle aI_{(Xgeq a)}=0leq X.. De lo contrario, tenemos X≥ ≥ a{displaystyle Xgeq a}, por el cual IX≥ ≥ a=1{displaystyle I_{Xgeq a}=1} y así aIX≥ ≥ a=a≤ ≤ X{displaystyle aI_{Xgeq a}=aleq X}.
Desde E{displaystyle operatorname {E} es una función monotonicamente creciente, la expectativa de ambos lados de una desigualdad no puede revertirla. Por lo tanto,
- E ()aI()X≥ ≥ a))≤ ≤ E ()X).{displaystyle operatorname {E} (aI_{(Xgeq a)})leq operatorname {E} (X).}
Ahora, usando la linealidad de las expectativas, el lado izquierdo de esta desigualdad es el mismo que
- <math alttext="{displaystyle aoperatorname {E} (I_{(Xgeq a)})=a(1cdot operatorname {P} (Xgeq a)+0cdot operatorname {P} (XaE ()I()X≥ ≥ a))=a()1⋅ ⋅ P ()X≥ ≥ a)+0⋅ ⋅ P ()X.a))=aP ()X≥ ≥ a).{displaystyle aoperatorname {E} (I_{(Xgeq a)})=a(1cdot operatorname {P} (Xgeq a)+0cdot operatorname {P} (X se hizo)=un 'operadorname {P} (Xgeq a).}<img alt="{displaystyle aoperatorname {E} (I_{(Xgeq a)})=a(1cdot operatorname {P} (Xgeq a)+0cdot operatorname {P} (X
Así tenemos
- aP ()X≥ ≥ a)≤ ≤ E ()X){displaystyle aoperatorname {P} (Xgeq a)leq operatorname {E} (X)}
y desde a > 0, podemos dividir ambos lados por a.
Demostración teórica de la medida
Podemos asumir que la función f{displaystyle f} es no negativo, ya que sólo su valor absoluto entra en la ecuación. Ahora, considere la función de valor real s on X dado por
- <math alttext="{displaystyle s(x)={begin{cases}varepsilon&{text{if }}f(x)geq varepsilon \0,&{text{if }}f(x)s()x)={}ε ε ,sif()x)≥ ≥ ε ε 0,sif()x).ε ε {displaystyle s(x)={begin{cases}varepsilon limit {text{if }f(x)geq varepsilon \0, limit{text{if }f(x) interpretadovarepsilonend{cases}}}}}}}<img alt=" s(x) = begin{cases} varepsilon, & text{if } f(x) geq varepsilon \ 0, & text{if } f(x)
Entonces... 0≤ ≤ s()x)≤ ≤ f()x){displaystyle 0leq s(x)leq f(x)}. Por la definición de la Lebesgue integral
- ∫ ∫ Xf()x)dμ μ ≥ ≥ ∫ ∫ Xs()x)dμ μ =ε ε μ μ (){}x▪ ▪ X:f()x)≥ ≥ ε ε }){displaystyle int _{X}f(x),dmugeqint _{X}s(x),dmu =varepsilon mu ({xin X:,f(x)geq varepsilon})}}
y desde 0}" xmlns="http://www.w3.org/1998/Math/MathML">ε ε ■0{displaystyle varepsilon }0 " aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/e04ec3670b50384a3ce48aca42e7cc5131a06b12" style="vertical-align: -0.338ex; width:5.344ex; height:2.176ex;"/>, ambos lados pueden dividirse ε ε {displaystyle varepsilon }, obtención
- μ μ (){}x▪ ▪ X:f()x)≥ ≥ ε ε })≤ ≤ 1ε ε ∫ ∫ Xfdμ μ .{displaystyle mu ({xin X:,f(x)geq varepsilon })leq {1 over varepsilon }int _{X}f,dmu.}
Corolarios
La desigualdad de Chebyshev
La desigualdad de Chebyshev usa la varianza para limitar la probabilidad de que una variable aleatoria se desvíe lejos de la media. Específicamente,
- P ()SilencioX− − E ()X)Silencio≥ ≥ a)≤ ≤ Var ()X)a2,{displaystyle operatorname {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicroc {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft}}} {f}}
para cualquier a > 0. Aquí Var(X) es la varianza de X, definida como:
- Var ()X)=E [()X− − E ()X))2].{displaystyle operatorname (X)=operatorname {E} [(X-operatorname {E} (X)^{2}].}
La desigualdad de Chebyshev se deriva de la desigualdad de Markov considerando la variable aleatoria
- ()X− − E ()X))2{displaystyle (X-operatorname {E} (X)}{2}
y la constante a2,{displaystyle a^{2},} por lo que la desigualdad de Markov lee
- P ()()X− − E ()X))2≥ ≥ a2)≤ ≤ Var ()X)a2.{displaystyle operatorname (X-operatorname) [E} (X)^{2}geq a^{2})leq {frac {operatorname {fnMicrosoft Sans Serif}
Este argumento se puede resumir (donde "MI" indica el uso de la desigualdad de Markov):
- P ()SilencioX− − E ()X)Silencio≥ ≥ a)=P ()()X− − E ()X))2≥ ≥ a2)≤ ≤ MIE ()()X− − E ()X))2)a2=Var ()X)a2.{displaystyle operatorname {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft} {fnMicros} {fnMicrosoft ] {f} {fnMicrosoft} {f} {f} {f}fnMicrosoft}fnMicrosoft}f} {f} {fnMicrosoft}}f} {f} {f}fnMicrosoft}fnMicrosoft}}f}f}f}fnMicrosoft}fnKf}fnMicrosoft}fnMicrosoft}fnMicrosoft}f} {fnMicrosoft}fnMicrosoft}fnMicrosoft} {f}f}f}f}f}fn
Otros corolarios
- El resultado "monotónico" puede ser demostrado por:
- P ()SilencioXSilencio≥ ≥ a)=P ()φ φ ()SilencioXSilencio)≥ ≥ φ φ ()a))≤ ≤ MIE ()φ φ ()SilencioXSilencio))φ φ ()a){displaystyle operatorname {P} {bigncip]begnuncio {big}varphi (Principalmente)geqvarphi (a){big)},{ncipiente {nMincipio {m} {}{}{i}}{fnMincipiente {fnMincipiente}}}} {f}}}}}}}}}} {fnMincipiente {fnMinMinMinMinMinMinMinMincipiente {fnMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMincipo)
- El resultado es que, para una variable aleatoria no negativa X, la función cuantitativa de X satisfizo:
- QX()1− − p)≤ ≤ E ()X)p,{displaystyle Q_{X}(1-p)leq {fracoperatorname {E} {E}{p}}}}}
- la prueba usando
- p≤ ≤ P ()X≥ ≥ QX()1− − p))≤ ≤ MIE ()X)QX()1− − p).{displaystyle pleq operatorname {P}(Xgeq Q_{X}(1-p)),{overset {compset {mathrm {MI}{}{leq }},{frac {operatorname {E} {E}{Q_{X}}}}} {E} {E} {E}}{Q_{X}} {E}} {E} {E}} {E}} {E}} {cH} {cH}}} {cH}} {cH}} {c}}}} {cH00}}}}}}} {c}}}}}}}}}}} {cH}}}}} {cccc}}}}}}}}}}}}}}}}} {cH} {ccH}}}}}}}}}}}}} {cccccH}} {cH}} {cH}}}}}}}}}}}}} {cH}}}}}}}}}}}}}}}}}}}}} {cH}}}}}}}}}}}}}}}}}}} {c
- Vamos M⪰ ⪰ 0{displaystyle Msucceq 0} ser una variable aleatoria autoadjunta valorada por matriz y a ■ 0. Entonces...
- P ()M⋠ ⋠ a⋅ ⋅ I)≤ ≤ tr ()E()M))na.{displaystyle operatorname {P} (Mnpreceq acdot I)leq {frac {operatorname {tr} left(E(M)right)}{na}}}
- se puede mostrar de una manera similar.
Ejemplos
Suponiendo que ningún ingreso sea negativo, la desigualdad de Markov muestra que no más de 1/5 de la población puede tener más de 5 veces el ingreso promedio.
Contenido relacionado
Acuerdos de Helsinki
Lorenzo hargrave
Destructor de bombarderos