Desigualdad de Chebyshev

Compartir Imprimir Citar

Libra sobre probabilidad de que una variable aleatoria esté lejos de su media

En la teoría de la probabilidad, la desigualdad de Chebyshev (también llamada desigualdad de Bienaymé-Chebyshev) garantiza que, para una amplia clase de distribuciones de probabilidad, no más de una cierta fracción de valores puede estar a más de una cierta distancia de la media. Específicamente, no más de 1/k² de los valores de la distribución pueden estar a k o más desviaciones estándar de la media (o de manera equivalente, al menos 1 − 1/k² de los valores de la distribución están a menos de k desviaciones estándar de la media). La regla a menudo se denomina teorema de Chebyshev, sobre el rango de desviaciones estándar alrededor de la media, en estadística. La desigualdad tiene una gran utilidad porque se puede aplicar a cualquier distribución de probabilidad en la que la media y la varianza estén definidas. Por ejemplo, se puede usar para probar la ley débil de los grandes números.

Su uso práctico es similar a la regla 68–95–99.7, que se aplica solo a las distribuciones normales. La desigualdad de Chebyshev es más general y establece que un mínimo de solo el 75 % de los valores debe estar dentro de dos desviaciones estándar de la media y el 88,89 % dentro de tres desviaciones estándar para una amplia gama de distribuciones de probabilidad diferentes.

El término desigualdad de Chebyshev también puede referirse a la desigualdad de Markov, especialmente en el contexto del análisis. Están estrechamente relacionados, y algunos autores se refieren a la desigualdad de Markov como "primera desigualdad de Chebyshev," y la similar a la que se hace referencia en esta página como "Segunda desigualdad de Chebyshev".

Historia

El teorema lleva el nombre del matemático ruso Pafnuty Chebyshev, aunque fue formulado por primera vez por su amiga y colega Irénée-Jules Bienaymé. El teorema fue declarado por primera vez sin prueba por Bienaymé en 1853 y luego probado por Chebyshev en 1867. Su alumno Andrey Markov proporcionó otra prueba en su Ph.D. de 1884. tesis.

Declaración

La desigualdad de Chebyshev generalmente se establece para variables aleatorias, pero se puede generalizar a una declaración sobre espacios de medida.

Enunciado probabilístico

Sea X (integrable) una variable aleatoria con una varianza finita distinta de cero σ² (y, por lo tanto, un valor esperado finito μ). Entonces, para cualquier número real k > 0,

Pr(|X-mu |geq ksigma)leq {frac {1}{k^{2}}}.

Sólo el caso $1}" xmlns="http://www.w3.org/1998/Math/MathML">k■1{displaystyle k] 1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/5cda43bd4034dc2d04cd562005d0af81d3d2dbc6" style="vertical-align: -0.338ex; width:5.472ex; height:2.176ex;"/>$ es útil. Cuando ${displaystyle kleq 1}$ el lado derecho ${displaystyle {frac {1}{k^{2}}}geq 1}$ y la desigualdad es trivial ya que todas las probabilidades son ≤ 1.

Como ejemplo, usando ${displaystyle k={sqrt {2}}}$ muestra que la probabilidad de que los valores se encuentran fuera del intervalo ${displaystyle (mu -{sqrt {2}}sigmamu +{sqrt {2}}sigma)}$ no exceda ${frac {1}{2}}$ . Equivalentemente, implica que la probabilidad de valores que se encuentran dentro del intervalo (es decir, su "cubrimiento") es al menos ${frac {1}{2}}$ .

Debido a que se puede aplicar a distribuciones completamente arbitrarias siempre que tengan una media finita y una varianza conocidas, la desigualdad generalmente da un límite pobre en comparación con lo que podría deducirse si se conocen más aspectos sobre la distribución involucrada.

k	Mín. % dentro k estándar desviaciones de medios	Max. % más allá k estándar desviaciones de medios
1	0%	100%
√2	50%	50%
1,5	55,56%	44,44%
2	75%	25%
2√2	87,5%	12.5%
3	88.8889%	11.1111%
4	93,75%	6.25%
5	96%	4%
6	97.2222%	2.7778%
7	97,9592%	2.0408%
8	98,4375%	1.5625%
9	98,7654%	1.2346%
10	99%	1%

Enunciado teórico de la medida

Sea (X, Σ, μ) un espacio de medida, y sea f una función medible de valor real extendida definida en X. Entonces para cualquier número real t > 0 y 0 < p < ∞,

{displaystyle mu ({xin X,:,,|f(x)|geq t})leq {1 over t^{p}}int _{|f|geq t}|f|^{p},dmu.}

Más generalmente, si g es una función medible de valor real extendida, no negativa y nómada, con ${displaystyle g(t)neq 0}$ entonces:

mu ({xin X,:,,f(x)geq t})leq {1 over g(t)}int _{X}gcirc f,dmu.

La declaración anterior sigue definiendo $g(x)$ como ${displaystyle |x|^{p}}$ si ${displaystyle xgeq t}$ y ${displaystyle 0}$ De lo contrario.

Ejemplo

Suponga que seleccionamos al azar un artículo de revista de una fuente con un promedio de 1000 palabras por artículo, con una desviación estándar de 200 palabras. Entonces podemos inferir que la probabilidad de que tenga entre 600 y 1400 palabras (es decir, dentro de k = 2 desviaciones estándar de la media) debe ser al menos del 75 %, porque no hay más de 1⁄k²
= 1/4 posibilidad de estar fuera de ese rango, por la desigualdad de Chebyshev. Pero si además sabemos que la distribución es normal, podemos decir que hay un 75 % de posibilidades de que el recuento de palabras esté entre 770 y 1230 (que es un límite aún más estrecho).

Nitidez de los límites

Como se muestra en el ejemplo anterior, el teorema generalmente proporciona límites bastante imprecisos. Sin embargo, estos límites no se pueden mejorar en general (permaneciendo válidos para distribuciones arbitrarias). Los límites son nítidos para el siguiente ejemplo: para cualquier k ≥ 1,

X={begin{cases}-1,&{text{with probability }}{frac {1}{2k^{2}}}\0,&{text{with probability }}1-{frac {1}{k^{2}}}\1,&{text{with probability }}{frac {1}{2k^{2}}}end{cases}}

Para esta distribución, la media μ = 0 y la desviación estándar σ = 1/k , entonces

Pr(|X-mu| ge ksigma) = Pr(|X| ge 1) = frac{1}{k^2}.

La desigualdad de Chebyshev es una igualdad precisamente para aquellas distribuciones que son una transformación lineal de este ejemplo.

Prueba

La desigualdad de Markov establece que para cualquier variable aleatoria de valor real Y y cualquier número positivo a, tenemos Pr(|Y| ≥a) ≤ E(|Y|)/a. Una forma de probar la desigualdad de Chebyshev es aplicar la desigualdad de Markov a la variable aleatoria $Y = (X - μ) 2$ con a = (kσ)²:

{displaystyle Pr(|X-mu |geq ksigma)=Pr((X-mu)^{2}geq k^{2}sigma ^{2})leq {frac {mathbb {E} [(X-mu)^{2}]}{k^{2}sigma ^{2}}}={frac {sigma ^{2}}{k^{2}sigma ^{2}}}={frac {1}{k^{2}}}.}

También se puede probar directamente usando la expectativa condicional:

|X-mu |]Pr[ksigma >|X-mu |]\[5pt]&geq (ksigma)^{2}Pr[ksigma leq |X-mu |]+0cdot Pr[ksigma >|X-mu |]\[5pt]&=k^{2}sigma ^{2}Pr[ksigma leq |X-mu |]end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">σ σ 2=E[()X− − μ μ )2]=E[()X− − μ μ )2▪ ▪ kσ σ ≤ ≤ SilencioX− − μ μ Silencio]Pr[kσ σ ≤ ≤ SilencioX− − μ μ Silencio]+E[()X− − μ μ )2▪ ▪ kσ σ ■SilencioX− − μ μ Silencio]Pr[kσ σ ■SilencioX− − μ μ Silencio]≥ ≥ ()kσ σ )2Pr[kσ σ ≤ ≤ SilencioX− − μ μ Silencio]+0⋅ ⋅ Pr[kσ σ ■SilencioX− − μ μ Silencio]=k2σ σ 2Pr[kσ σ ≤ ≤ SilencioX− − μ μ Silencio]{displaystyle {begin{aligned}sigma ^{2} {E} [X-mu]}[5pt] {E} [X-mu)}msigmacH00]m2}m2}msigmasigmasigmafnunciándose en el mundo de la vida.|X-mu |]Pr[ksigma >|X-mu |]\[5pt]&geq (ksigma)^{2}Pr[ksigma leq |X-mu |]+0cdot Pr[ksigma >|X-mu |]\[5pt]&=k^{2}sigma ^{2}Pr[ksigma leq |X-mu |]end{aligned}}}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c265b19a9b28566a06c42c044b0fd45d6e9aaccc" style="vertical-align: -7.671ex; margin-top: -0.195ex; width:97.78ex; height:16.509ex;"/>

La desigualdad de Chebyshev sigue al dividir por k²σ².

Esta prueba también muestra por qué los límites son bastante flexibles en los casos típicos: la expectativa condicional del evento donde |X − μ| < kσ se desecha, y el límite inferior de k²σ² en el evento |X − μ| ≥ kσ puede ser bastante pobre.

Extensiones

Se han desarrollado varias extensiones de la desigualdad de Chebyshev.

La desigualdad de Selberg

Selberg derivó una generalización a intervalos arbitrarios. Supongamos que X es una variable aleatoria con media μ y varianza σ². La desigualdad de Selberg establece que

{displaystyle Pr(Xin [mu -alphamu +beta ])geq {begin{cases}{frac {alpha ^{2}}{alpha ^{2}+sigma ^{2}}}&{text{if }}alpha (beta -alpha)geq 2sigma ^{2}\{frac {4alpha beta -4sigma ^{2}}{(alpha +beta)^{2}}}&{text{if }}2alpha beta geq sigma ^{2}geq alpha (beta -alpha)\0&sigma ^{2}geq alpha beta end{cases}}}

Cuando $alpha =beta$ Esto reduce la desigualdad de Chebyshev. Estos son conocidos por ser los mejores límites posibles.

Vector de dimensión finita

La desigualdad de Chebyshev se extiende naturalmente a la configuración multivariante, donde uno tiene n variables aleatorias $X i$ con media $μ i$ y varianza σ_i². Entonces se cumple la siguiente desigualdad.

{displaystyle Pr left(sum _{i=1}^{n}(X_{i}-mu _{i})^{2}geq k^{2}sum _{i=1}^{n}sigma _{i}^{2}right)leq {frac {1}{k^{2}}}}

Esto se conoce como la desigualdad de Birnbaum-Raymond-Zuckerman en honor a los autores que la demostraron para dos dimensiones. Este resultado se puede reescribir en términos de vectores $X = (X 1, X 2,...)$ con media $μ = (μ 1, μ 2,...)$ , desviación estándar σ = (σ₁, σ₂,...), en la norma euclidiana $|| \cdot ||$ .

Pr(|X-mu |geq k|sigma |)leq {frac {1}{k^{2}}}.

También se puede obtener una desigualdad de Chebyshev de dimensión infinita similar. Chen también ha derivado una segunda desigualdad relacionada. Sea $n$ la dimensión del vector estocástico $X$ y sea $E(X)$ la media de $X$ . Sea $S$ la matriz de covarianza y $k > 0$ . Entonces

<math alttext="{displaystyle Pr left((X-operatorname {E} (X))^{T}S^{-1}(X-operatorname {E} (X))Pr()()X− − E⁡ ⁡ ()X))TS− − 1()X− − E⁡ ⁡ ()X)).k)≥ ≥ 1− − nk{displaystyle Pr left(X-operatorname {E} (X))^{T}S^{-1}(X-operatorname {E} (X)) madekright)geq 1-{frac {n}{k}}<img alt="{displaystyle Pr left((X-operatorname {E} (X))^{T}S^{-1}(X-operatorname {E} (X))

donde Y^T es la transposición de $Y$ . La desigualdad se puede escribir en términos de la distancia de Mahalanobis como

<math alttext="{displaystyle Pr left(d_{S}^{2}(X,operatorname {E} (X))Pr()dS2()X,E⁡ ⁡ ()X)).k)≥ ≥ 1− − nk{displaystyle Pr left(d_{S}^{2}(X,operatorname {E} (X) madekright)geq 1-{frac {n}{k}}<img alt="{displaystyle Pr left(d_{S}^{2}(X,operatorname {E} (X))

donde la distancia de Mahalanobis basada en S está definida por

{displaystyle d_{S}(x,y)={sqrt {(x-y)^{T}S^{-1}(x-y)}}}

Navarro demostró que estos límites son definidos, es decir, son los mejores límites posibles para esas regiones cuando solo conocemos la media y la matriz de covarianza de X.

Stellato et al. mostró que esta versión multivariante de la desigualdad de Chebyshev se puede derivar fácilmente analíticamente como un caso especial de Vandenberghe et al. donde el límite se calcula resolviendo un programa semidefinido (SDP).

Correlación conocida

Si las variables son independientes, esta desigualdad se puede acentuar.

{displaystyle Pr left(bigcap _{i=1}^{n}{frac {|X_{i}-mu _{i}|}{sigma _{i}}}leq k_{i}right)geq prod _{i=1}^{n}left(1-{frac {1}{k_{i}^{2}}}right)}

Berge derivó una desigualdad para dos variables correlacionadas $X 1, X 2 . Sea ρ el coeficiente de correlación entre X 1 y X 2 y sea σ i 2 la varianza de X i . Entonces$

<math alttext="{displaystyle Pr left(bigcap _{i=1}^{2}left[{frac {|X_{i}-mu _{i}|}{sigma _{i}}}Pr()⋂ ⋂ i=12[SilencioXi− − μ μ iSilencioσ σ i.k])≥ ≥ 1− − 1+1− − *** *** 2k2.{displaystyle Pr left(bigcap _{i=1}^{2}left[{frac Oh, Dios mío. - ¿Por qué? ¿Qué? 1-{frac {1+{sqrt {1-rho - ¿Qué?<img alt="Pr left(bigcap _{i=1}^{2}left[{frac {|X_{i}-mu _{i}|}{sigma _{i}}}

Este resultado se puede agudizar para tener límites diferentes para las dos variables aleatorias y límites asimétricos, como en la desigualdad de Selberg.

Olkin y Pratt derivaron una desigualdad para $n$ variables correlacionadas.

<math alttext="{displaystyle Pr left(bigcap _{i=1}^{n}{frac {|X_{i}-mu _{i}|}{sigma _{i}}}Pr()⋂ ⋂ i=1nSilencioXi− − μ μ iSilencioσ σ i.ki)≥ ≥ 1− − 1n2()u+n− − 1n.. i1ki2− − u)2{displaystyle Pr left(bigcap _{i=1}{n}{n}{frac Oh, Dios mío. _{i}Sobrevivir ¿Qué? {fn} {fn} {fn}} {fn}fn} {fn} {fn} {fn} {fnfn} {fnfn} {fn} {fnfn}} {fnfnfn}}} {fnfnfnfnfnfnfnfn}fnfnfn}fn}}}}fn9}}}fnfnfn9}fnfnfnfn9}}fnfnfnfnfn}}}fnfn9fn9}}fn}}}}}fnn\fn\\fnfn}fn}}fn9}fnfn9}}nfn}fnfn}}}}fn {1}{i}} {2}}} {2}}}}}} {2}}}}} {c}} {c}}} {c}}}}} {c}}}}}} {c}}}} {c}}} {c}}}}} {c}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}} {}}}}} {}}}}}}}}}}}} {}}}}}} {}}}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}}}}} {}}}}}}} {}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}<img alt="{displaystyle Pr left(bigcap _{i=1}^{n}{frac {|X_{i}-mu _{i}|}{sigma _{i}}}

donde la suma se toma sobre las variables n y

<math alttext="{displaystyle u=sum _{i=1}^{n}{frac {1}{k_{i}^{2}}}+2sum _{i=1}^{n}sum _{ju=.. i=1n1ki2+2.. i=1n.. j.i*** *** ijkikj{displaystyle u=sum _{i=1}{n}{frac} {1}{i}}}+2sum ¿Por qué? {fnK} {fnK}}<img alt="u=sum _{i=1}^{n}{frac {1}{k_{i}^{2}}}+2sum _{i=1}^{n}sum _{j

donde $ρ ij$ es la correlación entre $X i$ y $X j .$

La desigualdad de Olkin y Pratt fue posteriormente generalizada por Godwin.

Momentos superiores

Mitzenmacher y Upfal señalan que aplicando la desigualdad de Markov a la variable no negativa ${displaystyle |X-operatorname {E} (X)|^{n}}$ , uno puede conseguir una familia de límites de cola

$0,ngeq 2.}" xmlns="http://www.w3.org/1998/Math/MathML">Pr()SilencioX− − E⁡ ⁡ ()X)Silencio≥ ≥ kE⁡ ⁡ ()SilencioX− − E⁡ ⁡ ()X)Silencion)1n)≤ ≤ 1kn,k■0,n≥ ≥ 2.{displaystyle Pr left(PrinceX-operatorname {E} (X) {fn} {fn} {fn} {fn} {fn}fn}}derecha)leq {frac} {1}{n}}qquad k]0,ngeq 2.}0,ngeq 2." aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/36f8cad2a5fbc5dce5fc138e298afd4c0ed4ac3d" style="vertical-align: -2.005ex; width:64.658ex; height:5.343ex;"/>$

Para n = 2 obtenemos la desigualdad de Chebyshev. Para k ≥ 1, n > 4 y suponiendo que existe el momento n^th, este límite es más estrecho que la desigualdad de Chebyshev. Esta estrategia, llamada método de los momentos, se usa a menudo para demostrar los límites de cola.

Momento exponencial

Una desigualdad relacionada a veces conocida como la desigualdad exponencial de Chebyshev es la desigualdad

$0.}" xmlns="http://www.w3.org/1998/Math/MathML">Pr()X≥ ≥ ε ε )≤ ≤ e− − tε ε E⁡ ⁡ ()etX),t■0.{displaystyle Pr(Xgeq varepsilon)leq e^{-tvarepsilon }operatorname {E} left(e^{tX}right),qquad t título0.}0." aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/71acd20f2cf5b98bc42d7eea8e2991e0c19c61e4" style="vertical-align: -1.005ex; width:36.354ex; height:3.343ex;"/>$

Sea $K (t)$ la función generadora cumulante,

${displaystyle K(t)=log left(operatorname {E} left(e^{tx}right)right).}$

Tomando la transformación de Legendre-Fenchel de $K (t)$ y usando la desigualdad exponencial de Chebyshev tenemos

${displaystyle -log(Pr(Xgeq varepsilon))geq sup _{t}(tvarepsilon -K(t)).}$

Esta desigualdad se puede usar para obtener desigualdades exponenciales para variables ilimitadas.

Variables limitadas

Si P(x) tiene soporte finito basado en el intervalo $[a, b]$ , sea $M = max(| a |, | b |)$ donde |x| es el valor absoluto de $x$ . Si la media de P(x) es cero, entonces para todos los $k > 0$

${frac {operatorname {E} (|X|^{r})-k^{r}}{M^{r}}}leq Pr(|X|geq k)leq {frac {operatorname {E} (|X|^{r})}{k^{r}}}.$

La segunda de estas desigualdades con $r = 2$ es el límite de Chebyshev. El primero proporciona un límite inferior para el valor de P(x).

Muestras finitas

Caso univariado

Saw et al extendió la desigualdad de Chebyshev a casos en los que la media y la varianza de la población no se conocen y pueden no existir, pero la media de la muestra y la desviación estándar de la muestra de N se van a emplear muestras para acotar el valor esperado de un nuevo dibujo de la misma distribución. Kabán da la siguiente versión más simple de esta desigualdad.

${displaystyle P(|X-m|geq ks)leq {frac {1}{N+1}}leftlfloor {frac {N+1}{N}}left({frac {N-1}{k^{2}}}+1right)rightrfloor }$

donde X es una variable aleatoria que hemos muestreado N veces, m es la media de la muestra, k es una constante y s es la desviación estándar de la muestra.

Esta desigualdad se mantiene incluso cuando los momentos de la población no existen, y cuando la muestra está débilmente distribuida de forma intercambiable; este criterio se cumple para el muestreo aleatorio. Konijn ha determinado una tabla de valores para la desigualdad Saw-Yang-Mo para tamaños de muestra finitos (N < 100). La tabla permite el cálculo de varios intervalos de confianza para la media, basados en múltiplos, C, del error estándar de la media calculado a partir de la muestra. Por ejemplo, Konijn muestra que para N = 59, el intervalo de confianza del 95 por ciento para la media m es (m − Cs, m + Cs) donde C = 4,447 × 1,006 = 4,47 (esto es 2,28 veces mayor que el valor encontrado en el supuesto de normalidad que muestra la pérdida de precisión resultante de la ignorancia de la naturaleza precisa de la distribución).

En su lugar, se puede derivar una desigualdad equivalente en términos de la media de la muestra,

${displaystyle P(|X-m|geq km)leq {frac {N-1}{N}}{frac {1}{k^{2}}}{frac {s^{2}}{m^{2}}}+{frac {1}{N}}.}$

Konijn ha determinado una tabla de valores para la desigualdad Saw-Yang-Mo para tamaños de muestra finitos (N < 100).

Para N fijos y m grandes, la desigualdad Saw-Yang-Mo es aproximadamente

${displaystyle P(|X-m|geq ks)leq {frac {1}{N+1}}.}$

Beasley et al han sugerido una modificación de esta desigualdad

${displaystyle P(|X-m|geq ks)leq {frac {1}{k^{2}(N+1)}}.}$

En las pruebas empíricas, esta modificación es conservadora pero parece tener un bajo poder estadístico. Su base teórica permanece actualmente inexplorada.

Dependencia del tamaño de la muestra

Los límites que dan estas desigualdades en una muestra finita son menos estrictos que los que da la desigualdad de Chebyshev para una distribución. Para ilustrar esto, supongamos que el tamaño de la muestra N = 100 y que k = 3. La desigualdad de Chebyshev establece que, como máximo, aproximadamente el 11,11 % de la distribución se encontrará al menos tres desviaciones estándar de la media. La versión de Kabán de la desigualdad para una muestra finita establece que, como máximo, aproximadamente el 12,05 % de la muestra se encuentra fuera de estos límites. La dependencia de los intervalos de confianza en el tamaño de la muestra se ilustra más abajo.

Para N = 10, el intervalo de confianza del 95 % es de aproximadamente ±13,5789 desviaciones estándar.

Para N = 100, el intervalo de confianza del 95 % es de aproximadamente ±4,9595 desviaciones estándar; el intervalo de confianza del 99 % es de aproximadamente ±140,0 desviaciones estándar.

Para N = 500, el intervalo de confianza del 95 % es de aproximadamente ±4,5574 desviaciones estándar; el intervalo de confianza del 99 % es de aproximadamente ±11,1620 desviaciones estándar.

Para N = 1000, los intervalos de confianza del 95 % y el 99 % son aproximadamente ±4,5141 y aproximadamente ±10,5330 desviaciones estándar, respectivamente.

La desigualdad de Chebyshev para la distribución proporciona intervalos de confianza del 95 % y el 99 % de aproximadamente ±4,472 desviaciones estándar y ±10 desviaciones estándar, respectivamente.

La desigualdad de Samuelson

Aunque la desigualdad de Chebyshev es el mejor límite posible para una distribución arbitraria, esto no es necesariamente cierto para muestras finitas. La desigualdad de Samuelson establece que todos los valores de una muestra estarán dentro de √N − 1 desviaciones estándar de la media (con probabilidad uno).

En comparación, la desigualdad de Chebyshev establece que toda la fracción de la muestra, excepto una 1/N, estará dentro de √N desviaciones estándar de la media. Dado que hay N muestras, esto significa que no habrá muestras fuera de √ N desviaciones estándar de la media, que es peor que la desigualdad de Samuelson. Sin embargo, el beneficio de la desigualdad de Chebyshev es que se puede aplicar de manera más general para obtener límites de confianza para rangos de desviaciones estándar que no dependen del número de muestras.

Semivarianzas

Un método alternativo para obtener límites más definidos es mediante el uso de semivarianzas (varianzas parciales). El superior (σ₊²) y el inferior (σ₋²) las semivarianzas se definen como

$m}(x-m)^{2}}{n-1}},}" xmlns="http://www.w3.org/1998/Math/MathML">σ σ +2=.. x■m()x− − m)2n− − 1,{displaystyle sigma ¿Por qué?m}(x-m)^{2}}{n-1}},}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/7810056dc5ba16c8d8fceb63ea1222e7b05c86ed" style="vertical-align: -2.005ex; width:22.841ex; height:6.176ex;"/>$

$<math alttext="{displaystyle sigma _{-}^{2}={frac {sum _{xσ σ − − 2=.. x.m()m− − x)2n− − 1,{displaystyle sigma ¿Qué?<img alt="{displaystyle sigma _{-}^{2}={frac {sum _{x$

donde m es la media aritmética de la muestra y n es el número de elementos de la muestra.

La varianza de la muestra es la suma de las dos semivarianzas:

$sigma ^{2}=sigma _{+}^{2}+sigma _{-}^{2}.$

En términos de la semivarianza inferior, la desigualdad de Chebyshev se puede escribir

$Pr(xleq m-asigma _{-})leq {frac {1}{a^{2}}}.$

Poner

$a={frac {ksigma }{sigma _{-}}}.$

La desigualdad de Chebyshev ahora se puede escribir

$Pr(xleq m-ksigma)leq {frac {1}{k^{2}}}{frac {sigma _{-}^{2}}{sigma ^{2}}}.$

También se puede derivar un resultado similar para la semivarianza superior.

Si ponemos

$sigma _{u}^{2}=max(sigma _{-}^{2},sigma _{+}^{2}),$

La desigualdad de Chebyshev se puede escribir

${displaystyle Pr(|xleq m-ksigma |)leq {frac {1}{k^{2}}}{frac {sigma _{u}^{2}}{sigma ^{2}}}.}$

Debido a que σ_u² ≤ σ², el uso de la semivarianza agudiza la desigualdad original.

Si se sabe que la distribución es simétrica, entonces

$sigma _{+}^{2}=sigma _{-}^{2}={frac {1}{2}}sigma ^{2}$

${displaystyle Pr(xleq m-ksigma)leq {frac {1}{2k^{2}}}.}$

Este resultado concuerda con el obtenido utilizando variables estandarizadas.

Nota: Se ha observado que la desigualdad con la semivariancia inferior es de utilidad para estimar el riesgo de caída en las finanzas y la agricultura.

Caso multivariado

Stellato et al. simplified the notation and extended the empirical Chebyshev inequality from Saw et al. to the multivariate case. Vamos ${textstyle xi in mathbb {R} ^{n_{xi }}}$ ser una variable al azar y dejar ${textstyle Nin mathbb {Z} _{geq n_{xi }}}$ . Dibujimos ${textstyle N+1}$ iid muestras de ${textstyle xi }$ denotado ${textstyle xi ^{(1)},dotsxi ^{(N)},xi ^{(N+1)}in mathbb {R} ^{n_{xi }}}$ . Basado en la primera ${textstyle N}$ muestra, definimos la media empírica como ${textstyle mu _{N}={frac {1}{N}}sum _{i=1}^{N}xi ^{(i)}}$ y la covariancia empírica imparcial como ${textstyle Sigma _{N}={frac {1}{N}}sum _{i=1}^{N}(xi ^{(i)}-mu _{N})(xi ^{(i)}-mu _{N})^{top }}$ . Si ${displaystyle Sigma _{N}}$ es no singular, entonces para todos ${displaystyle lambda in mathbb {R} _{geq 0}}$ entonces

${displaystyle {begin{aligned}&P^{N+1}left((xi ^{(N+1)}-mu _{N})^{top }Sigma _{N}^{-1}(xi ^{(N+1)}-mu _{N})geq lambda ^{2}right)\[8pt]leq {}&min left{1,{frac {1}{N+1}}leftlfloor {frac {n_{xi }(N+1)(N^{2}-1+Nlambda ^{2})}{N^{2}lambda ^{2}}}rightrfloor right}.end{aligned}}}$

Comentarios

En el caso univariado, es decir. ${textstyle n_{xi }=1}$ , esta desigualdad corresponde al de Saw et al. Además, el lado derecho puede ser simplificado por el borde superior de la función del suelo por su argumento

${displaystyle P^{N+1}left((xi ^{(N+1)}-mu _{N})^{top }Sigma _{N}^{-1}(xi ^{(N+1)}-mu _{N})geq lambda ^{2}right)leq min left{1,{frac {n_{xi }(N^{2}-1+Nlambda ^{2})}{N^{2}lambda ^{2}}}right}.}$

As ${textstyle Nto infty }$ , el lado derecho tiende a ${textstyle min left{1,{frac {n_{xi }}{lambda ^{2}}}right}}$ que corresponde a la desigualdad multivariada de Chebyshev sobre elipsoides en forma de acuerdo con ${textstyle Sigma }$ y centrado en ${textstyle mu }$ .

Límites definidos

La desigualdad de Chebyshev es importante debido a su aplicabilidad a cualquier distribución. Como resultado de su generalidad, es posible que no proporcione (y por lo general no lo hace) un límite tan definido como los métodos alternativos que pueden usarse si se conoce la distribución de la variable aleatoria. Para mejorar la nitidez de los límites proporcionados por la desigualdad de Chebyshev, se han desarrollado varios métodos; para una revisión ver por ej.

Desigualdad de Cantelli

La desigualdad de Cantelli debida a Francesco Paolo Cantelli establece que para una variable aleatoria real (X) con media (μ) y varianza (σ ²)

$P(X-mu geq a)leq {frac {sigma ^{2}}{sigma ^{2}+a^{2}}}$

donde a ≥ 0.

Esta desigualdad se puede usar para probar una variante de una cola de la desigualdad de Chebyshev con k > 0

$Pr(X-mu geq ksigma)leq {frac {1}{1+k^{2}}}.$

Se sabe que el límite en la variante de una cola es agudo. Para ver esto considere la variable aleatoria X que toma los valores

$X=1$ con probabilidad ${frac {sigma ^{2}}{1+sigma ^{2}}}$

$X=-sigma ^{2}$ con probabilidad ${frac {1}{1+sigma ^{2}}}.$

Entonces E(X) = 0 y E(X²) = σ² y P(X < 1) = 1 / (1 + σ²).

Una aplicación: distancia entre la media y la mediana

La variante unilateral se puede usar para probar la proposición de que para las distribuciones de probabilidad que tienen un valor esperado y una mediana, la media y la mediana nunca pueden diferir entre sí en más de una desviación estándar. Para expresar esto en símbolos, sean μ, ν y σ respectivamente la media, la mediana y la desviación estándar. Entonces

$left|mu -nu right|leq sigma.$

No hay necesidad de suponer que la varianza es finita porque esta desigualdad es trivialmente verdadera si la varianza es infinita.

La prueba es la siguiente. Establecer k = 1 en el enunciado de la desigualdad unilateral da:

$Pr(X-mu geq sigma)leq {frac {1}{2}}implies Pr(Xgeq mu +sigma)leq {frac {1}{2}}.$

Cambiando el signo de X y de μ, obtenemos

$Pr(Xleq mu -sigma)leq {frac {1}{2}}.$

Puesto que la mediana es por definición cualquier número real m que satisface las desigualdades

${displaystyle operatorname {P} (Xleq m)geq {frac {1}{2}}{text{ and }}operatorname {P} (Xgeq m)geq {frac {1}{2}}}$

Esto implica que la mediana se encuentra dentro de una desviación estándar de la media. También existe una demostración que utiliza la desigualdad de Jensen.

La desigualdad de Bhattacharya

Bhattacharyya extendió la desigualdad de Cantelli usando el tercer y cuarto momento de la distribución.

Sea μ = 0 y σ² la varianza. Sea γ = E(X³)/σ³ y κ = E (X⁴)/σ⁴.

Si k² − kγ − 1 > 0 entonces

$ksigma)leq {frac {kappa -gamma ^{2}-1}{(kappa -gamma ^{2}-1)(1+k^{2})+(k^{2}-kgamma -1)}}.}" xmlns="http://www.w3.org/1998/Math/MathML">P()X■kσ σ )≤ ≤ κ κ − − γ γ 2− − 1()κ κ − − γ γ 2− − 1)()1+k2)+()k2− − kγ γ − − 1).{displaystyle P(X confidencialksigma)leq {frac {kappa -gamma ^{2}-1}{(kappa -gamma ^{2}-1)(1+k^{2})+(k^{2}-kgamma -1)}}}ksigma)leq {frac {kappa -gamma ^{2}-1}{(kappa -gamma ^{2}-1)(1+k^{2})+(k^{2}-kgamma -1)}}." aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1ec262ac74f26c39e09cdf17ccce77b5faca0df5" style="vertical-align: -2.671ex; width:52.391ex; height:6.509ex;"/>$

La necesidad de k² − kγ − 1 > 0 requiere que k sea razonablemente grande.

En el caso ${displaystyle E[X^{3}]=0}$ esto simplifica

$ksigma)leq {frac {kappa -1}{kappa left(k^{2}+1right)-2}}quad {text{for }}k>1.}" xmlns="http://www.w3.org/1998/Math/MathML">P()X■kσ σ )≤ ≤ κ κ − − 1κ κ ()k2+1)− − 2parak■1.{displaystyle P(X confidencialksigma)leq {frac {kappa -1} {kappa left(k^{2}+1right)-2}quad {text{for }k confía1.ksigma)leq {frac {kappa -1}{kappa left(k^{2}+1right)-2}}quad {text{for }}k>1.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/caa9fd81f3a0b9fd9b6c7ed4ea5d7edcbf75d298" style="vertical-align: -2.671ex; width:40.723ex; height:6.009ex;"/>$

Desde ${displaystyle {frac {kappa -1}{kappa left(k^{2}+1right)-2}}={frac {1}{2}}-{frac {kappa (k-1)}{2(kappa -1)}}+Oleft((k-1)^{2}right)}$ para k cerca de 1, este límite mejora ligeramente sobre el límite de Cantelli ${displaystyle {frac {1}{2}}-{frac {k-1}{2}}+Oleft((k-1)^{2}right)}$ como κ ■ 1.

gana un factor 2 sobre la desigualdad de Chebyshev.

Desigualdad de Gauss

En 1823, Gauss demostró que para una distribución con un modo único en cero,

${displaystyle P(|X|geq k)leq {frac {4operatorname {E} (X^{2})}{9k^{2}}}quad {text{if}}quad k^{2}geq {frac {4}{3}}operatorname {E} (X^{2}),}$

${displaystyle P(|X|geq k)leq 1-{frac {k}{{sqrt {3}}operatorname {E} (X^{2})}}quad {text{if}}quad k^{2}leq {frac {4}{3}}operatorname {E} (X^{2}).}$

Desigualdad de Vysochanskij-Petunin

La desigualdad de Vysochanskij-Petunin generaliza la desigualdad de Gauss, que solo se cumple para la desviación de la moda de una distribución unimodal, la desviación de la media o, de manera más general, cualquier centro. Si X es una distribución unimodal con media μ y varianza σ², entonces la desigualdad establece que

${displaystyle P(|X-mu |geq ksigma)leq {frac {4}{9k^{2}}}quad {text{if}}quad kgeq {sqrt {8/3}}=1.633.}$

${displaystyle P(|X-mu |geq ksigma)leq {frac {4}{3k^{2}}}-{frac {1}{3}}quad {text{if}}quad kleq {sqrt {8/3}}.}$

Para las distribuciones unimodales simétricas, la mediana y la moda son iguales, por lo que tanto la desigualdad de Vysochanskij-Petunin como la desigualdad de Gauss se aplican al mismo centro. Además, para distribuciones simétricas, los límites unilaterales se pueden obtener al notar que

${displaystyle P(X-mu geq ksigma)=P(X-mu leq -ksigma)={frac {1}{2}}P(|X-mu |geq ksigma).}$

La fracción adicional de ${displaystyle 4/9}$ presente en estos límites de cola conduce a mejores intervalos de confianza que la desigualdad de Chebyshev. Por ejemplo, para cualquier distribución unimodal simétrica, la desigualdad Vysochanskij-Petunin indica que 4/(9 x 3^2) = 4/81 Ω 4.9% de la distribución se encuentra fuera de 3 desviaciones estándar del modo.

Límites para distribuciones específicas

DasGupta ha demostrado que si se sabe que la distribución es normal

${displaystyle P(|X-mu |geq ksigma)leq {frac {1}{3k^{2}}}.}$

De la desigualdad de DasGupta se deduce que, para una distribución normal, al menos el 95 % se encuentra dentro de aproximadamente 2,582 desviaciones estándar de la media. Esto es menos nítido que la cifra real (aproximadamente 1,96 desviaciones estándar de la media).

DasGupta ha determinado un conjunto de mejores límites posibles para una distribución normal de esta desigualdad.
Steliga y Szynal han extendido estos límites a la distribución de Pareto.
Grechuk et al. desarrollaron un método general para conducir los mejores límites posibles en la desigualdad de Chebyshev para cualquier familia de distribuciones, y cualquier medida de riesgo de desviación en lugar de desviación estándar. En particular, derivaron la desigualdad de Chebyshev para las distribuciones con densidades log-concave.

Desigualdades relacionadas

También se conocen otras desigualdades relacionadas.

Desigualdad de Paley-Zygmund

La desigualdad de Paley-Zygmund da un límite inferior en las probabilidades de cola, a diferencia de la desigualdad de Chebyshev, que da un límite superior. Aplicándolo al cuadrado de una variable aleatoria, obtenemos

$theta {sqrt {E[Z^{2}]}})geq {frac {(1-theta ^{2})^{2}E[Z^{2}]^{2}}{E[Z^{4}]}}.}" xmlns="http://www.w3.org/1998/Math/MathML">Pr()SilencioZSilencio■Silencio Silencio E[Z2])≥ ≥ ()1− − Silencio Silencio 2)2E[Z2]2E[Z4].{displaystyle Pr(principalmenteZ ocultando confianzatheta {sqrt {E[Z^{2}}}})geq {frac {theta ^{2}}} {2}E[Z^{2}}}}{2}{2}{E}{2}} {E}} {}}} {}}}} {f}}}} {f}} [Z^{4}}}}}theta {sqrt {E[Z^{2}]}})geq {frac {(1-theta ^{2})^{2}E[Z^{2}]^{2}}{E[Z^{4}]}}.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/379548a616140013bbe9c638483a5d02a7e1a410" style="vertical-align: -2.671ex; width:40.101ex; height:6.676ex;"/>$

La transformación de Haldane

Un uso de la desigualdad de Chebyshev en aplicaciones es crear intervalos de confianza para variables con una distribución desconocida. Haldane señaló, utilizando una ecuación derivada de Kendall, que si una variable (x) tiene media cero, varianza unitaria y asimetría finita (γ) y curtosis (κ), entonces la variable se puede convertir a una puntuación estándar normalmente distribuida (z):

${displaystyle z=x-{frac {gamma }{6}}(x^{2}-1)+{frac {x}{72}}[2gamma ^{2}(4x^{2}-7)-3kappa (x^{2}-3)]+cdots }$

Esta transformación puede ser útil como alternativa a la desigualdad de Chebyshev o como complemento para derivar intervalos de confianza para variables con distribuciones desconocidas.

Si bien esta transformación puede ser útil para distribuciones moderadamente sesgadas o curtósicas, funciona mal cuando la distribución es marcadamente sesgada o curtósica.

Él, Zhang y la desigualdad de Zhang

Para cualquier colección de $n$ variables aleatorias independientes no negativas $X i$ con expectativa 1

$Pr left({frac {sum _{i=1}^{n}X_{i}}{n}}-1geq {frac {1}{n}}right)leq {frac {7}{8}}.$

Desigualdad integral de Chebyshev

Hay una segunda desigualdad (menos conocida) que también lleva el nombre de Chebyshev

Si f, g: [a, b] → R son dos funciones monótonas de la misma monotonicidad, entonces

${displaystyle {frac {1}{b-a}}int _{a}^{b}!f(x)g(x),dxgeq left[{frac {1}{b-a}}int _{a}^{b}!f(x),dxright]left[{frac {1}{b-a}}int _{a}^{b}!g(x),dxright].}$

Si f y g son de monotonicidad opuesta, entonces la desigualdad anterior funciona de manera inversa.

Esta desigualdad está relacionada con la desigualdad de Jensen, la desigualdad de Kantorovich, la desigualdad de Hermite-Hadamard y la conjetura de Walter.

Otras desigualdades

También hay una serie de otras desigualdades asociadas con Chebyshev:

La desigualdad suma de Chebyshev
Chebyshev–Markov–Stieltjes desigualdades

Te puede interesar
Aritmética modular
(leer más)
Te puede interesar
Abraham de Moivre
(leer más)
Te puede interesar
Conjunto abierto
(leer más)
Más resultados...