Aritmética modular
(leer más)
En la teoría de la probabilidad, la desigualdad de Chebyshev (también llamada desigualdad de Bienaymé-Chebyshev) garantiza que, para una amplia clase de distribuciones de probabilidad, no más de una cierta fracción de valores puede estar a más de una cierta distancia de la media. Específicamente, no más de 1/k2 de los valores de la distribución pueden estar a k o más desviaciones estándar de la media (o de manera equivalente, al menos 1 − 1/k2 de los valores de la distribución están a menos de k desviaciones estándar de la media). La regla a menudo se denomina teorema de Chebyshev, sobre el rango de desviaciones estándar alrededor de la media, en estadística. La desigualdad tiene una gran utilidad porque se puede aplicar a cualquier distribución de probabilidad en la que la media y la varianza estén definidas. Por ejemplo, se puede usar para probar la ley débil de los grandes números.
Su uso práctico es similar a la regla 68–95–99.7, que se aplica solo a las distribuciones normales. La desigualdad de Chebyshev es más general y establece que un mínimo de solo el 75 % de los valores debe estar dentro de dos desviaciones estándar de la media y el 88,89 % dentro de tres desviaciones estándar para una amplia gama de distribuciones de probabilidad diferentes.
El término desigualdad de Chebyshev también puede referirse a la desigualdad de Markov, especialmente en el contexto del análisis. Están estrechamente relacionados, y algunos autores se refieren a la desigualdad de Markov como "primera desigualdad de Chebyshev," y la similar a la que se hace referencia en esta página como "Segunda desigualdad de Chebyshev".
El teorema lleva el nombre del matemático ruso Pafnuty Chebyshev, aunque fue formulado por primera vez por su amiga y colega Irénée-Jules Bienaymé. El teorema fue declarado por primera vez sin prueba por Bienaymé en 1853 y luego probado por Chebyshev en 1867. Su alumno Andrey Markov proporcionó otra prueba en su Ph.D. de 1884. tesis.
La desigualdad de Chebyshev generalmente se establece para variables aleatorias, pero se puede generalizar a una declaración sobre espacios de medida.
Sea X (integrable) una variable aleatoria con una varianza finita distinta de cero σ2 (y, por lo tanto, un valor esperado finito μ). Entonces, para cualquier número real k > 0,
Sólo el caso 1}" xmlns="http://www.w3.org/1998/Math/MathML">k■1{displaystyle k] 1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/5cda43bd4034dc2d04cd562005d0af81d3d2dbc6" style="vertical-align: -0.338ex; width:5.472ex; height:2.176ex;"/> es útil. Cuando k≤ ≤ 1{displaystyle kleq 1} el lado derecho 1k2≥ ≥ 1{displaystyle {frac}{2}gq 1} y la desigualdad es trivial ya que todas las probabilidades son ≤ 1.
Como ejemplo, usando k=2{displaystyle k={sqrt {2}} muestra que la probabilidad de que los valores se encuentran fuera del intervalo ()μ μ − − 2σ σ ,μ μ +2σ σ ){displaystyle (mu -{sqrt {2}sigmamu +{sqrt {2}sigma)} no exceda 12{fnMicroc} {1}{2}}}. Equivalentemente, implica que la probabilidad de valores que se encuentran dentro del intervalo (es decir, su "cubrimiento") es al menos 12{fnMicroc} {1}{2}}}.
Debido a que se puede aplicar a distribuciones completamente arbitrarias siempre que tengan una media finita y una varianza conocidas, la desigualdad generalmente da un límite pobre en comparación con lo que podría deducirse si se conocen más aspectos sobre la distribución involucrada.
k | Mín. % dentro k estándar desviaciones de medios | Max. % más allá k estándar desviaciones de medios |
---|---|---|
1 | 0% | 100% |
√2 | 50% | 50% |
1,5 | 55,56% | 44,44% |
2 | 75% | 25% |
2√2 | 87,5% | 12.5% |
3 | 88.8889% | 11.1111% |
4 | 93,75% | 6.25% |
5 | 96% | 4% |
6 | 97.2222% | 2.7778% |
7 | 97,9592% | 2.0408% |
8 | 98,4375% | 1.5625% |
9 | 98,7654% | 1.2346% |
10 | 99% | 1% |
Sea (X, Σ, μ) un espacio de medida, y sea f una función medible de valor real extendida definida en X. Entonces para cualquier número real t > 0 y 0 < p < ∞,
Más generalmente, si g es una función medible de valor real extendida, no negativa y nómada, con g()t)ل ل 0{displaystyle g(t)neq 0} entonces:
La declaración anterior sigue definiendo g()x){displaystyle g(x)} como SilencioxSilenciop{displaystyle Silencioso si x≥ ≥ t{displaystyle xgeq t} y 0{displaystyle 0} De lo contrario.
Suponga que seleccionamos al azar un artículo de revista de una fuente con un promedio de 1000 palabras por artículo, con una desviación estándar de 200 palabras. Entonces podemos inferir que la probabilidad de que tenga entre 600 y 1400 palabras (es decir, dentro de k = 2 desviaciones estándar de la media) debe ser al menos del 75 %, porque no hay más de 1⁄k2
= 1/4 posibilidad de estar fuera de ese rango, por la desigualdad de Chebyshev. Pero si además sabemos que la distribución es normal, podemos decir que hay un 75 % de posibilidades de que el recuento de palabras esté entre 770 y 1230 (que es un límite aún más estrecho).
Como se muestra en el ejemplo anterior, el teorema generalmente proporciona límites bastante imprecisos. Sin embargo, estos límites no se pueden mejorar en general (permaneciendo válidos para distribuciones arbitrarias). Los límites son nítidos para el siguiente ejemplo: para cualquier k ≥ 1,
Para esta distribución, la media μ = 0 y la desviación estándar σ = 1/k , entonces
La desigualdad de Chebyshev es una igualdad precisamente para aquellas distribuciones que son una transformación lineal de este ejemplo.
La desigualdad de Markov establece que para cualquier variable aleatoria de valor real Y y cualquier número positivo a, tenemos Pr(|Y| ≥a) ≤ E(|Y|)/a. Una forma de probar la desigualdad de Chebyshev es aplicar la desigualdad de Markov a la variable aleatoria Y = (X − μ)2 con a = (kσ)2:
También se puede probar directamente usando la expectativa condicional:
La desigualdad de Chebyshev sigue al dividir por k2σ2.
Esta prueba también muestra por qué los límites son bastante flexibles en los casos típicos: la expectativa condicional del evento donde |X − μ| < kσ se desecha, y el límite inferior de k2σ2 en el evento |X − μ| ≥ kσ puede ser bastante pobre.
Se han desarrollado varias extensiones de la desigualdad de Chebyshev.
Selberg derivó una generalización a intervalos arbitrarios. Supongamos que X es una variable aleatoria con media μ y varianza σ2. La desigualdad de Selberg establece que
Cuando α α =β β {displaystyle alpha =beta }Esto reduce la desigualdad de Chebyshev. Estos son conocidos por ser los mejores límites posibles.
La desigualdad de Chebyshev se extiende naturalmente a la configuración multivariante, donde uno tiene n variables aleatorias Xi con media μi y varianza σi2. Entonces se cumple la siguiente desigualdad.
Esto se conoce como la desigualdad de Birnbaum-Raymond-Zuckerman en honor a los autores que la demostraron para dos dimensiones. Este resultado se puede reescribir en términos de vectores X = (X1, X2,...) con media μ = (μ 1, μ2,...), desviación estándar σ = (σ1, σ2,...), en la norma euclidiana || ⋅ ||.
También se puede obtener una desigualdad de Chebyshev de dimensión infinita similar. Chen también ha derivado una segunda desigualdad relacionada. Sea n la dimensión del vector estocástico X y sea E(X) la media de X. Sea S la matriz de covarianza y k > 0. Entonces
donde YT es la transposición de Y. La desigualdad se puede escribir en términos de la distancia de Mahalanobis como
donde la distancia de Mahalanobis basada en S está definida por
Navarro demostró que estos límites son definidos, es decir, son los mejores límites posibles para esas regiones cuando solo conocemos la media y la matriz de covarianza de X.
Stellato et al. mostró que esta versión multivariante de la desigualdad de Chebyshev se puede derivar fácilmente analíticamente como un caso especial de Vandenberghe et al. donde el límite se calcula resolviendo un programa semidefinido (SDP).
Si las variables son independientes, esta desigualdad se puede acentuar.
Berge derivó una desigualdad para dos variables correlacionadas X1, X2. Sea ρ el coeficiente de correlación entre X1 y X2 y sea σi2 la varianza de Xi. Entonces
Este resultado se puede agudizar para tener límites diferentes para las dos variables aleatorias y límites asimétricos, como en la desigualdad de Selberg.
Olkin y Pratt derivaron una desigualdad para n variables correlacionadas.
donde la suma se toma sobre las variables n y
donde ρij es la correlación entre Xi y Xj.
La desigualdad de Olkin y Pratt fue posteriormente generalizada por Godwin.
Mitzenmacher y Upfal señalan que aplicando la desigualdad de Markov a la variable no negativa SilencioX− − E ()X)Silencion{fnMicrosoft Sans Serif}, uno puede conseguir una familia de límites de cola
Para n = 2 obtenemos la desigualdad de Chebyshev. Para k ≥ 1, n > 4 y suponiendo que existe el momento nth, este límite es más estrecho que la desigualdad de Chebyshev. Esta estrategia, llamada método de los momentos, se usa a menudo para demostrar los límites de cola.
Una desigualdad relacionada a veces conocida como la desigualdad exponencial de Chebyshev es la desigualdad
Sea K(t) la función generadora cumulante,
Tomando la transformación de Legendre-Fenchel de K(t) y usando la desigualdad exponencial de Chebyshev tenemos
Esta desigualdad se puede usar para obtener desigualdades exponenciales para variables ilimitadas.
Si P(x) tiene soporte finito basado en el intervalo [a, b], sea M = max(|a|, |b|) donde |x| es el valor absoluto de x. Si la media de P(x) es cero, entonces para todos los k > 0
La segunda de estas desigualdades con r = 2 es el límite de Chebyshev. El primero proporciona un límite inferior para el valor de P(x).
Saw et al extendió la desigualdad de Chebyshev a casos en los que la media y la varianza de la población no se conocen y pueden no existir, pero la media de la muestra y la desviación estándar de la muestra de N se van a emplear muestras para acotar el valor esperado de un nuevo dibujo de la misma distribución. Kabán da la siguiente versión más simple de esta desigualdad.
donde X es una variable aleatoria que hemos muestreado N veces, m es la media de la muestra, k es una constante y s es la desviación estándar de la muestra.
Esta desigualdad se mantiene incluso cuando los momentos de la población no existen, y cuando la muestra está débilmente distribuida de forma intercambiable; este criterio se cumple para el muestreo aleatorio. Konijn ha determinado una tabla de valores para la desigualdad Saw-Yang-Mo para tamaños de muestra finitos (N < 100). La tabla permite el cálculo de varios intervalos de confianza para la media, basados en múltiplos, C, del error estándar de la media calculado a partir de la muestra. Por ejemplo, Konijn muestra que para N = 59, el intervalo de confianza del 95 por ciento para la media m es (m − Cs, m + Cs) donde C = 4,447 × 1,006 = 4,47 (esto es 2,28 veces mayor que el valor encontrado en el supuesto de normalidad que muestra la pérdida de precisión resultante de la ignorancia de la naturaleza precisa de la distribución).
En su lugar, se puede derivar una desigualdad equivalente en términos de la media de la muestra,
Konijn ha determinado una tabla de valores para la desigualdad Saw-Yang-Mo para tamaños de muestra finitos (N < 100).
Para N fijos y m grandes, la desigualdad Saw-Yang-Mo es aproximadamente
Beasley et al han sugerido una modificación de esta desigualdad
En las pruebas empíricas, esta modificación es conservadora pero parece tener un bajo poder estadístico. Su base teórica permanece actualmente inexplorada.
Los límites que dan estas desigualdades en una muestra finita son menos estrictos que los que da la desigualdad de Chebyshev para una distribución. Para ilustrar esto, supongamos que el tamaño de la muestra N = 100 y que k = 3. La desigualdad de Chebyshev establece que, como máximo, aproximadamente el 11,11 % de la distribución se encontrará al menos tres desviaciones estándar de la media. La versión de Kabán de la desigualdad para una muestra finita establece que, como máximo, aproximadamente el 12,05 % de la muestra se encuentra fuera de estos límites. La dependencia de los intervalos de confianza en el tamaño de la muestra se ilustra más abajo.
Para N = 10, el intervalo de confianza del 95 % es de aproximadamente ±13,5789 desviaciones estándar.
Para N = 100, el intervalo de confianza del 95 % es de aproximadamente ±4,9595 desviaciones estándar; el intervalo de confianza del 99 % es de aproximadamente ±140,0 desviaciones estándar.
Para N = 500, el intervalo de confianza del 95 % es de aproximadamente ±4,5574 desviaciones estándar; el intervalo de confianza del 99 % es de aproximadamente ±11,1620 desviaciones estándar.
Para N = 1000, los intervalos de confianza del 95 % y el 99 % son aproximadamente ±4,5141 y aproximadamente ±10,5330 desviaciones estándar, respectivamente.
La desigualdad de Chebyshev para la distribución proporciona intervalos de confianza del 95 % y el 99 % de aproximadamente ±4,472 desviaciones estándar y ±10 desviaciones estándar, respectivamente.
Aunque la desigualdad de Chebyshev es el mejor límite posible para una distribución arbitraria, esto no es necesariamente cierto para muestras finitas. La desigualdad de Samuelson establece que todos los valores de una muestra estarán dentro de √N − 1 desviaciones estándar de la media (con probabilidad uno).
En comparación, la desigualdad de Chebyshev establece que toda la fracción de la muestra, excepto una 1/N, estará dentro de √N desviaciones estándar de la media. Dado que hay N muestras, esto significa que no habrá muestras fuera de √ N desviaciones estándar de la media, que es peor que la desigualdad de Samuelson. Sin embargo, el beneficio de la desigualdad de Chebyshev es que se puede aplicar de manera más general para obtener límites de confianza para rangos de desviaciones estándar que no dependen del número de muestras.
Un método alternativo para obtener límites más definidos es mediante el uso de semivarianzas (varianzas parciales). El superior (σ+2) y el inferior (σ− 2) las semivarianzas se definen como
donde m es la media aritmética de la muestra y n es el número de elementos de la muestra.
La varianza de la muestra es la suma de las dos semivarianzas:
En términos de la semivarianza inferior, la desigualdad de Chebyshev se puede escribir
Poner
La desigualdad de Chebyshev ahora se puede escribir
También se puede derivar un resultado similar para la semivarianza superior.
Si ponemos
La desigualdad de Chebyshev se puede escribir
Debido a que σu2 ≤ σ2, el uso de la semivarianza agudiza la desigualdad original.
Si se sabe que la distribución es simétrica, entonces
y
Este resultado concuerda con el obtenido utilizando variables estandarizadas.
Stellato et al. simplified the notation and extended the empirical Chebyshev inequality from Saw et al. to the multivariate case. Vamos .. ▪ ▪ Rn.. {textstyle xi in mathbb {R} } ser una variable al azar y dejar N▪ ▪ Z≥ ≥ n.. {textstyle Nin mathbb {Z} _{gq n_{xi} }. Dibujimos N+1{textstyle N+1} iid muestras de .. {textstyle xi } denotado .. ()1),...... ,.. ()N),.. ()N+1)▪ ▪ Rn.. {textstyle xi ^{(1)},dotsxi ^{(N)},xi ^{(N+1)}in mathbb {R} }. Basado en la primera N{textstyle N} muestra, definimos la media empírica como μ μ N=1N.. i=1N.. ()i){textstyle mu - ¿Qué? {1}{N}sum} ¿Qué? y la covariancia empírica imparcial como .. N=1N.. i=1N().. ()i)− − μ μ N)().. ()i)− − μ μ N)⊤ ⊤ {textstyle Sigma _{N}={frac {1}{N}sum} ¿Por qué?. Si .. N{displaystyle Sigma _{N} es no singular, entonces para todos λ λ ▪ ▪ R≥ ≥ 0{displaystyle lambda in mathbb {R} _{geq # entonces
En el caso univariado, es decir. n.. =1################################################################################################################################################################################################################################################################ }=1}, esta desigualdad corresponde al de Saw et al. Además, el lado derecho puede ser simplificado por el borde superior de la función del suelo por su argumento
As N→ → JUEGO JUEGO {textstyle Nto infty, el lado derecho tiende a min{}1,n.. λ λ 2}{textstyle min left{1,{frac {n_{xi }{lambda } {}} {}} {fn}}} {fn}} {fn}}}}} {fn}}}} {fn}}}}} {fn}}}} {fn}}}}}} {fn}}}}}}} {fn}}}}}}} { que corresponde a la desigualdad multivariada de Chebyshev sobre elipsoides en forma de acuerdo con .. {textstyle Sigma } y centrado en μ μ {textstyle mu }.
La desigualdad de Chebyshev es importante debido a su aplicabilidad a cualquier distribución. Como resultado de su generalidad, es posible que no proporcione (y por lo general no lo hace) un límite tan definido como los métodos alternativos que pueden usarse si se conoce la distribución de la variable aleatoria. Para mejorar la nitidez de los límites proporcionados por la desigualdad de Chebyshev, se han desarrollado varios métodos; para una revisión ver por ej.
La desigualdad de Cantelli debida a Francesco Paolo Cantelli establece que para una variable aleatoria real (X) con media (μ) y varianza (σ 2)
donde a ≥ 0.
Esta desigualdad se puede usar para probar una variante de una cola de la desigualdad de Chebyshev con k > 0
Se sabe que el límite en la variante de una cola es agudo. Para ver esto considere la variable aleatoria X que toma los valores
Entonces E(X) = 0 y E(X2) = σ2 y P(X < 1) = 1 / (1 + σ2).
La variante unilateral se puede usar para probar la proposición de que para las distribuciones de probabilidad que tienen un valor esperado y una mediana, la media y la mediana nunca pueden diferir entre sí en más de una desviación estándar. Para expresar esto en símbolos, sean μ, ν y σ respectivamente la media, la mediana y la desviación estándar. Entonces
No hay necesidad de suponer que la varianza es finita porque esta desigualdad es trivialmente verdadera si la varianza es infinita.
La prueba es la siguiente. Establecer k = 1 en el enunciado de la desigualdad unilateral da:
Cambiando el signo de X y de μ, obtenemos
Puesto que la mediana es por definición cualquier número real m que satisface las desigualdades
Esto implica que la mediana se encuentra dentro de una desviación estándar de la media. También existe una demostración que utiliza la desigualdad de Jensen.
Bhattacharyya extendió la desigualdad de Cantelli usando el tercer y cuarto momento de la distribución.
Sea μ = 0 y σ2 la varianza. Sea γ = E(X3)/σ3 y κ = E (X4)/σ4.
Si k2 − kγ − 1 > 0 entonces
La necesidad de k2 − kγ − 1 > 0 requiere que k sea razonablemente grande.
En el caso E[X3]=0{displaystyle E[X^{3}=0} esto simplifica
Desde κ κ − − 1κ κ ()k2+1)− − 2=12− − κ κ ()k− − 1)2()κ κ − − 1)+O()()k− − 1)2){displaystyle {frac {kappa -1} {kappa left(k^{2}+1right)}={ Frac {1}{2}-{frac {kappa (k-1)}{2(kappa -1)}+Oleft(k-1)^{2}right)} para k cerca de 1, este límite mejora ligeramente sobre el límite de Cantelli 12− − k− − 12+O()()k− − 1)2){displaystyle {frac}{2}-{frac} {k-1}{2}+Oleft(k-1)^{2}right)} como κ ■ 1.
gana un factor 2 sobre la desigualdad de Chebyshev.
En 1823, Gauss demostró que para una distribución con un modo único en cero,
La desigualdad de Vysochanskij-Petunin generaliza la desigualdad de Gauss, que solo se cumple para la desviación de la moda de una distribución unimodal, la desviación de la media o, de manera más general, cualquier centro. Si X es una distribución unimodal con media μ y varianza σ2, entonces la desigualdad establece que
Para las distribuciones unimodales simétricas, la mediana y la moda son iguales, por lo que tanto la desigualdad de Vysochanskij-Petunin como la desigualdad de Gauss se aplican al mismo centro. Además, para distribuciones simétricas, los límites unilaterales se pueden obtener al notar que
La fracción adicional de 4/9{displaystyle 4/9} presente en estos límites de cola conduce a mejores intervalos de confianza que la desigualdad de Chebyshev. Por ejemplo, para cualquier distribución unimodal simétrica, la desigualdad Vysochanskij-Petunin indica que 4/(9 x 3^2) = 4/81 Ω 4.9% de la distribución se encuentra fuera de 3 desviaciones estándar del modo.
DasGupta ha demostrado que si se sabe que la distribución es normal
De la desigualdad de DasGupta se deduce que, para una distribución normal, al menos el 95 % se encuentra dentro de aproximadamente 2,582 desviaciones estándar de la media. Esto es menos nítido que la cifra real (aproximadamente 1,96 desviaciones estándar de la media).
También se conocen otras desigualdades relacionadas.
La desigualdad de Paley-Zygmund da un límite inferior en las probabilidades de cola, a diferencia de la desigualdad de Chebyshev, que da un límite superior. Aplicándolo al cuadrado de una variable aleatoria, obtenemos
Un uso de la desigualdad de Chebyshev en aplicaciones es crear intervalos de confianza para variables con una distribución desconocida. Haldane señaló, utilizando una ecuación derivada de Kendall, que si una variable (x) tiene media cero, varianza unitaria y asimetría finita (γ) y curtosis (κ), entonces la variable se puede convertir a una puntuación estándar normalmente distribuida (z):
Esta transformación puede ser útil como alternativa a la desigualdad de Chebyshev o como complemento para derivar intervalos de confianza para variables con distribuciones desconocidas.
Si bien esta transformación puede ser útil para distribuciones moderadamente sesgadas o curtósicas, funciona mal cuando la distribución es marcadamente sesgada o curtósica.
Para cualquier colección de n variables aleatorias independientes no negativas Xi con expectativa 1
Hay una segunda desigualdad (menos conocida) que también lleva el nombre de Chebyshev
Si f, g: [a, b] → R son dos funciones monótonas de la misma monotonicidad, entonces
Si f y g son de monotonicidad opuesta, entonces la desigualdad anterior funciona de manera inversa.
Esta desigualdad está relacionada con la desigualdad de Jensen, la desigualdad de Kantorovich, la desigualdad de Hermite-Hadamard y la conjetura de Walter.
También hay una serie de otras desigualdades asociadas con Chebyshev:
(leer más)
(leer más)
(leer más)