Ley de los grandes números

Compartir Imprimir Citar

En la teoría de la probabilidad, la ley de los grandes números (LGN o LLN por sus siglas en inglés de Law of large numbers) es un teorema que describe el resultado de realizar el mismo experimento un gran número de veces. De acuerdo con la ley, el promedio de los resultados obtenidos de un gran número de ensayos debe estar cerca del valor esperado y tiende a acercarse al valor esperado a medida que se realizan más ensayos.

El LLN es importante porque garantiza resultados estables a largo plazo para los promedios de algunos eventos aleatorios. Por ejemplo, mientras que un casino puede perder dinero en un solo giro de la rueda de la ruleta, sus ganancias tenderán a un porcentaje predecible en un gran número de giros. Cualquier racha ganadora de un jugador eventualmente será superada por los parámetros del juego. Es importante destacar que la ley se aplica (como su nombre lo indica) solo cuando se considera una gran cantidad de observaciones. No existe el principio de que un pequeño número de observaciones coincidirá con el valor esperado o de que una racha de un valor será inmediatamente "equilibrada" por los demás (ver la falacia del jugador).

También es importante tener en cuenta que el LLN solo se aplica al promedio. Por lo tanto, mientras

{displaystyle lim _{nto infty }sum _{i=1}^{n}{frac {X_{i}}{n}}={overline {X}}}

otras fórmulas que parecen similares no se verifican, como la desviación bruta de los "resultados teóricos":

{displaystyle sum _{i=1}^{n}X_{i}-ntimes {overline {X}}}

no sólo no converge hacia cero a medida que n aumenta, sino que tiende a aumentar en valor absoluto a medida que n aumenta.

Ejemplos

Por ejemplo, una sola tirada de un dado justo de seis caras produce uno de los números 1, 2, 3, 4, 5 o 6, cada uno con la misma probabilidad. Por tanto, el valor esperado de la media de los rollos es:

{displaystyle {frac{1+2+3+4+5+6}{6}}=3,5}

De acuerdo con la ley de los grandes números, si se lanza una gran cantidad de dados de seis caras, es probable que el promedio de sus valores (a veces denominado media muestral) se acerque a 3,5, y la precisión aumenta a medida que se lanzan más dados.

De la ley de los grandes números se sigue que la probabilidad empírica de éxito en una serie de pruebas de Bernoulli convergerá a la probabilidad teórica. Para una variable aleatoria de Bernoulli, el valor esperado es la probabilidad teórica de éxito, y el promedio de n de tales variables (asumiendo que son independientes e idénticamente distribuidas (iid)) es precisamente la frecuencia relativa.

Por ejemplo, un lanzamiento justo de una moneda es una prueba de Bernoulli. Cuando se lanza una moneda al aire una vez, la probabilidad teórica de que el resultado sea cara es igual a 12. Por lo tanto, según la ley de los grandes números, la proporción de caras en un "gran" número de lanzamientos de moneda "debería ser" aproximadamente 12. En particular, la proporción de caras después de n lanzamientos casi seguramente convergerá a 12 cuando n se acerque al infinito.

Aunque la proporción de caras (y cruces) se aproxima a 12, es casi seguro que la diferencia absoluta en el número de caras y cruces será mayor a medida que aumente el número de lanzamientos. Es decir, la probabilidad de que la diferencia absoluta sea un número pequeño se aproxima a cero a medida que aumenta el número de lanzamientos. Además, es casi seguro que la relación entre la diferencia absoluta y el número de lanzamientos se acercará a cero. Intuitivamente, la diferencia esperada crece, pero a un ritmo más lento que el número de lanzamientos.

Otro buen ejemplo del LLN es el método Monte Carlo. Estos métodos son una amplia clase de algoritmos computacionales que se basan en muestreos aleatorios repetidos para obtener resultados numéricos. Cuanto mayor sea el número de repeticiones, mejor tiende a ser la aproximación. La razón por la que este método es importante es principalmente porque, a veces, es difícil o imposible utilizar otros enfoques.

Limitación

El promedio de los resultados obtenidos de un gran número de ensayos puede no converger en algunos casos. Por ejemplo, el promedio de n resultados tomados de la distribución de Cauchy o de algunas distribuciones de Pareto (α<1) no convergerán a medida que n se hace más grande; la razón es colas pesadas. La distribución de Cauchy y la distribución de Pareto representan dos casos: la distribución de Cauchy no tiene expectativa, mientras que la expectativa de la distribución de Pareto (α<1) es infinita. Una forma de generar el ejemplo distribuido de Cauchy es donde los números aleatorios son iguales a la tangente de un ángulo distribuido uniformemente entre −90° y +90°. La mediana es cero, pero el valor esperado no existe, y de hecho el promedio de ntales variables tienen la misma distribución que una de esas variables. No converge en probabilidad hacia cero (o cualquier otro valor) cuando n tiende a infinito.

Y si los ensayos incorporan un sesgo de selección, típico del comportamiento económico/racional humano, la ley de los grandes números no ayuda a resolver el sesgo. Incluso si se aumenta el número de ensayos, el sesgo de selección permanece.

Historia

El matemático italiano Gerolamo Cardano (1501-1576) afirmó sin pruebas que la precisión de las estadísticas empíricas tiende a mejorar con el número de intentos. Luego se formalizó como una ley de los grandes números. Jacob Bernoulli probó por primera vez una forma especial del LLN (para una variable aleatoria binaria). Le tomó más de 20 años desarrollar una prueba matemática suficientemente rigurosa que se publicó en su Ars Conjectandi (El arte de conjeturar) en 1713. Llamó a esto su "Teorema de oro", pero se conoció generalmente como " teorema de Bernoulli ". Esto no debe confundirse con el principio de Bernoulli, llamado así por el sobrino de Jacob Bernoulli, Daniel Bernoulli. En 1837, SD Poisson lo describió con el nombre de"la loi des grands nombres" ("la ley de los grandes números"). A partir de entonces, se conoció con ambos nombres, pero la "ley de los grandes números" se usa con mayor frecuencia.

Después de que Bernoulli y Poisson publicaran sus esfuerzos, otros matemáticos también contribuyeron al refinamiento de la ley, incluidos Chebyshev, Markov, Borel, Cantelli, Kolmogorov y Khinchin. Markov demostró que la ley puede aplicarse a una variable aleatoria que no tiene una varianza finita bajo alguna otra suposición más débil, y Khinchin demostró en 1929 que si la serie consta de variables aleatorias independientes distribuidas de manera idéntica, basta con que exista el valor esperado para la variable aleatoria. ley débil de los grandes números sea cierta.Estos estudios adicionales han dado lugar a dos formas destacadas de la LLN. Una se denomina ley "débil" y la otra ley "fuerte", en referencia a dos modos diferentes de convergencia de las medias muestrales acumulativas al valor esperado; en particular, como se explica más adelante, la forma fuerte implica la débil.

Formularios

Hay dos versiones diferentes de la ley de los grandes números que se describen a continuación. Se les llama ley fuerte de los grandes números y ley débil de los grandes números. Indicado para el caso donde X 1, X 2,... es una secuencia infinita de variables aleatorias integrables de Lebesgue independientes e idénticamente distribuidas (iid) con valor esperado E(X 1) = E(X 2) =...= µ, ambas versiones de la ley establecen que, con virtual certeza, el promedio de la muestra

{displaystyle {overline {X}}_{n}={frac {1}{n}}(X_{1}+cdots +X_{n})}

converge al valor esperado:

{displaystyle {overline {X}}_{n}to mu quad {textrm {as}} nto infty.}(1)

(La integrabilidad de Lebesgue de X j significa que el valor esperado E(X j) existe según la integración de Lebesgue y es finito. No significa que la medida de probabilidad asociada sea absolutamente continua con respecto a la medida de Lebesgue).

Los textos introductorios de probabilidad a menudo asumen una varianza finita idéntica nombre del operador {Var} (X_{i})=sigma ^{2}(para todos i) y ninguna correlación entre las variables aleatorias. En ese caso, la varianza del promedio de n variables aleatorias es

{displaystyle operatorname {Var} ({overline {X}}_{n})=operatorname {Var} ({tfrac {1}{n}}(X_{1}+cdots +X_{n }))={frac {1}{n^{2}}}nombre del operador {Var} (X_{1}+cdots +X_{n})={frac {nsigma ^{2}} {n^{2}}}={frac{sigma^{2}}{n}}.}

que se puede utilizar para acortar y simplificar las demostraciones. Esta suposición de varianza finita no es necesaria. Una varianza grande o infinita hará que la convergencia sea más lenta, pero el LLN se mantiene de todos modos.

La independencia mutua de las variables aleatorias puede ser reemplazada por independencia por pares o intercambiabilidad en ambas versiones de la ley.

La diferencia entre la versión fuerte y la débil tiene que ver con el modo de convergencia que se afirma. Para la interpretación de estos modos, consulte Convergencia de variables aleatorias.

Ley débil

La ley débil de los grandes números (también llamada ley de Khinchin) establece que el promedio de la muestra converge en probabilidad hacia el valor esperado

{displaystyle {begin{matrix}{}\{overline {X}}_{n} {xrightarrow {P}} mu qquad {textrm {cuando}} nto infty.\{}end{matriz}}}(2)

Es decir, para cualquier número positivo ε,

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/aa7282cd85c15acdfb0372de2ab4eddd9123214d" alt="{displaystyle lim _{nto infty }Pr !left(,|{overline {X}}_{n}-mu |

Interpretando este resultado, la ley débil establece que para cualquier margen distinto de cero especificado (ε), por pequeño que sea, con una muestra suficientemente grande habrá una probabilidad muy alta de que el promedio de las observaciones se acerque al valor esperado; es decir, dentro del margen.

Como se mencionó anteriormente, la ley débil se aplica en el caso de variables aleatorias iid, pero también se aplica en algunos otros casos. Por ejemplo, la varianza puede ser diferente para cada variable aleatoria de la serie, manteniendo constante el valor esperado. Si las varianzas están acotadas, entonces se aplica la ley, como lo demostró Chebyshev ya en 1867. (Si los valores esperados cambian durante la serie, entonces simplemente podemos aplicar la ley a la desviación promedio de los respectivos valores esperados. La ley entonces establece que esto converge en probabilidad a cero.) De hecho, la prueba de Chebyshev funciona siempre que la varianza del promedio de los primeros n valores llegue a cero cuando n tiende a infinito.Como ejemplo, suponga que cada variable aleatoria de la serie sigue una distribución gaussiana con media cero, pero con varianza igual a {displaystyle 2n/log(n+1)}, que no está acotada. En cada etapa, el promedio se distribuirá normalmente (como el promedio de un conjunto de variables normalmente distribuidas). La varianza de la suma es igual a la suma de las varianzas, que es asintótica a {displaystyle n^{2}/log n}. Por lo tanto, la varianza del promedio es asintótica { estilo de visualización 1/ registro n}y tiende a cero.

También hay ejemplos de aplicación de la ley débil aunque el valor esperado no exista.

Ley fuerte

La ley fuerte de los grandes números (también llamada ley de Kolmogorov) establece que el promedio de la muestra converge casi con seguridad al valor esperado

{displaystyle {begin{matrix}{}\{overline {X}}_{n} xrightarrow {text{as}}  mu qquad {textrm {cuando}} nto infty.\{}end{matriz}}}(3)

Es decir,

{displaystyle Pr !left(lim _{nto infty }{overline {X}}_{n}=mu right)=1.}

Lo que esto significa es que la probabilidad de que, a medida que el número de intentos n tiende a infinito, el promedio de las observaciones converja al valor esperado, es igual a uno. La demostración moderna de la ley fuerte es más compleja que la de la ley débil y se basa en pasar a una subsecuencia apropiada.

La ley fuerte de los grandes números puede verse como un caso especial del teorema ergódico puntual. Esta vista justifica la interpretación intuitiva del valor esperado (solo para la integración de Lebesgue) de una variable aleatoria cuando se muestrea repetidamente como el "promedio a largo plazo".

La Ley 3 se llama la ley fuerte porque se garantiza que las variables aleatorias que convergen fuertemente (casi con seguridad) convergerán débilmente (en probabilidad). Sin embargo, se sabe que la ley débil se cumple en ciertas condiciones en las que la ley fuerte no se cumple y entonces la convergencia es solo débil (en probabilidad). Ver #Diferencias entre la ley débil y la ley fuerte.

La ley fuerte se aplica a variables aleatorias independientes idénticamente distribuidas que tienen un valor esperado (como la ley débil). Esto fue probado por Kolmogorov en 1930. También puede aplicarse en otros casos. Kolmogorov también demostró, en 1933, que si las variables son independientes e idénticamente distribuidas, entonces para que el promedio converja casi con seguridad en algo (esto puede considerarse otro enunciado de la ley fuerte), es necesario que tengan un valor esperado (y luego, por supuesto, el promedio convergerá casi con seguridad en eso).

Si los sumandos son independientes pero no idénticos distribuidos, entonces

{displaystyle {begin{matrix}{}\{overline {X}}_{n}-operatorname {E} {big [}{overline {X}}_{n}{big ] } xrightarrow {text{como}}  0,\{}end{matriz}}}(2)

siempre que cada X k tenga un segundo momento finito y

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/849940f493b14c4f019c225b494d3afcc1b6ca29" alt="{displaystyle sum _{k=1}^{infty }{frac {1}{k^{2}}}operatorname {Var} [X_{k}]

Este enunciado se conoce como la ley fuerte de Kolmogorov, véase, por ejemplo, Sen & Singer (1993, Teorema 2.3.10).

Diferencias entre la ley débil y la ley fuerte

La ley débil establece que para un n grande especificado, es probable que el promedio {overline {X}}_{n}esté cerca de μ. Así, deja abierta la posibilidad de que varepsilon">suceda un número infinito de veces, aunque en intervalos poco frecuentes. (No necesariamente {displaystyle |{overline {X}}_{n}-mu |neq 0}para todo n).

La ley fuerte muestra que esto casi seguramente no ocurrirá. Tenga en cuenta que no implica que con probabilidad 1, tenemos que para cualquier ε > 0 la desigualdad <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/51afeb452715e1bbc148a8e223062caf8d7071c3" alt="|{overline {X}}_{n}-mu |se cumple para todo n lo suficientemente grande, ya que la convergencia no es necesariamente uniforme en el conjunto donde se cumple.

La ley fuerte no se cumple en los siguientes casos, pero la ley débil sí.

  1. Sea X una variable aleatoria distribuida exponencialmente con parámetro 1. La variable aleatoria {displaystyle sin(X)e^{X}X^{-1}}no tiene un valor esperado según la integración de Lebesgue, pero utilizando la convergencia condicional e interpretando la integral como una integral de Dirichlet, que es una integral de Riemann impropia, podemos decir:{displaystyle Eleft({frac {sin(X)e^{X}}{X}}right)= int _{0}^{infty }{frac {sin(x)e^{x}}{x}}e^{-x}dx={frac {pi }{2}}}
  2. Sea x una distribución geométrica con probabilidad 0.5. La variable aleatoria { estilo de visualización 2^{X}(-1)^{X}X^{-1}}no tiene un valor esperado en el sentido convencional porque la serie infinita no es absolutamente convergente, pero usando la convergencia condicional, podemos decir:{displaystyle Eleft({frac {2^{X}(-1)^{X}}{X}}right)= sum _{1}^{infty }{frac {2 ^{x}(-1)^{x}}{x}}2^{-x}=-ln(2)}
  3. Si la función de distribución acumulativa de una variable aleatoria es{displaystyle {begin{cases}1-F(x)&={frac {e}{2xln(x)}},&xgeq e\F(x)&={frac {e }{-2xln(-x)}},&xleq -eend{casos}}}entonces no tiene valor esperado, pero la ley débil es verdadera.
  4. Sea X k más o menos (comenzando con k{displaystyle {sqrt {k/log log log k}}} suficientemente grande para que el denominador sea positivo) con una probabilidad de 12 para cada uno. La varianza de X k es entonces la ley fuerte de Kolmogorov no se aplica porque la suma parcial en su criterio hasta k = n es asintótica y esto no está acotado. Si reemplazamos las variables aleatorias con variables gaussianas que tienen las mismas varianzas, es decir, entonces el promedio en cualquier punto también se distribuirá normalmente. El ancho de la distribución del promedio tenderá hacia cero (desviación estándar asintótica a{displaystyle k/log log log k.}{ estilo de visualización  log n/ log  log  log n}{displaystyle {sqrt {k/log log log k}}}{displaystyle 1/{sqrt {2log log log n}}}), pero para un ε dado, existe una probabilidad que no llega a cero con n, mientras que el promedio en algún momento después de la n -ésima prueba volverá a ε. Dado que el ancho de la distribución del promedio no es cero, debe tener un límite inferior positivo p (ε), lo que significa que existe una probabilidad de al menos p (ε) de que el promedio alcance ε después de n intentos. Sucederá con probabilidad p (ε)/2 antes de algún m que depende de n. Pero incluso después de m, todavía hay una probabilidad de al menos p (ε) de que suceda. (Esto parece indicar que p (ε)=1 y el promedio alcanzará ε un número infinito de veces).

Ley uniforme de los grandes números

Supongamos que f (x, θ) es alguna función definida para θ ∈ Θ, y continua en θ. Entonces, para cualquier θ fijo, la secuencia { f (X 1, θ), f (X 2, θ),...} será una secuencia de variables aleatorias independientes e idénticamente distribuidas, tal que la media muestral de esta secuencia converge en probabilidad a E[ f (X, θ)]. Esta es la convergencia puntual (en θ).

La ley uniforme de los grandes números establece las condiciones bajo las cuales la convergencia ocurre uniformemente en θ. Si

  1. Θ es compacto,
  2. f (x, θ) es continua en cada θ ∈ Θ para casi todas las x s, y es una función medible de x en cada θ.
  3. existe una función dominante d (x) tal que E[ d (X)] < ∞, y{displaystyle left|f(x,theta)right|leq d(x)quad {text{para todos}} theta in Theta.}

Entonces E[ f (X, θ)] es continua en θ, y

{displaystyle sup _{theta in Theta }left|{frac {1}{n}}sum _{i=1}^{n}f(X_{i},theta) -nombre del operador {E} [f(X,theta)]right|xrightarrow {mathrm {mathbb {P} } }  0.}

Este resultado es útil para derivar la consistencia de una gran clase de estimadores (ver Estimador Extremum).

Ley de Borel de los grandes números

La ley de los grandes números de Borel, llamada así por Émile Borel, establece que si un experimento se repite un gran número de veces, independientemente bajo condiciones idénticas, entonces la proporción de veces que ocurre un evento especificado es aproximadamente igual a la probabilidad de que ocurra en cualquier evento en particular. ensayo; cuanto mayor es el número de repeticiones, mejor tiende a ser la aproximación. Más precisamente, si E denota el evento en cuestión, p su probabilidad de ocurrencia, y N n (E) el número de veces que E ocurre en los primeros n intentos, entonces con probabilidad uno,

{displaystyle {frac {N_{n}(E)}{n}}to p{text{ as }}nto infty.}

Este teorema hace rigurosa la noción intuitiva de probabilidad como la frecuencia relativa a largo plazo de la ocurrencia de un evento. Es un caso especial de cualquiera de varias leyes más generales de los grandes números en la teoría de la probabilidad.

La desigualdad de Chebyshev. Sea X una variable aleatoria con un valor esperado finito μ y una varianza σ finita distinta de cero. Entonces, para cualquier número real k > 0,

{displaystyle Pr(|X-mu |geq ksigma)leq {frac {1}{k^{2}}}.}

Prueba de la ley débil

Dada X 1, X 2,... una secuencia infinita de variables aleatorias iid con valor esperado finito <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/88845308c97251d8af2d8f9f70d35428ed8c21eb" alt="{displaystyle E(X_{1})=E(X_{2})=cdots =mu , estamos interesados ​​en la convergencia del promedio muestral

{displaystyle {overline {X}}_{n}={tfrac {1}{n}}(X_{1}+cdots +X_{n}).}

La ley débil de los grandes números establece:

{displaystyle {begin{matrix}{}\{overline {X}}_{n} {xrightarrow {P}} mu qquad {textrm {cuando}} nto infty.\{}end{matriz}}}(2)

Prueba usando la desigualdad de Chebyshev asumiendo una varianza finita

Esta prueba utiliza el supuesto de varianza finita nombre del operador {Var} (X_{i})=sigma ^{2}(para todo i). La independencia de las variables aleatorias implica que no hay correlación entre ellas, y tenemos que

{displaystyle operatorname {Var} ({overline {X}}_{n})=operatorname {Var} ({tfrac {1}{n}}(X_{1}+cdots +X_{n }))={frac {1}{n^{2}}}nombre del operador {Var} (X_{1}+cdots +X_{n})={frac {nsigma ^{2}} {n^{2}}}={frac{sigma^{2}}{n}}.}

La media común μ de la secuencia es la media del promedio muestral:

{displaystyle E({overline {X}}_{n})=mu.}

Usando la desigualdad de Chebyshev en los {overline {X}}_{n}resultados en

{displaystyle operatorname {P} (left|{overline {X}}_{n}-mu right|geq varepsilon)leq {frac {sigma ^{2}}{n varepsilon^{2}}}.}

Esto se puede utilizar para obtener lo siguiente:

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/7e0fe094f804165281275d8f7b6d20ec7cf41838" alt="{displaystyle operatorname {P} (left|{overline {X}}_{n}-mu right|

Cuando n tiende a infinito, la expresión tiende a 1. Y por definición de convergencia en probabilidad, hemos obtenido

{displaystyle {begin{matrix}{}\{overline {X}}_{n} {xrightarrow {P}} mu qquad {textrm {cuando}} nto infty.\{}end{matriz}}}(2)

Prueba usando convergencia de funciones características

Por el teorema de Taylor para funciones complejas, la función característica de cualquier variable aleatoria, X, con media finita μ, se puede escribir como

{displaystyle varphi _{X}(t)=1+itmu +o(t),quad trightarrow 0.}

Todos los X 1, X 2,... tienen la misma función característica, por lo que simplemente denotaremos este φ X.

Entre las propiedades básicas de las funciones características se encuentran

{displaystyle varphi _{{frac {1}{n}}X}(t)=varphi _{X}({tfrac {t}{n}})quad {text{y}} quad varphi _{X+Y}(t)=varphi _{X}(t)varphi _{Y}(t)quad }

si X e Y son independientes.

Estas reglas se pueden utilizar para calcular la función característica de scriptstyle {overline {X}}_{n}en términos de φ X:

{displaystyle varphi _{{overline {X}}_{n}}(t)=left[varphi _{X}left({t over n}right)right]^{n }=left[1+imu {t over n}+oleft({t over n}right)right]^{n},rightarrow ,e^{itmu },quad {text{como}}quad nrightarrow infty.}

El límite e es la función característica de la variable aleatoria constante μ y, por lo tanto, según el teorema de continuidad de Lévy, scriptstyle {overline {X}}_{n}converge en distribución a μ:

{displaystyle {overline {X}}_{n},{xrightarrow {mathcal {D}}},mu qquad {text{for}}qquad nto infty.}

μ es una constante, lo que implica que la convergencia en distribución a μ y la convergencia en probabilidad a μ son equivalentes (ver Convergencia de variables aleatorias). Por lo tanto,

{displaystyle {begin{matrix}{}\{overline {X}}_{n} {xrightarrow {P}} mu qquad {textrm {cuando}} nto infty.\{}end{matriz}}}(2)

Esto demuestra que la media muestral converge en probabilidad a la derivada de la función característica en el origen, siempre que exista esta última.

Consecuencias

La ley de los grandes números proporciona una expectativa de una distribución desconocida a partir de la realización de la secuencia, pero también cualquier característica de la distribución de probabilidad. Aplicando la ley de los grandes números de Borel, se podría obtener fácilmente la función de masa de probabilidad. Para cada evento en la función de masa de probabilidad objetiva, se podría aproximar la probabilidad de ocurrencia del evento con la proporción de veces que ocurre cualquier evento específico. Cuanto mayor sea el número de repeticiones, mejor será la aproximación. En cuanto al caso continuo: {displaystyle C=(ah,a+h]}, para h positiva pequeña. Así, para n grande:

{displaystyle {frac {N_{n}(C)}{n}}thickapprox p=P(Xin C)=int _{ah}^{a+h}f(x)dxthickapprox 2hf(a)}

Con este método, se puede cubrir todo el eje x con una cuadrícula (con un tamaño de cuadrícula de 2h) y obtener un gráfico de barras que se denomina histograma.