Distribución normal

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En estadística, una distribución normal (también conocida como distribución de Gauss, Gauss, curva de campana o Laplace-Gauss) es un tipo de distribución de probabilidad continua para una variable aleatoria de valor real. La forma general de su función de densidad de probabilidad es{displaystyle f(x)={frac {1}{sigma {sqrt {2pi }}}}e^{-{frac {1}{2}}left({frac {x -mu }{sigma }}derecha)^{2}}}

El parámetro mues la media o expectativa de la distribución (y también su mediana y moda), mientras que el parámetro sigmaes su desviación estándar. La varianza de la distribución es sigma^{2}. Se dice que una variable aleatoria con una distribución gaussiana tiene una distribución normal y se denomina desviación normal.

Las distribuciones normales son importantes en estadística y se utilizan a menudo en las ciencias naturales y sociales para representar variables aleatorias de valor real cuyas distribuciones no se conocen. Su importancia se debe en parte al teorema del límite central. Establece que, bajo algunas condiciones, el promedio de muchas muestras (observaciones) de una variable aleatoria con media y varianza finitas es en sí misma una variable aleatoria, cuya distribución converge a una distribución normal a medida que aumenta el número de muestras. Por lo tanto, las cantidades físicas que se espera que sean la suma de muchos procesos independientes, como los errores de medición, a menudo tienen distribuciones que son casi normales.

Además, las distribuciones gaussianas tienen algunas propiedades únicas que son valiosas en los estudios analíticos. Por ejemplo, cualquier combinación lineal de una colección fija de desviaciones normales es una desviación normal. Muchos resultados y métodos, como la propagación de la incertidumbre y el ajuste de parámetros por mínimos cuadrados, se pueden derivar analíticamente en forma explícita cuando las variables relevantes se distribuyen normalmente.

Una distribución normal a veces se denomina informalmente curva de campana. Sin embargo, muchas otras distribuciones tienen forma de campana (como las distribuciones de Cauchy, t de Student y logística).

La distribución de probabilidad univariante se generaliza para vectores en la distribución normal multivariante y para matrices en la distribución normal matricial.

Definiciones

Distribución normal estándar

El caso más simple de una distribución normal se conoce como distribución normal estándar o distribución normal unitaria. Este es un caso especial cuando mu =0y sigma =1, y se describe mediante esta función de densidad de probabilidad (o densidad):{displaystyle varphi (z)={frac {e^{-{frac {z^{2}}{2}}}}{sqrt {2pi }}}}

La variable ztiene una media de 0 y una varianza y desviación estándar de 1. La densidad varfi (z)tiene su pico y puntos de inflexión 1/{ sqrt {2pi }}en y. z=0{ estilo de visualización z = +1}z=-1

Aunque la densidad anterior se conoce más comúnmente como normal estándar, algunos autores han usado ese término para describir otras versiones de la distribución normal. Carl Friedrich Gauss, por ejemplo, una vez definió la normal estándar como{displaystyle varphi (z)={frac {e^{-z^{2}}}{sqrt {pi }}}}

que tiene una varianza de 1/2, y Stephen Stigler una vez definió la normal estándar como{displaystyle varphi (z)=e^{-pi z^{2}}}

que tiene una forma funcional simple y una varianza de { estilo de visualización  sigma ^ {2} = 1/(2  pi)}:

Distribución normal general

Cada distribución normal es una versión de la distribución normal estándar, cuyo dominio ha sido estirado por un factor sigma(la desviación estándar) y luego traducido por mu(el valor medio):{displaystyle f(xmid mu,sigma ^{2})={frac {1}{sigma }}varphi left({frac {x-mu }{sigma }} derecho)}

La densidad de probabilidad debe escalarse 1/sigmapara que la integral siga siendo 1.

Si Zes una desviación normal estándar, entonces {displaystyle X=sigma Z+mu}tendrá una distribución normal con valor esperado muy desviación estándar sigma. Esto es equivalente a decir que la distribución normal "estándar" Zse puede escalar/estirar por un factor de sigmay desplazada por mupara producir una distribución normal diferente, llamada X. Por el contrario, si Xes una desviación normal con parámetros muy sigma^{2}, esta Xdistribución se puede volver a escalar y desplazar a través de la fórmula {displaystyle Z=(X-mu)/sigma }para convertirla en la distribución normal "estándar". Esta variable también se llama la forma estandarizada de X.

Notación

La densidad de probabilidad de la distribución gaussiana estándar (distribución normal estándar, con media cero y varianza unitaria) a menudo se indica con la letra griega fi(phi). La forma alternativa de la letra griega phi, varphitambién se usa con bastante frecuencia.

La distribución normal a menudo se denomina N(mu,sigma^{2})o { matemáticas {N}} ( mu,  sigma ^ {2}). Por lo tanto, cuando una variable aleatoria Xse distribuye normalmente con media muy desviación estándar sigma, se puede escribir{displaystyle Xsim {mathcal {N}}(mu,sigma ^{2}).}

Parametrizaciones alternativas

Algunos autores abogan por utilizar la precisión taucomo parámetro que define el ancho de la distribución, en lugar de la desviación sigmao la varianza sigma^{2}. La precisión normalmente se define como el recíproco de la varianza, { estilo de visualización 1/ sigma ^ {2}}. La fórmula para la distribución entonces se convierte en{displaystyle f(x)={sqrt {frac {tau }{2pi }}}e^{-tau (x-mu)^{2}/2}.}

Se afirma que esta elección tiene ventajas en los cálculos numéricos cuando sigmaestá muy cerca de cero y simplifica las fórmulas en algunos contextos, como en la inferencia bayesiana de variables con distribución normal multivariante.

Alternativamente, el recíproco de la desviación estándar tau^{prime}=1/sigmapodría definirse como la precisión, en cuyo caso la expresión de la distribución normal se convierte en{displaystyle f(x)={frac {tau ^{prime }}{sqrt {2pi }}}e^{-(tau ^{prime })^{2}(x- mu)^{2}/2}.}

Según Stigler, esta formulación es ventajosa debido a que es una fórmula mucho más simple y fácil de recordar, y fórmulas aproximadas simples para los cuantiles de la distribución.

Las distribuciones normales forman una familia exponencial con parámetros naturales {displaystyle textstyle theta _{1}={frac {mu }{sigma ^{2}}}}y {displaystyle textstyle theta _{2}={frac {-1}{2sigma ^{2}}}}, y estadísticos naturales x y x. Los parámetros de expectativa dual para la distribución normal son η 1 = μ y η 2 = μ + σ.

Funciones de distribución acumulativas

La función de distribución acumulada (CDF) de la distribución normal estándar, generalmente denotada con la letra griega mayúscula Fi(phi), es la integral{displaystyle Phi (x)={frac {1}{sqrt {2pi }}}int _{-infty }^{x}e^{-t^{2}/2},dt}

La función de error relacionada nombre del operador{erf}(x)da la probabilidad de una variable aleatoria, con distribución normal de media 0 y varianza 1/2 dentro del rango [-x,x]. Es decir:{displaystyle operatorname {erf} (x)={frac {2}{sqrt {pi }}}int _{0}^{x}e^{-t^{2}},dt }

Estas integrales no se pueden expresar en términos de funciones elementales y, a menudo, se dice que son funciones especiales. Sin embargo, se conocen muchas aproximaciones numéricas; ver más abajo para más.

Las dos funciones están estrechamente relacionadas, a saber{displaystyle Phi (x)={frac {1}{2}}left[1+operatorname {erf} left({frac {x}{sqrt {2}}}right) derecho]}

Para una distribución normal genérica con densidad F, media muy desviación sigma, la función de distribución acumulada es{displaystyle F(x)=Phi left({frac {x-mu }{sigma }}right)={frac {1}{2}}left[1+operatorname {erf } left({frac {x-mu }{sigma {sqrt {2}}}}right)right]}

El complemento de la CDF normal estándar, Q(x)=1-Phi(x), a menudo se denomina función Q, especialmente en los textos de ingeniería. Da la probabilidad de que el valor de una variable aleatoria normal estándar Xexceda X: x)}">. Otras definiciones de la qfunción -, todas las cuales son transformaciones simples de Fi, también se usan ocasionalmente.

El gráfico de la CDF normal estándar Fitiene una simetría rotacional doble alrededor del punto (0,1/2); es decir, Phi (-x)=1-Phi (x). Su antiderivada (integral indefinida) se puede expresar de la siguiente manera:{displaystyle int Phi (x),dx=xPhi (x)+varphi (x)+C.}

La CDF de la distribución normal estándar se puede expandir por Integración por partes en una serie:{displaystyle Phi (x)={frac {1}{2}}+{frac {1}{sqrt {2pi }}}cdot e^{-x^{2}/2} left[x+{frac {x^{3}}{3}}+{frac {x^{5}}{3cdot 5}}+cdots +{frac {x^{2n+1 }}{(2n+1)!!}}+cdotsright]}

donde !!denota el factorial doble.

También se puede derivar una expansión asintótica de la CDF para x grande usando integración por partes. Para obtener más información, consulte Función de error # Expansión asintótica.

Se puede encontrar una aproximación rápida a la CDF de la distribución normal estándar utilizando una aproximación de la serie de Taylor:

{displaystyle Phi (x)approx {frac {1}{2}}+{frac {1}{sqrt {2pi }}}sum _{k=0}^{n}{ frac {left(-1right)^{k}x^{left(2k+1right)}}{2^{k}k!left(2k+1right)}}}

Desviación estándar y cobertura

Alrededor del 68% de los valores extraídos de una distribución normal están dentro de una desviación estándar σ de la media; alrededor del 95% de los valores se encuentran dentro de dos desviaciones estándar; y alrededor del 99,7% están dentro de tres desviaciones estándar. Este hecho se conoce como la regla 68-95-99.7 (empírica), o la regla 3-sigma.

Más precisamente, la probabilidad de que una desviación normal se encuentre en el rango entre { estilo de visualización  mu -n  sigma}y { estilo de visualización  mu + n  sigma}está dada por{displaystyle F(mu +nsigma)-F(mu -nsigma)=Phi (n)-Phi (-n)=operatorname {erf} left({frac {n} {sqrt {2}}}derecha).}

A 12 cifras significativas, los valores de {displaystyle n=1,2,ldots,6}son:

norte{displaystyle p=F(mu +nsigma)-F(mu-nsigma)}{displaystyle {text{es decir}}1-p}{displaystyle {text{o}}1{text{ en }}p}OEIS
10.682 689 492 1370.317 310 507 8633.151 487 187 53OEIS: A178647
20.954 499 736 1040.045 500 263 89621.977 894 5080OEIS: A110894
30.997 300 203 9370.002 699 796 063370.398 347 345OEIS: A270712
40.999 936 657 5160.000 063 342 48415 787.192 7673
50.999 999 426 6970.000 000 573 3031 744 277.893 62
60.999 999 998 0270.000 000 001 973506 797 345.897

Para grandes norte, se puede usar la aproximación {displaystyle 1-papprox {frac {e^{-n^{2}/2}}{n{sqrt {pi /2}}}}}.

Función cuantil

La función cuantil de una distribución es la inversa de la función de distribución acumulativa. La función cuantil de la distribución normal estándar se denomina función probit y se puede expresar en términos de la función de error inversa:{displaystyle Phi ^{-1}(p)={sqrt {2}}operatorname {erf} ^{-1}(2p-1),quad pin (0,1).}

Para una variable aleatoria normal con media muy varianza sigma^{2}, la función cuantil es{displaystyle F^{-1}(p)=mu +sigma Phi ^{-1}(p)=mu +sigma {sqrt {2}}operatorname {erf} ^{-1 }(2p-1),quad pin (0,1).}

El cuantil phi ^{{-1}}(p)de la distribución normal estándar se denota comúnmente como { estilo de visualización z_ {p}}. Estos valores se utilizan en pruebas de hipótesis, construcción de intervalos de confianza y gráficos Q-Q. Una variable aleatoria normal Xexcederá { estilo de visualización  mu + z_ {p}  sigma}con probabilidad 1 py estará fuera del intervalo { estilo de visualización  mu  pm z_ {p}  sigma}con probabilidad { estilo de visualización 2 (1-p)}. En particular, el cuantil { estilo de visualización z_ {0,975}}es 1,96; por lo tanto, una variable aleatoria normal estará fuera del intervalo mu pm 1.96sigmaen solo el 5% de los casos.

La siguiente tabla proporciona el cuantil { estilo de visualización z_ {p}}que Xestará en el rango { estilo de visualización  mu  pm z_ {p}  sigma}con una probabilidad especificada pag. Estos valores son útiles para determinar el intervalo de tolerancia para los promedios de muestra y otros estimadores estadísticos con distribuciones normales (o asintóticamente normales). Tenga en cuenta que la siguiente tabla muestra {displaystyle {sqrt {2}}operatorname {erf} ^{-1}(p)=Phi ^{-1}left({frac {p+1}{2}}right)}, no phi ^{{-1}}(p)como se define anteriormente.

pag{ estilo de visualización z_ {p}} pag{ estilo de visualización z_ {p}}
0.801.281 551 565 5450.9993.290 526 731 492
0.901.644 853 626 9510.99993.890 591 886 413
0,951.959 963 984 5400.999994.417 173 413 469
0.982.326 347 874 0410.9999994.891 638 475 699
0.992.575 829 303 5490.99999995.326 723 886 384
0.9952.807 033 768 3440.999999995.730 728 868 236
0.9983.090 232 306 1680.9999999996.109 410 204 869

Para small pag, la función cuantil tiene la útil expansión asintótica {displaystyle Phi ^{-1}(p)=-{sqrt {ln {frac {1}{p^{2}}}-ln ln {frac {1}{p^{ 2}}}-ln(2pi)}}+{mathcal {o}}(1).}

Propiedades

La distribución normal es la única distribución cuyos cumulantes más allá de los dos primeros (es decir, distintos de la media y la varianza) son cero. También es la distribución continua con la máxima entropía para una media y una varianza específicas. Geary ha demostrado, suponiendo que la media y la varianza son finitas, que la distribución normal es la única distribución en la que la media y la varianza calculadas a partir de un conjunto de sorteos independientes son independientes entre sí.

La distribución normal es una subclase de las distribuciones elípticas. La distribución normal es simétrica con respecto a su media y es distinta de cero en toda la línea real. Como tal, puede no ser un modelo adecuado para variables que son inherentemente positivas o fuertemente sesgadas, como el peso de una persona o el precio de una acción. Estas variables pueden describirse mejor mediante otras distribuciones, como la distribución logarítmica normal o la distribución de Pareto.

El valor de la distribución normal es prácticamente cero cuando el valor Xse encuentra a más de unas pocas desviaciones estándar de la media (p. ej., una extensión de tres desviaciones estándar cubre todo menos el 0,27% de la distribución total). Por lo tanto, puede que no sea un modelo apropiado cuando se espera una fracción significativa de valores atípicos (valores que se encuentran a muchas desviaciones estándar de la media) y los mínimos cuadrados y otros métodos de inferencia estadística que son óptimos para las variables distribuidas normalmente a menudo se vuelven muy poco confiables cuando se aplican. a tales datos. En esos casos, se debe suponer una distribución de colas más pesadas y aplicar los métodos de inferencia estadística robustos apropiados.

La distribución gaussiana pertenece a la familia de distribuciones estables que son los atractores de sumas de distribuciones independientes distribuidas idénticamente, ya sea que la media o la varianza sean finitas o no. A excepción de la gaussiana, que es un caso límite, todas las distribuciones estables tienen colas pesadas y varianza infinita. Es una de las pocas distribuciones que son estables y que tienen funciones de densidad de probabilidad que se pueden expresar analíticamente, las otras son la distribución de Cauchy y la distribución de Lévy.

Simetrías y derivadas

La distribución normal con densidad f(x)(media muy desviación estándar 0">) tiene las siguientes propiedades:

  • Es simétrica en torno al punto { estilo de visualización x =  mu,}que es a la vez moda, mediana y media de la distribución.
  • Es unimodal: su primera derivada es positiva para <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/b4736eab43593e1ad7849b14ddaef32e08b0ffbc" alt="{ estilo de visualización xnegativa para mu,}">y cero solo en{ estilo de visualización x =  mu.}
  • El área delimitada por la curva y el Xeje es la unidad (es decir, igual a uno).
  • Su primera derivada es{displaystyle f^{prime }(x)=-{frac {x-mu }{sigma ^{2}}}f(x).}
  • Su densidad tiene dos puntos de inflexión (donde la segunda derivada de Fes cero y cambia de signo), ubicados a una desviación estándar de la media, a saber, en { estilo de visualización x =  mu -  sigma}y{ estilo de visualización x =  mu +  sigma.}
  • Su densidad es log-cóncava.
  • Su densidad es infinitamente diferenciable, de hecho supersuave de orden 2.

Además, la densidad varphide la distribución normal estándar (ie mu =0y { estilo de visualización  sigma = 1}) también tiene las siguientes propiedades:

  • Su primera derivada es{displaystyle varphi ^{prime }(x)=-xvarphi (x).}
  • Su segunda derivada es{ estilo de visualización  varphi ^ { prime  prime} (x) = (x ^ {2} -1)  varphi (x)}
  • Más generalmente, su n -ésima derivada es {displaystyle varphi ^{(n)}(x)=(-1)^{n}operatorname {Él} _{n}(x)varphi (x),}donde {displaystyle operatorname {Él} _{n}(x)}está el n -ésimo (probabilista) polinomio de Hermite.
  • La probabilidad de que una variable normalmente distribuida sea Xconocida muy sigmaesté en un conjunto particular, se puede calcular usando el hecho de que la fracción {displaystyle Z=(X-mu)/sigma }tiene una distribución normal estándar.

Momentos

Los momentos simples y absolutos de una variable Xson los valores esperados de { estilo de visualización X ^ {p}}y { estilo de visualización | X | ^ {p}}, respectivamente. Si el valor esperado mude Xes cero, estos parámetros se denominan momentos centrales; de lo contrario, estos parámetros se denominan momentos no centrales. Por lo general, solo nos interesan los momentos con orden de números enteros  pag.

Si Xtiene una distribución normal, los momentos no centrales existen y son finitos para cualquiera pagcuya parte real sea mayor que −1. Para cualquier número entero no negativo pag, los momentos centrales simples son:{displaystyle operatorname {E} left[(X-mu)^{p}right]={begin{cases}0&{text{if }}p{text{ es impar,}} \sigma ^{p}(p-1)!!&{text{si }}p{text{ es par.}}end{casos}}}

Aquí ¡¡norte!!denota el factorial doble, es decir, el producto de todos los números desde norteel 1 que tienen la misma paridad quenorte.

Los momentos absolutos centrales coinciden con los momentos simples para todos los órdenes pares, pero son distintos de cero para los órdenes impares. Para cualquier entero no negativopag,{displaystyle {begin{alineado}operatorname {E} left[|X-mu |^{p}right]&=sigma ^{p}(p-1)!!cdot {begin {casos}{sqrt {frac {2}{pi }}}&{text{si }}p{text{ es impar}}\1&{text{si }}p{text{ es par}}end{cases}}\&=sigma ^{p}cdot {frac {2^{p/2}Gamma left({frac {p+1}{2}} right)}{sqrt {pi }}}.end{alineado}}}

La última fórmula es válida también para cualquier número no entero -1.}">Cuando la media { estilo de visualización  mu  neq 0,}de los momentos simples y absolutos se pueden expresar en términos de funciones hipergeométricas confluentes {}_{1}F_{1}ytu{displaystyle {begin{alineado}operatorname {E} left[X^{p}right]&=sigma ^{p}cdot (-i{sqrt {2}})^{p} Uizquierda(-{frac {p}{2}},{frac {1}{2}},-{frac {1}{2}}izquierda({frac {mu }{ sigma }}right)^{2}right),\nombre del operador {E} left[|X|^{p}right]&=sigma ^{p}cdot 2^{p/2 }{frac {Gamma left({frac {1+p}{2}}right)}{sqrt {pi }}}{}_{1}F_{1}left(-{ frac {p}{2}},{frac {1}{2}},-{frac {1}{2}}left({frac {mu }{sigma }}right) ^{2}derecha).end{alineado}}}

Estas expresiones siguen siendo válidas incluso si pagno es un número entero. Ver también polinomios de Hermite generalizados.

PedidoMomento no centralMomento central
1mu{ estilo de visualización 0}
2{displaystyle mu^{2}+sigma^{2}}sigma^{2}
3{ estilo de visualización  mu ^{3}+3  mu  sigma ^ {2}}{ estilo de visualización 0}
4{displaystyle mu^{4}+6mu^{2}sigma^{2}+3sigma^{4}}{ estilo de visualización 3  sigma ^ {4}}
5{displaystyle mu ^{5}+10mu ^{3}sigma ^{2}+15mu sigma ^{4}}{ estilo de visualización 0}
6{displaystyle mu ^{6}+15mu ^{4}sigma ^{2}+45mu ^{2}sigma ^{4}+15sigma ^{6}}{ estilo de visualización 15  sigma ^ {6}}
7{displaystyle mu ^{7}+21mu ^{5}sigma ^{2}+105mu ^{3}sigma ^{4}+105mu sigma ^{6}}{ estilo de visualización 0}
8{displaystyle mu ^{8}+28mu ^{6}sigma ^{2}+210mu ^{4}sigma ^{4}+420mu ^{2}sigma ^{6 }+105sigma^{8}}{ estilo de visualización 105  sigma ^ {8}}

La expectativa de Xcondicionado sobre el evento que Xse encuentra en un intervalo [a,b]está dada por<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/d82ec10bf31f0b63137699ae6e2b5a346770b097" alt="{displaystyle operatorname {E} left[Xmid a<X

donde Fy Frespectivamente son la densidad y la función de distribución acumulada de X. Esto b=inftyse conoce como la relación inversa de Mills. Tenga en cuenta que arriba, la densidad Fde Xse usa en lugar de la densidad normal estándar como en la relación inversa de Mills, por lo que aquí tenemos sigma^{2}en lugar de sigma.

Transformada de Fourier y función característica

La transformada de Fourier de una densidad normal Fcon media muy desviación estándar sigmaes{displaystyle {hat {f}}(t)=int_{-infty}^{infty}f(x)e^{-itx},dx=e^{-imu t} e^{-{frac {1}{2}}(sigma t)^{2}}}

donde ies la unidad imaginaria. Si la media mu =0, el primer factor es 1, y la transformada de Fourier es, además de un factor constante, una densidad normal en el dominio de la frecuencia, con media 0 y desviación estándar 1/sigma. En particular, la distribución normal estándar varphies una función propia de la transformada de Fourier.

En la teoría de la probabilidad, la transformada de Fourier de la distribución de probabilidad de una variable aleatoria de valor real Xestá estrechamente relacionada con la función característica varphi _{X}(t)de esa variable, que se define como el valor esperado de e^{{itX}}, en función de la variable real t(el parámetro de frecuencia de la transformada de Fourier). Esta definición se puede extender analíticamente a una variable de valor complejo t. La relación entre ambos es:{ estilo de visualización  varphi _ {X} (t) = { sombrero {f}} (-t)}

Funciones generadoras de momentos y cumulantes

La función generadora de momentos de una variable aleatoria real Xes el valor esperado de {displaystyle e^{tX}}, en función del parámetro real t. Para una distribución normal con densidad F, media muy desviación sigma, la función generadora de momentos existe y es igual a{displaystyle M(t)=operatorname {E} [e^{tX}]={hat {f}}(it)=e^{mu t}e^{{tfrac {1}{2 }}sigma ^{2}t^{2}}}

La función generadora cumulante es el logaritmo de la función generadora de momentos, a saber{displaystyle g(t)=ln M(t)=mu t+{tfrac {1}{2}}sigma ^{2}t^{2}}

Como se trata de un polinomio cuadrático en t, solo los dos primeros cumulantes son distintos de cero, a saber, la media muy la varianza sigma^{2}.

Operador Stein y clase

Dentro del método de Stein, el operador de Stein y la clase de una variable aleatoria Xsim {mathcal {N}}(mu,sigma ^{2})son {displaystyle {mathcal {A}}f(x)=sigma ^{2}f'(x)-(x-mu)f(x)}y { matemáticas {F}}la clase de todas las funciones absolutamente continuas <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/69d73a6b7e591a67eaff64aaf974a8c37584626e" alt="{displaystyle f:mathbb {R} to mathbb {R} {mbox{ tal que }}mathbb {E} [|f'(X)|].

Límite de varianza cero

En el límite cuando sigmatiende a cero, la densidad de probabilidad f(x)eventualmente tiende a cero en cualquier { estilo de visualización x  neq  mu}, pero crece sin límite si { estilo de visualización x =  mu}, mientras su integral permanece igual a 1. Por lo tanto, la distribución normal no puede definirse como una función ordinaria cuando sigma =0.

Sin embargo, se puede definir la distribución normal con varianza cero como una función generalizada; específicamente, como la "función delta" de Dirac deltatraducida por la media mu, es decir, { estilo de visualización f (x) =  delta (x-  mu).} su CDF es entonces la función escalón de Heaviside traducida por la media mu, a saber<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/90400cbbc8895d9f3c9a62d7502ed0f077c6ee3b" alt="{displaystyle F(x)={begin{casos}0&{text{si}}x

Entropía máxima

De todas las distribuciones de probabilidad sobre los reales con media muy varianza especificadas sigma^{2}, la distribución normal N(mu,sigma^{2})es la de máxima entropía. Si Xes una variable aleatoria continua con densidad de probabilidad f(x), entonces la entropía de Xse define como{displaystyle H(X)=-int_{-infty}^{infty}f(x)log f(x),dx}

donde { estilo de visualización f (x)  log f (x)}se entiende que es cero siempre que f(x)=0. Este funcional se puede maximizar, sujeto a las restricciones de que la distribución esté correctamente normalizada y tenga una varianza específica, mediante el uso de cálculo variacional. Se define una función con dos multiplicadores de Lagrange:{displaystyle L=int_{-infty}^{infty}f(x)ln(f(x)),dx-lambda_{0}left(1-int_{-) infty }^{infty }f(x),dxright)-lambda left(sigma ^{2}-int _{-infty }^{infty }f(x)(x) -mu)^{2},dxright)}

donde f(x), por ahora, se considera una función de densidad con media muy desviación estándar sigma.

A máxima entropía, una pequeña variación { estilo de visualización  delta f (x)}sobre f(x)producirá una variación  delta Lsobre Lla cual es igual a 0:{displaystyle 0=delta L=int_{-infty}^{infty}delta f(x)left(ln(f(x))+1+lambda_{0}+ lambda (x-mu)^{2}right),dx}

Dado que esto debe ser válido para cualquier valor pequeño { estilo de visualización  delta f (x)}, el término entre paréntesis debe ser cero, y al resolver los f(x)rendimientos:f(x)=e^{-lambda _{0}-1-lambda (x-mu)^{2}}

Usando las ecuaciones de restricción para resolver lambda _{0}y lambdaproduce la densidad de la distribución normal:{displaystyle f(x,mu,sigma)={frac {1}{sqrt {2pi sigma ^{2}}}}e^{-{frac {(x-mu) ^{2}}{2sigma^{2}}}}}

La entropía de una distribución normal es igual a{displaystyle H(X)={tfrac {1}{2}}(1+log(2sigma ^{2}pi))}

Otras propiedades

  1. Si la función característica phi _{X}de alguna variable aleatoria Xes de la forma { estilo de visualización  phi _ {X} (t) =  exp ^ {Q (t)}}, donde q(t)es un polinomio, entonces el teorema de Marcinkiewicz (llamado así por Józef Marcinkiewicz) afirma que qpuede ser como máximo un polinomio cuadrático y, por lo tanto, Xes una variable aleatoria normal. La consecuencia de este resultado es que la distribución normal es la única distribución con un número finito (dos) de cumulantes distintos de cero.
  2. Si Xy Yson conjuntamente normales y no correlacionados, entonces son independientes. El requisito de que Xy Ysean conjuntamente normales es esencial; sin ella la propiedad no se sostiene. Para variables aleatorias no normales, la falta de correlación no implica independencia.
  3. La divergencia de Kullback-Leibler de una distribución normal {displaystyle X_{1}sim N(mu _{1},sigma _{1}^{2})}de otra {displaystyle X_{2}sim N(mu _{2},sigma _{2}^{2})}está dada por:{displaystyle D_{mathrm {KL} }(X_{1},|,X_{2})={frac {(mu _{1}-mu _{2})^{2 }}{2sigma _{2}^{2}}}+{frac {1}{2}}left({frac {sigma_{1}^{2}}{sigma_{ 2}^{2}}}-1-ln {frac {sigma _{1}^{2}}{sigma _{2}^{2}}}right)}La distancia de Hellinger entre las mismas distribuciones es igual a{displaystyle H^{2}(X_{1},X_{2})=1-{sqrt {frac {2sigma _{1}sigma _{2}}{sigma _{1} ^{2}+sigma _{2}^{2}}}}e^{-{frac {1}{4}}{frac {(mu _{1}-mu _{2})^{2}}{sigma _{1}^{2}+sigma _{2}^{2}}}}}
  4. La matriz de información de Fisher para una distribución normal es diagonal y toma la forma{displaystyle {mathcal {I}}={begin{pmatrix}{frac {1}{sigma ^{2}}}&0\0&{frac {1}{2sigma ^{4} }}end{matrix}}}
  5. El anterior conjugado de la media de una distribución normal es otra distribución normal. Específicamente, si x_{1},ldots,x_{n}son iid { estilo de visualización  sim N ( mu,  sigma ^ {2})}y el prior es { estilo de visualización  mu  sim N ( mu _ {0},  sigma _ {0} ^ {2})}, entonces la distribución posterior para el estimador de muserá{displaystyle mu mid x_{1},ldots,x_{n}sim {mathcal {N}}left({frac {{frac {sigma ^{2}}{n}} mu _{0}+sigma _{0}^{2}{bar {x}}}{{frac {sigma ^{2}}{n}}+sigma_{0}^{ 2}}},left({frac {n}{sigma ^{2}}}+{frac {1}{sigma_{0}^{2}}}right)^{-1 }derecho)}
  6. La familia de distribuciones normales no solo forma una familia exponencial (EF), sino que de hecho forma una familia exponencial natural (NEF) con función de varianza cuadrática (NEF-QVF). Muchas propiedades de distribuciones normales se generalizan a propiedades de distribuciones NEF-QVF, distribuciones NEF o distribuciones EF en general. Las distribuciones NEF-QVF comprenden 6 familias, incluidas las distribuciones Poisson, Gamma, binomial y binomial negativa, mientras que muchas de las familias comunes estudiadas en probabilidad y estadística son NEF o EF.
  7. En geometría de la información, la familia de distribuciones normales forma una variedad estadística con curvatura constante -1. La misma familia es plana con respecto a las conexiones (±1) { estilo de visualización  nabla ^ {(e)}}y { estilo de visualización  nabla ^ {(m)}}.

Distribuciones relacionadas

Teorema del límite central

El teorema del límite central establece que bajo ciertas condiciones (bastante comunes), la suma de muchas variables aleatorias tendrá una distribución aproximadamente normal. Más específicamente, donde {displaystyle X_{1},ldots,X_{n}}son variables aleatorias independientes e idénticamente distribuidas con la misma distribución arbitraria, media cero y varianza, sigma^{2}y Zsu media está escalada por{ sqrt {n}}Z={sqrt {n}}left({frac {1}{n}}sum _{i=1}^{n}X_{i}right)

Luego, a medida que norteaumenta, la distribución de probabilidad de Ztenderá a la distribución normal con media cero y varianza sigma^{2}.

El teorema se puede extender a variables (X_{i})que no son independientes y/o no están distribuidas idénticamente si se imponen ciertas restricciones sobre el grado de dependencia y los momentos de las distribuciones.

Muchas estadísticas de prueba, puntajes y estimadores que se encuentran en la práctica contienen sumas de ciertas variables aleatorias, e incluso más estimadores pueden representarse como sumas de variables aleatorias mediante el uso de funciones de influencia. El teorema del límite central implica que esos parámetros estadísticos tendrán distribuciones asintóticamente normales.

El teorema del límite central también implica que ciertas distribuciones pueden aproximarse mediante la distribución normal, por ejemplo:

  • La distribución binomial B(n,p)es aproximadamente normal con media notario públicoy varianza np(1-p)para grandes nortey pagno demasiado cerca de 0 o 1.
  • La distribución de Poisson con parámetro lambdaes aproximadamente normal con media lambday varianza lambda, para valores grandes de lambda.
  • La distribución chi-cuadrado { estilo de visualización  chi ^ {2} (k)}es aproximadamente normal con media ky varianza 2k, para grandes k.
  • La distribución t de Student { estilo de visualización t ( nu)}es aproximadamente normal con media 0 y varianza 1 cuando nues grande.

Que estas aproximaciones sean lo suficientemente precisas depende del propósito para el que se necesiten y de la tasa de convergencia a la distribución normal. Suele ocurrir que tales aproximaciones son menos precisas en las colas de la distribución.

El teorema de Berry-Esseen proporciona un límite superior general para el error de aproximación en el teorema del límite central, las mejoras de la aproximación las proporcionan las expansiones de Edgeworth.

Este teorema también se puede utilizar para justificar el modelado de la suma de muchas fuentes de ruido uniformes como ruido gaussiano. Véase AWGN.

Operaciones y funciones de variables normales

La densidad de probabilidad, la distribución acumulativa y la distribución acumulativa inversa de cualquier función de una o más variables normales independientes o correlacionadas se pueden calcular con el método numérico de trazado de rayos (código Matlab). En las siguientes secciones veremos algunos casos especiales.

Operaciones sobre una sola variable normal

Si Xse distribuye normalmente con media muy varianza sigma^{2}, entonces

  • { estilo de visualización aX+b}, para cualquier número real uny b, también se distribuye normalmente, con media {displaystyle amu +b}y desviación estándar { estilo de visualización | un |  sigma}. Es decir, la familia de distribuciones normales se cierra bajo transformaciones lineales.
  • El exponencial de Xse distribuye log-normalmente: e ~ ln(N (μ, σ)).
  • El valor absoluto de Xha doblado la distribución normal: | X | ~ norte F (μ, σ). Si mu =0esto se conoce como la distribución seminormal.
  • El valor absoluto de los residuos normalizados, | Xμ |/ σ, tiene distribución chi con un grado de libertad: { estilo de visualización | X-  mu |/ sigma  sim  chi _ {1}}.
  • El cuadrado de X / σ tiene la distribución chi-cuadrado no central con un grado de libertad: {textstyle X^{2}/sigma ^{2}sim chi _{1}^{2}(mu ^{2}/sigma ^{2})}. Si mu =0, la distribución se llama simplemente chi-cuadrado.
  • El logaritmo de verosimilitud de una variable normal Xes simplemente el logaritmo de su función de densidad de probabilidad:{displaystyle ln p(x)=-{frac {1}{2}}left({frac {x-mu }{sigma }}right)^{2}-ln left (sigma {sqrt {2pi }}right)=-{frac {1}{2}}z^{2}-ln left(sigma {sqrt {2pi }} derecho).}Dado que este es un cuadrado escalado y desplazado de una variable normal estándar, se distribuye como una variable chi-cuadrada escalada y desplazada.
  • La distribución de la variable X restringida a un intervalo [ a, b ] se denomina distribución normal truncada.
  • (Xμ) tiene una distribución de Lévy con ubicación 0 y escala σ.
Operaciones sobre dos variables normales independientes
  • Si X_{1}y X_{2}son dos variables aleatorias normales independientes, con media mu _{1}y mu _{2}desviación estándar sigma _{1}, sigma _{2}entonces su suma X_{1}+X_{2}también se distribuirá normalmente, con media { estilo de visualización  mu _ {1} +  mu _ {2}}y varianza sigma _{1}^{2}+sigma _{2}^{2}.
  • En particular, si Xy Yson desviaciones normales independientes con media y varianza cero sigma^{2}, entonces X+Yy XYtambién son independientes y se distribuyen normalmente, con media y varianza cero 2  sigma ^ {2}. Este es un caso especial de la identidad de polarización.
  • Si X_{1}, X_{2}son dos desviaciones normales independientes con media muy desviación sigma, y un, bson números reales arbitrarios, entonces la variable{displaystyle X_{3}={frac {aX_{1}+bX_{2}-(a+b)mu }{sqrt {a^{2}+b^{2}}}}+ mu }también se distribuye normalmente con media muy desviación sigma. De ello se deduce que la distribución normal es estable (con exponente  alfa = 2).
Operaciones sobre dos variables normales estándar independientes

Si X_{1}y X_{2}son dos variables aleatorias normales estándar independientes con media 0 y varianza 1, entonces

  • Su suma y diferencia se distribuye normalmente con media cero y varianza dos: {displaystyle X_{1}pm X_{2}sim N(0,2)}.
  • Su producto {displaystyle Z=X_{1}X_{2}}sigue la distribución Producto con función de densidad {displaystyle f_{Z}(z)=pi ^{-1}K_{0}(|z|)}donde K_{0}es la función de Bessel modificada de segundo tipo. Esta distribución es simétrica alrededor de cero, ilimitada en z=0, y tiene la función característica { estilo de visualización  phi _ {Z} (t) = (1 + t ^ {2}) ^ {-1/2}}.
  • Su relación sigue la distribución estándar de Cauchy: {displaystyle X_{1}/X_{2}sim nombre del operador {Cauchy} (0,1)}.
  • Su norma euclidiana {displaystyle {sqrt {X_{1}^{2}+X_{2}^{2}}}}tiene la distribución de Rayleigh.

Operaciones en múltiples variables normales independientes

  • Cualquier combinación lineal de desvíos normales independientes es un desvío normal.
  • Si X_{1},X_{2},ldots,X_{n}son variables aleatorias normales estándar independientes, entonces la suma de sus cuadrados tiene la distribución chi-cuadrado con nortegrados de libertad{displaystyle X_{1}^{2}+cdots +X_{n}^{2}sim chi _{n}^{2}.}
  • Si X_{1},X_{2},ldots,X_{n}son variables aleatorias independientes distribuidas normalmente con medias muy varianzas sigma^{2}, entonces su media muestral es independiente de la desviación estándar muestral, lo que se puede demostrar usando el teorema de Basu o el teorema de Cochran. La relación de estas dos cantidades tendrá la distribución t de Student con n-1grados de libertad:{displaystyle t={frac {{overline {X}}-mu }{S/{sqrt {n}}}}={frac {{frac {1}{n}}(X_{ 1}+cdots +X_{n})-mu }{sqrt {{frac {1}{n(n-1)}}left[(X_{1}-{overline {X}})^{2}+cdots +(X_{n}-{overline {X}})^{2}right]}}}sim t_{n-1}.}
  • Si X_{1},X_{2},ldots,X_{n}, {displaystyle Y_{1},Y_{2},ldots,Y_{m}}son variables aleatorias normales estándar independientes, entonces la razón de sus sumas de cuadrados normalizadas tendrá la distribución F con (n, m) grados de libertad:{displaystyle F={frac {left(X_{1}^{2}+X_{2}^{2}+cdots +X_{n}^{2}right)/n}{left (Y_{1}^{2}+Y_{2}^{2}+cdots +Y_{m}^{2}right)/m}}sim F_{n,m}.}

Operaciones en múltiples variables normales correlacionadas

  • Una forma cuadrática de un vector normal, es decir, una función cuadrática {textstyle q=sum x_{i}^{2}+sum x_{j}+c}de múltiples variables normales independientes o correlacionadas, es una variable chi-cuadrada generalizada.

Operaciones sobre la función de densidad

La distribución normal dividida se define más directamente en términos de unir secciones escaladas de las funciones de densidad de diferentes distribuciones normales y cambiar la escala de la densidad para integrarlas en una sola. La distribución normal truncada resulta de cambiar la escala de una sección de una sola función de densidad.

Divisibilidad infinita y el teorema de Cramér

Para cualquier número entero positivo { estilo de visualización { texto {n}}}, cualquier distribución normal con media muy varianza sigma^{2}es la distribución de la suma de las desviaciones { estilo de visualización { texto {n}}}normales independientes, cada una con media {displaystyle {frac {mu}{n}}}y varianza {displaystyle {frac {sigma^{2}}{n}}}. Esta propiedad se llama divisibilidad infinita.

Por el contrario, si X_{1}y X_{2}son variables aleatorias independientes y su suma X_{1}+X_{2}tiene una distribución normal, entonces ambas X_{1}y X_{2}deben ser desviaciones normales.

Este resultado se conoce como teorema de descomposición de Cramér y equivale a decir que la convolución de dos distribuciones es normal si y solo si ambas son normales. El teorema de Cramér implica que una combinación lineal de variables no gaussianas independientes nunca tendrá una distribución exactamente normal, aunque puede acercarse arbitrariamente a ella.

Teorema de Bernstein

El teorema de Bernstein establece que si Xy Yson independientes y X+Yy XYtambién lo son, entonces tanto X como Y deben tener necesariamente distribuciones normales.

Más generalmente, si X_1, ldots, X_nson variables aleatorias independientes, entonces dos combinaciones lineales distintas {estilo de texto sum {a_{k}X_{k}}}y {estilo de texto sum {b_{k}X_{k}}}serán independientes si y solo si todas X_{k}son normales y {estilo de texto sum {a_{k}b_{k}sigma _{k}^{2}=0}}, donde sigma_k^2denota la varianza de X_{k}.

Extensiones

La noción de distribución normal, siendo una de las distribuciones más importantes en la teoría de la probabilidad, se ha extendido mucho más allá del marco estándar del caso univariado (es decir, unidimensional) (Caso 1). Todas estas extensiones también se denominan leyes normales o gaussianas, por lo que existe cierta ambigüedad en los nombres.

  • La distribución normal multivariante describe la ley de Gauss en el espacio euclidiano k -dimensional. Un vector XR tiene una distribución normal multivariante si cualquier combinación lineal de sus componentes Σj = 1a j X j tiene una distribución normal (univariada). La varianza de X es una matriz V definida positiva simétrica k×k. La distribución normal multivariante es un caso especial de las distribuciones elípticas. Como tal, sus lugares geométricos de isodensidad en el caso de k = 2 son elipses y en el caso de k arbitrario son elipsoides.
  • Distribución gaussiana rectificada una versión rectificada de la distribución normal con todos los elementos negativos restablecidos a 0
  • La distribución normal compleja se ocupa de los vectores normales complejos. Se dice que un vector complejo XC es normal si sus componentes real e imaginario poseen conjuntamente una distribución normal multivariada de 2k dimensiones . La estructura de varianza-covarianza de X se describe mediante dos matrices: la matriz de varianza Γ y la matriz de relación C.
  • La distribución normal de matrices describe el caso de matrices distribuidas normalmente.
  • Los procesos gaussianos son los procesos estocásticos normalmente distribuidos. Estos pueden verse como elementos de algún espacio de Hilbert de dimensión infinita H, y por lo tanto son los análogos de vectores normales multivariados para el caso k = ∞. Se dice que un elemento aleatorio hH es normal si para cualquier constante aH el producto escalar (a, h) tiene una distribución normal (univariante). La estructura de varianza de dicho elemento aleatorio gaussiano puede describirse en términos del operador de covarianza lineal K: H → H. Varios procesos gaussianos se hicieron lo suficientemente populares como para tener sus propios nombres:
    • Movimiento browniano,
    • puente browniano,
    • Proceso de Ornstein-Uhlenbeck.
  • La distribución q de Gauss es una construcción matemática abstracta que representa un "análogo de q" de la distribución normal.
  • el q-Gaussian es un análogo de la distribución de Gauss, en el sentido de que maximiza la entropía de Tsallis, y es un tipo de distribución de Tsallis. Tenga en cuenta que esta distribución es diferente de la distribución q gaussiana anterior.

Una variable aleatoria X tiene una distribución normal de dos piezas si tiene una distribución{displaystyle f_{X}(x)=N(mu,sigma _{1}^{2}){text{ si }}xleq mu }{displaystyle f_{X}(x)=N(mu,sigma _{2}^{2}){text{ si }}xgeq mu }

donde μ es la media y σ 1 y σ 2 son las desviaciones estándar de la distribución a la izquierda y derecha de la media respectivamente.

Se han determinado la media, la varianza y el tercer momento central de esta distribución{displaystyle operatorname {E} (X)=mu +{sqrt {frac {2}{pi }}}(sigma _{2}-sigma _{1})}{displaystyle operatorname {V} (X)=left(1-{frac {2}{pi }}right)(sigma _{2}-sigma _{1})^{2} +sigma _{1}sigma _{2}}{displaystyle operatorname {T} (X)={sqrt {frac {2}{pi }}}(sigma _{2}-sigma _{1})left[left({ fracción {4}{pi }}-1right)(sigma_{2}-sigma_{1})^{2}+sigma_{1}sigma_{2}right]}

donde E(X), V(X) y T(X) son la media, la varianza y el tercer momento central respectivamente.

Uno de los principales usos prácticos de la ley de Gauss es modelar las distribuciones empíricas de muchas variables aleatorias diferentes que se encuentran en la práctica. En tal caso, una posible extensión sería una familia más rica de distribuciones, que tuviera más de dos parámetros y, por lo tanto, pudiera ajustarse a la distribución empírica con mayor precisión. Los ejemplos de tales extensiones son:

  • Distribución de Pearson: una familia de distribuciones de probabilidad de cuatro parámetros que amplían la ley normal para incluir diferentes valores de asimetría y curtosis.
  • La distribución normal generalizada, también conocida como distribución de potencia exponencial, permite colas de distribución con comportamientos asintóticos más gruesos o más delgados.

Inferencia estadística

Estimación de parámetros

A menudo sucede que no conocemos los parámetros de la distribución normal, sino que queremos estimarlos. Es decir, teniendo una muestra (x_1, ldots, x_n)de una población normal N(mu,sigma^{2})nos gustaría conocer los valores aproximados de los parámetros muy sigma^{2}. El enfoque estándar para este problema es el método de máxima verosimilitud, que requiere la maximización de la función de verosimilitud logarítmica:{displaystyle ln {mathcal {L}}(mu,sigma ^{2})=sum _{i=1}^{n}ln f(x_{i}mid mu, sigma ^{2})=-{frac {n}{2}}ln(2pi)-{frac {n}{2}}ln sigma ^{2}-{frac {1 {2sigma^{2}}}sum_{i=1}^{n}(x_{i}-mu)^{2}.}

Tomar derivadas con respecto a muy sigma^{2}y resolver el sistema resultante de condiciones de primer orden produce las estimaciones de máxima verosimilitud:{sombrero {mu }}={overline {x}}equiv {frac {1}{n}}sum _{i=1}^{n}x_{i},qquad {sombrero {sigma}}^{2}={frac {1}{n}}sum_{i=1}^{n}(x_{i}-{overline {x}})^{2}.

Muestra promedio

El estimador { estilo de visualización  estilo de texto { sombrero { mu}}}se llama media muestral, ya que es la media aritmética de todas las observaciones. El estadístico {displaystyle textstyle {overline {x}}}es completo y suficiente para mu, y por lo tanto, según el teorema de Lehmann-Scheffé, { estilo de visualización  estilo de texto { sombrero { mu}}}es el estimador insesgado de varianza mínima uniforme (UMVU). En muestras finitas se distribuye normalmente:{displaystyle {hat {mu }}sim {mathcal {N}}(mu,sigma ^{2}/n).}

La varianza de este estimador es igual al elemento μμ de la matriz de información inversa de Fisher {displaystyle textstyle {mathcal {I}}^{-1}}. Esto implica que el estimador es eficiente en muestras finitas. De importancia práctica es el hecho de que el error estándar de { estilo de visualización  estilo de texto { sombrero { mu}}}es proporcional a { estilo de visualización  estilo de texto 1/{ sqrt {n}}}, es decir, si se desea disminuir el error estándar por un factor de 10, se debe aumentar el número de puntos en la muestra por un factor de 100. Este hecho se usa ampliamente para determinar los tamaños de muestra para las encuestas de opinión y el número de ensayos en las simulaciones de Monte Carlo.

Desde el punto de vista de la teoría asintótica, { estilo de visualización  estilo de texto { sombrero { mu}}}es consistente, es decir, converge en probabilidad a mucomo nrightarrowinfty. El estimador también es asintóticamente normal, lo cual es un simple corolario del hecho de que es normal en muestras finitas:{displaystyle {sqrt {n}}({hat {mu }}-mu),{xrightarrow {d}},{mathcal {N}}(0,sigma ^{2}).}

Varianza de la muestra

El estimador { estilo de visualización  estilo de texto { sombrero { sigma}}^ {2}}se llama varianza muestral, ya que es la varianza de la muestra ((x_1, ldots, x_n)). En la práctica, a menudo se usa otro estimador en lugar del { estilo de visualización  estilo de texto { sombrero { sigma}}^ {2}}. Este otro estimador se denota ^{2}, y también se denomina varianza muestral, lo que representa cierta ambigüedad en la terminología; su raíz cuadrada sse llama desviación estándar de la muestra. El estimador se ^{2}diferencia de { estilo de visualización  estilo de texto { sombrero { sigma}}^ {2}}tener (n − 1) en lugar de n en el denominador (la llamada corrección de Bessel):{displaystyle s^{2}={frac {n}{n-1}}{hat {sigma}}^{2}={frac {1}{n-1}}sum_ i=1}^{n}(x_{i}-{sobrelínea {x}})^{2}.}

La diferencia entre ^{2}y { estilo de visualización  estilo de texto { sombrero { sigma}}^ {2}}se vuelve insignificantemente pequeña para n grandes. Sin embargo, en muestras finitas, la motivación detrás del uso de ^{2}es que es un estimador no sesgado del parámetro subyacente sigma^{2}, mientras que { estilo de visualización  estilo de texto { sombrero { sigma}}^ {2}}está sesgado. Además, por el teorema de Lehmann-Scheffé, el estimador ^{2}es de varianza mínima uniformemente insesgado (UMVU), lo que lo convierte en el "mejor" estimador entre todos los insesgados. Sin embargo, se puede demostrar que el estimador sesgado { estilo de visualización  estilo de texto { sombrero { sigma}}^ {2}}es "mejor" que el ^{2}en términos del criterio del error cuadrático medio (MSE). En muestras finitas, ambos ^{2}y { estilo de visualización  estilo de texto { sombrero { sigma}}^ {2}}tienen una distribución chi-cuadrada escalada con (n − 1) grados de libertad:{displaystyle s^{2}sim {frac {sigma ^{2}}{n-1}}cdot chi _{n-1}^{2},qquad {hat {sigma }}^{2}sim {frac {sigma ^{2}}{n}}cdot chi _{n-1}^{2}.}

La primera de estas expresiones muestra que la varianza de ^{2}es igual a { estilo de visualización 2  sigma ^ {4}/(n-1)}, que es ligeramente mayor que el elemento σσ de la matriz de información inversa de Fisher {displaystyle textstyle {mathcal {I}}^{-1}}. Por lo tanto, ^{2}no es un estimador eficiente de sigma^{2}, y además, dado que ^{2}es UMVU, podemos concluir que el estimador eficiente para muestras finitas sigma^{2}no existe.

Aplicando la teoría asintótica, ambos estimadores ^{2}y { estilo de visualización  estilo de texto { sombrero { sigma}}^ {2}}son consistentes, es decir, convergen en probabilidad a sigma^{2}como el tamaño de la muestra nrightarrowinfty. Los dos estimadores también son asintóticamente normales:{displaystyle {sqrt {n}}({hat {sigma }}^{2}-sigma ^{2})simeq {sqrt {n}}(s^{2}-sigma ^ {2}),{xrightarrow {d}},{mathcal {N}}(0,2sigma ^{4}).}

En particular, ambos estimadores son asintóticamente eficientes para sigma^{2}.

Intervalos de confianza

Según el teorema de Cochran, para las distribuciones normales, la media muestral { estilo de visualización  estilo de texto { sombrero { mu}}}y la varianza muestral s son independientes, lo que significa que no puede haber ninguna ganancia al considerar su distribución conjunta. También hay un teorema inverso: si en una muestra la media muestral y la varianza muestral son independientes, entonces la muestra debe haber venido de la distribución normal. La independencia entre { estilo de visualización  estilo de texto { sombrero { mu}}}y s se puede emplear para construir el llamado estadístico t:{displaystyle t={frac {{hat {mu }}-mu }{s/{sqrt {n}}}}={frac {{overline {x}}-mu }{ sqrt {{frac {1}{n(n-1)}}sum (x_{i}-{overline {x}})^{2}}}}sim t_{n-1}}

Esta cantidad t tiene la distribución t de Student con (n − 1) grados de libertad, y es un estadístico auxiliar (independiente del valor de los parámetros). La inversión de la distribución de este estadístico t nos permitirá construir el intervalo de confianza para μ; De manera similar, invertir la distribución χ del estadístico s nos dará el intervalo de confianza para σ:{displaystyle mu in left[{hat {mu }}-t_{n-1,1-alpha /2}{frac {1}{sqrt {n}}}s,{ sombrero {mu}}+t_{n-1,1-alpha /2}{frac {1}{sqrt {n}}}sright],}{displaystyle sigma ^{2}in left[{frac {(n-1)s^{2}}{chi _{n-1,1-alpha /2}^{2}} },{frac {(n-1)s^{2}}{chi _{n-1,alpha /2}^{2}}}right],}

donde t k,p y χ 2k,p son los p -ésimos cuantiles de las distribuciones t y χ respectivamente. Estos intervalos de confianza son del nivel de confianza 1 − α, lo que significa que los valores verdaderos μ y σ quedan fuera de estos intervalos con probabilidad (o nivel de significancia) α. En la práctica, la gente suele tomar α = 5%, lo que da como resultado los intervalos de confianza del 95%.

Se pueden derivar fórmulas aproximadas de las distribuciones asintóticas de { estilo de visualización  estilo de texto { sombrero { mu}}}y s:{displaystyle mu in left[{hat {mu }}-|z_{alpha /2}|{frac {1}{sqrt {n}}}s,{hat {mu }}+|z_{alpha /2}|{frac {1}{sqrt {n}}}sright],}{displaystyle sigma ^{2}in left[s^{2}-|z_{alpha /2}|{frac {sqrt {2}}{sqrt {n}}}s^{ 2},s^{2}+|z_{alpha /2}|{frac {sqrt {2}}{sqrt {n}}}s^{2}right],}

Las fórmulas aproximadas se vuelven válidas para valores grandes de n, y son más convenientes para el cálculo manual ya que los cuantiles normales estándar z α /2 no dependen de n. En particular, el valor más popular de α = 5% da como resultado | z 0,025 | = 1,96.

Pruebas de normalidad

Las pruebas de normalidad evalúan la probabilidad de que el conjunto de datos dado { x 1,..., x n } provenga de una distribución normal. Por lo general, la hipótesis nula H 0 es que las observaciones se distribuyen normalmente con una media μ y una varianza σ no especificadas, frente a la alternativa H a de que la distribución es arbitraria. Se han ideado muchas pruebas (más de 40) para este problema. Los más destacados de ellos se describen a continuación:

Las gráficas de diagnóstico son más intuitivamente atractivas pero subjetivas al mismo tiempo, ya que se basan en el juicio humano informal para aceptar o rechazar la hipótesis nula.

  • La gráfica Q-Q, también conocida como gráfica de probabilidad normal o gráfica de rango, es una gráfica de los valores ordenados del conjunto de datos contra los valores esperados de los cuantiles correspondientes de la distribución normal estándar. Es decir, es un gráfico de punto de la forma (Φ (p k), x (k)), donde los puntos de trazado p k son iguales a p k = (kα)/(n + 1 − 2 α) y α es una constante de ajuste, que puede ser cualquier cosa entre 0 y 1. Si la hipótesis nula es verdadera, los puntos trazados deberían estar aproximadamente en una línea recta.
  • Gráfica P–P: similar a la gráfica Q–Q, pero se usa con mucha menos frecuencia. Este método consiste en graficar los puntos (Φ(z (k)), p k), donde {displaystyle textstyle z_{(k)}=(x_{(k)}-{hat {mu }})/{hat {sigma }}}. Para datos distribuidos normalmente, este gráfico debe estar en una línea de 45° entre (0, 0) y (1, 1).

Pruebas de bondad de ajuste:

Pruebas basadas en momentos:

  • Prueba de K-cuadrado de D'Agostino
  • Prueba de Jarque-Bera
  • Prueba de Shapiro-Wilk: se basa en el hecho de que la línea en el gráfico Q–Q tiene la pendiente de σ. La prueba compara la estimación de mínimos cuadrados de esa pendiente con el valor de la varianza de la muestra y rechaza la hipótesis nula si estas dos cantidades difieren significativamente.

Pruebas basadas en la función de distribución empírica:

  • Prueba de Anderson-Darling
  • Prueba de Lilliefors (una adaptación de la prueba de Kolmogorov-Smirnov)

Análisis bayesiano de la distribución normal

El análisis bayesiano de datos distribuidos normalmente se complica por las muchas posibilidades diferentes que se pueden considerar:

  • La media, la varianza o ninguna de las dos pueden considerarse una cantidad fija.
  • Cuando se desconoce la varianza, el análisis se puede hacer directamente en términos de la varianza o en términos de la precisión, el recíproco de la varianza. La razón para expresar las fórmulas en términos de precisión es que se simplifica el análisis de la mayoría de los casos.
  • Es necesario considerar tanto los casos univariados como los multivariados.
  • Se pueden colocar distribuciones previas conjugadas o impropias en las variables desconocidas.
  • Un conjunto adicional de casos ocurre en la regresión lineal bayesiana, donde en el modelo básico se supone que los datos se distribuyen normalmente y se colocan valores previos normales en los coeficientes de regresión. El análisis resultante es similar a los casos básicos de datos independientes distribuidos de forma idéntica.

Las fórmulas para los casos de regresión no lineal se resumen en el artículo anterior conjugado.

Suma de dos cuadráticas

Forma escalar

La siguiente fórmula auxiliar es útil para simplificar las ecuaciones de actualización posterior, que de otro modo se vuelven bastante tediosas.a(xy)^{2}+b(xz)^{2}=(a+b)left(x-{frac {ay+bz}{a+b}}right)^{2}+ {frac{ab}{a+b}}(yz)^{2}

Esta ecuación reescribe la suma de dos cuadráticas en x expandiendo los cuadrados, agrupando los términos en x y completando el cuadrado. Tenga en cuenta lo siguiente sobre los factores constantes complejos adjuntos a algunos de los términos:

  1. El factor {frac{ay+bz}{a+b}}tiene la forma de un promedio ponderado de y y z.
  2. {frac {ab}{a+b}}={frac {1}{{frac {1}{a}}+{frac {1}{b}}}}=(a^{-1 }+b^{-1})^{-1}.Esto muestra que se puede pensar que este factor es el resultado de una situación en la que los recíprocos de las cantidades a y b se suman directamente, por lo que para combinar a y b, es necesario reciprocar, sumar y reciprocar el resultado nuevamente para volver al unidades originales. Este es exactamente el tipo de operación que realiza la media armónica, por lo que no sorprende que {frac{ab}{a+b}}sea la mitad de la media armónica de a y b.
Forma vectorial

Se puede escribir una fórmula similar para la suma de dos vectores cuadráticos: si x, y, z son vectores de longitud k, y A y B son matrices simétricas e invertibles de tamaño kveces k, entonces{displaystyle {begin{alineado}&(mathbf {y} -mathbf {x})'mathbf {A} (mathbf {y} -mathbf {x})+(mathbf {x} - mathbf {z})'mathbf {B} (mathbf {x} -mathbf {z})\={}&(mathbf {x} -mathbf {c})'(mathbf {A } +mathbf {B})(mathbf {x} -mathbf {c})+(mathbf {y} -mathbf {z})'(mathbf {A} ^{-1}+mathbf {B} ^{-1})^{-1}(mathbf {y} -mathbf {z})end{alineado}}}

donde{displaystyle mathbf {c} =(mathbf {A} +mathbf {B})^{-1}(mathbf {A} mathbf {y} +mathbf {B} mathbf {z}) }

Tenga en cuenta que la forma xA x se llama forma cuadrática y es un escalar:mathbf {x} 'mathbf {A} mathbf {x} =sum _{i,j}a_{ij}x_{i}x_{j}

En otras palabras, suma todas las posibles combinaciones de productos de pares de elementos de x, con un coeficiente separado para cada uno. Además, dado que x_{i}x_{j}=x_{j}x_{i}, solo la suma a_{ij}+a_{ji}importa para cualquier elemento fuera de la diagonal de A, y no hay pérdida de generalidad al suponer que A es simétrico. Además, si A es simétrica, entonces la forma{displaystyle mathbf {x} 'mathbf {A} mathbf {y} =mathbf {y} 'mathbf {A} mathbf {x}.}

Suma de diferencias con la media

Otra fórmula útil es la siguiente:

{displaystyle sum_{i=1}^{n}(x_{i}-mu)^{2}=sum_{i=1}^{n}(x_{i}-{bar {x}})^{2}+n({bar {x}}-mu)^{2}}

donde{textstyle {bar {x}}={frac {1}{n}}sum _{i=1}^{n}x_{i}.}

Con varianza conocida

Para un conjunto de iid puntos de datos normalmente distribuidos X de tamaño n donde cada punto individual x sigue xsim {mathcal {N}}(mu,sigma ^{2})con una varianza conocida σ, la distribución previa conjugada también se distribuye normalmente.

Esto se puede mostrar más fácilmente reescribiendo la varianza como la precisión, es decir, usando τ = 1/σ. Entonces si xsim {mathcal {N}}(mu,1/tau)y mu sim {mathcal {N}}(mu _{0},1/tau _{0}),procedemos de la siguiente manera.

Primero, la función de verosimilitud es (usando la fórmula anterior para la suma de las diferencias de la media):{displaystyle {begin{alineado}p(mathbf {X} mid mu,tau)&=prod _{i=1}^{n}{sqrt {frac {tau }{2 pi }}}exp left(-{frac {1}{2}}tau (x_{i}-mu)^{2}right)\&=left({frac { tau }{2pi }}right)^{n/2}exp left(-{frac {1}{2}}tau sum _{i=1}^{n}(x_ {i}-mu)^{2}right)\&=left({frac {tau }{2pi }}right)^{n/2}exp left[-{ frac {1}{2}}tau left(sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}+n({bar {x}}-mu)^{2}derecha)derecha].end{alineado}}}

Entonces, procedemos de la siguiente manera:{displaystyle {begin{alineado}p(mu mid mathbf {X})&propto p(mathbf {X} mid mu)p(mu)\&=left({ fracción {tau }{2pi }}right)^{n/2}exp left[-{frac {1}{2}}tau left(sum _{i=1}^ {n}(x_{i}-{bar {x}})^{2}+n({bar {x}}-mu)^{2}right)right]{sqrt { fracción {tau _{0}}{2pi }}}exp left(-{frac {1}{2}}tau _{0}(mu -mu _{0})^ {2}right)\&propto exp left(-{frac {1}{2}}left(tau left(sum _{i=1}^{n}(x_{ i}-{bar {x}})^{2}+n({bar {x}}-mu)^{2}right)+tau _{0}(mu -mu _ {0})^{2}right)right)\&propto exp left(-{frac {1}{2}}left(ntau ({bar {x}}- mu)^{2}+tau _{0}(mu -mu _{0})^{2}right)right)\&=exp left(-{frac {1 {2}}(ntau +tau _{0})left(mu -{dfrac {ntau {bar {x}}+tau _{0}mu _{0} {ntau +tau _{0}}}right)^{2}+{frac {ntau tau _{0}}{ntau +tau _{0}}}({bar {x}}-mu _{0})^{2}right)\&propto exp left(-{frac {1}{2}}(ntau +tau _{0})left(mu -{dfrac {ntau {bar {x}} +tau _{0}mu _{0}}{ntau +tau _{0}}}right)^{2}right)end{alineado}}}

En la derivación anterior, usamos la fórmula anterior para la suma de dos cuadráticas y eliminamos todos los factores constantes que no involucran μ. El resultado es el núcleo de una distribución normal, con media {frac {ntau {bar {x}}+tau _{0}mu _{0}}{ntau +tau _{0}}}y precisión ntau +tau _{0}, es decirp(mu mid mathbf {X})sim {mathcal {N}}left({frac {ntau {bar {x}}+tau_{0}mu_{0 }}{ntau +tau _{0}}},{frac{1}{ntau +tau _{0}}}derecha)

Esto se puede escribir como un conjunto de ecuaciones de actualización bayesianas para los parámetros posteriores en términos de los parámetros anteriores:{begin{alineado}tau _{0}'&=tau _{0}+ntau \mu _{0}'&={frac {ntau {bar {x}} +tau _{0}mu _{0}}{ntau +tau _{0}}}\{bar {x}}&={frac {1}{n}}sum _{i=1}^{n}x_{i}end{alineado}}

Es decir, para combinar n puntos de datos con una precisión total de (o de manera equivalente, la varianza total de n / σ) y la media de los valores { barra {x}}, obtenga una nueva precisión total simplemente sumando la precisión total de los datos a la precisión total anterior, y formar una nueva media a través de un promedio ponderado de precisión, es decir, un promedio ponderado de la media de los datos y la media anterior, cada uno ponderado por la precisión total asociada. Esto tiene sentido lógico si se considera que la precisión indica la certeza de las observaciones: en la distribución de la media posterior, cada uno de los componentes de entrada se pondera por su certeza, y la certeza de esta distribución es la suma de las certezas individuales. (Para la intuición de esto, compare la expresión "el todo es (o no es) mayor que la suma de sus partes". Además, considere que el conocimiento de lo posterior proviene de una combinación del conocimiento de lo anterior y la probabilidad, por lo que tiene sentido que estemos más seguros de él que de cualquiera de sus componentes).

La fórmula anterior revela por qué es más conveniente hacer un análisis bayesiano de anteriores conjugados para la distribución normal en términos de precisión. La precisión posterior es simplemente la suma de las precisiones anterior y de probabilidad, y la media posterior se calcula a través de un promedio ponderado de precisión, como se describe anteriormente. Las mismas fórmulas se pueden escribir en términos de varianza intercambiando todas las precisiones, dando como resultado las fórmulas más desagradables.{begin{alineado}{sigma_{0}^{2}}'&={frac {1}{{frac {n}{sigma ^{2}}}+{frac {1} {sigma _{0}^{2}}}}}\mu _{0}'&={frac {{frac {n{bar {x}}}{sigma^{2} }}+{frac {mu _{0}}{sigma _{0}^{2}}}}{{frac {n}{sigma ^{2}}}+{frac {1 }{sigma_{0}^{2}}}}}\{bar {x}}&={frac {1}{n}}sum_{i=1}^{n}x_ {i}end{alineado}}

Con media conocida

Para un conjunto de iid puntos de datos normalmente distribuidos X de tamaño n donde cada punto individual x sigue xsim {mathcal {N}}(mu,sigma ^{2})con una media conocida μ, el conjugado anterior de la varianza tiene una distribución gamma inversa o una distribución chi-cuadrado inversa escalada. Los dos son equivalentes excepto por tener diferentes parametrizaciones. Aunque la gamma inversa se usa más comúnmente, usamos el chi-cuadrado inverso escalado por conveniencia. El prior para σ es el siguiente:{displaystyle p(sigma ^{2}mid nu_{0},sigma_{0}^{2})={frac {(sigma_{0}^{2}{frac {nu _{0}}{2}})^{nu _{0}/2}}{Gamma left({frac {nu _{0}}{2}}right)} }~{frac {exp left[{frac {-nu _{0}sigma _{0}^{2}}{2sigma ^{2}}}right]}{( sigma ^{2})^{1+{frac {nu _{0}}{2}}}}}propto {frac {exp left[{frac {-nu _{0} sigma _{0}^{2}}{2sigma ^{2}}}right]}{(sigma ^{2})^{1+{frac {nu _{0}}{ 2}}}}}}

La función de verosimilitud de arriba, escrita en términos de la varianza, es:{displaystyle {begin{alineado}p(mathbf {X} mid mu,sigma ^{2})&=left({frac {1}{2pi sigma ^{2}} }right)^{n/2}exp left[-{frac {1}{2sigma ^{2}}}sum _{i=1}^{n}(x_{i}- mu)^{2}right]\&=left({frac {1}{2pi sigma ^{2}}}right)^{n/2}exp left[- {frac {S}{2sigma ^{2}}}right]end{alineado}}}

dondeS=sum _{i=1}^{n}(x_{i}-mu)^{2}.

Entonces:{displaystyle {begin{alineado}p(sigma ^{2}mid mathbf {X})&propto p(mathbf {X} mid sigma ^{2})p(sigma ^{ 2})\&=left({frac {1}{2pi sigma ^{2}}}right)^{n/2}exp left[-{frac {S}{ 2sigma ^{2}}}right]{frac {(sigma_{0}^{2}{frac {nu_{0}}{2}})^{frac {nu _ {0}}{2}}}{Gamma left({frac {nu _{0}}{2}}right)}}~{frac {exp left[{frac { -nu _{0}sigma _{0}^{2}}{2sigma ^{2}}}right]}{(sigma ^{2})^{1+{frac { nu _{0}}{2}}}}}\&propto left({frac {1}{sigma ^{2}}}right)^{n/2}{frac {1 }{(sigma ^{2})^{1+{frac {nu _{0}}{2}}}}}exp left[-{frac {S}{2sigma ^{ 2}}}+{frac {-nu _{0}sigma _{0}^{2}}{2sigma ^{2}}}right]\&={frac {1} {(sigma ^{2})^{1+{frac {nu _{0}+n}{2}}}}}exp left[-{frac {nu _{0} sigma _{0}^{2}+S}{2sigma ^{2}}}right]end{alineado}}}

Lo anterior también es una distribución de chi-cuadrado inversa escalada donde{begin{alineado}nu_{0}'&=nu_{0}+n\nu_{0}'{sigma_{0}^{2}}'&=nu_ {0}sigma _{0}^{2}+sum _{i=1}^{n}(x_{i}-mu)^{2}end{alineado}}

o equivalente{begin{alineado}nu_{0}'&=nu_{0}+n\{sigma_{0}^{2}}'&={frac {nu_{0} sigma _{0}^{2}+sum _{i=1}^{n}(x_{i}-mu)^{2}}{nu _{0}+n}}end {alineado}}

Reparametrizando en términos de una distribución gamma inversa, el resultado es:{begin{alineado}alpha '&=alpha +{frac {n}{2}}\beta '&=beta +{frac {sum _{i=1}^{n} (x_{i}-mu)^{2}}{2}}end{alineado}}

Con media desconocida y varianza desconocida

Para un conjunto de puntos de datos iid normalmente distribuidos X de tamaño n donde cada punto individual x sigue xsim {mathcal {N}}(mu,sigma ^{2})con media desconocida μ y varianza desconocida σ, se coloca un anterior conjugado combinado (multivariante) sobre la media y la varianza, que consiste en un normal-inverso- distribución gamma. Lógicamente, esto se origina de la siguiente manera:

  1. Del análisis del caso con media desconocida pero varianza conocida, vemos que las ecuaciones de actualización involucran estadísticas suficientes calculadas a partir de los datos que consisten en la media de los puntos de datos y la varianza total de los puntos de datos, calculada a su vez a partir de la varianza conocida dividido por el número de puntos de datos.
  2. Del análisis del caso con varianza desconocida pero media conocida, vemos que las ecuaciones de actualización implican estadísticas suficientes sobre los datos que consisten en el número de puntos de datos y la suma de las desviaciones al cuadrado.
  3. Tenga en cuenta que los valores de actualización posterior sirven como distribución previa cuando se manejan más datos. Por lo tanto, deberíamos pensar lógicamente en nuestros a priori en términos de las estadísticas suficientes que acabamos de describir, teniendo en cuenta la misma semántica tanto como sea posible.
  4. Para manejar el caso en el que tanto la media como la varianza son desconocidas, podríamos colocar prioridades independientes sobre la media y la varianza, con estimaciones fijas de la media promedio, la varianza total, el número de puntos de datos utilizados para calcular la varianza previa y la suma de las desviaciones al cuadrado.. Sin embargo, tenga en cuenta que, en realidad, la varianza total de la media depende de la varianza desconocida, y la suma de las desviaciones al cuadrado que entra en la varianza antes (aparentemente) depende de la media desconocida. En la práctica, la última dependencia es relativamente poco importante: cambiar la media real cambia los puntos generados en una cantidad igual y, en promedio, las desviaciones al cuadrado seguirán siendo las mismas. Este no es el caso, sin embargo, con la varianza total de la media: a medida que aumenta la varianza desconocida, la varianza total de la media aumentará proporcionalmente,
  5. Esto sugiere que creamos un anterior condicionalde la media sobre la varianza desconocida, con un hiperparámetro que especifica la media de las pseudoobservaciones asociadas a la previa, y otro parámetro que especifica el número de pseudoobservaciones. Este número sirve como parámetro de escala en la varianza, lo que permite controlar la varianza general de la media en relación con el parámetro de varianza real. El previo de la varianza también tiene dos hiperparámetros, uno que especifica la suma de las desviaciones al cuadrado de las pseudoobservaciones asociadas con el previo, y otro que especifica una vez más el número de pseudoobservaciones. Tenga en cuenta que cada uno de los anteriores tiene un hiperparámetro que especifica el número de pseudoobservaciones y, en cada caso, esto controla la varianza relativa de ese anterior.
  6. Esto lleva inmediatamente a la distribución normal-inversa-gamma, que es el producto de las dos distribuciones que acabamos de definir, con los anteriores conjugados utilizados (una distribución gamma inversa sobre la varianza y una distribución normal sobre la media, condicionada a la varianza) y con los mismos cuatro parámetros recién definidos.

Los priores normalmente se definen de la siguiente manera:{begin{alineado}p(mu mid sigma ^{2};mu _{0},n_{0})&sim {mathcal {N}}(mu _{0}, sigma ^{2}/n_{0})\p(sigma ^{2};nu _{0},sigma _{0}^{2})&sim Ichi ^{2} (nu_{0},sigma_{0}^{2})=IG(nu_{0}/2,nu_{0}sigma_{0}^{2}/2) end{alineado}}

Las ecuaciones de actualización se pueden derivar y se ven de la siguiente manera:{displaystyle {begin{alineado}{bar {x}}&={frac {1}{n}}sum_{i=1}^{n}x_{i}\mu_{ 0}'&={frac {n_{0}mu _{0}+n{bar {x}}}{n_{0}+n}}\n_{0}'&=n_{0 }+n\nu _{0}'&=nu _{0}+n\nu _{0}'{sigma _{0}^{2}}'&=nu_{ 0}sigma _{0}^{2}+sum_{i=1}^{n}(x_{i}-{bar {x}})^{2}+{frac {n_{ 0}n}{n_{0}+n}}(mu _{0}-{bar {x}})^{2}end{alineado}}}

Los respectivos números de pseudo-observaciones les suman el número de observaciones reales. El nuevo hiperparámetro medio es una vez más un promedio ponderado, esta vez ponderado por el número relativo de observaciones. Finalmente, la actualización de nu _{0}'{sigma _{0}^{2}}'es similar al caso con la media conocida, pero en este caso la suma de las desviaciones al cuadrado se toma con respecto a la media de los datos observados en lugar de la media real, y como resultado se necesita un nuevo "término de interacción". agregarse para solucionar la fuente de error adicional derivada de la desviación entre la media anterior y la media de los datos.

Prueba

Las distribuciones anteriores son{displaystyle {begin{alineado}p(mu mid sigma ^{2};mu _{0},n_{0})&sim {mathcal {N}}(mu _{0} },sigma ^{2}/n_{0})={frac {1}{sqrt {2pi {frac {sigma ^{2}}{n_{0}}}}}} exp left(-{frac {n_{0}}{2sigma ^{2}}}(mu -mu _{0})^{2}right)\&propto (sigma ^{2})^{-1/2}exp left(-{frac {n_{0}}{2sigma ^{2}}}(mu -mu _{0})^{ 2}right)\p(sigma ^{2};nu _{0},sigma _{0}^{2})&sim Ichi ^{2}(nu _{0} },sigma_{0}^{2})=IG(nu_{0}/2,nu_{0}sigma_{0}^{2}/2)\&={ fracción {(sigma _{0}^{2}nu _{0}/2)^{nu _{0}/2}}{Gamma (nu _{0}/2)}}~ {frac {exp left[{frac {-nu _{0}sigma _{0}^{2}}{2sigma ^{2}}}right]}{(sigma ^ {2})^{1+nu _{0}/2}}}\&propto {(sigma^{2})^{-(1+nu _{0}/2)}} exp left[{frac {-nu _{0}sigma _{0}^{2}}{2sigma ^{2}}}right].end{alineado}}}

Por lo tanto, la previa conjunta es{displaystyle {begin{alineado}p(mu,sigma ^{2};mu_{0},n_{0},nu_{0},sigma_{0}^{2})&=p(mu mid sigma ^{2};mu _{0},n_{0}),p(sigma ^{2};nu _{0},sigma_{ 0}^{2})\&propto (sigma ^{2})^{-(nu _{0}+3)/2}exp left[-{frac {1}{2 sigma ^{2}}}left(nu _{0}sigma _{0}^{2}+n_{0}(mu -mu _{0})^{2}right) derecha].end{alineado}}}

La función de verosimilitud de la sección anterior con varianza conocida es:{begin{alineado}p(mathbf {X} mid mu,sigma ^{2})&=left({frac {1}{2pi sigma ^{2}}}right)^{n/2}exp left[-{frac {1}{2sigma ^{2}}}left(sum _{i=1}^{n}(x_{i}- mu)^{2}right)right]end{alineado}}

Escribiéndolo en términos de varianza en lugar de precisión, obtenemos:{begin{alineado}p(mathbf {X} mid mu,sigma ^{2})&=left({frac {1}{2pi sigma ^{2}}}right)^{n/2}exp left[-{frac {1}{2sigma ^{2}}}left(sum _{i=1}^{n}(x_{i}- {bar {x}})^{2}+n({bar {x}}-mu)^{2}right)right]\&propto {sigma ^{2}}^ {-n/2}exp left[-{frac {1}{2sigma ^{2}}}left(S+n({bar {x}}-mu)^{2} right)right]end{alineado}}

donde{textstyle S=sum_{i=1}^{n}(x_{i}-{bar {x}})^{2}.}

Por tanto, la posterior es (dejando de lado los hiperparámetros como condicionantes):{begin{alineado}p(mu,sigma ^{2}mid mathbf {X})&propto p(mu,sigma ^{2}),p(mathbf {X}  mid mu,sigma ^{2})\&propto (sigma ^{2})^{-(nu _{0}+3)/2}exp left[-{frac { 1}{2sigma ^{2}}}left(nu _{0}sigma _{0}^{2}+n_{0}(mu -mu _{0})^{2 }right)right]{sigma ^{2}}^{-n/2}exp left[-{frac {1}{2sigma ^{2}}}left(S+n ({bar {x}}-mu)^{2}right)right]\&=(sigma ^{2})^{-(nu _{0}+n+3)/ 2}exp left[-{frac {1}{2sigma ^{2}}}left(nu _{0}sigma _{0}^{2}+S+n_{0} (mu -mu _{0})^{2}+n({bar {x}}-mu)^{2}right)right]\&=(sigma ^{2})^{-(nu _{0}+n+3)/2}exp left[-{frac {1}{2sigma ^{2}}}left(nu _{0} sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}}(mu _{0}-{bar {x}})^{2 }+(n_{0}+n)left(mu -{frac {n_{0}mu _{0}+n{bar {x}}}{n_{0}+n}} derecha)^{2}derecha)derecha]\&propto (sigma ^{2})^{-1/2}exp left[-{frac {n_{0}+n}{2sigma ^{2}}}left(mu - {frac {n_{0}mu _{0}+n{bar {x}}}{n_{0}+n}}right)^{2}right]\&quad times (sigma^{2})^{-(nu _{0}/2+n/2+1)}exp left[-{frac {1}{2sigma^{2}}} left(nu _{0}sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}}(mu _{0}-{ bar {x}})^{2}right)right]\&={mathcal {N}}_{mu mid sigma ^{2}}left({frac {n_{0 }mu _{0}+n{bar {x}}}{n_{0}+n}},{frac {sigma ^{2}}{n_{0}+n}}right) cdot {rm {IG}}_{sigma ^{2}}left({frac {1}{2}}(nu _{0}+n),{frac {1}{2 }}left(nu _{0}sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}}(mu _{0}- {bar {x}})^{2}right)right).end{alineado}}quad times (sigma ^{2})^{-(nu _{0}/2+n/2+1)}exp left[-{frac {1}{2sigma ^{ 2}}}left(nu _{0}sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}}(mu _{0} }-{bar {x}})^{2}right)right]\&={mathcal {N}}_{mu mid sigma ^{2}}left({frac {n_{0}mu _{0}+n{bar {x}}}{n_{0}+n}},{frac {sigma^{2}}{n_{0}+n} }right)cdot {rm {IG}}_{sigma ^{2}}left({frac {1}{2}}(nu _{0}+n),{frac { 1}{2}}left(nu _{0}sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}}(mu _ {0}-{bar {x}})^{2}right)right).end{alineado}}quad times (sigma ^{2})^{-(nu _{0}/2+n/2+1)}exp left[-{frac {1}{2sigma ^{ 2}}}left(nu _{0}sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}}(mu _{0} }-{bar {x}})^{2}right)right]\&={mathcal {N}}_{mu mid sigma ^{2}}left({frac {n_{0}mu _{0}+n{bar {x}}}{n_{0}+n}},{frac {sigma^{2}}{n_{0}+n} }right)cdot {rm {IG}}_{sigma ^{2}}left({frac {1}{2}}(nu _{0}+n),{frac { 1}{2}}left(nu _{0}sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}}(mu _ {0}-{bar {x}})^{2}right)right).end{alineado}}{frac {1}{2}}left(nu _{0}sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}} (mu _{0}-{bar {x}})^{2}right)right).end{alineado}}{frac {1}{2}}left(nu _{0}sigma _{0}^{2}+S+{frac {n_{0}n}{n_{0}+n}} (mu _{0}-{bar {x}})^{2}right)right).end{alineado}}

En otras palabras, la distribución posterior tiene la forma de un producto de una distribución normal sobre p (μ | σ) por una distribución gamma inversa sobre p (σ), con parámetros que son los mismos que las ecuaciones de actualización anteriores.

Ocurrencia y aplicaciones

La aparición de una distribución normal en problemas prácticos se puede clasificar libremente en cuatro categorías:

  1. Distribuciones exactamente normales;
  2. Leyes aproximadamente normales, por ejemplo cuando dicha aproximación está justificada por el teorema del límite central; y
  3. Distribuciones modeladas como normales: la distribución normal es la distribución con la máxima entropía para una media y una varianza dadas.
  4. Problemas de regresión: la distribución normal se encuentra después de que los efectos sistemáticos se hayan modelado lo suficientemente bien.

Normalidad exacta

Ciertas cantidades en física se distribuyen normalmente, como lo demostró por primera vez James Clerk Maxwell. Ejemplos de tales cantidades son:

  • Función de densidad de probabilidad de un estado fundamental en un oscilador armónico cuántico.
  • La posición de una partícula que experimenta difusión. Si inicialmente la partícula está ubicada en un punto específico (es decir, su distribución de probabilidad es la función delta de Dirac), luego de un tiempo t, su ubicación se describe mediante una distribución normal con varianza t, que satisface la ecuación de difusión {displaystyle {frac {parcial }{parcial t}}f(x,t)={frac {1}{2}}{frac {parcial ^{2}}{parcial x^{ 2}}}f(x,t)}. Si la ubicación inicial está dada por una cierta función de densidad g(x), entonces la densidad en el tiempo t es la convolución de g y la PDF normal.

Normalidad aproximada

Distribuciones aproximadamente normales ocurren en muchas situaciones, como lo explica el teorema del límite central. Cuando el resultado es producido por muchos pequeños efectos que actúan de manera aditiva e independiente, su distribución será cercana a la normal. La aproximación normal no será válida si los efectos actúan de forma multiplicativa (en lugar de aditiva), o si existe una sola influencia externa que tiene una magnitud considerablemente mayor que el resto de los efectos.

  • En problemas de conteo, donde el teorema del límite central incluye una aproximación discreta a continua y donde están involucradas distribuciones infinitamente divisibles y descomponibles, como
    • Variables aleatorias binomiales, asociadas a variables de respuesta binaria;
    • Variables aleatorias de Poisson, asociadas a eventos raros;
  • La radiación térmica tiene una distribución de Bose-Einstein en escalas de tiempo muy cortas y una distribución normal en escalas de tiempo más largas debido al teorema del límite central.

Supuesta normalidad

Solo puedo reconocer la aparición de la curva normal, la curva de errores de Laplacian, como un fenómeno muy anormal. Se aproxima aproximadamente a en ciertas distribuciones; por eso, y en razón de su hermosa sencillez, tal vez podamos utilizarlo como una primera aproximación, particularmente en las investigaciones teóricas.-  Pearson (1901)

Existen métodos estadísticos para probar empíricamente esa suposición; consulte la sección de Pruebas de normalidad anterior.

  • En biología, el logaritmo de varias variables tiende a tener una distribución normal, es decir, tienden a tener una distribución logarítmica normal (después de la separación en subpoblaciones masculinas/femeninas), con ejemplos que incluyen:
    • Medidas de tamaño del tejido vivo (longitud, altura, área de la piel, peso);
    • La longitud de los apéndices inertes (pelo, garras, uñas, dientes) de especímenes biológicos, en la dirección de crecimiento; presumiblemente, el grosor de la corteza de los árboles también entra en esta categoría;
    • Ciertas medidas fisiológicas, como la presión arterial de humanos adultos.
  • En finanzas, en particular el modelo de Black-Scholes, los cambios en el logaritmo de los tipos de cambio, los índices de precios y los índices bursátiles se suponen normales (estas variables se comportan como el interés compuesto, no como el interés simple, por lo que son multiplicativas). Algunos matemáticos como Benoit Mandelbrot han argumentado que las distribuciones log-Levy, que poseen colas pesadas, serían un modelo más apropiado, en particular para el análisis de caídas del mercado de valores. El uso del supuesto de distribución normal que ocurre en los modelos financieros también ha sido criticado por Nassim Nicholas Taleb en sus trabajos.
  • Los errores de medición en los experimentos físicos a menudo se modelan mediante una distribución normal. Este uso de una distribución normal no implica que se suponga que los errores de medición se distribuyen normalmente, sino que el uso de la distribución normal produce las predicciones más conservadoras posibles dado solo el conocimiento sobre la media y la varianza de los errores.
  • En las pruebas estandarizadas, se puede hacer que los resultados tengan una distribución normal ya sea seleccionando el número y la dificultad de las preguntas (como en la prueba de CI) o transformando los puntajes brutos de las pruebas en puntajes de "salida" ajustándolos a la distribución normal. Por ejemplo, el rango tradicional del SAT de 200 a 800 se basa en una distribución normal con una media de 500 y una desviación estándar de 100.
  • Muchos puntajes se derivan de la distribución normal, incluidos los rangos de percentiles ("percentiles" o "cuantiles"), equivalentes de curvas normales, estaninas, puntajes z y puntajes T. Además, algunos procedimientos estadísticos de comportamiento suponen que las puntuaciones se distribuyen normalmente; por ejemplo, pruebas t y ANOVA. La calificación de la curva de campana asigna calificaciones relativas basadas en una distribución normal de puntajes.
  • En hidrología, la distribución de caudales o precipitaciones fluviales de larga duración, por ejemplo, totales mensuales y anuales, a menudo se considera prácticamente normal de acuerdo con el teorema del límite central. La imagen azul, realizada con CumFreq, ilustra un ejemplo de ajuste de la distribución normal a las precipitaciones de octubre clasificadas que muestran el cinturón de confianza del 90 % basado en la distribución binomial. Los datos de lluvia se representan mediante posiciones de trazado como parte del análisis de frecuencia acumulada.

Problemas metodológicos y revisión por pares

John Ioannidis argumenta que el uso de desviaciones estándar distribuidas normalmente como estándares para validar los resultados de la investigación deja sin probar predicciones falsificables sobre fenómenos que no se distribuyen normalmente. Esto incluye, por ejemplo, fenómenos que solo aparecen cuando están presentes todas las condiciones necesarias y uno no puede sustituir a otro de forma similar a la suma y fenómenos que no están distribuidos al azar. Ioannidis argumenta que la validación centrada en la desviación estándar da una falsa apariencia de validez a las hipótesis y teorías en las que algunas, pero no todas, las predicciones falsables se distribuyen normalmente, ya que la parte de las predicciones falsables contra las que hay evidencia puede y, en algunos casos, se encuentra en la distribución no normal. partes distribuidas del rango de predicciones faslsificables, así como descartar sin fundamento hipótesis para las cuales ninguna de las predicciones falsables se distribuyen normalmente como si fueran infalsables cuando de hecho hacen predicciones falsables. Ioannidis argumenta que muchos casos de teorías mutuamente excluyentes que son aceptadas como "validadas" por las revistas de investigación se deben a que las revistas no aceptan las falsificaciones empíricas de las predicciones que no se distribuyen normalmente, y no porque las teorías mutuamente excluyentes sean verdaderas, lo cual no pueden serlo, aunque dos teorías mutuamente excluyentes pueden estar equivocadas y una tercera correcta.

Métodos computacionales

Generación de valores a partir de una distribución normal

En las simulaciones por computadora, especialmente en las aplicaciones del método Monte-Carlo, a menudo es deseable generar valores que se distribuyan normalmente. Todos los algoritmos enumerados a continuación generan las desviaciones normales estándar, ya que se puede generar una N (μ, σ) como X = μ + σZ, donde Z es normal estándar. Todos estos algoritmos se basan en la disponibilidad de un generador de números aleatorios U capaz de producir variables aleatorias uniformes.

  • El método más directo se basa en la propiedad de transformación integral de probabilidad: si U se distribuye uniformemente en (0,1), entonces Φ (U) tendrá la distribución normal estándar. El inconveniente de este método es que se basa en el cálculo de la función probit Φ, que no se puede realizar analíticamente. Algunos métodos aproximados se describen en Hart (1968) y en el artículo erf. Wichura proporciona un algoritmo rápido para calcular esta función con 16 decimales, que R utiliza para calcular variables aleatorias de la distribución normal.
  • Un enfoque aproximado fácil de programar que se basa en el teorema del límite central es el siguiente: genere 12 desviaciones U (0,1) uniformes, súmelas todas y reste 6: la variable aleatoria resultante tendrá una distribución normal estándar aproximada. En realidad, la distribución será Irwin-Hall, que es una aproximación polinomial de onceavo orden de 12 secciones a la distribución normal. Esta desviación aleatoria tendrá un rango limitado de (−6, 6). Tenga en cuenta que en una verdadera distribución normal, solo el 0,00034 % de todas las muestras quedarán fuera de ±6σ.
  • El método Box-Muller utiliza dos números aleatorios independientes U y V distribuidos uniformemente en (0,1). Entonces las dos variables aleatorias X e Y{displaystyle X={sqrt {-2ln U}},cos(2pi V),qquad Y={sqrt {-2ln U}},sin(2pi V).}ambos tendrán la distribución normal estándar y serán independientes. Esta formulación surge porque para un vector aleatorio normal bivariado (X, Y) la norma cuadrática X + Y tendrá la distribución chi-cuadrado con dos grados de libertad, que es una variable aleatoria exponencial fácilmente generada correspondiente a la cantidad −2ln(U) en estas ecuaciones; y el ángulo se distribuye uniformemente alrededor del círculo, elegido por la variable aleatoria V.
  • El método polar de Marsaglia es una modificación del método Box-Muller que no requiere el cálculo de las funciones seno y coseno. En este método, U y V se extraen de la distribución uniforme (−1,1) y luego se calcula S = U + V. Si S es mayor o igual a 1, entonces el método comienza de nuevo, de lo contrario, las dos cantidades{displaystyle X=U{sqrt {frac {-2ln S}{S}}},qquad Y=V{sqrt {frac {-2ln S}{S}}}}son devueltos. De nuevo, X e Y son variables aleatorias normales estándar e independientes.
  • El método Ratio es un método de rechazo. El algoritmo procede como sigue:
    • Genere dos desviaciones uniformes independientes U y V;
    • Calcule X = √ 8/ e (V − 0.5)/ U;
    • Opcional: si X ≤ 5 − 4 e U entonces acepta X y termina el algoritmo;
    • Opcional: si X ≥ 4 e / U + 1.4, entonces rechace X y comience de nuevo desde el paso 1;
    • Si X ≤ −4 ln U entonces acepte X, de lo contrario comience de nuevo el algoritmo.
    Los dos pasos opcionales permiten evitar en la mayoría de los casos la evaluación del logaritmo en el último paso. Estos pasos se pueden mejorar mucho para que el logaritmo rara vez se evalúe.
  • El algoritmo del zigurat es más rápido que la transformada de Box-Muller y sigue siendo exacto. En aproximadamente el 97% de todos los casos, utiliza solo dos números aleatorios, un entero aleatorio y un uniforme aleatorio, una multiplicación y una prueba de si. Solo en el 3% de los casos, donde la combinación de esos dos cae fuera del "núcleo del zigurat" (una especie de muestreo de rechazo que usa logaritmos), se deben emplear exponenciales y números aleatorios más uniformes.
  • La aritmética de enteros se puede utilizar para tomar muestras de la distribución normal estándar. Este método es exacto en el sentido de que satisface las condiciones de aproximación ideal; es decir, es equivalente a muestrear un número real de la distribución normal estándar y redondearlo al número de punto flotante representable más cercano.
  • También hay alguna investigación sobre la conexión entre la transformada rápida de Hadamard y la distribución normal, ya que la transformada emplea solo sumas y restas y, por el teorema del límite central, los números aleatorios de casi cualquier distribución se transformarán en la distribución normal. En este sentido, se puede combinar una serie de transformadas de Hadamard con permutaciones aleatorias para convertir conjuntos de datos arbitrarios en datos distribuidos normalmente.

Aproximaciones numéricas para la CDF normal y la función cuantil normal

El CDF normal estándar se usa ampliamente en computación científica y estadística.

Los valores Φ(x) pueden aproximarse con mucha precisión mediante una variedad de métodos, como la integración numérica, la serie de Taylor, la serie asintótica y las fracciones continuas. Se utilizan diferentes aproximaciones dependiendo del nivel de precisión deseado.

  • Zelen & Severo (1964) dan la aproximación de Φ(x) para x > 0 con el error absoluto | ε (x) | < 7.5·10 (algoritmo 26.2.17):{displaystyle Phi (x)=1-varphi (x)left(b_{1}t+b_{2}t^{2}+b_{3}t^{3}+b_{4}t ^{4}+b_{5}t^{5}right)+varepsilon (x),qquad t={frac {1}{1+b_{0}x}},}donde ϕ (x) es la PDF normal estándar y b 0 = 0,2316419, b 1 = 0,319381530, b 2 = −0,356563782, b 3 = 1,781477937, b 4 = −1,821255978, b 5 = 1,330274429.
  • Hart (1968) enumera algunas docenas de aproximaciones, mediante funciones racionales, con o sin exponenciales, para la función erfc(). Sus algoritmos varían en el grado de complejidad y la precisión resultante, con una precisión absoluta máxima de 24 dígitos. Un algoritmo de West (2009) combina el algoritmo 5666 de Hart con una aproximación de fracción continua en la cola para proporcionar un algoritmo de cálculo rápido con una precisión de 16 dígitos.
  • Cody (1969) después de recordar que la solución de Hart68 no es adecuada para erf, da una solución tanto para erf como para erfc, con un límite de error relativo máximo, a través de la aproximación racional de Chebyshev.
  • Marsaglia (2004) sugirió un algoritmo simple basado en la expansión de la serie de Taylor{displaystyle Phi (x)={frac {1}{2}}+varphi (x)left(x+{frac {x^{3}}{3}}+{frac {x^ {5}}{3cdot 5}}+{frac {x^{7}}{3cdot 5cdot 7}}+{frac {x^{9}}{3cdot 5cdot 7cdot 9}}+cdots right)}para calcular Φ(x) con precisión arbitraria. El inconveniente de este algoritmo es el tiempo de cálculo comparativamente lento (por ejemplo, se necesitan más de 300 iteraciones para calcular la función con 16 dígitos de precisión cuando x = 10).
  • La Biblioteca Científica GNU calcula los valores de la CDF normal estándar utilizando algoritmos de Hart y aproximaciones con polinomios de Chebyshev.

Shore (1982) introdujo aproximaciones simples que pueden incorporarse en modelos de optimización estocástica de ingeniería e investigación de operaciones, como ingeniería de confiabilidad y análisis de inventario. Denotando p = Φ(z), la aproximación más simple para la función cuantil es:

{displaystyle z=Phi ^{-1}(p)=5,5556left[1-left({frac {1-p}{p}}right)^{0,1186}right],qquad pgeq 1/2}

Esta aproximación entrega para z un error absoluto máximo de 0,026 (para 0,5 ≤ p ≤ 0,9999, correspondiente a 0 ≤ z ≤ 3,719). Para p < 1/2 reemplaza p por 1 − p y cambia de signo. Otra aproximación, algo menos precisa, es la aproximación de un solo parámetro:

{displaystyle z=-0.4115left{{frac {1-p}{p}}+log left[{frac {1-p}{p}}right]-1right},qquad pgeq 1/2}

Este último había servido para derivar una aproximación simple para la pérdida integral de la distribución normal, definida por

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/e4b69fa586cffdfbbd40a94c65629726e4ae78bf" alt="{displaystyle {begin{alineado}L(z)&=int _{z}^{infty }(uz)varphi (u),du=int _{z}^{infty }[ 1-Phi (u)],du\[5pt]L(z)&approx {begin{cases}0.4115left({dfrac {p}{1-p}}right)-z,&p<1/2,\\0.4115left({dfrac {1-p}{p}}right),&pgeq 1/2.end{cases}}\[5pt]{ text{o, equivalentemente,}}\L(z)&approx {begin{casos}0.4115left{1-log left[{frac {p}{1-p}}right ]right},&p

Esta aproximación es particularmente precisa para la cola lejana derecha (error máximo de 10 para z≥1.4). En Shore (2005) se muestran aproximaciones de alta precisión para la CDF, basadas en la Metodología de modelado de respuesta (RMM, Shore, 2011, 2012).

Se pueden encontrar algunas aproximaciones más en: Función de error#Aproximación con funciones elementales. En particular, Sergei Winitzki en 2008 logra un pequeño error relativo en todo el dominio para la CDF Fiy la función cuantil phi ^{-1}mediante una fórmula explícitamente invertible.

Historia

Desarrollo

Algunos autores atribuyen el mérito del descubrimiento de la distribución normal a de Moivre, quien en 1738 publicó en la segunda edición de su " La Doctrina de las Oportunidades " el estudio de los coeficientes en la expansión binomial de (a + b). De Moivre demostró que el término medio en esta expansión tiene la magnitud aproximada de {estilo de texto 2^{n}/{sqrt {2pi n}}}, y que "Si m o1/2n sea una Cantidad infinitamente grande, entonces el Logaritmo de la Razón, que un Término distante del medio por el Intervalo , tiene con el Término medio, es {textstyle -{frac {2ell ell}{n}}}. ley, Stigler señala que el propio de Moivre no interpretó sus resultados como algo más que la regla aproximada para los coeficientes binomiales y, en particular, de Moivre carecía del concepto de función de densidad de probabilidad.

En 1823 Gauss publicó su monografía " Theoria combinationis observationum erroribus minimis obnoxiae " donde entre otras cosas introduce varios conceptos estadísticos importantes, como el método de mínimos cuadrados, el método de máxima verosimilitud y la distribución normal. Gauss usó M, M ′, M ′′,... para denotar las medidas de alguna cantidad desconocida V, y buscó el estimador "más probable" de esa cantidad: el que maximiza la probabilidad φ (MV) · φ (METRO′ - V) · φ (M ′′ − V) ·... de obtener los resultados experimentales observados. En su notación φΔ es la función de densidad de probabilidad de los errores de medida de magnitud Δ. Sin saber cuál es la función φ, Gauss requiere que su método se reduzca a la conocida respuesta: la media aritmética de los valores medidos. Partiendo de estos principios, Gauss demuestra que la única ley que racionaliza la elección de la media aritmética como estimador del parámetro de ubicación, es la ley normal de errores:

{displaystyle varphi {mathit {Delta }}={frac {h}{surd pi }},e^{-mathrm {hh} Delta Delta },}

donde h es "la medida de la precisión de las observaciones". Usando esta ley normal como un modelo genérico para errores en los experimentos, Gauss formula lo que ahora se conoce como el método de mínimos cuadrados ponderados no lineales.

Aunque Gauss fue el primero en sugerir la ley de distribución normal, Laplace hizo contribuciones significativas. Fue Laplace quien primero planteó el problema de agregar varias observaciones en 1774, aunque su propia solución condujo a la distribución laplaciana. Fue Laplace quien primero calculó el valor de la integral ∫ e dt = √ π en 1782, proporcionando la constante de normalización para la distribución normal. Finalmente, fue Laplace quien en 1810 probó y presentó a la Academia el teorema fundamental del límite central, que enfatizaba la importancia teórica de la distribución normal.

Es interesante notar que en 1809 un matemático irlandés, Adrian, publicó dos derivaciones de la ley de probabilidad normal, simultánea e independientemente de Gauss. Sus obras permanecieron en gran parte desapercibidas para la comunidad científica, hasta que en 1871 fueron "redescubiertas" por Abbe.

A mediados del siglo XIX, Maxwell demostró que la distribución normal no es solo una herramienta matemática conveniente, sino que también puede ocurrir en fenómenos naturales: "El número de partículas cuya velocidad, resuelta en una dirección determinada, se encuentra entre x y x + dx es

{displaystyle operatorname {N} {frac {1}{alpha ;{sqrt {pi }}}};e^{-{frac {x^{2}}{alpha ^{ 2}}}},dx}

Denominación

Desde su introducción, la distribución normal ha sido conocida por muchos nombres diferentes: la ley del error, la ley de la facilidad de los errores, la segunda ley de Laplace, la ley de Gauss, etc. El mismo Gauss aparentemente acuñó el término en referencia a las "ecuaciones normales". involucrado en sus aplicaciones, con normal teniendo su significado técnico de ortogonal en lugar de "habitual". Sin embargo, a finales del siglo XIX algunos autores comenzaron a utilizar el nombre de distribución normal., donde la palabra "normal" se usó como adjetivo -el término ahora se considera un reflejo del hecho de que esta distribución se consideraba típica, común- y, por lo tanto, "normal". Peirce (uno de esos autores) una vez definió "normal" así: "...lo 'normal' no es el promedio (o cualquier otro tipo de media) de lo que realmente ocurre, sino de lo que, a la larga, ocurriría ". bajo ciertas circunstancias." A principios del siglo XX, Pearson popularizó el término normal como una designación para esta distribución.

Hace muchos años llamé a la curva de Laplace-Gaussiana curva normal, nombre que, si bien evita una cuestión internacional de prioridad, tiene la desventaja de llevar a la gente a creer que todas las demás distribuciones de frecuencia son, en un sentido u otro, "anormales".-  Pearson (1920)

Además, fue Pearson quien primero escribió la distribución en términos de la desviación estándar σ como en la notación moderna. Poco tiempo después, en el año 1915, Fisher añadió el parámetro de ubicación a la fórmula de la distribución normal, expresándolo en la forma en que se escribe hoy en día:

{displaystyle df={frac {1}{sqrt {2sigma ^{2}pi }}}e^{-(xm)^{2}/(2sigma ^{2})},dx.}

El término "normal estándar", que denota la distribución normal con media cero y varianza unitaria, se generalizó alrededor de la década de 1950, apareciendo en los populares libros de texto de P. G. Hoel (1947) " Introducción a la estadística matemática " y A. M. Mood (1950) " Introducción a la teoría de la estadística ”.

Contenido relacionado

Índice de perlas

Transformada de Box-Muller

Cuartilla

Más resultados...
Tamaño del texto: