Distribución logarítmica normal

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Comparación entre distribución normal y log-normal

La distribución logarítmica normal o log-normal, es la representación estadística de una variable aleatoria cuya transformación logarítmica sigue una distribución normal. Es decir, si una variable aleatoria X tiene una distribución logarítmica normal, entonces Y = ln(X) tiene una distribución normal. Inversamente, si Y es una variable con distribución normal, entonces la función exponencial Y, X = exp(Y) seguirá una distribución logarítmica normal. Su representación se da en forma de distribución de probabilidad continua.

Este tipo de distribución es exclusiva para valores reales positivos y es conocida también como distribución de Galton, en honor a Francis Galton. La distribución logarítmica normal ha recibido otros nombres a lo largo de la historia, incluyendo McAlister, Gibrat y Cobb-Douglas. Su relevancia se debe a que representa el resultado estadístico de multiplicar muchas variables aleatorias independientes y positivas. Este fenómeno se explica a través del teorema del límite central en el contexto logarítmico, conocido también como la ley de Gibrat.

Por ello se aplica ampliamente en diversas ciencias exactas como las ingenierías, la medicina o la economía, siendo útil para modelar fenómenos que requieren representar valores altamente variables como pueden ser: la energía, concentraciones, longitudes o precios de instrumentos financieros.

Desde un punto de vista de la teoría de la información, la distribución logarítmica normal es particularmente importante. Se la considera como la distribución de probabilidad de máxima entropía para una variable aleatoria X, bajo la condición de que la media y la varianza de ln(X) estén predefinidas. De aquí su utilidad en el análisis estadístico y en la modelización de datos en diversas disciplinas.

HSD

Definiciones

Generación y parámetros

Vamos a considerar $Z$ como una variable normal. Sea $mu$ (mu) y $sigma$ > 0 (sigma mayor que cero) dos números reales. Luego, la distribución de la variable aleatoria $Z$ se define por estos parámetros, donde $mu$ es la media y $sigma$ es la desviación estándar de la distribución.

Luego, la distribución de la variable aleatoria

X=e^{mu +sigma Z}

Se llama distribución log-normal con parámetros $mu$ y $sigma$ . Estos son el valor esperado (o medio) y la desviación estándar del logaritmo natural de la variable, no la expectativa y desviación estándar $X$ en sí misma.

Relación entre distribución normal y log-normal. Si ${displaystyle Y=mu +sigma Z}$ se distribuye normalmente, entonces ${displaystyle Xsim e^{Y}}$ está normalmente distribuida.

Esta relación es verdadera independientemente de la base de la función logarítmica o exponencial: si ${displaystyle log _{a}(X)}$ se distribuye normalmente, entonces lo es ${displaystyle log _{b}(X)}$ para cualquier dos números positivos $a,bneq 1$ . Del mismo modo, si ${displaystyle e^{Y}}$ está normalmente distribuida, entonces lo es ${displaystyle a^{Y}}$ , donde $<math alttext="{displaystyle 00.aل ل 1{displaystyle 0 madeaneq 1} <img alt="{displaystyle 0$ .

Para producir una distribución con media deseada $mu _{X}$ y diferencia $sigma_X^2$ , uno utiliza
${displaystyle mu =ln left({frac {mu _{X}^{2}}{sqrt {mu _{X}^{2}+sigma _{X}^{2}}}}right)}$ y ${displaystyle sigma ^{2}=ln left(1+{frac {sigma _{X}^{2}}{mu _{X}^{2}}}right).}$

Alternativamente, los parámetros "multiplicativos" o "geométricos" ${displaystyle mu ^{*}=e^{mu }}$ y ${displaystyle sigma ^{*}=e^{sigma }}$ se puede utilizar. Tienen una interpretación más directa: $mu ^{*}$ es la mediana de la distribución, y $sigma ^{*}$ es útil para determinar intervalos de "scatter", ver a continuación.

Función de densidad de probabilidad

Una variable aleatoria positiva X está normalmente distribuida (es decir, ${displaystyle Xsim operatorname {Lognormal} (mu _{x},sigma _{x}^{2})}$ ), si el logaritmo natural de X se distribuye normalmente con media $mu$ y diferencia ${displaystyle sigma ^{2}}$ :

{displaystyle ln(X)sim {mathcal {N}}(musigma ^{2})}

Vamos $Phi$ y $varphi$ ser respectivamente la función de distribución de probabilidad acumulativa y la función de densidad de probabilidad de la N(0,1) distribución, entonces tenemos que

{displaystyle {begin{aligned}f_{X}(x)&={frac {rm {d}}{{rm {d}}x}}Pr(Xleq x)={frac {rm {d}}{{rm {d}}x}}Pr(ln Xleq ln x)={frac {rm {d}}{{rm {d}}x}}Phi left({frac {ln x-mu }{sigma }}right)\[6pt]&=varphi left({frac {ln x-mu }{sigma }}right){frac {rm {d}}{{rm {d}}x}}left({frac {ln x-mu }{sigma }}right)=varphi left({frac {ln x-mu }{sigma }}right){frac {1}{sigma x}}\[6pt]&={frac {1}{xsigma {sqrt {2pi ,}}}}exp left(-{frac {(ln x-mu)^{2}}{2sigma ^{2}}}right).end{aligned}}}

Función de distribución acumulativa

La función de distribución acumulada es

{displaystyle F_{X}(x)=Phi left({frac {(ln x)-mu }{sigma }}right)}

Donde $Phi$ es la función de distribución acumulativa de la distribución normal estándar (es decir, N(0,1)).

Esto también se puede expresar de la siguiente manera:

{displaystyle {frac {1}{2}}left[1+operatorname {erf} left({frac {ln x-mu }{sigma {sqrt {2}}}}right)right]={frac {1}{2}}operatorname {erfc} left(-{frac {ln x-mu }{sigma {sqrt {2}}}}right)}

donde erfc es la función de error complementaria.

Logaritmo normal multivariante

Si ${boldsymbol {X}}sim {mathcal {N}}({boldsymbol {mu }},,{boldsymbol {Sigma }})$ es una distribución normal multivariada, entonces ${displaystyle Y_{i}=exp(X_{i})}$ tiene una distribución log-normal multivariada. El exponencial se aplica elemento aleatorio al vector aleatorio ${displaystyle {boldsymbol {X}}}$ . La media de ${displaystyle {boldsymbol {Y}}}$ es

operatorname {E} [{boldsymbol {Y}}]_{i}=e^{mu _{i}+{frac {1}{2}}Sigma _{ii}},

y su matriz de covarianza es

operatorname {Var} [{boldsymbol {Y}}]_{ij}=e^{mu _{i}+mu _{j}+{frac {1}{2}}(Sigma _{ii}+Sigma _{jj})}(e^{Sigma _{ij}}-1).

Dado que la distribución logarítmica normal multivariante no se usa mucho, el resto de esta entrada solo se ocupa de la distribución univariante.

Función característica y función generadora de momentos

Todos los momentos de la distribución log-normal existen y

{displaystyle operatorname {E} [X^{n}]=e^{nmu +n^{2}sigma ^{2}/2}}

Esto se puede derivar dejando ${displaystyle z={tfrac {ln(x)-(mu +nsigma ^{2})}{sigma }}}$ dentro de la integral. Sin embargo, la distribución log-normal no está determinada por sus momentos. Esto implica que no puede tener una función de generación de momento definida en un barrio de cero. De hecho, el valor esperado $operatorname {E} [e^{tX}]$ no se define para ningún valor positivo del argumento $t$ , desde las divergencias integrales definidas.

Función característica $operatorname {E} [e^{itX}]$ se define para valores reales de $t$ , pero no se define para ningún valor complejo $t$ que tiene una parte imaginaria negativa, y por lo tanto la función característica no es analítica en el origen. En consecuencia, la función característica de la distribución log-normal no puede ser representada como una serie convergente infinita. En particular, su serie formal de Taylor se divierte:

sum _{n=0}^{infty }{frac {(it)^{n}}{n!}}e^{nmu +n^{2}sigma ^{2}/2}

Sin embargo, se han obtenido varias representaciones alternativas de series divergentes.

Una fórmula de forma cerrada para la función característica $varphi (t)$ con $t$ en el dominio de la convergencia no se conoce. Una fórmula aproximada relativamente simple está disponible en forma cerrada, y es dada por

{displaystyle varphi (t)approx {frac {exp left(-{frac {W^{2}(-itsigma ^{2}e^{mu })+2W(-itsigma ^{2}e^{mu })}{2sigma ^{2}}}right)}{sqrt {1+W(-itsigma ^{2}e^{mu })}}}}

Donde $W$ es la función Lambert W. Esta aproximación se deriva a través de un método asintotico, pero permanece afilada por todo el dominio de convergencia de $varphi$ .

Propiedades

Probabilidad en diferentes dominios

El contenido de probabilidad de una distribución logarítmica normal en cualquier dominio arbitrario se puede calcular con la precisión deseada transformando primero la variable en normal y luego integrando numéricamente mediante el método de trazado de rayos. (código de Matlab)

Probabilidades de funciones de una variable log-normal

Dado que la probabilidad de una log-normal se puede calcular en cualquier dominio, esto significa que la cdf (y, en consecuencia, la pdf y la cdf inversa) de cualquier función de una variable log-normal también se puede calcular. (código de Matlab)

Momentos geométricos o multiplicativos

La media geométrica o multiplicativa de la distribución log-normal es ${displaystyle operatorname {GM} [X]=e^{mu }=mu ^{*}}$ . Es igual a la mediana. La desviación estándar geométrica o multiplicativa es ${displaystyle operatorname {GSD} [X]=e^{sigma }=sigma ^{*}}$ .

Por analogía con las estadísticas aritméticas, se puede definir una varianza geométrica, ${displaystyle operatorname {GVar} [X]=e^{sigma ^{2}}}$ , y un coeficiente geométrico de variación, ${displaystyle operatorname {GCV} [X]=e^{sigma }-1}$ , se ha propuesto. Este término tenía por objeto análogo al coeficiente de variación, para describir la variación multiplicativa de los datos log-normales, pero esta definición de GCV no tiene base teórica como estimación de ${displaystyle operatorname {CV} }$ (ver también Coeficiente de variación).

Tenga en cuenta que la media geométrica es más pequeña que la media aritmética. Esto se debe a la desigualdad AM-GM y es consecuencia de que el logaritmo es una función cóncava. De hecho,

{displaystyle operatorname {E} [X]=e^{mu +{frac {1}{2}}sigma ^{2}}=e^{mu }cdot {sqrt {e^{sigma ^{2}}}}=operatorname {GM} [X]cdot {sqrt {operatorname {GVar} [X]}}.}

En finanzas, el término $e^{-{frac {1}{2}}sigma ^{2}}$ a veces se interpreta como una corrección de convexidad. Desde el punto de vista del cálculo estocástico, este es el mismo término correccional que en la lema de Itō para el movimiento marroniano geométrico.

Momentos aritméticos

Para cualquier número real o complejo $n$ , el $n$ -ésimo momento de una variable con distribución logarítmica normal $X$ está dada por

{displaystyle operatorname {E} [X^{n}]=e^{nmu +{frac {1}{2}}n^{2}sigma ^{2}}.}

Específicamente, la media aritmética, el cuadrado esperado, la varianza aritmética y la desviación estándar aritmética de una variable con distribución logarítmica normal $X$ están dadas respectivamente por:

{displaystyle {begin{aligned}operatorname {E} [X]&=e^{mu +{tfrac {1}{2}}sigma ^{2}},\[4pt]operatorname {E} [X^{2}]&=e^{2mu +2sigma ^{2}},\[4pt]operatorname {Var} [X]&=operatorname {E} [X^{2}]-operatorname {E} [X]^{2}=(operatorname {E} [X])^{2}(e^{sigma ^{2}}-1)=e^{2mu +sigma ^{2}}(e^{sigma ^{2}}-1),\[4pt]operatorname {SD} [X]&={sqrt {operatorname {Var} [X]}}=operatorname {E} [X]{sqrt {e^{sigma ^{2}}-1}}=e^{mu +{tfrac {1}{2}}sigma ^{2}}{sqrt {e^{sigma ^{2}}-1}},end{aligned}}}

El coeficiente aritmético de variación ${displaystyle operatorname {CV} [X]}$ es la relación ${displaystyle {tfrac {operatorname {SD} [X]}{operatorname {E} [X]}}}$ . Para una distribución log-normal es igual a

{displaystyle operatorname {CV} [X]={sqrt {e^{sigma ^{2}}-1}}.}

Esta estimación a veces se denomina "CV geométrico" (GCV), debido a su uso de la varianza geométrica. Al contrario de la desviación estándar aritmética, el coeficiente de variación aritmético es independiente de la media aritmética.

Se pueden obtener los parámetros $μ$ y $σ$ , si se conocen la media aritmética y la varianza aritmética:

{displaystyle {begin{aligned}mu &=ln left({frac {operatorname {E} [X]^{2}}{sqrt {operatorname {E} [X^{2}]}}}right)=ln left({frac {operatorname {E} [X]^{2}}{sqrt {operatorname {Var} [X]+operatorname {E} [X]^{2}}}}right),\[4pt]sigma ^{2}&=ln left({frac {operatorname {E} [X^{2}]}{operatorname {E} [X]^{2}}}right)=ln left(1+{frac {operatorname {Var} [X]}{operatorname {E} [X]^{2}}}right).end{aligned}}}

Una distribución de probabilidad no está determinada únicamente por los momentos $E[X n] = e nμ + 1 / 2 n 2 σ 2$ para $n \geq 1$ . Es decir, existen otras distribuciones con el mismo conjunto de momentos. De hecho, existe toda una familia de distribuciones con los mismos momentos que la distribución log-normal.

Moda, mediana, cuantiles

Comparación de mediana, mediana y modo de dos distribuciones log-normales con diferentes esquejes.

El modo es el punto máximo global de la función de densidad de probabilidad. En particular, resolviendo la ecuación $(ln f)'=0$ , lo entendemos:

{displaystyle operatorname {Mode} [X]=e^{mu -sigma ^{2}}.}

Desde la variable traducida por el registro $Y=ln X$ tiene una distribución normal, y los quantiles se conservan bajo transformaciones monotónicas, los quantiles de $X$ son

{displaystyle q_{X}(alpha)=e^{mu +sigma q_{Phi }(alpha)}=mu ^{*}(sigma ^{*})^{q_{Phi }(alpha)},}

Donde ${displaystyle q_{Phi }(alpha)}$ es el cuntil de la distribución normal estándar.

Específicamente, la mediana de una distribución logarítmica normal es igual a su media multiplicativa,

{displaystyle operatorname {Med} [X]=e^{mu }=mu ^{*}.}

Expectativa parcial

La expectativa parcial de una variable aleatoria $X$ con respecto a un umbral $k$ se define como

g(k)=\int _{k}^{\infty }xf_{X}(x\mid X>k)\,dx.

Alternativamente, utilizando la definición de expectativa condicional, se puede escribir como $g(k)=\operatorname {E} [X\mid X>k]P(X>k)$ . Para una variable aleatoria log-normal, la expectativa parcial viene dada por:

g(k)=\int _{k}^{\infty }xf_{X}(x\mid X>k)\,dx=e^{\mu +{\tfrac {1}{2}}\sigma ^{2}}\,\Phi \!\left({\frac {\mu +\sigma ^{2}-\ln k}{\sigma }}\right)

Donde $Phi$ es la función de distribución acumulativa normal. La derivación de la fórmula se proporciona en la página Talk. La fórmula de expectativa parcial tiene aplicaciones en seguros y economía, se utiliza para resolver la ecuación diferencial parcial que conduce a la fórmula Black-Scholes.

Expectativa condicional

La expectativa condicional de una variable aleatoria normal de registro $X$ con respecto a un umbral $k$ — es su expectativa parcial dividida por la probabilidad acumulativa de estar en ese rango:

<math alttext="{displaystyle {begin{aligned}E[Xmid XE[X▪ ▪ X.k]=eμ μ +σ σ 22⋅ ⋅ CCPR CCPR [In⁡ ⁡ ()k)− − μ μ − − σ σ 2σ σ ]CCPR CCPR [In⁡ ⁡ ()k)− − μ μ σ σ ]E[X▪ ▪ X⩾ ⩾ k]=eμ μ +σ σ 22⋅ ⋅ CCPR CCPR [μ μ +σ σ 2− − In⁡ ⁡ ()k)σ σ ]1− − CCPR CCPR [In⁡ ⁡ ()k)− − μ μ σ σ ]E[X▪ ▪ X▪ ▪ [k1,k2]]=eμ μ +σ σ 22⋅ ⋅ CCPR CCPR [In⁡ ⁡ ()k2)− − μ μ − − σ σ 2σ σ ]− − CCPR CCPR [In⁡ ⁡ ()k1)− − μ μ − − σ σ 2σ σ ]CCPR CCPR [In⁡ ⁡ ()k2)− − μ μ σ σ ]− − CCPR CCPR [In⁡ ⁡ ()k1)− − μ μ σ σ ]{displaystyle {begin{aligned}E[Xmid Xierek] {fnMicroc {fnK}}cdot {fnfnK}cdot {fnsigma}{sigma} {sigma} {sigma}}sigma}}derecha]}{m}}}{c}} {cH0}}}}}}} {c}}}}} {c}}}}}}}}}} { Phi left[{frac {ln(k)-mu }{sigma }right]}[8pt]E[Xmid Xgeqslant k] {fnMicroc {sigma }{2}}cdot {frac {Phi left[{frac {mu}}}}cdot {frac {fnMicroc {fnMicroc {c}}}}}cdot {cdot {fnMicroc {cccccccccHcHccccHcHcccHcHcHcHcHcHcHcHcHcHcHcHcHsigmacHcHcHcHcHccHcccHcccHccHcHcHcHcHcHcHcHccHcHcHcHcHccH {fnMicrosoft Sans Serif} Phi left [{ln(k_{2})-mu }{sigma }right]-Phi left[{frac {ln(k_{1})-mu }{sigma }right]}}end{aligned}}}}}}}}}}}}<img alt="{displaystyle {begin{aligned}E[Xmid X

Parametrizaciones alternativas

Además de la caracterización por ${displaystyle musigma }$ o ${displaystyle mu ^{*},sigma ^{*}}$ , aquí hay múltiples formas de cómo la distribución normal de registro puede ser parametizada. ProbOnto, la base de conocimientos y la ontología de las distribuciones de probabilidad enumera siete formas:

Resúmenes de las parametrizaciones de las distribuciones log-normales.

LogNormal1(μ,σ) con media, μ, y desviación estándar, σ, ambos en la escala de registro

${displaystyle P(x;{boldsymbol {mu }},{boldsymbol {sigma }})={frac {1}{xsigma {sqrt {2pi }}}}exp left[-{frac {(ln x-mu)^{2}}{2sigma ^{2}}}right]}$
LogNormal2(μ,you) con media, μ, y varianza, ambos en la escala de registro

${displaystyle P(x;{boldsymbol {mu }},{boldsymbol {v}})={frac {1}{x{sqrt {v}}{sqrt {2pi }}}}exp left[-{frac {(ln x-mu)^{2}}{2v}}right]}$
LogNormal3(m,σ) con mediana, m, a escala natural y desviación estándar, σ, en la escala de registro

${displaystyle P(x;{boldsymbol {m}},{boldsymbol {sigma }})={frac {1}{xsigma {sqrt {2pi }}}}exp left[-{frac {ln ^{2}(x/m)}{2sigma ^{2}}}right]}$
LogNormal4(m,cv) con mediana, m y coeficiente de variación, cv, ambos en la escala natural

${displaystyle P(x;{boldsymbol {m}},{boldsymbol {cv}})={frac {1}{x{sqrt {ln(cv^{2}+1)}}{sqrt {2pi }}}}exp left[-{frac {ln ^{2}(x/m)}{2ln(cv^{2}+1)}}right]}$
LogNormal5(μ,τ) con media, μ, y precisión, τ, ambos en la escala de registro

${displaystyle P(x;{boldsymbol {mu }},{boldsymbol {tau }})={sqrt {frac {tau }{2pi }}}{frac {1}{x}}exp left[-{frac {tau }{2}}(ln x-mu)^{2}right]}$
LogNormal6(m,σ_g) con mediana, m, y geométrica desviación estándar, σ_g, ambos en la escala natural

${displaystyle P(x;{boldsymbol {m}},{boldsymbol {sigma _{g}}})={frac {1}{xln(sigma _{g}){sqrt {2pi }}}}exp left[-{frac {ln ^{2}(x/m)}{2ln ^{2}(sigma _{g})}}right]}$
LogNormal7(μ)_Nσ_NCon media, μ_N, y desviación estándar, σ_N, ambos en la escala natural

${displaystyle P(x;{boldsymbol {mu _{N}}},{boldsymbol {sigma _{N}}})={frac {1}{x{sqrt {2pi ln left(1+sigma _{N}^{2}/mu _{N}^{2}right)}}}}exp left(-{frac {{Big [}ln x-ln {frac {mu _{N}}{sqrt {1+sigma _{N}^{2}/mu _{N}^{2}}}}{Big ]}^{2}}{2ln(1+sigma _{N}^{2}/mu _{N}^{2})}}right)}$

Ejemplos de reparametrización

Considere la situación en la que le gustaría ejecutar un modelo utilizando dos herramientas de diseño óptimas diferentes, por ejemplo, PFIM y PopED. El primero soporta la parametrización LN2, el segundo LN7, respectivamente. Por lo tanto, se requiere la reparametrización, de lo contrario, las dos herramientas producirían resultados diferentes.

Para la transición ${displaystyle operatorname {LN2} (muv)to operatorname {LN7} (mu _{N},sigma _{N})}$ posponer las fórmulas siguientes ${textstyle mu _{N}=exp(mu +v/2)}$ y ${textstyle sigma _{N}=exp(mu +v/2){sqrt {exp(v)-1}}}$ .

Para la transición ${displaystyle operatorname {LN7} (mu _{N},sigma _{N})to operatorname {LN2} (muv)}$ posponer las fórmulas siguientes ${textstyle mu =ln left(mu _{N}/{sqrt {1+sigma _{N}^{2}/mu _{N}^{2}}}right)}$ y ${textstyle v=ln(1+sigma _{N}^{2}/mu _{N}^{2})}$ .

Todas las fórmulas de reparametrización restantes se pueden encontrar en el documento de especificaciones en el sitio web del proyecto.

Múltiple, recíproco, potencia

Multiplicación por una constante: Si ${displaystyle Xsim operatorname {Lognormal} (musigma ^{2})}$ entonces ${displaystyle aXsim operatorname {Lognormal} (mu +ln a, sigma ^{2})}$ para $0.}" xmlns="http://www.w3.org/1998/Math/MathML">a■0.{displaystyle a confiar0.}0.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/47586c689085690d15621968c72a61073b32357e" style="vertical-align: -0.338ex; width:6.138ex; height:2.176ex;"/>$
Recíproco: Si ${displaystyle Xsim operatorname {Lognormal} (musigma ^{2})}$ entonces ${displaystyle {tfrac {1}{X}}sim operatorname {Lognormal} (-mu sigma ^{2}).}$
Poder: Si ${displaystyle Xsim operatorname {Lognormal} (musigma ^{2})}$ entonces ${displaystyle X^{a}sim operatorname {Lognormal} (amu a^{2}sigma ^{2})}$ para ${displaystyle aneq 0.}$

Multiplicación y división de variables aleatorias logarítmicas normales e independientes

Si dos variables independientes, log-normal $X_{1}$ y $X_{2}$ son multiplicados [divididos], el producto [ratio] es de nuevo log-normal, con parámetros ${displaystyle mu =mu _{1}+mu _{2}}$ [ ${displaystyle mu =mu _{1}-mu _{2}}$ ] y $sigma$ , donde ${displaystyle sigma ^{2}=sigma _{1}^{2}+sigma _{2}^{2}}$ . Esto se generaliza fácilmente al producto de $n$ tales variables.

Más generalmente, si ${displaystyle X_{j}sim operatorname {Lognormal} (mu _{j},sigma _{j}^{2})}$ son $n$ variables independientes, normalmente distribuidas por registros, entonces ${displaystyle Y=textstyle prod _{j=1}^{n}X_{j}sim operatorname {Lognormal} {Big (}textstyle sum _{j=1}^{n}mu _{j}, sum _{j=1}^{n}sigma _{j}^{2}{Big)}.}$

Teorema del límite central multiplicativo

La media geométrica o multiplicativa de $n$ variables aleatorias positivas, independientes, distribuidas idénticamente $X_{i}$ espectáculos, para ${displaystyle nto infty }$ aproximadamente una distribución log-normal con parámetros ${displaystyle mu =E[ln(X_{i})]}$ y ${displaystyle sigma ^{2}={mbox{var}}[ln(X_{i})]/n}$ , suponiendo $sigma ^{2}$ es finito.

De hecho, las variables aleatorias no tienen que ser distribuidas de forma idéntica. Es suficiente para las distribuciones de ${displaystyle ln(X_{i})}$ a todos tienen varianza finita y satisfacen las otras condiciones de cualquiera de las muchas variantes del teorema límite central.

Esto se conoce comúnmente como la ley de Gibrat.

Otro

Un conjunto de datos que surge de la distribución logarítmica normal tiene una curva de Lorenz simétrica (consulte también el coeficiente de asimetría de Lorenz).

El armónico $H$ , geométrico $G$ y aritmética $A$ medios de esta distribución están relacionados; dicha relación se da por

{displaystyle H={frac {G^{2}}{A}}.}

Las distribuciones logarítmicas normales son infinitamente divisibles, pero no son distribuciones estables de las que se pueda extraer fácilmente.

Distribuciones relacionadas

Si $Xsim {mathcal {N}}(musigma ^{2})$ es una distribución normal, entonces ${displaystyle exp(X)sim operatorname {Lognormal} (musigma ^{2}).}$
Si ${displaystyle Xsim operatorname {Lognormal} (musigma ^{2})}$ se distribuye tronco-normalmente, luego $ln(X)sim {mathcal {N}}(musigma ^{2})$ es una variable aleatoria normal.
Vamos ${displaystyle X_{j}sim operatorname {Lognormal} (mu _{j},sigma _{j}^{2})}$ ser variables independientes distribuidas normalmente con posiblemente variable $sigma$ y $mu$ parámetros y ${textstyle Y=sum _{j=1}^{n}X_{j}}$ . La distribución de $Y$ no tiene expresión de forma cerrada, pero puede ser razonablemente aproximado por otra distribución log-normal $Z$ en la cola derecha. Su función de densidad de probabilidad en el barrio de 0 se ha caracterizado y no se asemeja a ninguna distribución log-normal. Una aproximación comúnmente utilizada por L.F. Fenton (pero previamente declarada por R.I. Wilkinson y matemática justificada por Marlow) se obtiene al igualar la media y varianza de otra distribución log-normal: ${displaystyle {begin{aligned}sigma _{Z}^{2}&=ln !left[{frac {sum e^{2mu _{j}+sigma _{j}^{2}}(e^{sigma _{j}^{2}}-1)}{(sum e^{mu _{j}+sigma _{j}^{2}/2})^{2}}}+1right],\mu _{Z}&=ln !left[sum e^{mu _{j}+sigma _{j}^{2}/2}right]-{frac {sigma _{Z}^{2}}{2}}.end{aligned}}}$
En caso de que todo $X_{j}$ tienen el mismo parámetro de varianza $sigma _{j}=sigma$ , estas fórmulas simplifican
${displaystyle {begin{aligned}sigma _{Z}^{2}&=ln !left[(e^{sigma ^{2}}-1){frac {sum e^{2mu _{j}}}{(sum e^{mu _{j}})^{2}}}+1right],\mu _{Z}&=ln !left[sum e^{mu _{j}}right]+{frac {sigma ^{2}}{2}}-{frac {sigma _{Z}^{2}}{2}}.end{aligned}}}$

Para una aproximación más precisa, se puede utilizar el método de Monte Carlo para estimar la función de distribución acumulativa, la función de densidad de probabilidad y la cola derecha.

La suma de las variables aleatorias correlacionadas con distribución logarítmica normal también se puede aproximar mediante una distribución logarítmica normal

{displaystyle {begin{aligned}S_{+}&=operatorname {E} left[sum _{i}X_{i}right]=sum _{i}operatorname {E} [X_{i}]=sum _{i}e^{mu _{i}+sigma _{i}^{2}/2}\sigma _{Z}^{2}&=1/S_{+}^{2},sum _{i,j}operatorname {cor} _{ij}sigma _{i}sigma _{j}operatorname {E} [X_{i}]operatorname {E} [X_{j}]=1/S_{+}^{2},sum _{i,j}operatorname {cor} _{ij}sigma _{i}sigma _{j}e^{mu _{i}+sigma _{i}^{2}/2}e^{mu _{j}+sigma _{j}^{2}/2}\mu _{Z}&=ln left(S_{+}right)-sigma _{Z}^{2}/2end{aligned}}}

Si ${displaystyle Xsim operatorname {Lognormal} (musigma ^{2})}$ entonces $X+c$ se dice que tiene un Normal de troncos de tres parámetros distribución con apoyo $xin (c,+infty)$ . ${displaystyle operatorname {E} [X+c]=operatorname {E} [X]+c}$ , $operatorname {Var} [X+c]=operatorname {Var} [X]$ .
La distribución log-normal es un caso especial de la SU-distribución de Johnson semi-boteada.
Si ${displaystyle Xmid Ysim operatorname {Rayleigh} (Y)}$ con ${displaystyle Ysim operatorname {Lognormal} (musigma ^{2})}$ , entonces ${displaystyle Xsim operatorname {Suzuki} (musigma)}$ (Distribución Suzuki).
Un sustituto de lo log-normal cuya integral se puede expresar en términos de funciones más elementales se puede obtener basado en la distribución logística para obtener una aproximación para el CDF ${displaystyle F(x;musigma)=left[left({frac {e^{mu }}{x}}right)^{pi /(sigma {sqrt {3}})}+1right]^{-1}.}$
Esta es una distribución logística de troncos.

Inferencia estadística

Estimación de parámetros

Para determinar los estimadores de máxima verosimilitud de los parámetros de distribución log-normal μ y σ, podemos utilizar el mismo procedimiento que para la distribución normal. Tenga en cuenta que

{displaystyle L(musigma)=prod _{i=1}^{n}{frac {1}{x_{i}}}varphi _{musigma }(ln x_{i}),}

$varphi$ ${displaystyle {mathcal {N}}(musigma ^{2})}$

{displaystyle ell (musigma mid x_{1},x_{2},ldotsx_{n})=-sum _{i}ln x_{i}+ell _{N}(musigma mid ln x_{1},ln x_{2},dotsln x_{n}).}

Puesto que el primer término es constante con respecto a μ y σ, ambas funciones de probabilidad logarítmica, $ell$ y $ell _{N}$ , alcanzar su máximo con el mismo $mu$ y $sigma$ . Por lo tanto, los estimadores de probabilidad máxima son idénticos a los para una distribución normal de las observaciones ${displaystyle ln x_{1},ln x_{2},dotsln x_{n})}$ ,

{displaystyle {widehat {mu }}={frac {sum _{i}ln x_{i}}{n}},qquad {widehat {sigma }}^{2}={frac {sum _{i}left(ln x_{i}-{widehat {mu }}right)^{2}}{n}}.}

Para finito n, el estimador $mu$ es imparcial, pero el para $sigma$ es parcial. En cuanto a la distribución normal, un estimador imparcial para $sigma$ puede obtenerse reemplazando el denominador n por n−1 en la ecuación ${displaystyle {widehat {sigma }}^{2}}$ .

Cuando los valores individuales $x_{1},x_{2},ldotsx_{n}$ no están disponibles, pero la media de la muestra ${bar {x}}$ y desviación estándar s es, entonces los parámetros correspondientes se determinan por las siguientes fórmulas, obtenidas de la resolución de las ecuaciones para la expectativa $operatorname {E} [X]$ y diferencia ${displaystyle operatorname {Var} [X]}$ para $mu$ y $sigma$ :

{displaystyle mu =ln left({bar {x}} {Big /} {sqrt {1+{frac {{widehat {sigma }}^{2}}{{bar {x}}^{2}}}}}right),qquad sigma ^{2}=ln left(1+{frac {{widehat {sigma }}^{2}}{{bar {x}}^{2}}}right).}

Estadísticas

La forma más eficiente de analizar datos con distribución logarítmica normal consiste en aplicar los métodos bien conocidos basados en la distribución normal a datos transformados logarítmicamente y luego transformar los resultados hacia atrás, si corresponde.

Intervalos de dispersión

Un ejemplo básico es dado por intervalos de dispersión: Para la distribución normal, el intervalo ${displaystyle [mu -sigmamu +sigma ]}$ contiene aproximadamente dos tercios (68%) de la probabilidad (o de una muestra grande), y ${displaystyle [mu -2sigmamu +2sigma ]}$ Contiene el 95%. Por lo tanto, para una distribución log-normal

{displaystyle [mu ^{*}/sigma ^{*},mu ^{*}cdot sigma ^{*}]=[mu ^{*}{}^{times }!!/sigma ^{*}]}

{displaystyle [mu ^{*}/(sigma ^{*})^{2},mu ^{*}cdot (sigma ^{*})^{2}]=[mu ^{*}{}^{times }!!/(sigma ^{*})^{2}]}

Intervalo de confianza para μ*

Utilizando el principio, note que un intervalo de confianza $mu$ es ${displaystyle [{widehat {mu }}pm qcdot {widehat {mathop {se} }}]}$ , donde ${displaystyle mathop {se} ={widehat {sigma }}/{sqrt {n}}}$ es el error estándar y q es el 97,5% cuntil de una distribución t con n-1 grados de libertad. La transferencia trasera conduce a un intervalo de confianza para $mu ^{*}$ ,

{displaystyle [{widehat {mu }}^{*}{}^{times }!!/(operatorname {sem} ^{*})^{q}]}

${displaystyle operatorname {sem} ^{*}=({widehat {sigma }}^{*})^{1/{sqrt {n}}}}$

Principio de entropía extrema para fijar el parámetro libre σ

En aplicaciones, $sigma$ es un parámetro a determinar. Para los procesos crecientes equilibrados por la producción y la disipación, el uso de un principio extremal de la entropía Shannon muestra que

{displaystyle sigma ={frac {1}{sqrt {6}}}}

Este valor se puede utilizar para dar alguna relación de escalado entre el punto de inflexión y el punto máximo de la distribución log-normal. Esta relación está determinada por la base del logaritmo natural, ${displaystyle e=2.718ldots }$ , y exhibe cierta similitud geométrica al principio mínimo de energía superficial.
Estas relaciones de escalado son útiles para predecir una serie de procesos de crecimiento (difusión epidémica, brote de gotas, crecimiento de la población, tasa de agitación de la bañera vortex, distribución de caracteres de lenguaje, perfil de velocidad de turbulencias, etc.).
Por ejemplo, la función log-normal con tal $sigma$ encaja bien con el tamaño de gotitas producidos de segunda vez durante el impacto de gotas y la propagación de una enfermedad epidémica.

El valor ${textstyle sigma =1{big /}{sqrt {6}}}$ se utiliza para proporcionar una solución probabilística para la ecuación de Drake.

Ocurrencia y aplicaciones

La distribución log-normal es importante en la descripción de los fenómenos naturales. Muchos procesos de crecimiento natural son impulsados por la acumulación de muchos pequeños cambios porcentuales que se vuelven aditivos en una escala logarítmica. En condiciones de regularidad apropiadas, la distribución de los cambios acumulados resultantes se aproximará cada vez más mediante un logaritmo normal, como se indica en la sección anterior sobre el "Teorema del límite central multiplicativo". Esto también se conoce como la ley de Gibrat, en honor a Robert Gibrat (1904-1980), quien la formuló para las empresas. Si la tasa de acumulación de estos pequeños cambios no varía con el tiempo, el crecimiento se vuelve independiente del tamaño. Incluso si esta suposición no es cierta, las distribuciones de tamaño a cualquier edad de las cosas que crecen con el tiempo tienden a ser logarítmicamente normales. En consecuencia, los rangos de referencia para las mediciones en individuos sanos se estiman con mayor precisión asumiendo una distribución logarítmica normal que asumiendo una distribución simétrica alrededor de la media.

Una segunda justificación se basa en la observación de que las leyes naturales fundamentales implican multiplicaciones y divisiones de variables positivas. Algunos ejemplos son la simple ley de la gravitación que conecta las masas y la distancia con la fuerza resultante, o la fórmula para las concentraciones de equilibrio de sustancias químicas en una solución que conecta las concentraciones de eductos y productos. Asumir distribuciones logarítmicas normales de las variables involucradas conduce a modelos consistentes en estos casos.

En las siguientes subsecciones se dan ejemplos específicos.

Comportamiento humano

La longitud de los comentarios publicados en los foros de discusión en Internet sigue una distribución log-normal.
El tiempo de permanencia de los usuarios en los artículos en línea (juegos, noticias, etc.) sigue una distribución log-normal.
La longitud de los juegos de ajedrez tiende a seguir una distribución normal de registro.
Las duraciones de inicio de estímulos de comparación acústica que coinciden con un estímulo estándar siguen una distribución log-normal.
El Cubo de Rubik soluciona, tanto en general como en persona, parece seguir una distribución log-normal.

Biología y medicina

Medidas de tamaño del tejido vivo (longitud, área de la piel, peso).
En el caso de epidemias altamente comunicables, como el SARS en 2003, si se aplican políticas de control de intervención pública, se muestra que el número de casos hospitalizados satisface la distribución normal de registros sin parámetros gratuitos si se asume una entropía y la desviación estándar se determina por el principio de la tasa máxima de producción de entropía.
La longitud de los apéndices inertes (hair, garras, uñas, dientes) de los especímenes biológicos, en la dirección del crecimiento.
El recuento normalizado de ARN-Seq para cualquier región genómica puede ser muy aproximado por distribución log-normal.
La secuenciación de PacBio lee la longitud sigue una distribución normal de troncos.
Ciertas mediciones fisiológicas, como la presión arterial de los seres humanos adultos (después de la separación en subpoblaciones masculinas/mujeres).
Varias variables farmacocinéticas, como Cmax, eliminación de la vida media y la tasa de eliminación constante.
En neurociencia, la distribución de los índices de disparos a través de una población de neuronas es a menudo aproximadamente lógico-normal. Esto se ha observado por primera vez en la corteza y estriato y más tarde en hipocampo y corteza entorrinolarante, y en otras partes del cerebro. Además, las distribuciones de ganancia intrínseca y las distribuciones de peso sináptico también parecen ser logística-normales.
En la gestión de las salas de operaciones, la distribución de la duración de la cirugía.
En el tamaño de las avalanchas de fracturas en el citoesqueleto de células vivas, mostrando distribuciones log-normales, con un tamaño significativamente mayor en las células cancerosas que las sanas.

Química

En química, la distribución logarítmica normal se usa para modelar distribuciones de tamaño de partículas y distribuciones de masa molar.

Distribución cumulativa de log-normal ajustada a las precipitaciones máximas anuales de 1 día, vea el ajuste de distribución

Hidrología

En la hidrología, se utiliza la distribución log-normal para analizar valores extremos de variables como valores máximos mensuales y anuales de precipitaciones diarias y volúmenes de descarga de ríos.

La imagen de la derecha, realizada con CumFreq, ilustra un ejemplo de equiparación de la distribución log-normal para clasificar anualmente las precipitaciones máximas de un día que muestran también el cinturón de confianza del 90% basado en la distribución binomio.

Los datos de precipitaciones están representados por posiciones de trama como parte de un análisis de frecuencia acumulativa.

Ciencias sociales y demografía

En economía, hay evidencia de que los ingresos del 97% al 99% de la población se distribuyen de forma normalizada. (La distribución de personas de ingresos superiores sigue una distribución de Pareto).
Si una distribución de ingresos sigue una distribución log-normal con desviación estándar $sigma$ , entonces el coeficiente Gini, comúnmente utilizado para evaluar la desigualdad de ingresos, se puede calcular como $G=operatorname {erf} left({frac {sigma }{2}}right)$ Donde $operatorname {erf}$ es la función de error, ya que ${displaystyle G=2Phi left({frac {sigma }{sqrt {2}}}right)-1}$ , donde $Phi (x)$ es la función de distribución acumulativa de una distribución normal estándar.
En las finanzas, en particular el modelo Black-Scholes, cambios en el Logarithm de tipos de cambio, índices de precios y índices de mercado de valores se asumen normales (estas variables se comportan como interés compuesto, no como interés simple, y también son multiplicativas). Sin embargo, algunos matemáticos como Benoit Mandelbrot han argumentado que las distribuciones log-Lévy, que poseen colas pesadas, serían un modelo más apropiado, en particular para el análisis de los fallos del mercado de valores. De hecho, las distribuciones de precios de stock suelen exhibir una cola de grasa. La distribución a medida de la grasa de los cambios durante los fallos del mercado de valores invalida las suposiciones del teorema límite central.
En la simetría, el número de citas a artículos de revistas y patentes sigue una distribución discreta-normal.
Los tamaños de la ciudad (población) satisfacen la Ley de Gibrat. El proceso de crecimiento de tamaños urbanos es proporcional e invariante con respecto al tamaño. Por lo tanto, desde el teorema límite central, el registro del tamaño de la ciudad se distribuye normalmente.
El número de parejas sexuales parece ser descrito mejor por una distribución normal de registros.

Tecnología

En el análisis de confiabilidad, la distribución normal de troncos se utiliza a menudo para modelar tiempos para reparar un sistema de mantenimiento.
En la comunicación inalámbrica, "la potencia local-medio expresada en valores logarítmicos, como dB o neper, tiene una distribución normal (es decir, gaisiano). Además, la obstrucción aleatoria de las señales de radio debido a grandes edificios y colinas, llamada sombra, a menudo se modela como una distribución tronco-normal.
Distribución del tamaño de las partículas producidas por la comminución con impactos aleatorios, como en el molino de bolas.
La distribución del tamaño de archivo de archivos de audio y vídeo disponibles públicamente (tipos de MIME) sigue una distribución log-normal sobre cinco órdenes de magnitud.
En redes informáticas y análisis de tráfico de Internet, log-normal se muestra como un buen modelo estadístico para representar la cantidad de tráfico por unidad de tiempo. Esto se ha demostrado aplicando un enfoque estadístico sólido en un gran grupo de trazas reales de Internet. En este contexto, la distribución log-normal ha mostrado un buen rendimiento en dos casos de uso principal: (1) predecir la proporción de tráfico de tiempo superará un nivel determinado (para el acuerdo de nivel de servicio o estimación de la capacidad de enlace) es decir, dimensionamiento de enlace basado en la provisión de ancho de banda y (2) predecir 95o precio percentil.

Contenido relacionado

Más resultados...