Número de Bernoulli
En matemáticas, los números de Bernoulli Bn son una secuencia de números racionales que ocurren con frecuencia en el análisis. Los números de Bernoulli... (leer más)
La distribución logarítmica normal o log-normal, es la representación estadística de una variable aleatoria cuya transformación logarítmica sigue una distribución normal. Es decir, si una variable aleatoria X tiene una distribución logarítmica normal, entonces Y = ln(X) tiene una distribución normal. Inversamente, si Y es una variable con distribución normal, entonces la función exponencial Y, X = exp(Y) seguirá una distribución logarítmica normal. Su representación se da en forma de distribución de probabilidad continua.
Este tipo de distribución es exclusiva para valores reales positivos y es conocida también como distribución de Galton, en honor a Francis Galton. La distribución logarítmica normal ha recibido otros nombres a lo largo de la historia, incluyendo McAlister, Gibrat y Cobb-Douglas. Su relevancia se debe a que representa el resultado estadístico de multiplicar muchas variables aleatorias independientes y positivas. Este fenómeno se explica a través del teorema del límite central en el contexto logarítmico, conocido también como la ley de Gibrat.
Por ello se aplica ampliamente en diversas ciencias exactas como las ingenierías, la medicina o la economía, siendo útil para modelar fenómenos que requieren representar valores altamente variables como pueden ser: la energía, concentraciones, longitudes o precios de instrumentos financieros.
Desde un punto de vista de la teoría de la información, la distribución logarítmica normal es particularmente importante. Se la considera como la distribución de probabilidad de máxima entropía para una variable aleatoria X, bajo la condición de que la media y la varianza de ln(X) estén predefinidas. De aquí su utilidad en el análisis estadístico y en la modelización de datos en diversas disciplinas.
HSD
Vamos a considerar como una variable normal. Sea (mu) y > 0 (sigma mayor que cero) dos números reales. Luego, la distribución de la variable aleatoria se define por estos parámetros, donde es la media y es la desviación estándar de la distribución.
Luego, la distribución de la variable aleatoria
Se llama distribución log-normal con parámetros μ μ {displaystyle mu } y σ σ {displaystyle sigma }. Estos son el valor esperado (o medio) y la desviación estándar del logaritmo natural de la variable, no la expectativa y desviación estándar X{displaystyle X} en sí misma.
Esta relación es verdadera independientemente de la base de la función logarítmica o exponencial: si loga ()X){displaystyle log _{a}(X)} se distribuye normalmente, entonces lo es logb ()X){displaystyle log _{b}(X)} para cualquier dos números positivos a,bل ل 1{displaystyle a,bneq 1}. Del mismo modo, si eY{displaystyle e^{Y} está normalmente distribuida, entonces lo es aY{displaystyle a^{Y}, donde <math alttext="{displaystyle 00.aل ل 1{displaystyle 0 madeaneq 1}<img alt="{displaystyle 0.
Para producir una distribución con media deseada μ μ X{displaystyle mu _{X}} y diferencia σ σ X2{displaystyle sigma _{X}{2}}, uno utiliza
μ μ =In ()μ μ X2μ μ X2+σ σ X2){displaystyle mu =ln left({frac {mu {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} ¿Qué? - Sí. y σ σ 2=In ()1+σ σ X2μ μ X2).{displaystyle sigma ^{2}=ln left(1+{frac {sigma ¿Qué? - ¿Sí?
Alternativamente, los parámetros "multiplicativos" o "geométricos" μ μ Alternativa Alternativa =eμ μ {displaystyle mu ^{*}=e^{mu } y σ σ Alternativa Alternativa =eσ σ {displaystyle sigma ^{*}=e^{sigma } se puede utilizar. Tienen una interpretación más directa: μ μ Alternativa Alternativa {displaystyle mu ^{*} es la mediana de la distribución, y σ σ Alternativa Alternativa {displaystyle sigma ^{*} es útil para determinar intervalos de "scatter", ver a continuación.
Una variable aleatoria positiva X está normalmente distribuida (es decir, X♪ ♪ Normal ()μ μ x,σ σ x2){displaystyle Xsim operatorname {Lognormal} (mu _{x},sigma _{x}^{2}}), si el logaritmo natural de X se distribuye normalmente con media μ μ {displaystyle mu } y diferencia σ σ 2{displaystyle sigma ^{2}:
Vamos CCPR CCPR {displaystyle Phi } y φ φ {displaystyle varphi } ser respectivamente la función de distribución de probabilidad acumulativa y la función de densidad de probabilidad de la N(0,1) distribución, entonces tenemos que
La función de distribución acumulada es
Donde CCPR CCPR {displaystyle Phi } es la función de distribución acumulativa de la distribución normal estándar (es decir, N(0,1)).
Esto también se puede expresar de la siguiente manera:
donde erfc es la función de error complementaria.
Si X♪ ♪ N()μ μ ,.. ){displaystyle {boldsymbol {X}sim {n}({boldsymbol {mu}},,{boldsymbol {sigma }}}}}}}} es una distribución normal multivariada, entonces Yi=exp ()Xi){displaystyle Sí. tiene una distribución log-normal multivariada. El exponencial se aplica elemento aleatorio al vector aleatorio X{displaystyle {boldsymbol {X}}. La media de Y{displaystyle {bu}}} es
y su matriz de covarianza es
Dado que la distribución logarítmica normal multivariante no se usa mucho, el resto de esta entrada solo se ocupa de la distribución univariante.
Todos los momentos de la distribución log-normal existen y
Esto se puede derivar dejando z=In ()x)− − ()μ μ +nσ σ 2)σ σ {displaystyle z={tfrac {ln(x)-(mu +nsigma ^{2}}{sigma } dentro de la integral. Sin embargo, la distribución log-normal no está determinada por sus momentos. Esto implica que no puede tener una función de generación de momento definida en un barrio de cero. De hecho, el valor esperado E [etX]{displaystyle operatorname {E} [e^{tX}} no se define para ningún valor positivo del argumento t{displaystyle t}, desde las divergencias integrales definidas.
Función característica E [eitX]{displaystyle operatorname {E} [e^{itX}} se define para valores reales de t, pero no se define para ningún valor complejo t que tiene una parte imaginaria negativa, y por lo tanto la función característica no es analítica en el origen. En consecuencia, la función característica de la distribución log-normal no puede ser representada como una serie convergente infinita. En particular, su serie formal de Taylor se divierte:
Sin embargo, se han obtenido varias representaciones alternativas de series divergentes.
Una fórmula de forma cerrada para la función característica φ φ ()t){displaystyle varphi (t)} con t{displaystyle t} en el dominio de la convergencia no se conoce. Una fórmula aproximada relativamente simple está disponible en forma cerrada, y es dada por
Donde W{displaystyle W. es la función Lambert W. Esta aproximación se deriva a través de un método asintotico, pero permanece afilada por todo el dominio de convergencia de φ φ {displaystyle varphi }.
El contenido de probabilidad de una distribución logarítmica normal en cualquier dominio arbitrario se puede calcular con la precisión deseada transformando primero la variable en normal y luego integrando numéricamente mediante el método de trazado de rayos. (código de Matlab)
Dado que la probabilidad de una log-normal se puede calcular en cualquier dominio, esto significa que la cdf (y, en consecuencia, la pdf y la cdf inversa) de cualquier función de una variable log-normal también se puede calcular. (código de Matlab)
La media geométrica o multiplicativa de la distribución log-normal es MM [X]=eμ μ =μ μ Alternativa Alternativa {displaystyle operatorname {GM} [X]=e^{mu }=mu ^{*}. Es igual a la mediana. La desviación estándar geométrica o multiplicativa es GSD [X]=eσ σ =σ σ Alternativa Alternativa {displaystyle operatorname {GSD} [X]=e^{sigma }=sigma ^{*}.
Por analogía con las estadísticas aritméticas, se puede definir una varianza geométrica, GVar [X]=eσ σ 2{displaystyle operatorname {GVar} [X]=e^{sigma ^{2}}, y un coeficiente geométrico de variación, GCV [X]=eσ σ − − 1{displaystyle operatorname {GCV} [X]=e^{sigma }-1}, se ha propuesto. Este término tenía por objeto análogo al coeficiente de variación, para describir la variación multiplicativa de los datos log-normales, pero esta definición de GCV no tiene base teórica como estimación de CV{displaystyle operatorname {CV} (ver también Coeficiente de variación).
Tenga en cuenta que la media geométrica es más pequeña que la media aritmética. Esto se debe a la desigualdad AM-GM y es consecuencia de que el logaritmo es una función cóncava. De hecho,
En finanzas, el término e− − 12σ σ 2{displaystyle e^{-{frac {2}sigma ^{2}} a veces se interpreta como una corrección de convexidad. Desde el punto de vista del cálculo estocástico, este es el mismo término correccional que en la lema de Itō para el movimiento marroniano geométrico.
Para cualquier número real o complejo n, el n-ésimo momento de una variable con distribución logarítmica normal X está dada por
Específicamente, la media aritmética, el cuadrado esperado, la varianza aritmética y la desviación estándar aritmética de una variable con distribución logarítmica normal X están dadas respectivamente por:
El coeficiente aritmético de variación CV [X]{displaystyle operatorname {CV} [X] es la relación SD [X]E [X]{displaystyle {tfrac {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {fnMicrosoft [X] {fnMicrosoft Sans Serif} {E} [X]}}. Para una distribución log-normal es igual a
Esta estimación a veces se denomina "CV geométrico" (GCV), debido a su uso de la varianza geométrica. Al contrario de la desviación estándar aritmética, el coeficiente de variación aritmético es independiente de la media aritmética.
Se pueden obtener los parámetros μ y σ, si se conocen la media aritmética y la varianza aritmética:
Una distribución de probabilidad no está determinada únicamente por los momentos E[Xn] = enμ + 1/2n2σ2 para n ≥ 1. Es decir, existen otras distribuciones con el mismo conjunto de momentos. De hecho, existe toda una familia de distribuciones con los mismos momentos que la distribución log-normal.
El modo es el punto máximo global de la función de densidad de probabilidad. En particular, resolviendo la ecuación ()In f).=0{displaystyle (ln f)'=0}, lo entendemos:
Desde la variable traducida por el registro Y=In X{displaystyle Y=ln X} tiene una distribución normal, y los quantiles se conservan bajo transformaciones monotónicas, los quantiles de X{displaystyle X} son
Donde qCCPR CCPR ()α α ){displaystyle q_{Phi }(alpha)} es el cuntil de la distribución normal estándar.
Específicamente, la mediana de una distribución logarítmica normal es igual a su media multiplicativa,
La expectativa parcial de una variable aleatoria X{displaystyle X} con respecto a un umbral k{displaystyle k} se define como
Alternativamente, utilizando la definición de expectativa condicional, se puede escribir como . Para una variable aleatoria log-normal, la expectativa parcial viene dada por:
Donde CCPR CCPR {displaystyle Phi } es la función de distribución acumulativa normal. La derivación de la fórmula se proporciona en la página Talk. La fórmula de expectativa parcial tiene aplicaciones en seguros y economía, se utiliza para resolver la ecuación diferencial parcial que conduce a la fórmula Black-Scholes.
La expectativa condicional de una variable aleatoria normal de registro X{displaystyle X}con respecto a un umbral k{displaystyle k}— es su expectativa parcial dividida por la probabilidad acumulativa de estar en ese rango:
Además de la caracterización por μ μ ,σ σ {displaystyle musigma } o μ μ Alternativa Alternativa ,σ σ Alternativa Alternativa {displaystyle mu ^{*},sigma ^{*}, aquí hay múltiples formas de cómo la distribución normal de registro puede ser parametizada. ProbOnto, la base de conocimientos y la ontología de las distribuciones de probabilidad enumera siete formas:
Considere la situación en la que le gustaría ejecutar un modelo utilizando dos herramientas de diseño óptimas diferentes, por ejemplo, PFIM y PopED. El primero soporta la parametrización LN2, el segundo LN7, respectivamente. Por lo tanto, se requiere la reparametrización, de lo contrario, las dos herramientas producirían resultados diferentes.
Para la transición LN2 ()μ μ ,v)→ → LN7 ()μ μ N,σ σ N){displaystyle operatorname {LN2}(muv)to operatorname {LN7} (mu _{N},sigma _{N})} posponer las fórmulas siguientes μ μ N=exp ()μ μ +v/2){textstyle mu _{N}=exp(mu +v/2)} y σ σ N=exp ()μ μ +v/2)exp ()v)− − 1{textstyle sigma ¿Por qué?.
Para la transición LN7 ()μ μ N,σ σ N)→ → LN2 ()μ μ ,v){displaystyle operatorname {LN7} (mu _{N},sigma _{N})to operatorname {LN2} (muv)} posponer las fórmulas siguientes μ μ =In ()μ μ N/1+σ σ N2/μ μ N2){textstyle mu =ln left(mu ¿Por qué? ¿Por qué? ¿Qué? y v=In ()1+σ σ N2/μ μ N2){textstyle v=ln(1+sigma ¿Qué?.
Todas las fórmulas de reparametrización restantes se pueden encontrar en el documento de especificaciones en el sitio web del proyecto.
Si dos variables independientes, log-normal X1{displaystyle X_{1} y X2{displaystyle X_{2} son multiplicados [divididos], el producto [ratio] es de nuevo log-normal, con parámetros μ μ =μ μ 1+μ μ 2{displaystyle mu =mu _{1}+mu _{2} [μ μ =μ μ 1− − μ μ 2{displaystyle mu =mu ¿Qué? ¿Qué?] y σ σ {displaystyle sigma }, donde σ σ 2=σ σ 12+σ σ 22{displaystyle sigma ^{2}=sigma ¿Qué? ¿Qué?. Esto se generaliza fácilmente al producto de n{displaystyle n} tales variables.
Más generalmente, si Xj♪ ♪ Normal ()μ μ j,σ σ j2){displaystyle X_{j}sim operatorname Lognormal. son n{displaystyle n} variables independientes, normalmente distribuidas por registros, entonces Y=∏ ∏ j=1nXj♪ ♪ Normal ().. j=1nμ μ j,.. j=1nσ σ j2).{displaystyle Y=textstyle prod ################################################################################################################################################################################################################################################################ {Lognormal} {Big (}textstyle sum _{j=1}{n}mu _{j},sum _{j=1}n}sigma _{j}{2}{2}{Big)}
La media geométrica o multiplicativa de n{displaystyle n} variables aleatorias positivas, independientes, distribuidas idénticamente Xi{displaystyle X_{i} espectáculos, para n→ → JUEGO JUEGO {displaystyle nto infty } aproximadamente una distribución log-normal con parámetros μ μ =E[In ()Xi)]{displaystyle mu =E[ln(X_{i})} y σ σ 2=Var[In ()Xi)]/n{displaystyle sigma ^{2}={mbox{var}[ln(X_{i})]/n}, suponiendo σ σ 2{displaystyle sigma ^{2} es finito.
De hecho, las variables aleatorias no tienen que ser distribuidas de forma idéntica. Es suficiente para las distribuciones de In ()Xi){displaystyle ln(X_{i})} a todos tienen varianza finita y satisfacen las otras condiciones de cualquiera de las muchas variantes del teorema límite central.
Esto se conoce comúnmente como la ley de Gibrat.
Un conjunto de datos que surge de la distribución logarítmica normal tiene una curva de Lorenz simétrica (consulte también el coeficiente de asimetría de Lorenz).
El armónico H{displaystyle H., geométrico G{displaystyle G. y aritmética A{displaystyle A} medios de esta distribución están relacionados; dicha relación se da por
Las distribuciones logarítmicas normales son infinitamente divisibles, pero no son distribuciones estables de las que se pueda extraer fácilmente.
En caso de que todo Xj{displaystyle X_{j} tienen el mismo parámetro de varianza σ σ j=σ σ {displaystyle sigma _{j}=sigma }, estas fórmulas simplifican
Para una aproximación más precisa, se puede utilizar el método de Monte Carlo para estimar la función de distribución acumulativa, la función de densidad de probabilidad y la cola derecha.
La suma de las variables aleatorias correlacionadas con distribución logarítmica normal también se puede aproximar mediante una distribución logarítmica normal
Esta es una distribución logística de troncos.
Para determinar los estimadores de máxima verosimilitud de los parámetros de distribución log-normal μ y σ, podemos utilizar el mismo procedimiento que para la distribución normal. Tenga en cuenta que
φ φ {displaystyle varphi }N()μ μ ,σ σ 2){displaystyle {mathcal {N}(musigma ^{2}}
Puesto que el primer término es constante con respecto a μ y σ, ambas funciones de probabilidad logarítmica, l l {displaystyle ell } y l l N{displaystyle ell _{N}, alcanzar su máximo con el mismo μ μ {displaystyle mu } y σ σ {displaystyle sigma }. Por lo tanto, los estimadores de probabilidad máxima son idénticos a los para una distribución normal de las observaciones In x1,In x2,...... ,In xn){displaystyle ln x_{1},ln x_{2},dotsln x_{n}},
Para finito n, el estimador μ μ {displaystyle mu } es imparcial, pero el para σ σ {displaystyle sigma } es parcial. En cuanto a la distribución normal, un estimador imparcial para σ σ {displaystyle sigma } puede obtenerse reemplazando el denominador n por n−1 en la ecuación σ σ ^ ^ 2{displaystyle {widehat {sigma } {2}.
Cuando los valores individuales x1,x2,...... ,xn{displaystyle x_{1},x_{2},ldotsx_{n} no están disponibles, pero la media de la muestra x̄ ̄ {displaystyle {bar {x}} y desviación estándar s es, entonces los parámetros correspondientes se determinan por las siguientes fórmulas, obtenidas de la resolución de las ecuaciones para la expectativa E [X]{displaystyle operatorname {E} [X]} y diferencia Var [X]{displaystyle operatorname [X] para μ μ {displaystyle mu } y σ σ {displaystyle sigma }:
La forma más eficiente de analizar datos con distribución logarítmica normal consiste en aplicar los métodos bien conocidos basados en la distribución normal a datos transformados logarítmicamente y luego transformar los resultados hacia atrás, si corresponde.
Un ejemplo básico es dado por intervalos de dispersión: Para la distribución normal, el intervalo [μ μ − − σ σ ,μ μ +σ σ ]{displaystyle [mu -sigmamu +sigma]} contiene aproximadamente dos tercios (68%) de la probabilidad (o de una muestra grande), y [μ μ − − 2σ σ ,μ μ +2σ σ ]{displaystyle [mu -2sigmamu +2sigma]} Contiene el 95%. Por lo tanto, para una distribución log-normal
Utilizando el principio, note que un intervalo de confianza μ μ {displaystyle mu } es [μ μ ^ ^ ± ± q⋅ ⋅ se^ ^ ]{displaystyle [{widehat {mu }pm qcdot {widehat {mathop {se}}}}}}, donde se=σ σ ^ ^ /n{displaystyle mathop {se} #{widehat {sigma }/{sqrt {n}} es el error estándar y q es el 97,5% cuntil de una distribución t con n-1 grados de libertad. La transferencia trasera conduce a un intervalo de confianza para μ μ Alternativa Alternativa {displaystyle mu ^{*},
semAlternativa Alternativa =()σ σ ^ ^ Alternativa Alternativa )1/n{displaystyle operatorname {sem}= {sigma}}^{1/{sqrt {}}
En aplicaciones, σ σ {displaystyle sigma } es un parámetro a determinar. Para los procesos crecientes equilibrados por la producción y la disipación, el uso de un principio extremal de la entropía Shannon muestra que
Este valor se puede utilizar para dar alguna relación de escalado entre el punto de inflexión y el punto máximo de la distribución log-normal. Esta relación está determinada por la base del logaritmo natural, e=2.718...... {displaystyle e=2.718ldots}, y exhibe cierta similitud geométrica al principio mínimo de energía superficial.
Estas relaciones de escalado son útiles para predecir una serie de procesos de crecimiento (difusión epidémica, brote de gotas, crecimiento de la población, tasa de agitación de la bañera vortex, distribución de caracteres de lenguaje, perfil de velocidad de turbulencias, etc.).
Por ejemplo, la función log-normal con tal σ σ {displaystyle sigma } encaja bien con el tamaño de gotitas producidos de segunda vez durante el impacto de gotas y la propagación de una enfermedad epidémica.
El valor σ σ =1/6{textstyle sigma =1{big /}{sqrt {6}} se utiliza para proporcionar una solución probabilística para la ecuación de Drake.
La distribución log-normal es importante en la descripción de los fenómenos naturales. Muchos procesos de crecimiento natural son impulsados por la acumulación de muchos pequeños cambios porcentuales que se vuelven aditivos en una escala logarítmica. En condiciones de regularidad apropiadas, la distribución de los cambios acumulados resultantes se aproximará cada vez más mediante un logaritmo normal, como se indica en la sección anterior sobre el "Teorema del límite central multiplicativo". Esto también se conoce como la ley de Gibrat, en honor a Robert Gibrat (1904-1980), quien la formuló para las empresas. Si la tasa de acumulación de estos pequeños cambios no varía con el tiempo, el crecimiento se vuelve independiente del tamaño. Incluso si esta suposición no es cierta, las distribuciones de tamaño a cualquier edad de las cosas que crecen con el tiempo tienden a ser logarítmicamente normales. En consecuencia, los rangos de referencia para las mediciones en individuos sanos se estiman con mayor precisión asumiendo una distribución logarítmica normal que asumiendo una distribución simétrica alrededor de la media.
Una segunda justificación se basa en la observación de que las leyes naturales fundamentales implican multiplicaciones y divisiones de variables positivas. Algunos ejemplos son la simple ley de la gravitación que conecta las masas y la distancia con la fuerza resultante, o la fórmula para las concentraciones de equilibrio de sustancias químicas en una solución que conecta las concentraciones de eductos y productos. Asumir distribuciones logarítmicas normales de las variables involucradas conduce a modelos consistentes en estos casos.
En las siguientes subsecciones se dan ejemplos específicos.
En química, la distribución logarítmica normal se usa para modelar distribuciones de tamaño de partículas y distribuciones de masa molar.
En matemáticas, los números de Bernoulli Bn son una secuencia de números racionales que ocurren con frecuencia en el análisis. Los números de Bernoulli... (leer más)
La pulgada es una unidad de longitud en los sistemas de medida imperial británico y estadounidense.. Es igual a 1/36 yarda o 1/12 de un pie. Derivado de la... (leer más)
Los axiomas de Kolmogorov son los fundamentos de la teoría de la probabilidad introducida por Andrey Kolmogorov en 1933. Estos axiomas siguen siendo... (leer más)