Distribución beta

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Distribución de la probabilidad

En teoría de probabilidad y estadística, la distribución beta es una familia de distribuciones de probabilidad continuas definidas en el intervalo [0, 1] en términos de dos parámetros positivos, denotados por alfa i> (α) y beta (β), que aparecen como exponentes de la variable y su complemento a 1, respectivamente, y controlan la forma de la distribución.

La distribución beta se ha aplicado para modelar el comportamiento de variables aleatorias limitadas a intervalos de longitud finita en una amplia variedad de disciplinas. La distribución beta es un modelo adecuado para el comportamiento aleatorio de porcentajes y proporciones.

En la inferencia bayesiana, la distribución beta es la distribución de probabilidad previa conjugada para las distribuciones de Bernoulli, binomial, binomial negativa y geométrica.

La formulación de la distribución beta discutida aquí también se conoce como la distribución beta del primer tipo, mientras que la distribución beta del segundo tipo es un nombre alternativo para la distribución beta prima. La generalización a múltiples variables se llama distribución de Dirichlet.

Definiciones

Función de densidad de probabilidad

Una animación de la distribución Beta para diferentes valores de sus parámetros.

La función de densidad de probabilidad (PDF) de la distribución beta, para 0 ≤ x ≤ 1, y parámetros de forma α, β > 0, es una función potencia de la variable x y de su reflejo (1 − x) como sigue:

f()x;α α ,β β )=constant⋅ ⋅ xα α − − 1()1− − x)β β − − 1=xα α − − 1()1− − x)β β − − 1∫ ∫ 01uα α − − 1()1− − u)β β − − 1du=.. ()α α +β β ).. ()α α ).. ()β β )xα α − − 1()1− − x)β β − − 1=1B()α α ,β β )xα α − − 1()1− − x)β β − − 1{displaystyle {begin{aligned}f(x;alphabeta) -1}(1-x)^{beta -1}[3pt] - 1} {displaystyle int ################################################################################################################################################################################################################################################################ {Gamma (alpha +beta)}{Gamma (alpha)Gamma (beta)},x^{alpha -1}(1-x)^{beta -1}[6pt] {B} (alphabeta)}x^{alpha -1}(1-x)^{beta -1}end{aligned}}

Dondez) es la función gamma. La función beta, B{displaystyle mathrm {B}, es una constante de normalización para asegurar que la probabilidad total es 1. En las ecuaciones anteriores x es una realización —un valor observado que realmente ocurrió— de una variable aleatoriaX.

Esta definición incluye ambos extremos x = 0 y x = 1, lo cual es consistente con definiciones para otras distribuciones continuas soportadas en un intervalo acotado que son casos especiales de la distribución beta, por ejemplo la distribución arcoseno, y consistente con varios autores, como N. L. Johnson y S. Kotz. Sin embargo, la inclusión de x = 0 y x = 1 no funciona para α, β < 1; en consecuencia, varios otros autores, incluido W. Feller, optan por excluir los extremos x = 0 y x = 1, (de modo que los dos extremos no sean realmente parte del dominio de la función de densidad) y considere en su lugar 0 < x < 1.

Varios autores, incluidos N. L. Johnson y S. Kotz, utilizan los símbolos p y q (en lugar de α y β ) para los parámetros de forma de la distribución beta, que recuerda a los símbolos utilizados tradicionalmente para los parámetros de la distribución de Bernoulli, porque la distribución beta se aproxima a la distribución de Bernoulli en el límite cuando ambos parámetros de forma α y β se acercan al valor de cero.

A continuación, una variable aleatoria X con distribución beta con parámetros α y β se denotará por:

X♪ ♪ Beta⁡ ⁡ ()α α ,β β ){displaystyle Xsim operatorname {Beta} (alphabeta)}

Otras notaciones para variables aleatorias distribuidas en beta utilizadas en la literatura estadística son X♪ ♪ Be()α α ,β β ){displaystyle Xsim {mathcal {B}e(alphabeta)} y X♪ ♪ β β α α ,β β {displaystyle Xsim beta _{alphabeta }.

Función de distribución acumulativa

CDF para distribución de beta simétrica vs. x yα=β
CDF para la distribución de beta asada vs. x yβ= 5α

La función de distribución acumulada es

F()x;α α ,β β )=B()x;α α ,β β )B()α α ,β β )=Ix()α α ,β β ){displaystyle F(x;alphabeta)={frac {mathrm {}(x;alphabeta)}{mathrm {} {} {alphabeta)}=I_{x}(alphabeta)}}}}}}}} {Alphabeta)}}}}}} {

Donde B()x;α α ,β β ){displaystyle mathrm {B} (x;alphabeta)} es la función beta incompleta y Ix()α α ,β β ){displaystyle I_{x}(alphabeta)} es la función beta incompleta regularizada.

Parametrizaciones alternativas

Dos parámetros

Media y tamaño de la muestra

La distribución beta también se puede reparametrizar en términos de su media μ (0 < μ < 1) y la suma de los dos parámetros de forma ν = α + β > 0(pág. 83). Denotando por αPosterior y βPosterior los parámetros de forma de la distribución beta posterior resultantes de aplicar el teorema de Bayes a una función de verosimilitud binomial y una probabilidad previa, la interpretación de la suma de ambos parámetros de forma para ser tamaño de muestra = ν = α·Posterior + β·Posterior solo es correcto para la probabilidad previa de Haldane Beta(0,0). Específicamente, para el Bayes (uniforme) previo Beta(1,1) la interpretación correcta sería tamaño de muestra = α·Posterior + β Posterior − 2, o ν = (tamaño de la muestra) + 2. Para un tamaño de la muestra mucho mayor que 2, la diferencia entre estos dos priores se vuelve insignificante. (Consulte la sección Inferencia bayesiana para obtener más detalles). ν = α + β se conoce como el "tamaño de la muestra" de una distribución Beta, pero hay que recordar que es, estrictamente hablando, el "tamaño de la muestra" de una función de verosimilitud binomial solo cuando se usa un Haldane Beta(0,0) previo en el teorema de Bayes.

Esta parametrización puede ser útil en la estimación de parámetros bayesianos. Por ejemplo, se puede administrar una prueba a varios individuos. Si se supone que la puntuación de cada persona (0 ≤ θ ≤ 1) se extrae de una distribución Beta a nivel de población, entonces una estadística importante es la media de esta distribución a nivel de población. Los parámetros de tamaño medio y muestra están relacionados con los parámetros de forma α y β a través de

α = μ, β = 1 − μ).

Bajo esta parametrización, se puede colocar una probabilidad previa no informativa sobre la media y una probabilidad previa vaga (como una distribución exponencial o gamma) sobre los valores reales positivos para el tamaño de la muestra, si son independientes, y datos previos y /o creencias lo justifican.

Modo y concentración

Concave beta distributions, which have 1}" xmlns="http://www.w3.org/1998/Math/MathML">α α ,β β ■1{displaystyle alphabeta }1}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/cc3f33fc553c096bb6e12987a13ab58edef863b6" style="vertical-align: -0.671ex; width:8.114ex; height:2.509ex;"/>, se puede parametrizar en términos de modo y "concentración". El modo, ⋅ ⋅ =α α − − 1α α +β β − − 2{displaystyle omega ={frac {fnMicrosoft} -1}{alpha - ¿Qué?, y concentración, κ κ =α α +β β {displaystyle kappa =alpha +beta }, se puede utilizar para definir los parámetros de forma usuales como sigue:

α α =⋅ ⋅ ()κ κ − − 2)+1β β =()1− − ⋅ ⋅ )()κ κ − − 2)+1{displaystyle {begin{aligned}alpha "=omega (kappa -2)+1\beta >=(1-omega)(kappa -2)+1end{aligned}}

Para el modo, <math alttext="{displaystyle 0<omega 0.⋅ ⋅ .1{displaystyle 0.<img alt="{displaystyle 0<omega Para ser bien definidos, necesitamos 1}" xmlns="http://www.w3.org/1998/Math/MathML">α α ,β β ■1{displaystyle alphabeta }1}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/cc3f33fc553c096bb6e12987a13ab58edef863b6" style="vertical-align: -0.671ex; width:8.114ex; height:2.509ex;"/>, o equivalente 2}" xmlns="http://www.w3.org/1998/Math/MathML">κ κ ■2{displaystyle kappa >2}2}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/4e53f495cab81087d61f1a1efc9e5bbbb91e3632" style="vertical-align: -0.338ex; width:5.6ex; height:2.176ex;"/>. Si en lugar de ello definemos la concentración como c=α α +β β − − 2{displaystyle c=alpha +beta -2}, la condición simplifica 0}" xmlns="http://www.w3.org/1998/Math/MathML">c■0{displaystyle c]0}0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/2ba126f626d61752f62eaacaf11761a54de4dc84" style="vertical-align: -0.338ex; width:5.268ex; height:2.176ex;"/> y la densidad beta en α α =1+c⋅ ⋅ {displaystyle alpha =1+comega } y β β =1+c()1− − ⋅ ⋅ ){displaystyle beta =1+c(1-omega)} puede ser escrito como:

f()x;⋅ ⋅ ,c)=xc⋅ ⋅ ()1− − x)c()1− − ⋅ ⋅ )B()1+c⋅ ⋅ ,1+c()1− − ⋅ ⋅ )){displaystyle f(x;omegac)={frac {x^{comega }(1-x)^{c(1-omega)}}}{mathrm {bigl (}1+comega1+c(1-omega){bigr)}}}}}}}}}}}}}}

Donde c{displaystyle c} escalar directamente las estadísticas suficientes, log⁡ ⁡ ()x){displaystyle log(x)} y log⁡ ⁡ ()1− − x){displaystyle log(1-x)}. Note también que en el límite, c→ → 0{displaystyle cto 0}, la distribución se vuelve plana.

Media y varianza

Resolviendo el sistema de ecuaciones (acopladas) dado en las secciones anteriores como las ecuaciones para la media y la varianza de la distribución beta en términos de los parámetros originales α y β, se pueden expresar los parámetros α y β en términos de la media (μ) y la varianza (var):

0,{text{ therefore: }}{text{var}}<mu (1-mu)\alpha &=mu nu =mu left({frac {mu (1-mu)}{text{var}}}-1right),{text{ if }}{text{var}}<mu (1-mu)\beta &=(1-mu)nu =(1-mu)left({frac {mu (1-mu)}{text{var}}}-1right),{text{ if }}{text{var}}.. =α α +β β =μ μ ()1− − μ μ )var− − 1,Donde.. =()α α +β β )■0,por lo tanto:Var.μ μ ()1− − μ μ )α α =μ μ .. =μ μ ()μ μ ()1− − μ μ )Var− − 1),siVar.μ μ ()1− − μ μ )β β =()1− − μ μ ).. =()1− − μ μ )()μ μ ()1− − μ μ )Var− − 1),siVar.μ μ ()1− − μ μ ).{displaystyle {begin{aligned}nu [=alpha +beta ={frac {mu]}{mathrm {var}}-1,{text{ where }}nu =(alpha +beta)} {text{ therefore: }{text{var}} {mu)m}\\alpha {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicros} {fnMicrosoft} {f}f} {f}f}fnMicroc}fnun}f}fnun}fnun}fnun}fnun} {fnun}fnun}fnun}fnun}fnun}fnun} {fnun}fnun}fnun}fnun}fnun}fnun}fnun}fnun}fnun}fnun}m}fnun}m}fnun}fnun}fn0,{text{ therefore: }}{text{var}}<mu (1-mu)\alpha &=mu nu =mu left({frac {mu (1-mu)}{text{var}}}-1right),{text{ if }}{text{var}}<mu (1-mu)\beta &=(1-mu)nu =(1-mu)left({frac {mu (1-mu)}{text{var}}}-1right),{text{ if }}{text{var}}

Esta parametrización de la distribución beta puede conducir a una comprensión más intuitiva que la basada en los parámetros originales α y β. Por ejemplo, expresando la moda, la asimetría, el exceso de curtosis y la entropía diferencial en términos de la media y la varianza:

Mode Beta Distribution for both alpha and beta greater than 1 - J. Rodal.jpgMode Beta Distribution for both alpha and beta greater than 1 - another view - J. Rodal.jpgSkewness Beta Distribution for mean full range and variance between 0.05 and 0.25 - Dr. J. Rodal.jpgSkewness Beta Distribution for mean and variance both full range - J. Rodal.jpgExcess Kurtosis Beta Distribution with mean for full range and variance from 0.05 to 0.25 - J. Rodal.jpgExcess Kurtosis Beta Distribution with mean and variance for full range - J. Rodal.jpgDifferential Entropy Beta Distribution with mean from 0.2 to 0.8 and variance from 0.01 to 0.09 - J. Rodal.jpgDifferential Entropy Beta Distribution with mean from 0.3 to 0.7 and variance from 0 to 0.2 - J. Rodal.jpg

Cuatro parámetros

Se admite una distribución beta con los dos parámetros de forma α y β en el rango [0,1] o (0,1). Es posible alterar la ubicación y la escala de la distribución introduciendo dos parámetros adicionales que representan el mínimo, a, y el máximo c (c > a), valores de la distribución, mediante una transformación lineal sustituyendo la variable adimensional x en términos de la nueva variable y (con admite [a,c] o (a,c)) y los parámetros a y c:

Sí.=x()c− − a)+a,por lo tanto,x=Sí.− − ac− − a.{displaystyle y=x(c-a)+a,{text{ therefore }x={frac {y-a}{c-a}}

La función de densidad de probabilidad de la distribución beta de cuatro parámetros es igual a la distribución de dos parámetros, escalada por el rango (c-a), (de modo que el total área bajo la curva de densidad es igual a una probabilidad de uno), y con el "y" variable desplazada y escalada de la siguiente manera:

f()Sí.;α α ,β β ,a,c)=f()x;α α ,β β )c− − a=()Sí.− − ac− − a)α α − − 1()c− − Sí.c− − a)β β − − 1()c− − a)B()α α ,β β )=()Sí.− − a)α α − − 1()c− − Sí.)β β − − 1()c− − a)α α +β β − − 1B()α α ,β β ).{displaystyle f(y;alphabetaa,c)={frac {f(x;alphabeta)}{c-a}={frac {left({frac {y-a}{c-a}right)}{alpha -1}left({frac Vale. -1}{(c-a)B(alphabeta)}={frac {(y-a)^{alpha -1}(c-y)^{beta - 1} {c-a)}}}}

Que una variable aleatoria Y tenga distribución Beta con cuatro parámetros α, β, a y c se denotará por:

Y♪ ♪ Beta⁡ ⁡ ()α α ,β β ,a,c).{displaystyle Ysim operatorname {Beta} (alphabetaa,c). }

Algunas medidas de ubicación central están escaladas (por (c-a)) y desplazadas (por a), de la siguiente manera:

1\{text{median}}(Y)&={text{median}}(X)(c-a)+a=left(I_{frac {1}{2}}^{[-1]}(alphabeta)right)(c-a)+a\end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">μ μ Y=μ μ X()c− − a)+a=()α α α α +β β )()c− − a)+a=α α c+β β aα α +β β modo()Y)=modo()X)()c− − a)+a=()α α − − 1α α +β β − − 2)()c− − a)+a=()α α − − 1)c+()β β − − 1)aα α +β β − − 2,siα α ,β β ■1mediana()Y)=mediana()X)()c− − a)+a=()I12[− − 1]()α α ,β β ))()c− − a)+a{displaystyle {begin{aligned}mu} ################################################################################################################################################################################################################################################################ a}{alpha {fnMicrosoft Sans Serif}1\{text{median}}(Y)&={text{median}}(X)(c-a)+a=left(I_{frac {1}{2}}^{[-1]}(alphabeta)right)(c-a)+a\end{aligned}}}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/bcaf1ed4d37f3d9c92d228d52e65223f655e69a6" style="vertical-align: -8.611ex; margin-bottom: -0.227ex; width:103.676ex; height:18.843ex;"/>

Nota: la media geométrica y la media armónica no pueden transformarse mediante una transformación lineal de la forma en que pueden hacerlo la media, la mediana y la moda.

Los parámetros de forma de Y se pueden escribir en términos de su media y varianza como

α α =()a− − μ μ Y)()ac− − aμ μ Y− − cμ μ Y+μ μ Y2+σ σ Y2)σ σ Y2()c− − a)β β =− − ()c− − μ μ Y)()ac− − aμ μ Y− − cμ μ Y+μ μ Y2+σ σ Y2)σ σ Y2()c− − a){displaystyle {begin{aligned}alpha >{frac {(a-mu _{Y})(a,c-a,mu} ¿Por qué? ¿Qué? ¿Qué? ¿Qué? ¿Por qué? ¿Qué? ¿Qué? ¿Por qué?

Las medidas de dispersión estadística se escalan (no es necesario cambiarlas porque ya están centradas en la media) por el rango (c-a), linealmente para la desviación media y no lineal para la varianza:

(media desviación alrededor de la media)()Y)={displaystyle {text{(mean deviation around mean)}(Y)=}
()(media desviación alrededor de la media)()X))()c− − a)=2α α α α β β β β B()α α ,β β )()α α +β β )α α +β β +1()c− − a){displaystyle ({text{(mean deviation around mean)}(X))(c-a)={frac {2alpha ^{alpha. }{mathrm {B} (alphabeta)(alpha +beta)}(c-a)}
Var()Y)=Var()X)()c− − a)2=α α β β ()c− − a)2()α α +β β )2()α α +β β +1).{displaystyle {text{var}}(Y)={text{var}(X)(c-a)^{2}={frac {alpha beta (c-a)}{2}{(alpha +beta)}{2} {alpha +beta +1)}}}}}}}}

Dado que la asimetría y el exceso de curtosis son cantidades adimensionales (como momentos centrados en la media y normalizados por la desviación estándar), son independientes de los parámetros a y c, y por lo tanto igual a las expresiones anteriores en términos de X (con soporte [0,1] o (0,1)):

Skewness()Y)=Skewness()X)=2()β β − − α α )α α +β β +1()α α +β β +2)α α β β .{displaystyle {text{skewness}}(Y)={text{skewness}(X)={frac {2(beta -alpha){sqrt {alpha +beta {alpha +beta +2){sqrt {alpha beta - Sí.
kurtosis exceso()Y)=kurtosis exceso()X)=6[()α α − − β β )2()α α +β β +1)− − α α β β ()α α +β β +2)]α α β β ()α α +β β +2)()α α +β β +3){displaystyle {text{kurtosis excess}}(Y)={text{kurtosis excess}}(X)={frac {6[(alpha -beta)^{2}(alpha +beta +1)-alpha beta (alpha +beta +2)}{alpha beta +beta +}

Propiedades

Medidas de tendencia central

Modo

La moda de una variable aleatoria con distribución Beta X con α, β > 1 es el valor más probable de la distribución (correspondiente al pico en la PDF), y viene dado por la siguiente expresión:

α α − − 1α α +β β − − 2.{fnMicroc {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {\\fnMicrosoft {\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ -1}{alpha +beta -2}.

Cuando ambos parámetros son menores que uno (α, β < 1), esta es la antimoda: el punto más bajo de la curva de densidad de probabilidad.

Haciendo α = β, la expresión para el modo se simplifica a 1/2, mostrando que para α = β > 1 el modo (resp. anti-modo cuando α, β < 1), está en el centro del distribución: es simétrica en esos casos. Consulte la sección Formas de este artículo para obtener una lista completa de casos de modo, para valores arbitrarios de α y β. Para varios de estos casos, el valor máximo de la función de densidad ocurre en uno o ambos extremos. En algunos casos, el valor (máximo) de la función de densidad que aparece al final es finito. Por ejemplo, en el caso de α = 2, β = 1 (o α = 1, β = 2), la función de densidad se convierte en una distribución de triángulo rectángulo que es finita en ambos extremos. En varios otros casos hay una singularidad en un extremo, donde el valor de la función de densidad se aproxima al infinito. Por ejemplo, en el caso α = β = 1/2, la distribución Beta se simplifica para convertirse en la distribución arcoseno. Existe un debate entre los matemáticos sobre algunos de estos casos y si los extremos (x = 0 y x = 1) pueden llamarse modos o no.

Modo de distribución Beta para 1 ≤ α ≤ 5 y 1 ≤ β ≤ 5
  • Si los extremos son parte del dominio de la función de densidad
  • Si una singularidad puede ser llamada alguna vez modo
  • Si los casos con dos máximas deben llamarse bimodal

Mediana

Mediano para distribución Beta para 0 ≤ α ≤ 5 y 0 ≤ β ≤ 5
(Mean-Median) para distribución Beta versus alfa y beta de 0 a 2

La mediana de la distribución beta es el número real único x=I12[− − 1]()α α ,β β ){displaystyle x=I_{2} {{[-1]}(alphabeta)} para la cual la función beta regularizada Ix()α α ,β β )=12{displaystyle I_{x}(alphabeta)={tfrac {1}{2}}}. No existe una expresión general de forma cerrada para la mediana de la distribución beta de valores arbitrarios α y β. Expresiones de forma cerrada para valores particulares de los parámetros α y β seguir:

  • Para casos simétricos α = β, mediana = 1/2.
  • Para α = 1 y β 0, median =1− − 2− − 1β β {displaystyle =1-2^{-{frac {1}{beta } (este caso es la imagen de la función de potencia [0,1] distribución)
  • Para α " 0 " β = 1, mediana = 2− − 1α α {displaystyle 2^{frac {1}{alpha } (este caso es la distribución de la función de potencia [0,1])
  • Para α = 3 y β = 2, mediana = 0.6142724318676105..., la solución real de la ecuación cuártica 1 - 8x3 + 6x4 = 0, que está en [0,1].
  • Para α = 2 y β = 3, mediana = 0,8572756813238945... = 1−mediana(Beta(3, 2))

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

limβ β → → 0mediana=limα α → → JUEGO JUEGO mediana=1,limα α → → 0mediana=limβ β → → JUEGO JUEGO mediana=0.{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fn}=fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {\fnMicrosoft Sans Serif} {fnMicrosoft}} {f}fnMicrosoft}}}}}fnMinMinMinMinMinMinMinMinMinMinMinMinMinMientras me dijo:

Una aproximación razonable del valor de la mediana de la distribución beta, tanto para α como para β mayor o igual a uno, viene dada por la fórmula

mediana.. α α − − 13α α +β β − − 23paraα α ,β β ≥ ≥ 1.{displaystyle {text{median}approx {fnMicroc {fnMicroc} - ¿Qué? {1}{3} {f} {fnK}}} {f}}}} {f}}} {f}}}} {f}}}}}}} {f}}}}}}} {f}}}}}} {Alfa +beta -{tfrac {2} {3}} {text{ for }alphabeta geq 1.}

Cuando α, β ≥ 1, el error relativo (el error absoluto dividido por la mediana) en esta aproximación es inferior al 4 % y tanto para α ≥ 2 como para β ≥ 2 es inferior al 1 %. El error absoluto dividido por la diferencia entre la media y la moda es igualmente pequeño:

Abs[(Median-Appr.)/Median] for Beta distribution for 1 ≤ α ≤ 5 and 1 ≤ β ≤ 5Abs[(Median-Appr.)/(Mean-Mode)] for Beta distribution for 1≤α≤5 and 1≤β≤5

Media

Medio para distribución Beta 0 ≤ α ≤ 5 y 0 ≤ β ≤ 5

El valor esperado (media) (μ) de una variable aleatoria de distribución Beta X con dos parámetros α y β es una función únicamente de la proporción β/α de estos parámetros:

μ μ =E⁡ ⁡ [X]=∫ ∫ 01xf()x;α α ,β β )dx=∫ ∫ 01xxα α − − 1()1− − x)β β − − 1B()α α ,β β )dx=α α α α +β β =11+β β α α {displaystyle {begin{aligned}mu} =nombre de operador {E} [X] afectadas=int _{0}^{1}xf(x;alphabeta),dx\\\cH00=int ¿Por qué? -1}{mathrm {B} (alphabeta)},dx\\fnMicroc {Alpha}{alpha +beta }\fnMicroc {1}{1+{frac {beta ♫{alpha {fnMicrosoft}} {fnMicrosoft}}} {fnMicrosoft}}}}} {fnMicrosoft}}}}}}}}}}}}}} {fnK}}}}} {fnuncio {f}}}}}}}}}}} {fnMientras {f}}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}f}}}}}f}f}f}f} {f} {f}f}f}f}f}f}f} {f} {f} {f}f}}f}f}f}f}f}f}f}f}f}fn}}}fnSe {f}}f}f}}f}f}}fn

Haciendo α = β en la expresión anterior se obtiene μ = 1/2, mostrando que para α = β la media está en el centro de la distribución: es simétrico. Además, de la expresión anterior se pueden obtener los siguientes límites:

limβ β α α → → 0μ μ =1limβ β α α → → JUEGO JUEGO μ μ =0{displaystyle {begin{aligned}lim ¿Por qué? }{alpha }to 0}mu =1\\lim _{frac {beta }{alpha }to infty =0end{aligned}}

Por lo tanto, para β/α → 0, o para α/β → ∞, la media se encuentra en el extremo derecho, x = 1. Para estas proporciones límite, la distribución beta se convierte en una distribución degenerada de un punto con un pico de función delta de Dirac en el extremo derecho, x = 1, con probabilidad 1 y probabilidad cero en cualquier otro lugar. Hay una probabilidad del 100 % (certeza absoluta) concentrada en el extremo derecho, x = 1.

Del mismo modo, para β/α → ∞, o para α/β → 0, la media se encuentra en el extremo izquierdo, x = 0. La distribución beta se convierte en una distribución degenerada de 1 punto con un pico de función delta de Dirac en el extremo izquierdo, x = 0, con probabilidad 1 y probabilidad cero en el resto. Hay una probabilidad del 100 % (certeza absoluta) concentrada en el extremo izquierdo, x = 0. A continuación se muestran los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

limβ β → → 0μ μ =limα α → → JUEGO JUEGO μ μ =1limα α → → 0μ μ =limβ β → → JUEGO JUEGO μ μ =0{displaystyle {begin{aligned}lim _{beta to ¡Oh! =lim _{alpha to infty }mu =1\\lim _{alpha to 0}mu =lim _{beta to infty }mu =0end{aligned}}

Mientras que para distribuciones unimodales típicas (con modos ubicados centralmente, puntos de inflexión en ambos lados del modo y colas más largas) (con Beta (α, β) tales que α, β > 2) se sabe que la media muestral (como estimación de la ubicación) no es tan robusto como la mediana de la muestra, lo contrario es el caso de uniforme o "en forma de U" distribuciones bimodales (con Beta(α, β) tales que α, β ≤ 1), con las modas situadas en los extremos de la distribución. Como señalan Mosteller y Tukey (p. 207), "el promedio de las dos observaciones extremas utiliza toda la información de la muestra. Esto ilustra cómo, para distribuciones de cola corta, las observaciones extremas deberían tener más peso." Por el contrario, se deduce que la mediana de "en forma de U" distribuciones bimodales con modos en el borde de la distribución (con Beta(α, β) tales que α, β ≤ 1) no es robusto, ya que la mediana de la muestra descarta las observaciones extremas de la muestra. Una aplicación práctica de esto ocurre, por ejemplo, para paseos aleatorios, ya que la probabilidad del tiempo de la última visita al origen en un paseo aleatorio se distribuye como la distribución arcoseno Beta(1/2, 1/2): la media de un El número de realizaciones de un paseo aleatorio es un estimador mucho más robusto que la mediana (que es una estimación de medida de muestra inapropiada en este caso).

Media geométrica

(Mean − GeometricMean) para distribución Beta versus α y β de 0 a 2, mostrando la asimetría entre α y β para el medio geométrico
Medios geométricos para distribución Beta Púrpura = G()x), Amarillo = G(1 −x), valores más pequeños α y β delante
Medios geométricos para distribución Beta. púrpura G()x), amarillo = G(1 −x), valores más grandes α y β delante

El logaritmo de la media geométrica GX de una distribución con variable aleatoria X es la media aritmética de ln(X ), o, de manera equivalente, su valor esperado:

In⁡ ⁡ GX=E⁡ ⁡ [In⁡ ⁡ X]{displaystyle ln G_{X}=operatorname {E} [ln X]

Para una distribución beta, la integral del valor esperado da:

E⁡ ⁡ [In⁡ ⁡ X]=∫ ∫ 01In⁡ ⁡ xf()x;α α ,β β )dx=∫ ∫ 01In⁡ ⁡ xxα α − − 1()1− − x)β β − − 1B()α α ,β β )dx=1B()α α ,β β )∫ ∫ 01∂ ∂ xα α − − 1()1− − x)β β − − 1∂ ∂ α α dx=1B()α α ,β β )∂ ∂ ∂ ∂ α α ∫ ∫ 01xα α − − 1()1− − x)β β − − 1dx=1B()α α ,β β )∂ ∂ B()α α ,β β )∂ ∂ α α =∂ ∂ In⁡ ⁡ B()α α ,β β )∂ ∂ α α =∂ ∂ In⁡ ⁡ .. ()α α )∂ ∂ α α − − ∂ ∂ In⁡ ⁡ .. ()α α +β β )∂ ∂ α α =↑ ↑ ()α α )− − ↑ ↑ ()α α +β β ){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f}cn0}ccH0}cH0}cH0}ccH0}ccH0}ccH0}cH0cH00}cH0cH00} -1}{mathrm {B} (alphabeta)},dx[4pt] {B} (alphabeta)},int ################################################################################################################################################################################################################################################################ {B} {fabeta}} {frac {partial }{partial alpha }int ################################################################################################################################################################################################################################################################ {B} (alphabeta)}{frac {partial mathrm {B}[4pt] {B} {alphabeta)}[4pt]}\[4pt] limitada={frac {partial ln Gamma (alpha)}{partial alpha }-{frac {partial ln Gamma (alpha +beta)}{partial alpha }[4pt] limit=psi (alpha)-psi (alpha +beta)end{aligned}}}}}}}

donde ψ es la función digamma.

Por lo tanto, la media geométrica de una distribución beta con parámetros de forma α y β es la exponencial de las funciones digamma de α y β como sigue:

GX=eE⁡ ⁡ [In⁡ ⁡ X]=e↑ ↑ ()α α )− − ↑ ↑ ()α α +β β ){displaystyle G_{X}=e^{operatorname {E}=e^{psi (alpha)-psi (alpha +beta)}}

Mientras que para una distribución beta con parámetros de forma iguales α = β, se deduce que asimetría = 0 y moda = media = mediana = 1/2, la media geométrica es menor que 1/2: 0 < GX < 1/2. La razón de esto es que la transformación logarítmica pondera fuertemente los valores de X cerca de cero, ya que ln(X) tiende fuertemente hacia el infinito negativo como X tiende a cero, mientras que ln(X) se aplana hacia cero como X → 1.

A lo largo de una línea α = β, se aplican los siguientes límites:

limα α =β β → → 0GX=0limα α =β β → → JUEGO JUEGO GX=12{displaystyle {begin{aligned} _{alpha =betato G_{X}=0\ _{alpha =beta to infty }G_{X}={2}end{aligned}}

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

limβ β → → 0GX=limα α → → JUEGO JUEGO GX=1limα α → → 0GX=limβ β → → JUEGO JUEGO GX=0{displaystyle {begin{aligned}lim _{beta to 0}G_{X}=lim _{alpha to infty }G_{X}=1\lim _{alpha to 0}G_{X}=lim _{beta to infty G_{X}=0end{aligned}

La gráfica adjunta muestra la diferencia entre la media y la media geométrica para los parámetros de forma α y β de cero a 2. Además del hecho de que la diferencia entre ellos se acerca a cero cuando α y β se acercan al infinito y que la diferencia se vuelve grande para valores de α y β próximos a cero, se puede observar una evidente asimetría de la media geométrica con respecto a los parámetros de forma α y β. La diferencia entre la media geométrica y la media es mayor para valores pequeños de α en relación con β que cuando se intercambian las magnitudes de β y α.

N. L. Johnson y S. Kotz sugieren la aproximación logarítmica a la función digamma ψ(α) ≈ ln(α − 1/2) que da como resultado la siguiente aproximación a la media geométrica:

1.}" xmlns="http://www.w3.org/1998/Math/MathML">GX.. α α − − 12α α +β β − − 12siα α ,β β ■1.{displaystyle G_{X}approx {frac {alpha ,-{frac {1}{2} {4}} {4}}}} {4}}}} {4}}} {4}}}}} {4}}}}}}}}}} {}}}} {}}}}}} {Alfa {beta} {beta}} {text{ if }alphabeta } {}}}} 1." aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/b99248644aa6d645f217ee91b14fd9dc653c044e" style="vertical-align: -3.338ex; width:28.834ex; height:7.843ex;"/>

Los valores numéricos para el error relativo en esta aproximación son los siguientes: [(α = β = 1): 9,39 %]; [(α = β = 2): 1,29 %]; [(α = 2, β = 3): 1,51 %]; [(α = 3, β = 2): 0,44 %]; [(α = β = 3): 0,51 %]; [(α = β = 4): 0,26%]; [(α = 3, β = 4): 0,55 %]; [(α = 4, β = 3): 0,24 %].

Del mismo modo, se puede calcular el valor de los parámetros de forma necesarios para que la media geométrica sea igual a 1/2. Dado el valor del parámetro β, ¿cuál sería el valor del otro parámetro, α, necesario para que la media geométrica sea igual a 1/2? La respuesta es que (para β > 1), el valor de α requerido tiende hacia β + 1/2 como β → ∞. Por ejemplo, todas estas parejas tienen la misma media geométrica de 1/2: [β = 1, α = 1,4427 ], [β = 2, α = 2.46958], [ β = 3, α = 3,47943], [β = 4, α = 4,48449], [β = 5, α = 5,48756], [β = 10, α = 10,4938], [β = 100, α = 100,499].

La propiedad fundamental de la media geométrica, que se puede demostrar que es falsa para cualquier otra media, es

G()XiYi)=G()Xi)G()Yi){displaystyle Gleft({frac {X_{i}}{Y_}}}} {frac {G(X_{i}}{G(Y_{i}}}}}

Esto hace que la media geométrica sea la única media correcta cuando se promedian resultados normalizados, es decir, resultados que se presentan como proporciones a valores de referencia. Esto es relevante porque la distribución beta es un modelo adecuado para el comportamiento aleatorio de porcentajes y es particularmente adecuado para el modelado estadístico de proporciones. La media geométrica juega un papel central en la estimación de máxima verosimilitud, consulte la sección "Estimación de parámetros, máxima verosimilitud." En realidad, al realizar la estimación de máxima verosimilitud, además de la media geométrica GX basada en la variable aleatoria X, también aparece de forma natural otra media geométrica: la media geométrica basada en la transformación lineal ––(1 − X), la imagen especular de X, denotada por G(1−X):

G()1− − X)=eE⁡ ⁡ [In⁡ ⁡ ()1− − X)]=e↑ ↑ ()β β )− − ↑ ↑ ()α α +β β ){displaystyle G_{(1-X)}=e^{operatorname {E} [ln(1-X)]}=e^{psi (beta)-psi (alpha +beta)}}

A lo largo de una línea α = β, se aplican los siguientes límites:

limα α =β β → → 0G()1− − X)=0limα α =β β → → JUEGO JUEGO G()1− − X)=12{displaystyle {begin{aligned} golpelim _{alpha =beta to # G_{(1-X)}=0\ _{alpha =beta to infty }G_{(1-X)}={tfrac {1} {2}end{aligned}}

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

limβ β → → 0G()1− − X)=limα α → → JUEGO JUEGO G()1− − X)=0limα α → → 0G()1− − X)=limβ β → → JUEGO JUEGO G()1− − X)=1{displaystyle {begin{aligned}lim _{betato 0}G_{(1-X)}=lim _{alpha to infty }G_{(1-X)}=0\lim _{alpha to 0}G_{(1-X)}=lim _{beta to infty }G_{(1-X)}=1end{aligned}}}

Tiene el siguiente valor aproximado:

1.}" xmlns="http://www.w3.org/1998/Math/MathML">G()1− − X).. β β − − 12α α +β β − − 12siα α ,β β ■1.{displaystyle G_{(1-X)}approx {fnMicroc {beta - {frac {1}{2} {4}} {4}}}} {4}}}} {4}}} {4}}}}} {4}}}}}}}}}} {}}}} {}}}}}} {Alfa {beta} {beta}} {text{ if }alphabeta } {}}}} 1." aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/40d7459baac164c2fedfad9dd8316320553e3d10" style="vertical-align: -3.338ex; width:32.213ex; height:7.843ex;"/>

Aunque tanto GX como G(1−X) son asimétricas, en el caso de que ambos parámetros de forma sean iguales α = β, la geometría las medias son iguales: GX = G(1−X). Esta igualdad se deriva de la siguiente simetría que se presenta entre ambas medias geométricas:

GX()B()α α ,β β ))=G()1− − X)()B()β β ,α α )).{displaystyle G_{X}(mathrm {B} (alphabeta)=G_{(1-X)}(mathrm {B} (betaalpha)). }

Media armónica

Significado armónico para distribución beta para 0α5 y 0βc)
Significado armónico para la distribución beta versus α y β de 0 a 2
Medios armónicos para distribución beta Púrpura = H()X), Amarillo = H(1 −X), valores más pequeños α y β delante
Medios armónicos para distribución de Beta Púrpura = H()X), Amarillo = H(1 −X), valores más grandes α y β delante

La inversa de la media armónica (HX) de una distribución con variable aleatoria X es la media aritmética de 1/X, o, de manera equivalente, su valor esperado. Por lo tanto, la media armónica (HX) de una distribución beta con parámetros de forma α y β es:

1{text{ and }}beta >0\end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">HX=1E⁡ ⁡ [1X]=1∫ ∫ 01f()x;α α ,β β )xdx=1∫ ∫ 01xα α − − 1()1− − x)β β − − 1xB()α α ,β β )dx=α α − − 1α α +β β − − 1siα α ■1yβ β ■0{displaystyle {begin{aligned}H_{X} {1}{fncipiente {E} left[{frac] {1}{0}{1} {f}{f} {f} {f} {f} {f} {f}f} {f}f}}, dx}}\\\\\\\\\fnMic} {fnMicroc}}}}}\\\f}\\\\\\\\\\fnMicrocH0}}}\\fnMicrocH00}}}\f}}\\\\\fnMicrocH00}}}}}}}\\\\\\\fnMicroc}}\\\\\\\fnMicroc}}}}}}}}\\\\\\\\\\fnMicroc}}}\\ {1}{int ¿Por qué? -1}{xmathrm {B} (alphabeta)},dx}\\fnMicroc {alpha -1}{alpha {beta} {fnMicrosoft Sans Serif}}beta }beta }\fnunci}} 1 text{ and } beta > 0 \ end{align}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/ed7d99dd7493b9c085cd5d407861730e2a2abf6c" style="vertical-align: -13.999ex; margin-bottom: -0.172ex; width:36.683ex; height:29.509ex;"/>

La media armónica (HX) de una distribución Beta con α < 1 no está definido, porque su expresión definitoria no está limitada en [0, 1] para el parámetro de forma α menor que la unidad.

Haciendo α = β en la expresión anterior se obtiene

HX=α α − − 12α α − − 1,{displaystyle H_{X}={frac {alpha -1}{2alpha - ¿Qué?

mostrando que para α = β la media armónica oscila entre 0, para α = β = 1, a 1/2, para α = β → ∞.

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

limα α → → 0HXno está definidolimα α → → 1HX=limβ β → → JUEGO JUEGO HX=0limβ β → → 0HX=limα α → → JUEGO JUEGO HX=1{displaystyle {begin{aligned} No está definido. 1}H_{X}=lim _{beta to infty ¿Qué? 0}H_{X}=lim _{alpha to infty - Sí.

La media armónica juega un papel en la estimación de máxima verosimilitud para el caso de cuatro parámetros, además de la media geométrica. En realidad, al realizar la estimación de máxima verosimilitud para el caso de los cuatro parámetros, además de la media armónica HX basada en la variable aleatoria X, también otro armónico la media aparece naturalmente: la media armónica basada en la transformación lineal (1 − X), la imagen especular de X, denotada por H1 − X:

1,{text{ and }}alpha >0.}" xmlns="http://www.w3.org/1998/Math/MathML">H1− − X=1E⁡ ⁡ [11− − X]=β β − − 1α α +β β − − 1siβ β ■1,yα α ■0.{displaystyle H_{1-X}={frac {1}{operatorname {E} left[{frac] {1}{1-X}}}={frac {beta -1}{beta +beta -1} {text{ if }beta } {text{ and }}alpha }}}}1,{text{ and }}alpha >0.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/48f4fd69f20c4259cb8a50e754df8dfed5a1ddca" style="vertical-align: -4.505ex; width:51.762ex; height:8.009ex;"/>

La media armónica (H(1 − X)) de una distribución Beta con β < 1 no está definido, porque su expresión definitoria no está limitada en [0, 1] para el parámetro de forma β menor que la unidad.

Haciendo α = β en la expresión anterior se obtiene

H()1− − X)=β β − − 12β β − − 1,{displaystyle H_{(1-X)}={frac {beta -1}{2beta - ¿Qué?

mostrando que para α = β la media armónica oscila entre 0, para α = β = 1, a 1/2, para α = β → ∞.

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

limβ β → → 0H1− − Xno está definidolimβ β → → 1H1− − X=limα α → → JUEGO JUEGO H1− − X=0limα α → → 0H1− − X=limβ β → → JUEGO JUEGO H1− − X=1{displaystyle {begin{aligned} No está definido. 1}H_{1-X}=lim _{alpha to infty - ¿Por qué? 0}H_{1-X}=lim _{beta to infty - Sí.

Aunque tanto HX como H1−X son asimétricos, en el caso de que ambos parámetros de forma sean iguales α = β, las medias armónicas son iguales: HX = H1−X. Esta igualdad se deriva de la siguiente simetría que se presenta entre ambas medias armónicas:

1.}" xmlns="http://www.w3.org/1998/Math/MathML">HX()B()α α ,β β ))=H1− − X()B()β β ,α α ))siα α ,β β ■1.{displaystyle H_{X}(mathrm {B} (alphabeta)=H_{1-X}(mathrm {B} (betaalpha){text{ if }alphabeta.1.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/0e80c207c2d510bbda4077f80954f86f872c4986" style="vertical-align: -0.838ex; width:41.843ex; height:2.843ex;"/>

Medidas de dispersión estadística

Variación

La varianza (el segundo momento centrado en la media) de una variable aleatoria de distribución Beta X con parámetros α y β es:

Var⁡ ⁡ ()X)=E⁡ ⁡ [()X− − μ μ )2]=α α β β ()α α +β β )2()α α +β β +1){displaystyle operatorname {var} (X)=operatorname {E} [(X-mu)}={frac {alpha beta }{(alpha +beta)^{2}(alpha +beta +1)}}}

Haciendo α = β en la expresión anterior se obtiene

Var⁡ ⁡ ()X)=14()2β β +1),{displaystyle operatorname {var} (X)={frac {1}{4(2beta +1)}}}

mostrando que para α = β la varianza disminuye monótonamente como α = β aumenta. Al establecer α = β = 0 en esta expresión, se encuentra la varianza máxima var(X) = 1/4 que solo ocurre al acercarse al límite, en α = β = 0.

La distribución beta también se puede parametrizar en términos de su media μ (0 < μ < 1) y el tamaño de la muestra ν = α + β (ν > 0) (ver subsección Media y tamaño de la muestra):

0\beta &=(1-mu)nu{text{ where }}nu =(alpha +beta)>0.end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">α α =μ μ .. ,Donde.. =()α α +β β )■0β β =()1− − μ μ ).. ,Donde.. =()α α +β β )■0.{displaystyle {begin{aligned}alpha {fnMicrosoft Sans Serif}nu = {fnMicrosoft Sans Serif}nMicrosoft Sans Serif}nMicrosoft Sans Serif > > > {fnMicrosoft Sans Serif >}}}}}}}nu =(alpha +beta)}}}}}nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn0\ beta &= (1 - mu) nu, text{ where }nu =(alpha + beta) >0. end{align}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/3e92c839dd907b8ba33fa862b19c4762327687aa" style="vertical-align: -2.505ex; width:38.633ex; height:6.176ex;"/>

Usando esta parametrización, se puede expresar la varianza en términos de la media μ y el tamaño de la muestra ν de la siguiente manera:

Var⁡ ⁡ ()X)=μ μ ()1− − μ μ )1+.. {displaystyle operatorname {var} (X)={frac {mu (1-mu)}{1+nu }}}

Ya que ν = α + β > 0, se deduce que var(X) < μ(1 − μ).

Para una distribución simétrica, la media está en el medio de la distribución, μ = 1/2, y por lo tanto:

Var⁡ ⁡ ()X)=14()1+.. )siμ μ =12{displaystyle operatorname {var} (X)={frac {1}{4(1+nu)}{text{ if }}mu ={tfrac {1}{2}}}

Además, los siguientes límites (con solo la variable indicada acercándose al límite) se pueden obtener a partir de las expresiones anteriores:

limβ β → → 0Var⁡ ⁡ ()X)=limα α → → 0Var⁡ ⁡ ()X)=limβ β → → JUEGO JUEGO Var⁡ ⁡ ()X)=limα α → → JUEGO JUEGO Var⁡ ⁡ ()X)=lim.. → → JUEGO JUEGO Var⁡ ⁡ ()X)=limμ μ → → 0Var⁡ ⁡ ()X)=limμ μ → → 1Var⁡ ⁡ ()X)=0lim.. → → 0Var⁡ ⁡ ()X)=μ μ ()1− − μ μ ){displaystyle {begin{aligned} {betato 0}operatorname {var} (X)=lim _{alpha to 0}operatorname {var} (X)=lim _{betainfty }operatorname {var} (X)=lim _{alpha to infty }operatorname {var} (X)=lim _{nu to infty }operatorname {var} (X)=lim _{muto 0}operatorname {var} (X)=lim _{muto 1}operatorname {var} (X)=0\ limitadalim _{nu to 0}operatorname {var} (X)=mu (1-mu)end{aligned}}}

Variance for Beta Distribution for alpha and beta ranging from 0 to 5 - J. Rodal.jpg

Varianza y covarianza geométrica

variabilidades geométricas de log vs. α y β
variabilidades geométricas de log vs. α y β

El logaritmo de la varianza geométrica, ln(varGX), de una distribución con variable aleatoria X es el segundo momento de la logaritmo de X centrado en la media geométrica de X, ln(GX):

In⁡ ⁡ VarGX=E⁡ ⁡ [()In⁡ ⁡ X− − In⁡ ⁡ GX)2]=E⁡ ⁡ [()In⁡ ⁡ X− − E⁡ ⁡ [In⁡ ⁡ X])2]=E⁡ ⁡ [()In⁡ ⁡ X)2]− − ()E⁡ ⁡ [In⁡ ⁡ X])2=Var⁡ ⁡ [In⁡ ⁡ X]{displaystyle {begin{aligned}ln operatorname {var} ################################################################################################################################################################################################################################################################ G_{X})^{2}derecha]cnfnfnfnfnfnfnfnfncH00}fncH00}fn1}cH009}cH00}cH009cH00}cH00}cH00}cH0cH00}cH0cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH0cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH00cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH00}cH0

y por lo tanto, la varianza geométrica es:

VarGX=eVar⁡ ⁡ [In⁡ ⁡ X]{displaystyle operatorname {var} [ln X]

En la matriz de información de Fisher, y la curvatura de la función logarítmica de verosimilitud, el logaritmo de la varianza geométrica de la variable reflejada 1 − X y el logaritmo de la covarianza geométrica entre X y 1 − X aparecen:

In⁡ ⁡ varG()1-X)=E⁡ ⁡ [()In⁡ ⁡ ()1− − X)− − In⁡ ⁡ G1− − X)2]=E⁡ ⁡ [()In⁡ ⁡ ()1− − X)− − E⁡ ⁡ [In⁡ ⁡ ()1− − X)])2]=E⁡ ⁡ [()In⁡ ⁡ ()1− − X))2]− − ()E⁡ ⁡ [In⁡ ⁡ ()1− − X)])2=Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]varG()1-X)=eVar⁡ ⁡ [In⁡ ⁡ ()1− − X)]In⁡ ⁡ covGX,1-X=E⁡ ⁡ [()In⁡ ⁡ X− − In⁡ ⁡ GX)()In⁡ ⁡ ()1− − X)− − In⁡ ⁡ G1− − X)]=E⁡ ⁡ [()In⁡ ⁡ X− − E⁡ ⁡ [In⁡ ⁡ X])()In⁡ ⁡ ()1− − X)− − E⁡ ⁡ [In⁡ ⁡ ()1− − X)])]=E⁡ ⁡ [In⁡ ⁡ XIn⁡ ⁡ ()1− − X)]− − E⁡ ⁡ [In⁡ ⁡ X]E⁡ ⁡ [In⁡ ⁡ ()1− − X)]=cov⁡ ⁡ [In⁡ ⁡ X,In⁡ ⁡ ()1− − X)]covGX,()1− − X)=ecov⁡ ⁡ [In⁡ ⁡ X,In⁡ ⁡ ()1− − X)]################################################################################################################################################################################################################################################################ G_{1-X})\\cH3fn0fn1} [(ln X-operatorname {E} [ln X])(ln(1-X)-operatorname {E} [ln(1-X)])]\\cH00=operatorname=operatorname {E} left[ln Xln(1-X)right]-operatorname {E} [ln X]operatorname {E} [ln(1-X)]\\\cH0operatorname {cov} [ln X,ln(1-X)]\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\fnMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMi {fnMicrosoft Sans Serif}}end{aligned}}

Para una distribución beta, se pueden derivar momentos logarítmicos de orden superior usando la representación de una distribución beta como una proporción de dos distribuciones Gamma y diferenciando a través de la integral. Se pueden expresar en términos de funciones poli-gamma de orden superior. Ver la sección § Momentos de variables aleatorias transformadas logarítmicamente. La varianza de las variables logarítmicas y la covarianza de ln X y ln(1−X) son:

Var⁡ ⁡ [In⁡ ⁡ X]=↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β ){displaystyle operatorname {var} [ln X]=psi _{1}(alpha)-psi _{1}(alpha +beta)}
Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]=↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β ){displaystyle operatorname {var} [ln(1-X)]=psi _{1}(beta)-psi _{1}(alpha +beta)}
cov⁡ ⁡ [In⁡ ⁡ X,In⁡ ⁡ ()1− − X)]=− − ↑ ↑ 1()α α +β β ){displaystyle operatorname {cov} [ln X,ln(1-X)]=-psi _{1}(alpha +beta)}

donde la función trigamma, denominada ψ1(α), es la segunda de las funciones poligamma y se define como la derivada de la función digamma:

↑ ↑ 1()α α )=d2In⁡ ⁡ .. ()α α )dα α 2=d↑ ↑ ()α α )dα α .{displaystyle psi _{1}(alpha)={frac {d^{2}ln {fnMicrosoft Sans Serif}{2}={frac {d,psi (alpha)}{dalpha }}

Por lo tanto,

In⁡ ⁡ VarGX=Var⁡ ⁡ [In⁡ ⁡ X]=↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β ){displaystyle ln operatorname {var} ¿Por qué?
In⁡ ⁡ VarG()1− − X)=Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]=↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β ){displaystyle ln operatorname {var} _{G(1-X)}=operatorname {var} [ln(1-X)]=psi _{1}(beta)-psi _{1}(alpha +beta)}
In⁡ ⁡ covGX,1− − X=cov⁡ ⁡ [In⁡ ⁡ X,In⁡ ⁡ ()1− − X)]=− − ↑ ↑ 1()α α +β β ){displaystyle ln operatorname {cov} [ln X,ln(1-X)]=-psi _{1}(alpha +beta)}

Los gráficos adjuntos muestran las varianzas geométricas logarítmicas y la covarianza geométrica logarítmica frente a los parámetros de forma α y β. Los gráficos muestran que las varianzas geométricas logarítmicas y la covarianza geométrica logarítmica son cercanas a cero para los parámetros de forma α y β mayores que 2, y que las varianzas geométricas logarítmicas aumentan rápidamente en valor para los valores de los parámetros de forma α y β menor que la unidad. Las varianzas geométricas logarítmicas son positivas para todos los valores de los parámetros de forma. La covarianza logarítmica geométrica es negativa para todos los valores de los parámetros de forma y alcanza valores negativos grandes para α y β menores que la unidad.

Los siguientes son los límites con un parámetro finito (distinto de cero) y el otro acercándose a estos límites:

limα α → → 0In⁡ ⁡ VarGX=limβ β → → 0In⁡ ⁡ VarG()1− − X)=JUEGO JUEGO limβ β → → 0In⁡ ⁡ VarGX=limα α → → JUEGO JUEGO In⁡ ⁡ VarGX=limα α → → 0In⁡ ⁡ VarG()1− − X)=limβ β → → JUEGO JUEGO In⁡ ⁡ VarG()1− − X)=limα α → → JUEGO JUEGO In⁡ ⁡ covGX,()1− − X)=limβ β → → JUEGO JUEGO In⁡ ⁡ covGX,()1− − X)=0limβ β → → JUEGO JUEGO In⁡ ⁡ VarGX=↑ ↑ 1()α α )limα α → → JUEGO JUEGO In⁡ ⁡ VarG()1− − X)=↑ ↑ 1()β β )limα α → → 0In⁡ ⁡ covGX,()1− − X)=− − ↑ ↑ 1()β β )limβ β → → 0In⁡ ⁡ covGX,()1− − X)=− − ↑ ↑ 1()α α ){displaystyle {begin{aligned} limitelim _{alphato 0}ln operatorname {var} _{GX}=lim _{betato 0}ln operatorname {var} _{G(1-X)}=infty \\lim _{betato 0}ln operatorname {var} _{GX}=lim _{alpha to infty }ln operatorname {var} _{GX}=m] {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fn} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}*

Límites con dos parámetros que varían:

limα α → → JUEGO JUEGO ()limβ β → → JUEGO JUEGO In⁡ ⁡ VarGX)=limβ β → → JUEGO JUEGO ()limα α → → JUEGO JUEGO In⁡ ⁡ VarG()1− − X))=limα α → → JUEGO JUEGO ()limβ β → → 0In⁡ ⁡ covGX,()1− − X))=limβ β → → JUEGO JUEGO ()limα α → → 0In⁡ ⁡ covGX,()1− − X))=0limα α → → JUEGO JUEGO ()limβ β → → 0In⁡ ⁡ VarGX)=limβ β → → JUEGO JUEGO ()limα α → → 0In⁡ ⁡ VarG()1− − X))=JUEGO JUEGO limα α → → 0()limβ β → → 0In⁡ ⁡ covGX,()1− − X))=limβ β → → 0()limα α → → 0In⁡ ⁡ covGX,()1− − X))=− − JUEGO JUEGO {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fn} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft ] {fnMicrosoft ] {fnMicrosoft ] ################################################################################################################################################################################################################################################################

Aunque tanto ln(varGX) como ln(varG(1 − X)) son asimétricos, cuando los parámetros de forma son iguales, α = β, se tiene: ln(varGX) = ln(varG(1−X)). Esta igualdad se deriva de la siguiente simetría mostrada entre ambas varianzas geométricas logarítmicas:

In⁡ ⁡ VarGX⁡ ⁡ ()B()α α ,β β ))=In⁡ ⁡ VarG()1− − X)⁡ ⁡ ()B()β β ,α α )).{displaystyle ln operatorname {var} _{GX}(mathrm {B} (alphabeta)=ln operatorname {var} _{G(1-X)}(mathrm {B} (betaalpha)). }

La covarianza logarítmica geométrica es simétrica:

In⁡ ⁡ covGX,()1− − X)⁡ ⁡ ()B()α α ,β β ))=In⁡ ⁡ covGX,()1− − X)⁡ ⁡ ()B()β β ,α α )){displaystyle ln operatorname {cov} _{GX,(1-X)}(mathrm {B} (alphabeta))=ln operatorname {cov} _{GX,(1-X)}(mathrm {B} (betaalpha)})}

Desviación absoluta media alrededor de la media

Ratio of Mean Abs.Dev. to Std.Dev. for Distribución beta con α y β que van de 0 a 5
Ratio de Mean Abs.Dev. a Std.Dev. para distribución de Beta con media 0 ≤ μ ≤ 1 y tamaño de muestra 0

La desviación media absoluta alrededor de la media para la distribución beta con parámetros de forma α y β es:

E⁡ ⁡ [SilencioX− − E[X]Silencio]=2α α α α β β β β B()α α ,β β )()α α +β β )α α +β β +1{displaystyle operatorname {E} [vivirX-E[X] sometida]={frac {2alpha ^{alpha. }{mathrm {B} (alphabeta)(alpha +beta)^{alpha +beta #

La desviación absoluta media alrededor de la media es un estimador de dispersión estadística más sólido que la desviación estándar para distribuciones beta con colas y puntos de inflexión a cada lado de la moda, Beta(α, β) distribuciones con α,β > 2, ya que depende de las desviaciones lineales (absolutas) en lugar de las desviaciones cuadráticas de la media. Por lo tanto, el efecto de desviaciones muy grandes de la media no se pondera demasiado.

Usando la aproximación de Stirling a la función Gamma, N.L.Johnson y S.Kotz derivaron la siguiente aproximación para valores de los parámetros de forma mayores que la unidad (el error relativo para esta aproximación es solo −3.5% para α = β = 1, y decrece a cero cuando α → ∞, β → ∞):

1.end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">abs. dev. de mediaDesviación estándar=E⁡ ⁡ [SilencioX− − E[X]Silencio]Var⁡ ⁡ ()X).. 2π π ()1+712()α α +β β )− − 112α α − − 112β β ),siα α ,β β ■1.{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {}} {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {f} {fnMicrosoft}f}fnMicrosoft}fnMicrosoft}f}fnMicrosoft}fnMicrosoft {f}fnMicrosoft}fnMicrosoft}fnMicrosoft}fnMicrosoft {f}f}fnMicrosoft}fnMicrosoft} {f}fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}f}fnMicrosoft}fnMicrosoft}fnMicro 1. end{align}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c196a5a2eb110b71471a3dc019241c6cb8c3f927" style="vertical-align: -6.338ex; width:81.253ex; height:13.843ex;"/>

En el límite α → ∞, β → ∞, la relación de la desviación absoluta media a la desviación estándar (para la distribución beta) se vuelve igual a la proporción de las mismas medidas para la distribución normal: 2π π {fnMicroc} {2}{pi} }. Para α = β = 1 esta proporción es igual 32{displaystyle {frac {sqrt {3}{2}}} {}}} {}}} {}}}}} {}}}} {}}} {}}} {}}}} {}}}} {}}}}} {}}}} {}}}}} {}}}}} {}}}}}}} {}}}}}} {}}}}}} {}}}}}} {}}}}}}}}} {}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}} {}}}}}}}} {}}}}}}} {}}}}}}}}}}} {}}}}}}} {}}}}}}}} {}}}}}} {}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}, por lo que de α = β = 1 a α, β → ∞ la relación disminuye en un 8,5%. Para α = β = 0 la desviación estándar es exactamente igual a la desviación absoluta media alrededor de la media. Por lo tanto, esta proporción disminuye en un 15% de α = β = 0 a α = β = 1, y en un 25% de α = β = 0 a α, β → ∞. Sin embargo, para las distribuciones de beta asedidas tales que α → 0 o β → 0, la relación de la desviación estándar a la media de desviación absoluta se acerca a la infinidad (aunque cada uno de ellos, individualmente, se acerca a cero) porque la desviación absoluta media se acerca cero más rápido que la desviación estándar.

Usando la parametrización en términos de μ medio y tamaño de muestra ν = α + β > 0:

α = μν, β = (1−μ)

Se puede expresar la desviación media absoluta alrededor de la media en términos de la media μ y el tamaño de la muestra ν de la siguiente manera:

E⁡ ⁡ [SilencioX− − E[X]Silencio]=2μ μ μ μ .. ()1− − μ μ )()1− − μ μ ).. .. B()μ μ .. ,()1− − μ μ ).. ){displaystyle operatorname {E} [vivirX-E[X] sometida]={frac {2mu ^{munu }(1-mu)^{(1-mu)}{nunumathrm {B} (mu nu)nu)}}}}}}}}}}} {nunu mathrm} {

Para una distribución simétrica, la media está en el medio de la distribución, μ = 1/2, y por lo tanto:

E⁡ ⁡ [SilencioX− − E[X]Silencio]=21− − .. .. B().. 2,.. 2)=21− − .. .. ().. ).. ().. ().. 2))2lim.. → → 0()limμ μ → → 12E⁡ ⁡ [SilencioX− − E[X]Silencio])=12lim.. → → JUEGO JUEGO ()limμ μ → → 12E⁡ ⁡ [SilencioX− − E[X]Silencio])=0{displaystyle {begin{aligned}operatorname {E} [vivirX-E[X] frac {2^{1-nu }{nu mathrm {B} {fn} {fnK}}}}} {fnMicroc}}}}}}} {frac {2^{1-nu }Gamma (nu)}{nu)} {nu} {fn0}}} {fn0}} {fn0} {fnMicroc}} {f}}}} {f}}}}}}} {fn}}}}}}}}}}}}}}} {f}}}}}}}} {f} {f}} {f}}}}}}}}}}}}}}}}} {f}}}}}} {f} {fn} {fnun}}} {fn}}}}}}fnun} {fn}}}}}}}}}}}}}}}}}}f}}}}f}}}}}}}}} {f}}} (Gamma ({tfrac {nu }{2}})}\\lim _{nuto 0}left(lim _{muto {fnMicroc {1} {fnMicroc} {fnMicroc} {fn} {fnK}}}fnMicroc {f}}}fnK}}}fnMicroc {f} {f}}}fnMicroc {fnK}}}}}fnMicroc} {E} [SobrevivirX-E[X] "Perfecto]" {1}{2}\\lim _{nu to infty }left(lim _{muto {fnMicroc {1} {fnMicroc} {fnMicroc} {fn} {fnK}}}fnMicroc {f}}}fnK}}}fnMicroc {f} {f}}}fnMicroc {fnK}}}}}fnMicroc} ¿Qué?

Además, los siguientes límites (con solo la variable indicada acercándose al límite) se pueden obtener a partir de las expresiones anteriores:

limβ β → → 0E⁡ ⁡ [SilencioX− − E[X]Silencio]=limα α → → 0E⁡ ⁡ [SilencioX− − E[X]Silencio]=0limβ β → → JUEGO JUEGO E⁡ ⁡ [SilencioX− − E[X]Silencio]=limα α → → JUEGO JUEGO E⁡ ⁡ [SilencioX− − E[X]Silencio]=0limμ μ → → 0E⁡ ⁡ [SilencioX− − E[X]Silencio]=limμ μ → → 1E⁡ ⁡ [SilencioX− − E[X]Silencio]=0lim.. → → 0E⁡ ⁡ [SilencioX− − E[X]Silencio]=μ μ ()1− − μ μ )lim.. → → JUEGO JUEGO E⁡ ⁡ [SilencioX− − E[X]Silencio]=0{displaystyle {begin{aligned}lim _{betato 0}operatorname {E} [sobrevivirX-E[X] tarde] {E} [sobrevivirX-E[X] sometida]=0\lim _{betato infty }operatorname {E} [sobrevivirX-E[X] tolerar] implica=lim _{alpha to infty }operatorname {E} [sobrevivirX-E[X] {E} [sobrevivirX-E[X] tarde] {E} [vivirX-E[X] sometida]=0\lim _{nuto 0}operatorname {E} [vivirX-E[X] habit] limit={sqrt {mu (1-mu)}\lim _{nu to infty }operatorname {E} [Principalmente]

Diferencia media absoluta

La diferencia media absoluta para la distribución Beta es:

MD=∫ ∫ 01∫ ∫ 01f()x;α α ,β β )f()Sí.;α α ,β β )Silenciox− − Sí.SilenciodxdSí.=()4α α +β β )B()α α +β β ,α α +β β )B()α α ,α α )B()β β ,β β ){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {f}f} {f}f}f}f}f}f}betab} {b}f}b}f}b1}b}b2}b}b}b}b}b}b}b}b}b}b}b}b}b}b}b}b}b}cH0b}b}b}b}b}b}b}b}b}cH0}b}b}b}b}b}b}b}cH0}b}b}i}cH0}b}b}b}b}b}b}b}b}b}b}b}

El coeficiente de Gini para la distribución Beta es la mitad de la diferencia absoluta media relativa:

G=()2α α )B()α α +β β ,α α +β β )B()α α ,α α )B()β β ,β β ){displaystyle mathrm {G} =left({frac {2}{alpha }}right){frac {B(alpha +betaalpha +beta)}{B(alphaalpha)B(betabeta)}}}}}}}

Sesgo

Skewness for Beta Distribution as a function of variation and mean

La asimetría (el tercer momento centrado en la media, normalizado por la potencia 3/2 de la varianza) de la distribución beta es

γ γ 1=E⁡ ⁡ [()X− − μ μ )3]()Var⁡ ⁡ ()X))3/2=2()β β − − α α )α α +β β +1()α α +β β +2)α α β β .{displaystyle gamma - ¿Qué? [E] [(X-mu)} {fnMicrosoft Sans Serif} (X))^{3/2}}={frac {2(beta -alpha){sqrt {alpha +beta {alpha +beta +2){sqrt {alpha beta - Sí.

Haciendo α = β en la expresión anterior se obtiene γ1 = 0, mostrando una vez más que para α = β la distribución es simétrica y por lo tanto la asimetría es cero. Sesgo positivo (cola a la derecha) para α < β, sesgo negativo (cola a la izquierda) para α > β.

Usando la parametrización en términos de la media μ y el tamaño de la muestra ν = α + β:

0\beta &{}=(1-mu)nu{text{ where }}nu =(alpha +beta)>0.end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">α α =μ μ .. ,Donde.. =()α α +β β )■0β β =()1− − μ μ ).. ,Donde.. =()α α +β β )■0.{displaystyle {begin{aligned}alpha {}=munu{text{ where }}nu =(alpha +beta)}0\beta >==(1-mu)nu{text{ where }nu =(alpha +beta)}0}end{aligned}}}}}}}}0\ beta & {} = (1 - mu) nu text{ where }nu =(alpha + beta) >0. end{align}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/e9235083c23a44820d57502412277b6492733df3" style="vertical-align: -2.505ex; width:38.633ex; height:6.176ex;"/>

Se puede expresar la asimetría en términos de la media μ y el tamaño de la muestra ν de la siguiente manera:

γ γ 1=E⁡ ⁡ [()X− − μ μ )3]()Var⁡ ⁡ ()X))3/2=2()1− − 2μ μ )1+.. ()2+.. )μ μ ()1− − μ μ ).{displaystyle gamma - ¿Qué? [E] [(X-mu)} {fnMicrosoft Sans Serif} (X))^{3/2}}={frac {2(1-2mu){sqrt {1+nu }}{(2+nu){sqrt {mu)}}}}}}}}}}{(2+nu){sqrt {sqrt {mu)}}}}}}}}}}}} {

La asimetría también se puede expresar en términos de la varianza var y la media μ de la siguiente manera:

<math alttext="{displaystyle gamma _{1}={frac {operatorname {E} [(X-mu)^{3}]}{(operatorname {var} (X))^{3/2}}}={frac {2(1-2mu){sqrt {text{ var }}}}{mu (1-mu)+operatorname {var} }}{text{ if }}operatorname {var} γ γ 1=E⁡ ⁡ [()X− − μ μ )3]()Var⁡ ⁡ ()X))3/2=2()1− − 2μ μ )Varμ μ ()1− − μ μ )+VarsiVar.μ μ ()1− − μ μ ){displaystyle gamma - ¿Qué? [E] [(X-mu)} {fnMicrosoft Sans Serif} (X))^{3/2}}={frac {2(1-2mu){sqrt {text{ var {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}} {fnuncio}<img alt="gamma_1 =frac{operatorname{E}[(X - mu)^3]}{(operatorname{var}(X))^{3/2}} = frac{2(1-2mu)sqrt{text{ var }}}{ mu(1-mu) + operatorname{var}}text{ if } operatorname{var}

La gráfica adjunta de asimetría en función de la varianza y la media muestra que la varianza máxima (1/4) está asociada con la asimetría cero y la condición de simetría (μ = 1/2), y que la asimetría máxima (infinidad positiva o negativa) ocurre cuando la media se ubica en un extremo o en el otro, de modo que la "masa" de la distribución de probabilidad se concentra en los extremos (varianza mínima).

La siguiente expresión para el cuadrado de la asimetría, en términos del tamaño de la muestra ν = α + β y la varianza var, es útil para el método de estimación de momentos de cuatro parámetros:

()γ γ 1)2=()E⁡ ⁡ [()X− − μ μ )3])2()Var⁡ ⁡ ()X))3=4()2+.. )2()1Var− − 4()1+.. )){displaystyle (gamma _{1})^{2}={frac {fone {E} [(X-mu)}={2}{2}{2}} {bigg (}{frac {1}}}={frac {4}{(2+nu)}{2}}{bigg (}{frac {1}{text{var}}}}}}}-4(1+nu){bigg)}}}}} {

Esta expresión correctamente da una rotura de cero para α = β, ya que en ese caso (ver § Variance): Var=14()1+.. ){displaystyle operatorname {var} ={frac {1}{4(1+nu)}}.

Para el caso simétrico (α = β), asimetría = 0 en todo el rango y se aplican los siguientes límites:

limα α =β β → → 0γ γ 1=limα α =β β → → JUEGO JUEGO γ γ 1=lim.. → → 0γ γ 1=lim.. → → JUEGO JUEGO γ γ 1=limμ μ → → 12γ γ 1=0{displaystyle lim _{alpha =beta to ♪♪ _{1}=lim _{alpha =beta to infty }gamma _{1}=lim _{nu to ♪♪ _{1}=lim _{nu to infty }gamma _{1}=lim _{muto {fnMicroc {1} {fnMicroc} {fnMicroc}} {fnK}}}gn}}gnK}}} ¿Qué?

Para los casos asimétricos (α ≠ β), los siguientes límites (con solo la variable indicada acercándose al límite) se pueden obtener de las expresiones anteriores:

limα α → → 0γ γ 1=limμ μ → → 0γ γ 1=JUEGO JUEGO limβ β → → 0γ γ 1=limμ μ → → 1γ γ 1=− − JUEGO JUEGO limα α → → JUEGO JUEGO γ γ 1=− − 2β β ,limβ β → → 0()limα α → → JUEGO JUEGO γ γ 1)=− − JUEGO JUEGO ,limβ β → → JUEGO JUEGO ()limα α → → JUEGO JUEGO γ γ 1)=0limβ β → → JUEGO JUEGO γ γ 1=2α α ,limα α → → 0()limβ β → → JUEGO JUEGO γ γ 1)=JUEGO JUEGO ,limα α → → JUEGO JUEGO ()limβ β → → JUEGO JUEGO γ γ 1)=0lim.. → → 0γ γ 1=1− − 2μ μ μ μ ()1− − μ μ ),limμ μ → → 0()lim.. → → 0γ γ 1)=JUEGO JUEGO ,limμ μ → → 1()lim.. → → 0γ γ 1)=− − JUEGO JUEGO {displaystyle {begin{aligned} _{alpha to ♪♪ _{1}=lim _{muto ♪♪ _{1}=infty \demn _{beta to ♪♪ _{1}=lim _{muto 1}gamma _{1}=-infty \demn _{alpha to infty }gamma {beta}}quad lim _{betabetabeta }beta lim _{betato 0}(lim _{alpha to infty }gamma _{1})=-inftyquad lim _{beta to infty }(lim _{alpha to infty }gamma ################################################################################################################################################################################################################################################################ {fnMicroc {2}}}quad lim _{beta to infty _{1})=inftyquad lim _{alpha to infty }(lim _{beta to infty }gamma ¿Por qué? ♪♪ - ¿Qué? {sqrt {mu}}}quad lim _{muto 0}(lim _{nuto 0}gamma _{1})=inftyquad lim _{muto 1}(lim _{nuto 0}gamma ¿Por qué?

Skewness Beta Distribution for alpha and beta from 1 to 5 - J. Rodal.jpgSkewness Beta Distribution for alpha and beta from.1 to 5 - J. Rodal.jpg

Curtosis

Exceso de la Kurtosis para la Distribución de Beta como una función de varianza y media

La distribución beta se ha aplicado en el análisis acústico para evaluar los daños en los artes, ya que se ha informado que la curtosis de la distribución beta es un buen indicador del estado de un arte. La curtosis también se ha utilizado para distinguir la señal sísmica generada por los pasos de una persona de otras señales. Como las personas u otros objetivos que se mueven sobre el suelo generan señales continuas en forma de ondas sísmicas, se pueden separar diferentes objetivos en función de las ondas sísmicas que generan. La curtosis es sensible a las señales impulsivas, por lo que es mucho más sensible a la señal generada por los pasos humanos que otras señales generadas por vehículos, vientos, ruido, etc. Lamentablemente, la notación de la curtosis no se ha estandarizado. Kenney y Keeping usan el símbolo γ2 para el exceso de curtosis, pero Abramowitz y Stegun usan una terminología diferente. Para evitar confusiones entre curtosis (el cuarto momento centrado en la media, normalizado por el cuadrado de la varianza) y el exceso de curtosis, cuando se utilicen símbolos, se deletrearán de la siguiente manera:

exceso de kurtosis=kurtosis− − 3=E⁡ ⁡ [()X− − μ μ )4]()Var⁡ ⁡ ()X))2− − 3=6[α α 3− − α α 2()2β β − − 1)+β β 2()β β +1)− − 2α α β β ()β β +2)]α α β β ()α α +β β +2)()α α +β β +3)=6[()α α − − β β )2()α α +β β +1)− − α α β β ()α α +β β +2)]α α β β ()α α +β β +2)()α α +β β +3).{displaystyle {begin{aligned}{text{excess kurtosis} {={text{kurtosis}}-3\ {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicrosoft Sans Serif} ################################################################################################################################################################################################################################################################

Haciendo α = β en la expresión anterior se obtiene

exceso de kurtosis=− − 63+2α α siα α =β β {displaystyle {text{excess kurtosis}=-{frac {6}{3+2alpha } {text{ if }alpha =beta }.

Por lo tanto, para distribuciones beta simétricas, el exceso de curtosis es negativo, aumentando desde un valor mínimo de −2 en el límite como {α = β} → 0, y acercándose a un valor máximo de cero como {α = β} → ∞. El valor de −2 es el valor mínimo de exceso de curtosis que cualquier distribución (no solo las distribuciones beta, sino cualquier distribución de cualquier tipo posible) puede alcanzar. Este valor mínimo se alcanza cuando toda la densidad de probabilidad está completamente concentrada en cada extremo x = 0 y x = 1, sin nada en el medio: una distribución de Bernoulli de 2 puntos con igual probabilidad 1/2 en cada extremo (una moneda al aire: consulte la sección a continuación "Curtosis limitada por el cuadrado de la asimetría" para obtener más información). La descripción de la curtosis como una medida de los "valores atípicos potenciales" (o "valores extremos raros potenciales") de la distribución de probabilidad, es correcto para todas las distribuciones, incluida la distribución beta. Cuando es raro, pueden ocurrir valores extremos en la distribución beta, mayor es su curtosis; de lo contrario, la curtosis es menor. Para distribuciones beta sesgadas α ≠ β, el exceso de curtosis puede alcanzar valores positivos ilimitados (particularmente para α → 0 para β finito, o para β → 0 para α finito) porque el lado opuesto a la moda producirá valores extremos ocasionales. La curtosis mínima tiene lugar cuando la densidad de masa se concentra por igual en cada extremo (y, por lo tanto, la media está en el centro), y no hay probabilidad de densidad de masa entre los extremos.

Usando la parametrización en términos de la media μ y el tamaño de la muestra ν = α + β:

0\beta &{}=(1-mu)nu{text{ where }}nu =(alpha +beta)>0.end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">α α =μ μ .. ,Donde.. =()α α +β β )■0β β =()1− − μ μ ).. ,Donde.. =()α α +β β )■0.{displaystyle {begin{aligned}alpha {}=munu{text{ where }}nu =(alpha +beta)}0\beta >==(1-mu)nu{text{ where }nu =(alpha +beta)}0}end{aligned}}}}}}}}0\ beta & {} = (1 - mu) nu text{ where }nu =(alpha + beta) >0. end{align}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/e9235083c23a44820d57502412277b6492733df3" style="vertical-align: -2.505ex; width:38.633ex; height:6.176ex;"/>

Se puede expresar el exceso de curtosis en términos de la media μ y el tamaño de la muestra ν de la siguiente manera:

exceso de kurtosis=63+.. ()()1− − 2μ μ )2()1+.. )μ μ ()1− − μ μ )()2+.. )− − 1){displaystyle {text{excess kurtosis}={frac {6}{3+nu}{bigg (}{frac {1-2mu)}{2}(1+nu)}{mu (1-mu)(2+nu)} {bigg)}}}}}}} {bigg}}} {

El exceso de curtosis también se puede expresar en términos de los siguientes dos parámetros: la varianza var y el tamaño de la muestra ν de la siguiente manera:

<math alttext="{displaystyle {text{excess kurtosis}}={frac {6}{(3+nu)(2+nu)}}left({frac {1}{text{ var }}}-6-5nu right){text{ if }}{text{ var }}exceso de kurtosis=6()3+.. )()2+.. )()1Var− − 6− − 5.. )siVar.μ μ ()1− − μ μ ){displaystyle {text{excess kurtosis}}={frac {6}{(3+nu)(2+nu)}}left({frac {1}{text{ var }}}-6-5nu right){text{ if }{text{ var }} {mu)}}} {mu}}}}}} {displaystyle {displaystyle {f} {f} {f} {f} {f} {f} {f}} {f} {f}{f}}}}}}}}f}}}}}}f}f}f}f}f} {fnf}}}}}}} {f}f}f}f}f}f}f}f}}}}}}}}}}f}f}}fnf}f}}f}f}}fn<img alt="text{excess kurtosis} =frac{6}{(3 + nu)(2 + nu)}left(frac{1}{text{ var }} - 6 - 5 nu right)text{ if }text{ var }

y, en términos de la varianza var y la media μ como sigue:

<math alttext="{displaystyle {text{excess kurtosis}}={frac {6{text{ var }}(1-{text{ var }}-5mu (1-mu))}{({text{var }}+mu (1-mu))(2{text{ var }}+mu (1-mu))}}{text{ if }}{text{ var }}exceso de kurtosis=6Var()1− − Var− − 5μ μ ()1− − μ μ ))()Var+μ μ ()1− − μ μ ))()2Var+μ μ ()1− − μ μ ))siVar.μ μ ()1− − μ μ ){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}(1-{text{ var)}(2{text{ var }}-5mu)} {texto {fnMicrosoft Sans Serif} {m} {fnuncio} {fnMicrosoft} {fnMicrosoft}}} {f}} {f}f}} {f}f}f}f}f}f}f}f}f}fnMinMinMiscH00}f}fnMinMinMiscH0} {f}f}}fnMinun}}fnun}f}fnun}}fnun}}fnun}}fnMinun} {fnun} {fnun}}fnun}f}fnun}}fnun}f}f}fn<img alt="text{excess kurtosis} =frac{6 text{ var } (1 - text{ var } - 5 mu (1 - mu))}{(text{var } + mu (1 - mu))(2text{ var } + mu (1 - mu))}text{ if }text{ var }

La gráfica del exceso de curtosis en función de la varianza y la media muestra que el valor mínimo del exceso de curtosis (−2, que es el valor mínimo posible del exceso de curtosis para cualquier distribución) está íntimamente relacionado con el valor máximo de varianza (1/4) y la condición de simetría: la media que ocurre en el punto medio (μ = 1/2). Esto ocurre para el caso simétrico de α = β = 0, con asimetría cero. En el límite, esta es la distribución de Bernoulli de 2 puntos con igual probabilidad 1/2 en cada extremo de la función delta de Dirac x = 0 y x = 1 y probabilidad cero en cualquier otro lugar. (Lanzamiento de una moneda: una cara de la moneda es x = 0 y la otra cara es x = 1). La varianza es máxima porque la distribución es bimodal sin nada en el medio los dos modos (picos) en cada extremo. El exceso de curtosis es mínimo: la densidad de probabilidad "masa" es cero en la media y se concentra en los dos picos de cada extremo. El exceso de curtosis alcanza el valor mínimo posible (para cualquier distribución) cuando la función de densidad de probabilidad tiene dos picos en cada extremo: es bi-'pico'. sin nada entre ellos.

Por otro lado, el gráfico muestra que para casos extremos asimétricos, donde la media se encuentra cerca de uno u otro extremo (μ = 0 o μ = 1), la varianza es cercana a cero y el exceso de curtosis rápidamente se acerca al infinito cuando la media de la distribución se acerca a cualquiera de los extremos.

Alternativamente, el exceso de curtosis también se puede expresar en términos de solo los siguientes dos parámetros: el cuadrado de la asimetría y el tamaño de la muestra ν de la siguiente manera:

<math alttext="{displaystyle {text{excess kurtosis}}={frac {6}{3+nu }}{bigg (}{frac {(2+nu)}{4}}({text{skewness}})^{2}-1{bigg)}{text{ if (skewness)}}^{2}-2<{text{excess kurtosis}}exceso de kurtosis=63+.. ()()2+.. )4()Skewness)2− − 1)si2− − 2.exceso de kurtosis.32()Skewness)2{displaystyle {text{excess kurtosis}={frac {6}{3+nu} {bigg}{frac {(2+nu)}{4} {text{skewness}}}} {2}-1{bigg)}{text{ if (skewness)}}}{2}-2}{text{}{}{}{}{}{2}{}{}{}{2}{}}{}{}{}{}{}}}}{}{}}{}{}{}{}}{}}}}{}{}}{}}{}{}{}{}}{}}}}{}}}{}{}{}}}}}{}}{}}}}}}}}{}{}{}{}{}}}}}{}{}{}{}{}{}}{}{}}}{}{}}}}}{}{}{}}{}{}{}}}}}{}{}}}}{}}}}}}}}{}}<img alt="text{excess kurtosis} =frac{6}{3 + nu}bigg(frac{(2 + nu)}{4} (text{skewness})^2 - 1bigg)text{ if (skewness)}^2-2< text{excess kurtosis}

De esta última expresión, se pueden obtener los mismos límites publicados hace prácticamente un siglo por Karl Pearson en su artículo, para la distribución beta (ver la sección a continuación titulada "Curtosis limitada por el cuadrado de la asimetría"). Al establecer α + β= ν = 0 en la expresión anterior, se obtiene el límite inferior de Pearson (valores para la asimetría y el exceso de curtosis por debajo del límite (exceso de curtosis + 2 − asimetría2 = 0) no puede ocurrir para ninguna distribución, y por lo tanto Karl Pearson apropiadamente llamó a la región debajo de este límite la 'región imposible'). El límite de α + β = ν → ∞ determina el límite superior de Pearson.

lim.. → → 0exceso de kurtosis=()Skewness)2− − 2lim.. → → JUEGO JUEGO exceso de kurtosis=32()Skewness)2{displaystyle {begin{aligned} {nu to 0}{text{excess kurtosis}}= {text{skewness}}}})}{2}-2\\\bum _{nutoinfty }{text{excess kurtosis}={tfrac {3} {} {text{skewness})^{2}end{aligned}}}

por lo tanto:

<math alttext="{displaystyle ({text{skewness}})^{2}-2<{text{excess kurtosis}}()Skewness)2− − 2.exceso de kurtosis.32()Skewness)2{displaystyle ({text{skewness}}})^{2}2}2}{text{excess kurtosis}} {tfrac {3}{2}}} {text{skewness}}}}} {2}}}}}}} {}}}}}}} {f}}}}}}}} {<img alt="(text{skewness})^2-2< text{excess kurtosis}

Valores de ν = α + β tales que ν va de cero a infinito, 0 < v < ∞, abarca toda la región de la distribución beta en el plano de exceso de curtosis versus asimetría al cuadrado.

Para el caso simétrico (α = β), se aplican los siguientes límites:

limα α =β β → → 0exceso de kurtosis=− − 2limα α =β β → → JUEGO JUEGO exceso de kurtosis=0limμ μ → → 12exceso de kurtosis=− − 63+.. {displaystyle {begin{aligned} golpelim _{alpha =betato 0}{text{excess kurtosis}=-2\ #{alpha =betatoinfty}{text{excess kurtosis {}=0\\cH00 _{muto {frac {1}{text{excess kurtosis}=-{frac {6}{3+nu}end{aligned}}}} {f}} {f}}} {fn}}}} {fn}}} {f}}} {f}}}}} {fnf}}}} {f}}}}}}}}}}} {f}}}}}}}}}}}}}}}}}} {f}} {f}}}}}}}}}}}}} {f}} {f}}}}}}}}}}}}}}}}}}}}}} {f} {f} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

Para los casos asimétricos (α ≠ β), los siguientes límites (con solo la variable indicada acercándose al límite) se pueden obtener de las expresiones anteriores:

limα α → → 0exceso de kurtosis=limβ β → → 0exceso de kurtosis=limμ μ → → 0exceso de kurtosis=limμ μ → → 1exceso de kurtosis=JUEGO JUEGO limα α → → JUEGO JUEGO exceso de kurtosis=6β β ,limβ β → → 0()limα α → → JUEGO JUEGO exceso de kurtosis)=JUEGO JUEGO ,limβ β → → JUEGO JUEGO ()limα α → → JUEGO JUEGO exceso de kurtosis)=0limβ β → → JUEGO JUEGO exceso de kurtosis=6α α ,limα α → → 0()limβ β → → JUEGO JUEGO exceso de kurtosis)=JUEGO JUEGO ,limα α → → JUEGO JUEGO ()limβ β → → JUEGO JUEGO exceso de kurtosis)=0lim.. → → 0exceso de kurtosis=− − 6+1μ μ ()1− − μ μ ),limμ μ → → 0()lim.. → → 0exceso de kurtosis)=JUEGO JUEGO ,limμ μ → → 1()lim.. → → 0exceso de kurtosis)=JUEGO JUEGO {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {f} {fnMicros} {fnMicroc {fnMicrosoft} {fnMicros} {fnMicros} {fnMicrosoft} {fnMicrosoft} {f} {f}f}f}fnMicros}f}fnKf}f}fnMienes}fnMicrosss}fnKf}fnKfnfnKf}f}f}f}fnKfnKfnKf}fnKfnKfnfnKfnKfnKfnKfnKfnKfnKfnKfnKfnK}fnK}f}fnK {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans} {fnMicros} {fnMicrosoft} {fnMicros}fnMicros}f}fnMis} {fnMicros}fnMinMinMinMinMinMinMinMinMinMinMinMinunciof}f}fnMinMinMinMinMinMinMientras más*

Excess Kurtosis for Beta Distribution with alpha and beta ranging from 1 to 5 - J. Rodal.jpgExcess Kurtosis for Beta Distribution with alpha and beta ranging from 0.1 to 5 - J. Rodal.jpg

Función característica

Re(función característica) caso simétrico α = β que va de 25 a 0
Re(función de caracteres) caso simétrico α = β que va de 0 a 25
Re(función de caracteres) β = α + 1/2; α que va de 25 a 0
Re(función de caracteres) α = β + 1/2; β que van desde 25 a 0
Re(función de caracteres) α = β + 1/2; β que va de 0 a 25

La función característica es la transformada de Fourier de la función de densidad de probabilidad. La función característica de la distribución beta es la función hipergeométrica confluente de Kummer (del primer tipo):

φ φ X()α α ;β β ;t)=E⁡ ⁡ [eitX]=∫ ∫ 01eitxf()x;α α ,β β )dx=1F1()α α ;α α +β β ;it)=.. n=0JUEGO JUEGO α α ()n)()it)n()α α +β β )()n)n!=1+.. k=1JUEGO JUEGO ()∏ ∏ r=0k− − 1α α +rα α +β β +r)()it)kk!{displaystyle {begin{aligned}varphi ################################################################################################################################################################################################################################################################ {E} left[e^{itX}right]\\cH00=int] ################################################################################################################################################################################################################################################################ {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}}} {fnMicroc {c} {k}}}end{aligned}}}}}} {fnK} {fnK}} {fnMicroc}}}} {f}}}}}}}}}}} {f}}}}}}}}} {f}}}}}f}}}}f}f}f}}}}}f}}}}}}}fnf}f}}}}}}}}}}}}}}}}}f}}}}}}f}}fnf}f}f}}fnf}f}f}}}}}}fnfnfnfnfnfnfnKfnfnKfnfnK

dónde

x()n)=x()x+1)()x+2)⋯ ⋯ ()x+n− − 1){displaystyle x^{(n)}=x(x+1)(x+2)cdots (x+n-1)}

es el factorial ascendente, también llamado "símbolo de Pochhammer". El valor de la función característica para t = 0, es uno:

φ φ X()α α ;β β ;0)=1F1()α α ;α α +β β ;0)=1{displaystyle varphi _{X}(alpha;beta;0)={1}F_{1}(alpha;alpha +beta;0)=1}.

Además, las partes real e imaginaria de la función característica disfrutan de las siguientes simetrías con respecto al origen de la variable t:

Re[1F1()α α ;α α +β β ;it)]=Re[1F1()α α ;α α +β β ;− − it)]{displaystyle {textrm {Re}left} [{}_{1}(alpha;alpha +beta;it)right]={textrm {Re}left[{1}F_{1}(alpha;alpha +beta;-it)right]
Im[1F1()α α ;α α +β β ;it)]=− − Im[1F1()α α ;α α +β β ;− − it)]{displaystyle {textrm {}left[{}_{1}(alpha;alpha +beta;it)right]=-{textrm {fnMicrosoft}fnMicrosoft Sans Serif} [{}_{1}(alpha;alpha +beta;-it)right]

El caso simétrico α = β simplifica la función característica de la distribución beta a una función Bessel, ya que en el caso especial α + β = 2α la función hipergeométrica confluente (del primer tipo) se reduce a una función Bessel (la función Bessel modificada del primer tipo) Iα α − − 12{displaystyle I_{alpha - {frac {1}{2}}}}) utilizando la segunda transformación de Kummer como sigue:

1F1()α α ;2α α ;it)=eit20F1();α α +12;()it)216)=eit2()it4)12− − α α .. ()α α +12)Iα α − − 12()it2).{displaystyle {begin{aligned}{1}F_{1}(alpha;2alpha;it) {fnK}{0} {0}m}lft(alpha +{tfrac {1}{2}}};{frac {(it)}{2}}}}}right)\\qfnMic} {fnK}f}fn0}fnK}fnKfnK}f}f}f}f}f}f}f}f}f}fnKf}f}f}fnKfnKfnun}fnfnun}f}fnKf}fnKf}f}fnKfnKfnKfnun}fnun}fnun}fnun}fnKfnun}fnun}fnun}fnun}fnun}fnKfnun}fnun}fnhn {}{2}left({frac} {} {4}}derecha)} {{frac {1}{2}-alpha }Gamma left(alpha +{1}{2}right)I_{alpha - {fnMicroc {1}}left({frac {}{2}derecha).

En los gráficos adjuntos, la parte real (Re) de la función característica de la distribución beta se muestra para casos simétricos (α = β) y sesgados (α ≠ β).

Otros momentos

Función de generación de momentos

También se sigue que la función generadora de momentos es

MX()α α ;β β ;t)=E⁡ ⁡ [etX]=∫ ∫ 01etxf()x;α α ,β β )dx=1F1()α α ;α α +β β ;t)=.. n=0JUEGO JUEGO α α ()n)()α α +β β )()n)tnn!=1+.. k=1JUEGO JUEGO ()∏ ∏ r=0k− − 1α α +rα α +β β +r)tkk!{displaystyle {begin{aligned}M_{X}(alpha;beta;t) {E} left[e^{tX}right][4pt] ¿Por qué? {fnfn}{fn} {fn} {fn} {fn} {fn}} {fn}} {fn} {fn} {fn}}[4pt]} {cH00}}}}}[4pt] âTMa} âTMa} {cH00}}}}}}[4pt]} {[4pt]} {=0}}} {c]}}}}}=====1+c]}==========0}=====================0}=0}================================================================================== ¿Qué? {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}end{aligned}}}

En particular MX(α; β; 0) = 1.

Momentos superiores

Usando la función generadora de momentos, el k-ésimo momento en bruto viene dado por el factor

∏ ∏ r=0k− − 1α α +rα α +β β +r{displaystyle prod _{r=0}{k-1}{frac {alpha +r}{alpha #

multiplicando el término (serie adicional) ()tkk!){displaystyle left({frac ¡Sí! en la serie de la función generadora del momento

E⁡ ⁡ [Xk]=α α ()k)()α α +β β )()k)=∏ ∏ r=0k− − 1α α +rα α +β β +r{displaystyle operatorname {fnK} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}}=prod ¿Qué? {alpha +r}{alpha #

donde (x)(k) es un símbolo de Pochhammer que representa un factorial ascendente. También se puede escribir en forma recursiva como

E⁡ ⁡ [Xk]=α α +k− − 1α α +β β +k− − 1E⁡ ⁡ [Xk− − 1].{displaystyle operatorname [X^{k]={frac {alpha +k-1}{alpha +beta +k-1}operatorname [X^{k-1]].

Desde el momento de generar función MX()α α ;β β ;⋅ ⋅ ){displaystyle M_{X}(alpha;beta;cdot)} tiene un radio positivo de convergencia, la distribución beta está determinada por sus momentos.

Momentos de variables aleatorias transformadas

Momentos de variables aleatorias transformadas linealmente, productos e invertidas

También se pueden mostrar las siguientes expectativas para una variable aleatoria transformada, donde la variable aleatoria X tiene distribución Beta con parámetros α y β: X ~ Beta(α, β). El valor esperado de la variable 1 − X es la simetría especular del valor esperado basado en X:

E⁡ ⁡ [1− − X]=β β α α +β β E⁡ ⁡ [X()1− − X)]=E⁡ ⁡ [()1− − X)X]=α α β β ()α α +β β )()α α +β β +1){displaystyle {begin{aligned} [1-X]={frac {beta] }{alpha +beta }\\\fnMicrosoft {E} [X(1-X)]=operatorname {E} [(1-X)X]={frac {alpha beta }{(alpha +beta)(alpha +beta +1)}end{aligned}}}}}}}}

Debido a la simetría especular de la función de densidad de probabilidad de la distribución beta, las varianzas basadas en las variables X y 1 − X son idénticas, y la covarianza en X(1 − X es el negativo de la varianza:

Var⁡ ⁡ [()1− − X)]=Var⁡ ⁡ [X]=− − cov⁡ ⁡ [X,()1− − X)]=α α β β ()α α +β β )2()α α +β β +1){displaystyle operatorname {var} [1-X)]=operatorname {var} [X]=-operatorname {cov} [X,(1-X)]={frac {alpha beta }{(alpha +beta)^{2}(alpha +beta +1)}}}}}}}}

Estos son los valores esperados para las variables invertidas (estos están relacionados con las medias armónicas, consulte § Media armónica):

1\&operatorname {E} left[{frac {1}{1-X}}right]={frac {alpha +beta -1}{beta -1}}{text{ if }}beta >1end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">E⁡ ⁡ [1X]=α α +β β − − 1α α − − 1siα α ■1E⁡ ⁡ [11− − X]=α α +β β − − 1β β − − 1siβ β ■1{displaystyle {begin{aligned} {E} left[{frac] {1}{X}right]={frac {alpha +beta -1}{alpha - ## {text{ if }alpha ################################################################################################################################################################################################################################################################ {E} left[{frac] {1}{1-X}right]={frac {alpha +beta -1}{beta -1}{text{ if }beta }beta }end{aligned}}}} {}}}}} {beta }} {beta }}}}}}}}}}}} { 1\ & operatorname{E}left [frac{1}{1-X} right ] =frac{alpha+beta-1 }{beta-1 } text{ if } beta > 1 end{align}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c3f1f27c9014c9c38a30ae2ceea61a8d7856a275" style="vertical-align: -5.671ex; width:33.319ex; height:12.509ex;"/>

La siguiente transformación al dividir la variable X por su imagen especular X/(1 − X) da como resultado el valor esperado de la "distribución beta invertida" o distribución beta principal (también conocida como distribución beta de segundo tipo o Tipo VI de Pearson):

1\&operatorname {E} left[{frac {1-X}{X}}right]={frac {beta }{alpha -1}}{text{ if }}alpha >1end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">E⁡ ⁡ [X1− − X]=α α β β − − 1siβ β ■1E⁡ ⁡ [1− − XX]=β β α α − − 1siα α ■1{displaystyle {begin{aligned} {E} left[{frac] {X}{1-X}derecha]={frac {alpha }{beta -1}{text{ if }}beta }]\\beta\\\cH0\fnMiembro {E} left[{frac] {1-X} {}} {fnMicroc {beta}{alpha -1} {text{ if }alpha }end{aligned}}}} {fnunció}} 1\ & operatorname{E}left[frac{1-X}{X}right] =frac{beta}{alpha- 1 }text{ if }alpha > 1 end{align} " aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c40c2f689db6159d44deb7d06de6dedcadc4ca82" style="vertical-align: -5.671ex; width:29.302ex; height:12.509ex;"/>

Las varianzas de estas variables transformadas se pueden obtener por integración, como los valores esperados de los segundos momentos centrados en las variables correspondientes:

Var⁡ ⁡ [1X]=E⁡ ⁡ [()1X− − E⁡ ⁡ [1X])2]={displaystyle operatorname {var} left[{frac [1}{X}right]=operatorname {E} left[left({frac] {1}{X}- {E} left[{frac] {1}{X}derecha)} {2}derecha]=
2}" xmlns="http://www.w3.org/1998/Math/MathML">Var⁡ ⁡ [1− − XX]=E⁡ ⁡ [()1− − XX− − E⁡ ⁡ [1− − XX])2]=β β ()α α +β β − − 1)()α α − − 2)()α α − − 1)2siα α ■2{displaystyle operatorname {var} left[{frac [1-X}{X}right]=operatorname {E} left[left({frac] {1-X}{X}- {E} left[{frac] Está bien. frac {beta (alpha +beta) -1)}{(alpha -2)(alpha -1) {2}} {text{ if }alpha2}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/f4d1f81494368d71838507bdbbbbb967a75c0f90" style="vertical-align: -3.171ex; width:72.816ex; height:7.509ex;"/>

La siguiente varianza de la variable X dividida por su imagen especular (X/(1−X) da como resultado la varianza de la 'distribución beta invertida' o distribución beta principal (también conocida como distribución beta de segundo tipo o Tipo VI de Pearson):

Var⁡ ⁡ [11− − X]=E⁡ ⁡ [()11− − X− − E⁡ ⁡ [11− − X])2]=Var⁡ ⁡ [X1− − X]={displaystyle operatorname {var} left[{frac [1}{1-X}right]=operatorname {E} left[left({frac] {1}{1-X}-nombre del operador {E} left[{frac] {1}{1-X}right]right)}{2}right]=operatorname {var} left[{frac] {X}{1-X}derecha]=
2}" xmlns="http://www.w3.org/1998/Math/MathML">E⁡ ⁡ [()X1− − X− − E⁡ ⁡ [X1− − X])2]=α α ()α α +β β − − 1)()β β − − 2)()β β − − 1)2siβ β ■2{displaystyle operatorname {E} left[left({frac {X}{1-X}-operatorname {E} left [{frac {X}{1-X}right]}{2}right]={right] frac {alpha (alpha +beta -1)}{(beta -2)(beta {fnK} {fnMicrosoft Sans Serif}2}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/ac107de23ff64a12fc3ca45910d7dba24821ea2b" style="vertical-align: -3.171ex; width:56.675ex; height:7.509ex;"/>

Las covarianzas son:

1}" xmlns="http://www.w3.org/1998/Math/MathML">cov⁡ ⁡ [1X,11− − X]=cov⁡ ⁡ [1− − XX,X1− − X]=cov⁡ ⁡ [1X,X1− − X]=cov⁡ ⁡ [1− − XX,11− − X]=α α +β β − − 1()α α − − 1)()β β − − 1)siα α ,β β ■1{displaystyle operatorname {cov} left[{frac {1}{X},{frac} [1}{1-X}right]=operatorname {C} left[{frac] {1-X}{X},{frac {X}{1-X}right]=operatorname {fnMicroc} {fnMicroc} {X}{1-X}right]=operatorname {C} left[{frac] {1-X}{X},{frac {1}{1-X}right]={frac {alpha +beta -1}{(alpha -1)(beta -1)} {text{ if }alphabeta # 1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/fa2342c3fe24a7ed5b840fd9583c055aa5791486" style="vertical-align: -2.671ex; width:112.5ex; height:6.343ex;"/>

Estas expectativas y variaciones aparecen en la matriz de información de Fisher de cuatro parámetros (§ Información de Fisher).

Momentos de variables aleatorias transformadas logarítmicamente
Parcela de logit(X.X/(1−X) (eje vertical) vs. X en el dominio de 0 a 1 (eje horizontal). Las transformaciones de Logit son interesantes, ya que por lo general transforman varias formas (incluyendo J-shapes) en densidades en forma de campana (generalmente recortadas) sobre la variable logit, y pueden eliminar las singularidades finales sobre la variable original

Los valores esperados para las transformaciones logarítmicas (útiles para estimaciones de máxima verosimilitud, consulte § Estimación de parámetros, Máxima verosimilitud) se analizan en esta sección. Las siguientes transformaciones lineales logarítmicas están relacionadas con las medias geométricas GX y G(1−X) (ver § Media Geométrica):

E⁡ ⁡ [In⁡ ⁡ ()X)]=↑ ↑ ()α α )− − ↑ ↑ ()α α +β β )=− − E⁡ ⁡ [In⁡ ⁡ ()1X)],E⁡ ⁡ [In⁡ ⁡ ()1− − X)]=↑ ↑ ()β β )− − ↑ ↑ ()α α +β β )=− − E⁡ ⁡ [In⁡ ⁡ ()11− − X)].{displaystyle {begin{aligned}operatorname {E} [ln(X)] sensible=psi (alpha)-psi (alpha +beta)=-operatorname {E} left[ln left({frac {1}{X}right)right],\\\operatorname {E} [ln(1-X)] implica=psi (beta)-psi (alpha +beta)=-operatorname {E} left[ln left({frac {1}{1-X}right)right].end{aligned}}

Donde la función digamma ψ(α) se define como la derivada logarítmica de la función gamma:

↑ ↑ ()α α )=dIn⁡ ⁡ .. ()α α )dα α {displaystyle psi (alpha)={frac {dlnGamma (alpha)}{dalpha }

Las transformaciones logit son interesantes, ya que normalmente transforman varias formas (incluidas las formas en J) en densidades en forma de campana (generalmente sesgadas) sobre la variable logit, y pueden eliminar las singularidades finales sobre la variable original:

E⁡ ⁡ [In⁡ ⁡ ()X1− − X)]=↑ ↑ ()α α )− − ↑ ↑ ()β β )=E⁡ ⁡ [In⁡ ⁡ ()X)]+E⁡ ⁡ [In⁡ ⁡ ()11− − X)],E⁡ ⁡ [In⁡ ⁡ ()1− − XX)]=↑ ↑ ()β β )− − ↑ ↑ ()α α )=− − E⁡ ⁡ [In⁡ ⁡ ()X1− − X)].{displaystyle {begin{aligned}operatorname {E} left[ln left({frac {X}{1-X}right)right] limit=psi (alpha)-psi (beta)=operatorname {E} [ln(X)]+operatorname {E} left[ln left({frac {1}{1-X}right)right],\\\\fnMiembro de operador {E} left[ln left({frac {1-X}{X}right)right] Due=psi (beta)-psi (alpha)=-operatorname {E} left[ln left({frac {X}{1-X}right)right].end{aligned}}

Johnson consideró la distribución de la variable transformada logit ln(X/1−X), incluida su función generadora de momentos y aproximaciones para valores grandes de los parámetros de forma. Esta transformación extiende el soporte finito [0, 1] basado en la variable original X al soporte infinito en ambas direcciones de la línea real (−∞, +∞).

Los momentos logarítmicos de orden superior se pueden derivar utilizando la representación de una distribución beta como una proporción de dos distribuciones Gamma y diferenciando a través de la integral. Se pueden expresar en términos de funciones poli-gamma de orden superior de la siguiente manera:

E⁡ ⁡ [In2⁡ ⁡ ()X)]=()↑ ↑ ()α α )− − ↑ ↑ ()α α +β β ))2+↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β ),E⁡ ⁡ [In2⁡ ⁡ ()1− − X)]=()↑ ↑ ()β β )− − ↑ ↑ ()α α +β β ))2+↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β ),E⁡ ⁡ [In⁡ ⁡ ()X)In⁡ ⁡ ()1− − X)]=()↑ ↑ ()α α )− − ↑ ↑ ()α α +β β ))()↑ ↑ ()β β )− − ↑ ↑ ()α α +β β ))− − ↑ ↑ 1()α α +β β ).{displaystyle {begin{aligned}operatorname {E} left[ln ^{2}(X)right] recur=(psi (alpha)-psi (alpha +beta)^{2}+psi _{1}(alpha)-psi _{1}(alpha +beta),\\\\\fnMicrosoft] {E}left[ln ^{2}(1-X)right]

por lo tanto, la varianza de las variables logarítmicas y la covarianza de ln(X) y ln(1−X) son:

cov⁡ ⁡ [In⁡ ⁡ ()X),In⁡ ⁡ ()1− − X)]=E⁡ ⁡ [In⁡ ⁡ ()X)In⁡ ⁡ ()1− − X)]− − E⁡ ⁡ [In⁡ ⁡ ()X)]E⁡ ⁡ [In⁡ ⁡ ()1− − X)]=− − ↑ ↑ 1()α α +β β )Var⁡ ⁡ [In⁡ ⁡ X]=E⁡ ⁡ [In2⁡ ⁡ ()X)]− − ()E⁡ ⁡ [In⁡ ⁡ ()X)])2=↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β )=↑ ↑ 1()α α )+cov⁡ ⁡ [In⁡ ⁡ ()X),In⁡ ⁡ ()1− − X)]Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]=E⁡ ⁡ [In2⁡ ⁡ ()1− − X)]− − ()E⁡ ⁡ [In⁡ ⁡ ()1− − X)])2=↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β )=↑ ↑ 1()β β )+cov⁡ ⁡ [In⁡ ⁡ ()X),In⁡ ⁡ ()1− − X)][ln(X),ln(1-X)] ##### ###########################################################################################################################################################################################################################################################

donde la función trigamma, denominada ψ1(α), es la segunda de las funciones poligamma y se define como la derivada de la función digamma:

↑ ↑ 1()α α )=d2In⁡ ⁡ .. ()α α )dα α 2=d↑ ↑ ()α α )dα α {displaystyle psi _{1}(alpha)={frac {d^{2}ln {fnMicrosoft Sans Serif}{2}={frac {dpsi (alpha)}{dalpha }.

Las varianzas y covarianzas de las variables transformadas logarítmicamente X y (1−X) son diferentes, en general, porque la transformación logarítmica destruye la simetría especular de la variables originales X y (1−X), a medida que el logaritmo se acerca al infinito negativo para la variable que se acerca a cero.

Estas varianzas y covarianzas logarítmicas son los elementos de la matriz de información de Fisher para la distribución beta. También son una medida de la curvatura de la función logarítmica de verosimilitud (ver la sección sobre Estimación de máxima verosimilitud).

Las varianzas de las variables inversas logarítmicas son idénticas a las varianzas de las variables logarítmicas:

Var⁡ ⁡ [In⁡ ⁡ ()1X)]=Var⁡ ⁡ [In⁡ ⁡ ()X)]=↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β ),Var⁡ ⁡ [In⁡ ⁡ ()11− − X)]=Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]=↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β ),cov⁡ ⁡ [In⁡ ⁡ ()1X),In⁡ ⁡ ()11− − X)]=cov⁡ ⁡ [In⁡ ⁡ ()X),In⁡ ⁡ ()1− − X)]=− − ↑ ↑ 1()α α +β β ).{fnMicrosoft Sans Ser) {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fn} {fnMicrosoft Sans Serif} {fnMicrosoft ] {fnMicrosoft ] {fnMicrosoft ] {} left[ln left({frac {1}{X}right),lnleft({frac {1}{1-X}right)right]right=operatorname {cov} [ln(X),ln(1-X)]=-psi _{1}(alpha +beta).end{aligned}}}}}}} {1}{X}}{X}}}}}}}{X}}}}}}}}}} {right}}} {right}}}}}}}}} {just)}} {right}}}}}}}}}}right}}}}}}}}}}}}just {dedededededededededededei}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

También se deduce que las varianzas de las variables transformadas logit son:

Var⁡ ⁡ [In⁡ ⁡ ()X1− − X)]=Var⁡ ⁡ [In⁡ ⁡ ()1− − XX)]=− − cov⁡ ⁡ [In⁡ ⁡ ()X1− − X),In⁡ ⁡ ()1− − XX)]=↑ ↑ 1()α α )+↑ ↑ 1()β β ){displaystyle operatorname {var} left[ln left({frac {X}{1-X}right)right]=operatorname {var} left[ln left({fracfrac] [1-X}{X}right]=-operatorname {} left[ln left({frac {X}{1-X}right),ln left({frac {1-X}{X}right]=psi _{1}(alpha)+psi _{1}(beta)}

Cantidades de información (entropía)

Dada una variable aleatoria con distribución beta, X ~ Beta(α, β), la entropía diferencial de X es (medido en nats), el valor esperado del negativo del logaritmo de la función de densidad de probabilidad:

h()X)=E⁡ ⁡ [− − In⁡ ⁡ ()f()x;α α ,β β ))]=∫ ∫ 01− − f()x;α α ,β β )In⁡ ⁡ ()f()x;α α ,β β ))dx=In⁡ ⁡ ()B()α α ,β β ))− − ()α α − − 1)↑ ↑ ()α α )− − ()β β − − 1)↑ ↑ ()β β )+()α α +β β − − 2)↑ ↑ ()α α +β β ){displaystyle {begin{aligned}h(X) correspond=operatorname {E} [-ln(f(x;alphabeta)][4pt] ¿Por qué?

donde f(x; α, β) es la función de densidad de probabilidad de la distribución beta:

f()x;α α ,β β )=1B()α α ,β β )xα α − − 1()1− − x)β β − − 1{displaystyle f(x;alphabeta)={frac {1}{mathrm [B} (alphabeta)}x^{alpha -1}(1-x)^{beta -1}

La función digamma ψ aparece en la fórmula de la entropía diferencial como consecuencia de la fórmula integral de Euler para los números armónicos que se deriva de la integral:

∫ ∫ 011− − xα α − − 11− − xdx=↑ ↑ ()α α )− − ↑ ↑ ()1){displaystyle int ¿Qué? -1}{1-x},dx=psi (alpha)-psi (1)}

La entropía diferencial de la distribución beta es negativa para todos los valores de α y β mayores que cero, excepto en α = β = 1 (para cuyos valores la distribución beta es igual a la distribución uniforme), donde la entropía diferencial alcanza su valor máximo de cero. Es de esperar que la entropía máxima tenga lugar cuando la distribución beta se iguale a la distribución uniforme, ya que la incertidumbre es máxima cuando todos los eventos posibles son equiprobables.

Para α o β acercándose a cero, la entropía diferencial se aproxima a su valor mínimo de infinito negativo. Para (cualquiera o ambos) α o β que se acerque a cero, hay una cantidad máxima de orden: toda la densidad de probabilidad se concentra en los extremos, y hay cero densidad de probabilidad en los puntos situados entre los extremos. De manera similar, para (uno o ambos) α o β que se acercan al infinito, la entropía diferencial se acerca a su valor mínimo de infinito negativo y a una cantidad máxima de orden. Si α o β tiende a infinito (y el otro es finito), toda la densidad de probabilidad se concentra en un extremo y la densidad de probabilidad es cero en el resto. Si ambos parámetros de forma son iguales (el caso simétrico), α = β, y se acercan al infinito simultáneamente, la densidad de probabilidad se convierte en un pico (función delta de Dirac) concentrado en el medio x = 1/2, y por lo tanto hay 100% de probabilidad en el medio x = 1/2 y probabilidad cero en cualquier otro lugar.

Differential Entropy Beta Distribution for alpha and beta from 1 to 5 - J. Rodal.jpgDifferential Entropy Beta Distribution for alpha and beta from 0.1 to 5 - J. Rodal.jpg

La entropía diferencial (caso continuo) fue presentada por Shannon en su artículo original (donde la llamó "entropía de una distribución continua"), como la parte final del mismo artículo donde definió la entropía discreta. Se sabe desde entonces que la entropía diferencial puede diferir del límite infinitesimal de la entropía discreta en un desplazamiento infinito, por lo que la entropía diferencial puede ser negativa (como lo es para la distribución beta). Lo que realmente importa es el valor relativo de la entropía.

Dadas dos variables aleatorias distribuidas beta, X1 ~ Beta(α, β) y X2 ~ Beta(α′, β′), la entropía cruzada es (medida en nats)

H()X1,X2)=∫ ∫ 01− − f()x;α α ,β β )In⁡ ⁡ ()f()x;α α .,β β .))dx=In⁡ ⁡ ()B()α α .,β β .))− − ()α α .− − 1)↑ ↑ ()α α )− − ()β β .− − 1)↑ ↑ ()β β )+()α α .+β β .− − 2)↑ ↑ ()α α +β β ).{displaystyle {begin{aligned}H(X_{1},X_{2} _{0}^{1}-f(x;alphabeta)ln(f(x;alpha ',beta '),dx\[4pt] {B} (alpha ',beta ')right)-(alpha '-1)psi (alpha)-(beta '-1)psi (beta)+(alpha '+beta '-2)psi (alpha +beta).end{aligned}}}}}

La entropía cruzada se ha utilizado como una métrica de error para medir la distancia entre dos hipótesis. Su valor absoluto es mínimo cuando las dos distribuciones son idénticas. Es la medida de información más relacionada con el logaritmo de máxima verosimilitud (ver apartado "Estimación de parámetros. Estimación de máxima verosimilitud")).

La entropía relativa, o divergencia Kullback-Leibler DKL(X1 || X2), es una medida de la ineficiencia de suponer que la distribución es X2 ~ Beta(α ′, β′) cuando la distribución es realmente X1 ~ Beta(α, β). Se define de la siguiente manera (medido en nats).

DKL()X1SilencioSilencioX2)=∫ ∫ 01f()x;α α ,β β )In⁡ ⁡ ()f()x;α α ,β β )f()x;α α .,β β .))dx=()∫ ∫ 01f()x;α α ,β β )In⁡ ⁡ ()f()x;α α ,β β ))dx)− − ()∫ ∫ 01f()x;α α ,β β )In⁡ ⁡ ()f()x;α α .,β β .))dx)=− − h()X1)+H()X1,X2)=In⁡ ⁡ ()B()α α .,β β .)B()α α ,β β ))+()α α − − α α .)↑ ↑ ()α α )+()β β − − β β .)↑ ↑ ()β β )+()α α .− − α α +β β .− − β β )↑ ↑ ()α α +β β ).{displaystyle {begin{aligned}D_{mathrm [KL] }(X_{1} sobrevivirX_{2} ¿Por qué? ¿Por qué? _{0}^{1}f(x;alphabeta)ln(f(x;alpha ',beta '),dxright)\[4pt] implica=-h(X_{1})+H(X_{1},X_{2})[4pt] {B} (alpha ',beta ')}{mathrm {B} {alphabeta)}right)+(alpha -alpha ')psi (alpha)+(beta -beta ')psi (beta)+(alpha '-beta ''

La entropía relativa, o divergencia Kullback-Leibler, siempre es no negativa. A continuación se muestran algunos ejemplos numéricos:

  • X1 ~ Beta(1, 1) y X2 ~ Beta(3, 3); DKL()X1 Silencio X2) = 0,58803; DKL()X2 Silencio X1) = 0,267864; h()X1) = 0; h()X2) = 0,267864
  • X1 ~ Beta(3, 0.5) y X2 ~ Beta(0,5, 3); DKL()X1 Silencio X2) = 7.21574; DKL()X2 Silencio X1) = 7.21574; h()X1) = −1.10805; h()X2−1.10805.

La divergencia Kullback-Leibler no es simétrica DKL(X1 || X 2) ≠ DKL(X2 || X1) para el caso en que las distribuciones beta individuales Beta(1, 1) y Beta(3, 3) son simétricas, pero tienen diferentes entropías h(X1) ≠ h(X2). El valor de la divergencia de Kullback depende de la dirección en la que se viaje: si se pasa de una entropía más alta (diferencial) a una entropía más baja (diferencial) o al revés. En el ejemplo numérico anterior, la divergencia de Kullback mide la ineficiencia de suponer que la distribución es (en forma de campana) Beta(3, 3), en lugar de (uniforme) Beta(1, 1). La "h" la entropía de Beta(1, 1) es mayor que la "h" entropía de Beta (3, 3) porque la distribución uniforme Beta (1, 1) tiene una cantidad máxima de desorden. La divergencia de Kullback es más de dos veces mayor (0,598803 en lugar de 0,267864) cuando se mide en la dirección de la entropía decreciente: la dirección que asume que la distribución (uniforme) Beta(1, 1) es (en forma de campana) Beta(3, 3) y no al revés. En este sentido restringido, la divergencia de Kullback es consistente con la segunda ley de la termodinámica.

La divergencia Kullback-Leibler es simétrica DKL(X1 || X2) = DKL(X2 || X1) para los casos sesgados Beta(3, 0.5) y Beta(0.5, 3) que tienen la misma entropía diferencial h(X 1) = h(X2).

La condición de simetría:

DKL()X1SilencioSilencioX2)=DKL()X2SilencioSilencioX1),sih()X1)=h()X2),para (skewed)α α ل ل β β {displaystyle D_{mathrm {KL}(X_{1}SobrevivirX_{2}=D_{mathrm} {KL} }(X_{2}? }

sigue de las definiciones anteriores y la simetría especular f(x; α, β) = f(1−x; α, β) que disfruta la distribución beta.

Relaciones entre medidas estadísticas

Relación entre media, moda y mediana

Si 1 < α < β entonces moda ≤ mediana ≤ media. Expresando la moda (solo para α, β > 1), y la media en términos de α y β:

α α − − 1α α +β β − − 2≤ ≤ mediana≤ ≤ α α α α +β β ,{fnMicroc {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {\\\\\\\fnMicrosoft {\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ -1}{alpha - ¿Qué? {fnMicroc {fnMicroc} } {alpha +beta }}

Si 1 < beta < α entonces se invierte el orden de las desigualdades. Para α, β > 1 la distancia absoluta entre la media y la mediana es inferior al 5% de la distancia entre los valores máximo y mínimo de x. Por otro lado, la distancia absoluta entre la media y la moda puede alcanzar el 50% de la distancia entre los valores máximo y mínimo de x, para el caso (patológico) de α = 1 y β = 1, para cuyos valores la distribución beta se acerca a la distribución uniforme y la entropía diferencial se acerca a su valor máximo y, por lo tanto, al máximo "desorden".

Por ejemplo, para α = 1,0001 y β = 1,00000001:

  • modo = 0.9999; PDF(modo) = 1.00010
  • media = 0,500025; PDF(medio) = 1.00003
  • mediana = 0,500035; PDF(media) = 1.00003
  • media − modo = 0,499875
  • mediana = 9.65538 × 10−6

donde PDF representa el valor de la función de densidad de probabilidad.

Mean Median Difference - Beta Distribution for alpha and beta from 1 to 5 - J. Rodal.jpgMean Mode Difference - Beta Distribution for alpha and beta from 1 to 5 - J. Rodal.jpg

Relación media, media geométrica y media armónica

: Medio, Mediano, Significado Geométrico y Significado Armónico para la distribución de Beta con 0 α = β

Se sabe por la desigualdad de las medias aritmética y geométrica que la media geométrica es menor que la media. De manera similar, la media armónica es menor que la media geométrica. El gráfico adjunto muestra que para α = β, tanto la media como la mediana son exactamente iguales a 1/2, independientemente del valor de α = β, y la moda también es igual a 1/2 para α = β > 1, sin embargo, las medias geométrica y armónica son inferiores a 1/2 y solo se aproximan a este valor asintóticamente como α = β → ∞.

Curtosis limitada por el cuadrado de la asimetría

Distribución de beta α y β parámetros vs. exceso de Kurtosis y Skewness cuadrado

Como señaló Feller, en el sistema Pearson la densidad de probabilidad beta aparece como tipo I (cualquier diferencia entre la distribución beta y la distribución tipo I de Pearson es solo superficial y no hace ninguna diferencia para la siguiente discusión sobre la relación entre la curtosis y la asimetría). Karl Pearson mostró, en la Placa 1 de su artículo publicado en 1916, un gráfico con la curtosis como eje vertical (ordenada) y el cuadrado de la asimetría como eje horizontal (abscisa), en el que se mostraban varias distribuciones. La región ocupada por la distribución beta está delimitada por las siguientes dos líneas en el plano (sesgo2,curtosis) o el plano (sesgo2,exceso de curtosis):

<math alttext="{displaystyle ({text{skewness}})^{2}+1<{text{kurtosis}}()Skewness)2+1.kurtosis.32()Skewness)2+3{displaystyle ({text{skewness}}})^{2}+1 obtenidos {text{kurtosis}} {frac {3}{2}} {text{skewness}}}}} {2}+3}}}} {f}}}} {f}}}} {f}}}}}}}}<img alt="(text{skewness})^2+1< text{kurtosis}

o, de manera equivalente,

<math alttext="{displaystyle ({text{skewness}})^{2}-2<{text{excess kurtosis}}()Skewness)2− − 2.exceso de kurtosis.32()Skewness)2{displaystyle ({text{skewness}}})^{2}2}{text{excess kurtosis}} {frac {3}{2}}} {text{skewness}}}}} {c}}}} {f}}}} {f}}}}}}} {f}}}}}}}}} {f}}}}}}}}}}}}}}} {f}}}}}}}}}}} {f}}}}}}}}}}}}}}} {f}}}}}}}}}}}}}}}}}} {f}}} {f} {f}}}}} {f}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}<img alt="(text{skewness})^2-2< text{excess kurtosis}

En una época en la que no había computadoras digitales poderosas, Karl Pearson calculó con precisión más límites, por ejemplo, separando la "forma de U" de la "en forma de J" distribuciones. La línea del límite inferior (exceso de curtosis + 2 − sesgo2 = 0) se produce por el sesgo "en forma de U" distribuciones beta con ambos valores de los parámetros de forma α y β cercanos a cero. La línea límite superior (exceso de curtosis − (3/2) sesgo2 = 0) se produce por distribuciones extremadamente sesgadas con valores muy grandes de uno de los parámetros y valores muy pequeños del otro parámetro. Karl Pearson demostró que esta línea límite superior (exceso de curtosis − (3/2) asimetría2 = 0) es también la intersección con la distribución III de Pearson, que tiene soporte ilimitado en una dirección (hacia el infinito positivo), y puede tener forma de campana o de J. Su hijo, Egon Pearson, mostró que la región (en el plano de curtosis/sesgo cuadrático) ocupada por la distribución beta (equivalente a la distribución I de Pearson) a medida que se acerca a este límite (exceso de curtosis − (3/2) skewness2 = 0) se comparte con la distribución de chi-cuadrado no central. Karl Pearson (Pearson 1895, pp. 357, 360, 373–376) también mostró que la distribución gamma es una distribución de Pearson tipo III. Por lo tanto, esta línea límite para la distribución tipo III de Pearson se conoce como línea gamma. (Esto se puede demostrar por el hecho de que el exceso de curtosis de la distribución gamma es 6/k y el cuadrado de la asimetría es 4/k, por lo tanto (exceso de curtosis − (3/2) skewness2 = 0) es satisfecha de manera idéntica por la distribución gamma independientemente del valor del parámetro "k"). Pearson señaló más tarde que la distribución de chi-cuadrado es un caso especial del tipo III de Pearson y también comparte esta línea límite (como se desprende del hecho de que para la distribución de chi-cuadrado el exceso de curtosis es 12/k y el cuadrado de la asimetría es 8/k, por lo tanto (exceso de curtosis − (3/2) asimetría2 = 0) se satisface de forma idéntica independientemente del valor del parámetro "k"). Esto es de esperar, ya que la distribución chi-cuadrado X ~ χ2(k) es un caso especial de la distribución gamma, con parametrización X ~ Γ(k/2, 1/2) donde k es un número entero positivo que especifica el "número de grados de libertad" de la distribución chi-cuadrado.

Un ejemplo de una distribución beta cerca del límite superior (exceso de curtosis − (3/2) asimetría2 = 0) viene dado por α = 0.1, β = 1000, para el cual la relación (exceso de curtosis)/(sesgo2) = 1,49835 se aproxima al límite superior de 1,5 desde abajo. Un ejemplo de una distribución beta cerca del límite inferior (exceso de curtosis + 2 − asimetría2 = 0) viene dado por α= 0,0001, β = 0,1, para el cual se valora la expresión (exceso de curtosis + 2) /(skewness2) = 1,01621 se acerca al límite inferior de 1 desde arriba. En el límite infinitesimal para que α y β se acerquen a cero simétricamente, el exceso de curtosis alcanza su valor mínimo en −2. Este valor mínimo se produce en el punto en el que la línea límite inferior se cruza con el eje vertical (ordenadas). (Sin embargo, en el gráfico original de Pearson, la ordenada es la curtosis, en lugar del exceso de curtosis, y aumenta hacia abajo en lugar de hacia arriba).

Valores para la esquedad y el exceso de kurtosis debajo del límite inferior (exceso kurtosis + 2 - esquedad2 = 0) no puede ocurrir para ninguna distribución, y por lo tanto Karl Pearson llamó apropiadamente la región debajo de este límite la "región imposible". El límite para esta "región imposible" está determinado por distribuciones bimodales bimodales "U" en forma de "U" para las cuales los parámetros α y β enfoque cero y por lo tanto toda la densidad de probabilidad se concentra en los extremos: x = 0, 1 con prácticamente nada entre ellos. Desde para α Ω β Ω 0 la densidad de probabilidad se concentra en los dos extremos x = 0 y x = 1, este "límite imposible" es determinado por una distribución de Bernoulli, donde los dos únicos resultados posibles ocurren con probabilidades respectivas p y q = 1 -p. Para los casos que se acercan a este límite con simetría α = β, esquewness ♥ 0, exceso de kurtosis Ω −2 (esto es el exceso más bajo de kurtosis posible para cualquier distribución), y las probabilidades son p. q Entendido. Para casos que se acercan a este límite límite con esqueje, exceso de kurtosis ♥ −2 + esquewness2, y la densidad de probabilidad se concentra más en un extremo que el otro extremo (con prácticamente nada en el medio), con probabilidades p=β β α α +β β {displaystyle p={tfrac {beta ♫{alpha +beta } en el extremo izquierdo x = 0 y q=1− − p=α α α α +β β {displaystyle q=1-p={tfrac {Alpha}{alpha +beta } en el extremo derecho x = 1.

Simetría

Todas las sentencias están condicionadas a α, β > 0

  • Función de densidad de probabilidad simetría de reflexión
f()x;α α ,β β )=f()1− − x;β β ,α α ){displaystyle f(x;alphabeta)=f(1-x;betaalpha)}
  • Función de distribución acumulativa simetría de reflexión más traducción unitaria
F()x;α α ,β β )=Ix()α α ,β β )=1− − F()1− − x;β β ,α α )=1− − I1− − x()β β ,α α ){displaystyle F(x;alphabeta)=I_{x}(alphabeta)=1-F(1-x;betaalpha)=1-I_{1-x}(betaalpha)}
  • Modo simetría de reflexión más traducción unitaria
modo⁡ ⁡ ()B()α α ,β β ))=1− − modo⁡ ⁡ ()B()β β ,α α )),siB()β β ,α α )ل ل B()1,1){displaystyle operatorname {mode} (mathrm {B} (alphabeta))=1-operatorname {mode} (mathrm {B} (betaalpha)),{text{ if }mathrm {B} (betaalpha)neqmathrm {B} (1,1)}}}
  • Mediano simetría de reflexión más traducción unitaria
mediana⁡ ⁡ ()B()α α ,β β ))=1− − mediana⁡ ⁡ ()B()β β ,α α )){displaystyle operatorname {median} (mathrm {B} (alphabeta)=1-operatorname {median} (mathrm {B} (betaalpha)}}
  • Significa simetría de reflexión más traducción unitaria
μ μ ()B()α α ,β β ))=1− − μ μ ()B()β β ,α α )){displaystyle mu (mathrm {B} (alphabeta)=1-mu (mathrm {B} (betaalpha)}
  • Medios geométricos cada uno es asimétrico individualmente, la simetría siguiente se aplica entre la media geométrica basada en X y la media geométrica basada en su reflejo (1-X)
GX()B()α α ,β β ))=G()1− − X)()B()β β ,α α )){displaystyle G_{X}(mathrm {B} (alphabeta)=G_{(1-X)}(mathrm {B} (betaalpha)}
  • Significado armónico cada uno es asimétrico individualmente, la simetría siguiente se aplica entre el medio armónico basado en X y el medio armónico basado en su reflexión (1-X)
1}" xmlns="http://www.w3.org/1998/Math/MathML">HX()B()α α ,β β ))=H()1− − X)()B()β β ,α α ))siα α ,β β ■1{displaystyle H_{X}(mathrm {B} (alphabeta)=H_{(1-X)}(mathrm {B} (betaalpha)){text{ if }alphabeta # 1 " aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/0c8a214283870e57900657da51d4c9210e2bf410" style="vertical-align: -1.171ex; width:42.475ex; height:3.176ex;"/>.
  • Diferencia simetría
Var⁡ ⁡ ()B()α α ,β β ))=Var⁡ ⁡ ()B()β β ,α α )){displaystyle operatorname {var} (mathrm {B} (alphabeta)=operatorname {var} (mathrm {B} (betaalpha)}}
  • Variaciones geométricas cada uno es asimétrico individualmente, la simetría siguiente se aplica entre la variabilidad geométrica log basada en X y la varianza geométrica log basada en su reflejo (1-X)
In⁡ ⁡ ()varGX⁡ ⁡ ()B()α α ,β β )))=In⁡ ⁡ ()varG()1-X)⁡ ⁡ ()B()β β ,α α ))){displaystyle ln(operatorname {var_{GX}} (mathrm {B} (alphabeta))=ln(operatorname {var_{G(1-X)}}} (mathrm {B} (betaalpha)))}}}}}}}}}}}
  • Covariancia geométrica simetría
In⁡ ⁡ covGX,()1-X)⁡ ⁡ ()B()α α ,β β ))=In⁡ ⁡ covGX,()1-X)⁡ ⁡ ()B()β β ,α α )){displaystyle ln operatorname {cov_{GX,(1-X)}} (mathrm {B} (alphabeta))=ln operatorname {cov_{GX,(1-X)}} {mathrm {B} (betaalpha)}}}
  • Una desviación absoluta alrededor de la media simetría
E⁡ ⁡ [SilencioX− − E[X]Silencio]()B()α α ,β β ))=E⁡ ⁡ [SilencioX− − E[X]Silencio]()B()β β ,α α )){displaystyle operatorname {E} [PrincipioX-E[X]tuvieron](mathrm {B}(alphabeta)=operatorname {E} [Principio X-E[X] viven](mathrm {B} (betaalpha)}}}}}}
  • Skewness simetría
Skewness⁡ ⁡ ()B()α α ,β β ))=− − Skewness⁡ ⁡ ()B()β β ,α α )){displaystyle operatorname {skewness} (mathrm {B} (alphabeta)=-operatorname {skewness} (mathrm {B} (betaalpha)}}
  • La kurtosis excesiva simetría
exceso de kurtosis()B()α α ,β β ))=exceso de kurtosis()B()β β ,α α )){displaystyle {text{excess kurtosis}} {mathrm {B}(alphabeta)={text{excess kurtosis}}} {mathrm {B} (betaalpha)}}}}} {m}}}
  • Función característica simetría de parte real (con respecto al origen de la variable "t")
Re[1F1()α α ;α α +β β ;it)]=Re[1F1()α α ;α α +β β ;− − it)]{displaystyle {text{Re}[{1}F_{1}(alpha;alpha +beta;it)]={text{Re}}[{}_{1}F_{1}(alpha;alpha +beta;-it)}}}
  • Función característica simetría de la parte imaginaria (con respecto al origen de la variable "t")
Im[1F1()α α ;α α +β β ;it)]=− − Im[1F1()α α ;α α +β β ;− − it)]{displaystyle {text{}[{1}F_{1}(alpha;alpha +beta;it)=-{text{Im}}[{}_1}F_{1}(alpha;alpha +beta;-it)}}}
  • Función característica simetría del valor absoluto (con respecto al origen de la variable "t")
Abs[1F1()α α ;α α +β β ;it)]=Abs[1F1()α α ;α α +β β ;− − it)]{displaystyle {text{Abs} {}_{1}F_{1}(alpha;alpha +beta;it)}={text{Abs}}[{}_{1}F_{1}(alpha;alpha +beta;-it)}}}}
  • Entropía diferencial simetría
h()B()α α ,β β ))=h()B()β β ,α α )){displaystyle h(mathrm {B} (alphabeta)=h(mathrm {B} (betaalpha)}
  • Entropía relativa (también llamada divergencia Kullback-Leibler) simetría
DKL()X1SilencioSilencioX2)=DKL()X2SilencioSilencioX1),sih()X1)=h()X2), para (skewed)α α ل ل β β {displaystyle D_{mathrm {KL}(X_{1}SobrevivirX_{2}=D_{mathrm} {KL} } (X_{2} "Perfecto" [X_{1}),{text{ if }h(X_{1})=h(X_{2}){text{, for (skewed) }alpha neq beta }
  • Matriz de información de pesca simetría
Ii,j=Ij,i{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft} {fnMicrosoft} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft}} {f}} {fnMicrosoft}} {fnMicrosoft} {f}}}}}}}}}}}}}}}}}} {f}}}}}}}}}}}}}} {f}f}}}}}}f}}}}}}}}}}}}\f} {f}\f}\\\\\\\fnMicrosigual}}}}fnMicrosigual}}}}fnh}}}}}}}}}}fnMicrosigual}}}}}fnMicros}}}}}}}}}}}fn {I}_{j,i}

Geometría de la función de densidad de probabilidad

Puntos de inflexión

Ubicación del punto de inflexión versus α y β mostrando regiones con un punto de inflexión
Ubicación del punto de inflexión versus α y β mostrando región con dos puntos de inflexión

Para ciertos valores de los parámetros de forma α y β, la función de densidad de probabilidad tiene puntos de inflexión, en los que la curvatura cambia de signo. La posición de estos puntos de inflexión puede ser útil como medida de la dispersión o extensión de la distribución.

Definiendo la siguiente cantidad:

κ κ =()α α − − 1)()β β − − 1)α α +β β − − 3α α +β β − − 2{displaystyle kappa ={frac {fnMicroc {fnMicrosoft Sans Serif}(beta) -1)}{alpha +beta -3}{alpha +beta -2}}

Se producen puntos de inflexión, según el valor de los parámetros de forma α y β, de la siguiente manera:

  • (α Ø 2, β 2) La distribución es en forma de campana (simétrica para α = β y se tacha de otro modo), con dos puntos de inflexión, equidistante del modo:
x=modo± ± κ κ =α α − − 1± ± ()α α − − 1)()β β − − 1)α α +β β − − 3α α +β β − − 2{displaystyle x={text{mode}pm kappa ={frac {fnMicrosoft} -1pm {sqrt {frac {alpha -1)(beta -1)}{alpha +beta -3} {alpha +beta -2}}
  • (α = 2, β 2) La distribución es unimodal, positivamente segado, de cola derecha, con un punto de inflexión, situado a la derecha del modo:
x=modo+κ κ =2β β {displaystyle x={text{mode}+kappa = {fnMicroc {2}{beta }
  • (α √≥ 2, β = 2) La distribución es unimodal, se tambaleó negativamente, de cola izquierda, con un punto de inflexión, situado a la izquierda del modo:
x=modo− − κ κ =1− − 2α α {displaystyle x={text{mode}}-kappa =1-{frac {2}{alpha }
  • (1 י α α 2, α+β =2) La distribución es unimodal, positivamente segado, de cola derecha, con un punto de inflexión, situado a la derecha del modo:
x=modo+κ κ =α α − − 1+()α α − − 1)()β β − − 1)α α +β β − − 3α α +β β − − 2{displaystyle x={text{mode}+kappa ={frac {alpha -1+{sqrt {frac {alpha -1)(beta -1)}{alpha +beta -3} {alpha +beta -2}}
  • La distribución tiene un modo en el extremo izquierdo x = 0 y es positivamente inclinado, de cola derecha. Hay un punto de inflexión, situado a la derecha del modo:
x=α α − − 1+()α α − − 1)()β β − − 1)α α +β β − − 3α α +β β − − 2{displaystyle x={frac {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft}\fnMicrosoft {\\fnMicrosoft\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\fnMicrosoft\\\\\\\\\\\fnMicrosoft\\fnMicrosoft {fnMicrosoft {\fnMicrosoftfnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoftfnMicrosoft\\\\fnMicrosoft {fnMicrosoft -1+{sqrt {frac {alpha -1)(beta -1)}{alpha +beta -3} {alpha +beta -2}}
  • La distribución es unimodal de cola izquierda, con un punto de inflexión, situado a la izquierda del modo:
x=modo− − κ κ =α α − − 1− − ()α α − − 1)()β β − − 1)α α +β β − − 3α α +β β − − 2{displaystyle x={text{mode}}-kappa ={frac {alpha -1-{sqrt {frac {alpha -1)(beta -1)}{alpha +beta -3} {alpha +beta -2}}
  • (1) La distribución tiene un modo en el extremo derecho x=1 y es tostado negativamente, de cola izquierda. Hay un punto de inflexión, situado a la izquierda del modo:
x=α α − − 1− − ()α α − − 1)()β β − − 1)α α +β β − − 3α α +β β − − 2{displaystyle x={frac {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft}\fnMicrosoft {\\fnMicrosoft\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\fnMicrosoft\\\\\\\\\\\fnMicrosoft\\fnMicrosoft {fnMicrosoft {\fnMicrosoftfnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoftfnMicrosoft\\\\fnMicrosoft {fnMicrosoft -1-{sqrt {frac {alpha -1)(beta -1)}{alpha +beta -3} {alpha +beta -2}}

No hay puntos de inflexión en las regiones restantes (simétricas y sesgadas): en forma de U: (α, β < 1) en forma de U invertida: (1 < α < 2, 1 < β < 2), en forma de J invertida (α < 1, β > 2) o en forma de J: (α > 2, β < 1)

Los gráficos adjuntos muestran las ubicaciones de los puntos de inflexión (verticales, que van de 0 a 1) frente a α y β (los ejes horizontales que van de 0 a 5). Hay grandes cortes en las superficies que intersecan las líneas α = 1, β = 1, α = 2 y β = 2 porque en estos valores la distribución beta cambia de 2 modas, a 1 moda y a ninguna moda.

Formas

PDF para distribución de beta simétrica vs. x y α=β de 0 a 30
PDF para distribución de beta simétrica vs. x y α=β de 0 a 2
PDF para la distribución de beta asada vs. x y β= 2,5α de 0 a 9
PDF para la distribución de beta asada vs. x y β= 5,5α de 0 a 9
PDF para la distribución de beta asada vs. x y β= 8α de 0 a 10

La función de densidad beta puede tomar una amplia variedad de formas diferentes dependiendo de los valores de los dos parámetros α y β. La capacidad de la distribución beta para tomar esta gran diversidad de formas (utilizando solo dos parámetros) es en parte responsable de encontrar una amplia aplicación para modelar medidas reales:

Simétrica (α = β)
(feminine)
  • la función de densidad es simétrica alrededor de 1/2 (planos azules & teales).
  • mediana = media = media = 1/2.
  • Skewness = 0.
  • varianza = 1/(4(2α + 1))
  • α = β
    • En forma de U (plano azul).
    • bimodal: modo izquierdo = 0, modo derecho =1, antimodo = 1/2
    • 1/12 י var(X)
    • −2 - exceso de kurtosis(X) −6/5
    • α = β = 1/2 es la distribución de arcsina
      • var(X) = 1/8
      • exceso de kurtosis(X) = −3/2
      • CF = Rinc (t)
    • α = β → 0 es una distribución de dos puntos Bernoulli con igual probabilidad 1/2 en cada extremo de función Dirac delta x = 0 y x = 1 y cero probabilidad en todas partes. Un lanzamiento de monedas: una cara de la moneda siendo x = 0 y la otra cara siendo x = 1.
      • limα α =β β → → 0Var⁡ ⁡ ()X)=14{displaystyle lim _{alpha =betato 0}operatorname {var} (X)={tfrac {1}{4}}
      • limα α =β β → → 0excesskurtosis⁡ ⁡ ()X)=− − 2{displaystyle lim _{alpha =betato 0}operatorname {excess kurtosis} (X)=-2} un valor inferior al imposible para que cualquier distribución alcance.
      • La entropía diferencial se aproxima a un valor mínimo de −
  • α = β = 1
    • distribución uniforme [0, 1]
    • no modo
    • var(X) = 1/12
    • exceso de kurtosis(X) = 6/5
    • La entropía diferencial (negativa en cualquier otro lugar) alcanza su valor máximo de cero
    • CF = Sinc (t)
  • α = β ■ 1
    • symmetric unimodal
    • Modo = 1/2.
    • 0 - 0X)
    • −6/5 Identificado exceso de kurtosis(X) 0
    • α = β = 3/2 es una distribución semi-éptica [0, 1], ver: Distribución de semicírculos Wigner
      • var(X) = 1/16.
      • exceso de kurtosis(X) = −1
      • CF = 2 Jinc (t)
    • α = β = 2 es la distribución parabólica [0, 1]
      • var(X) = 1/20
      • exceso de kurtosis(X−6/7
      • CF = 3 Tinc (t)
    • α = β √2 es en forma de campana, con puntos de inflexión situados a ambos lados del modo
      • 0 - 0X)
      • −6/7) exceso de kurtosis(X) 0
    • α = β → ∞ es una distribución degenerada de 1 punto con un pico de función Dirac delta en el punto medio x = 1/2 con probabilidad 1, y cero probabilidad en todas partes. Hay 100% probabilidad (certidumbre absoluta) concentrada en el punto único x = 1/2.
      • limα α =β β → → JUEGO JUEGO Var⁡ ⁡ ()X)=0{displaystyle lim _{alpha =beta to infty }operatorname {var} (X)=0}
      • limα α =β β → → JUEGO JUEGO excesskurtosis⁡ ⁡ ()X)=0{displaystyle lim _{alpha =beta to infty }operatorname {excess kurtosis} (X)=0}
      • La entropía diferencial se aproxima a un valor mínimo de −
Inclinada (α ≠ β)
(feminine)

La función de densidad está sesgada. Un intercambio de valores de parámetros produce la imagen especular (el reverso) de la curva inicial, algunos casos más específicos:

  • α. β 1
    • En forma de U
    • Dibujo positivo para el α α seccionó β, junta negativa para α ю β.
    • bimodal: modo izquierdo = 0, modo derecho = 1, antimodo = α α − − 1α α +β β − − 2{fnMicroc {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\\\fnMicrosoft {\\fnMicrosoft {\\\\\\\\\fnMicrosoft {\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ -1}{alpha - ¿Qué?
    • 0 0 0 se median 0
    • 0 - 0X)
  • α
    • unimodal (magenta " cyan plots),
    • Dibujo positivo para el α α seccionó β, junta negativa para α ю β.
    • modo=α α − − 1α α +β β − − 2{displaystyle {text{de }={tfrac {fnMicrosoft} -1}{alpha - ¿Qué?
    • 0 Mediana realizada 1
    • 0 - 0X)
  • α = 1 β ≥ 1
    • en forma J inversa con una cola derecha,
    • positivamente segado,
    • estrictamente decreciente, convex
    • modo = 0
    • 0 0 se median 0 se hizo 1/2.
    • <math alttext="{displaystyle 0<operatorname {var} (X)0.Var⁡ ⁡ ()X).− − 11+552,{displaystyle 0 realizadasoperatorname {var} (X) {-11+5{sqrt {}} {2}}} {}} {}}} {}}} {}}}} {}}}} {}}} {}}} {}}} {}}}}} {}}}} {}}}} {}}} {}}}}}} {}}}} {}}}}} {}}}}}} {}}}}}}}}}}}} {}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}} {}}}}}}}}} {}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}}}}}} {}}}}}}}}} {}}}}}}}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}<img alt="0 < operatorname{var}(X) (La diferencia máxima se produce para α α =− − 1+52,β β =1{displaystyle alpha ={tfrac {-1+{sqrt {5}}{2}}}beta =1}, o α = CCPR la relación dorada conjugada)
  • α ≥ 1, β
    • En forma de J con cola izquierda,
    • negativo,
    • estrictamente creciente, convex
    • Modo = 1
    • 1/2 1 mediana
    • <math alttext="{displaystyle 0<operatorname {var} (X)0.Var⁡ ⁡ ()X).− − 11+552,{displaystyle 0 realizadasoperatorname {var} (X) {-11+5{sqrt {}} {2}}} {}} {}}} {}}} {}}}} {}}}} {}}} {}}} {}}} {}}}}} {}}}} {}}}} {}}} {}}}}}} {}}}} {}}}}} {}}}}}} {}}}}}}}}}}}} {}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}} {}}}}}}}}} {}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}}}}}} {}}}}}}}}} {}}}}}}}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}<img alt="0 < operatorname{var}(X) (La diferencia máxima se produce para α α =1,β β =− − 1+52{displaystyle alpha =1,beta ={tfrac {-1+{sqrt {}} {2}}}} {}}} {}}}}}} {}}}} {}}}} {}}}}} {}} {}}}}}} {}}}} {}}}}} {}}}} {}}}}}}}} {}}}}} {}}}}}}}}}}}} {}}}}}}} {}}}}} {}}}}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}}} {}}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}}}}}}} {}}} {}}}}}}}}} {}}}}}}} {}}}}} {}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}, o β = CCPR la relación dorada conjugada)
  • α = 1, β 1
    • positivamente segado,
    • estrictamente disminuyendo (conspiración roja),
    • a reversado (image-mirror) función de potencia [0,1] distribución
    • media = 1 / (β + 1)
    • mediana = 1 - 1/21/β
    • modo = 0
    • α = 1, 1
      • concave
      • <math alttext="{displaystyle 1-{tfrac {1}{sqrt {2}}}<{text{median}}1− − 12.mediana.12{displaystyle 1-{tfrac {1}{sqrt {2}} {text{median} {tfrac} {1}{2}}}<img alt="1-tfrac{1}{sqrt{2}}< text{median}
      • 1/18 " var "X) 1/12.
    • α = 1, β = 2
      • una línea recta con pendiente −2, la distribución triangular derecha con ángulo recto en el extremo izquierdo, en x = 0
      • mediana=1− − 12{displaystyle {text{median}=1-{tfrac {1}{sqrt {2}}}
      • var(X) = 1/18
    • α = 1, β
      • en forma J inversa con una cola derecha,
      • convex
      • <math alttext="{displaystyle 0<{text{median}}0.mediana.1− − 12{displaystyle 0 realizadas {text{median} {tfrac {1}{sqrt {2}}}<img alt="0 < text{median}
      • 0 - 0X)
  • α Ø 1, β = 1
    • negativo,
    • estrictamente creciente (conspiración verde),
    • la función de potencia [0, 1] distribución
    • media = α / (α + 1)
    • mediana = 1/21/α
    • Modo = 1
    • 1 β = 1
      • concave
      • <math alttext="{displaystyle {tfrac {1}{2}}<{text{median}}12.mediana.12{displaystyle {tfrac {1}{2} {text{median}traducido {tfrac} {1}{sqrt {2}}}<img alt="tfrac{1}{2} < text{median}
      • 1/18 " var "X)
    • α = 2, β = 1
      • una línea recta con pendiente +2, la distribución triangular derecha con ángulo recto en el extremo derecho, en x = 1
      • mediana=12{displaystyle {text{median}={tfrac {1}{sqrt {2}}}
      • var(X) = 1/18
    • α Ø 2, β = 1
      • En forma de J con cola izquierda, convex
      • <math alttext="{displaystyle {tfrac {1}{sqrt {2}}}<{text{median}}12.mediana.1{displaystyle {tfrac {1}{sqrt {2} {text{median}traducidos}1}} {}}}} {f}}}} {f}}}} {f}}}}}} {f}}}}}}}} {f}}}}}}} {f}}}}}}}}}}}}}}}}}}}} {<img alt="tfrac{1}{sqrt{2}} < text{median}
      • 0 - 0X)

Distribuciones relacionadas

Transformaciones

  • Si X Beta.α, βentonces 1 − X Beta.β, α) simetría de imagen espejo
  • Si X Beta.α, βentonces X1− − X♪ ♪ β β .()α α ,β β ){displaystyle {tfrac {X}{1-X}sim {beta}(alphabeta)}. La distribución beta prime, también llamada "distribución beta del segundo tipo".
  • Si X♪ ♪ Beta()α α ,β β ){displaystyle Xsim {text{Beta}(alphabeta)}, entonces Y=log⁡ ⁡ X1− − X{displaystyle Y=log {frac {X}{1-X}} tiene una distribución logística generalizada, con densidad σ σ ()Sí.)α α σ σ ()− − Sí.)β β B()α α ,β β ){displaystyle {frac {sigma (y)^{alpha }sigma (-y)^{beta } {B(alphabeta)}}, donde σ σ {displaystyle sigma } es la sigmoide logística.
  • Si X Beta.α, βentonces 1X− − 1♪ ♪ β β .()β β ,α α ){betabeta}}.
  • Si X Beta.n/2, m/2) entonces mXn()1− − X)♪ ♪ F()n,m){displaystyle {tfrac {mX}{n(1-X)}sim F(n,m)} (suponiendo n " 0 " m Ø 0), el Fisher-Snedecor Distribución F.
  • Si X♪ ♪ Beta⁡ ⁡ ()1+λ λ m− − minmax− − min,1+λ λ max− − mmax− − min){displaystyle Xsim operatorname {Beta} left(1+lambda {tfrac {m-min ##{max -min },1+lambda {tfrac {max -m}{max -min }right)} entonces min + X(max − min) ~ PERT(min, max, m, λDonde PERT denota una distribución PERT utilizada en el análisis PERT, y mEs muy probable. Tradicionalmente λ = 4 en análisis PERT.
  • Si X ~ Beta(1, βentonces X ~ Kumaraswamy distribución con parámetros (1, β)
  • Si X Beta.α, 1) entonces X ~ Kumaraswamy distribución con parámetros (α, 1)
  • Si X Beta.α, 1) entonces −ln(X~ Exponential()α)

Casos especiales y limitantes

Ejemplo de ocho realizaciones de un paseo aleatorio en una dimensión comenzando a 0: la probabilidad para el tiempo de la última visita al origen se distribuye como Beta(1/2, 1/2)
Beta(1/2, 1/2): La densidad de probabilidad de distribución arcsina fue propuesta por Harold Jeffreys para representar la incertidumbre de un Bernoulli o una distribución binomial en la inferencia Bayesiana, y ahora se conoce comúnmente como Jeffreys antes: p1/2−(1 −p)1/2−. Esta distribución también aparece en varios teoremas fundamentales aleatorios
  • Beta(1, 1) ~ U(0, 1).
  • Beta(n, 1) ~ Máximo n rvs independiente con U(0, 1), a veces llamado una distribución de función de potencia estándar con densidad nxn-1 en ese intervalo.
  • Beta(1, n) ~ Mínimo de n rvs independiente con U(0, 1)
  • Si X ~ Beta(3/2, 3/2) y r " 0 then 2rXr - Distribución de semicírculos Wigner.
  • Beta(1/2, 1/2) es equivalente a la distribución arcsina. Esta distribución es también Jeffreys probabilidad previa para las distribuciones benoulli y binomial. La densidad de probabilidad de arcsina es una distribución que aparece en varios teoremas fundamentales de paso aleatorio. En un hermoso paseo aleatorio de monedas, la probabilidad de la última visita al origen se distribuye como una distribución arcsina (en forma de U). En un juego de dos jugadores, se dice que un jugador está en la delantera si el paseo al azar (que comenzó en el origen) está por encima del origen. El número más probable de veces que un jugador dado estará en la delantera, en un juego de la longitud 2N, no es N. Al contrario, N es el número menos probable de veces que el jugador estará en la delantera. El número más probable de veces en el plomo es 0 o 2N (siguiendo la distribución de arcsina).
  • limn→ → JUEGO JUEGO nBeta⁡ ⁡ ()1,n)=Exponential⁡ ⁡ ()1){displaystyle lim _{nto infty }noperatorname {Beta} (1,n)= 'operatorname {Exponential} (1) la distribución exponencial.
  • limn→ → JUEGO JUEGO nBeta⁡ ⁡ ()k,n)=Gamma⁡ ⁡ ()k,1){displaystyle lim _{nto infty }noperatorname {Beta} (k,n)=operatorname {Gamma} (k,1)} la distribución gamma.
  • Para grandes n{displaystyle n}, Beta⁡ ⁡ ()α α n,β β n)→ → N()α α α α +β β ,α α β β ()α α +β β )31n){displaystyle operatorname {Beta} (alpha n,beta n)to {mathcal {N}left({frac {alpha }{alpha +beta }},{frac {alpha beta} {fn} {fn}}}} {fn}derecho)} la distribución normal. Más precisamente, si Xn♪ ♪ Beta⁡ ⁡ ()α α n,β β n){displaystyle X_{n}sim operatorname {Beta} (alpha n,beta n)} entonces n()Xn− − α α α α +β β ){displaystyle {sqrt {n}left(X_{n}-{tfrac} Bien. converge en la distribución a una distribución normal con media 0 y varianza α α β β ()α α +β β )3{displaystyle {tfrac {alpha beta}{(alpha +beta)}}}} como n aumenta.

Derivado de otras distribuciones

  • El ka la estadística del pedido de una muestra de tamaño n de la distribución uniforme es una variable aleatoria beta, U()k) Beta.k, n+1 -k).
  • Si X ~ Gamma(α, θ) y Y ~ Gamma(β, θ) son independientes, entonces XX+Y♪ ♪ Beta⁡ ⁡ ()α α ,β β ){displaystyle {tfrac {X}{X+Y}sim operatorname {Beta} (alphabeta),}.
  • Si X♪ ♪ χ χ 2()α α ){displaystyle Xsim chi ^{2}(alpha),} y Y♪ ♪ χ χ 2()β β ){displaystyle Ysim chi ^{2}(beta),} son independientes, entonces XX+Y♪ ♪ Beta⁡ ⁡ ()α α 2,β β 2){displaystyle {tfrac {X}{X+Y}sim operatorname {Beta} ({tfrac {alpha }{2}}}} {tfrac {beta} } {2}}}.
  • Si X - U(0, 1) y α ■ 0 entonces X1/α Beta.α, 1). La distribución de la función eléctrica.
  • Si X♪ ♪ Binom⁡ ⁡ ()k;n;p){displaystyle Xsim operatorname {Binom} (k;n;p)}, entonces X/()n+1)♪ ♪ Beta⁡ ⁡ ()α α ,β β ){displaystyle {X/(n+1)}sim operatorname {Beta} (alphabeta)} para valores discretos n y k Donde α α =k+1{displaystyle alpha =k+1} y β β =n− − k+1{displaystyle beta =n-k+1}.
  • Si X ~ Cauchy(0, 1) entonces 11+X2♪ ♪ Beta⁡ ⁡ ()12,12){fnMicroc} {1}{1+X^{2}}sim operatorname {Beta} left ({tfrac {1}{2}} {tfrac {1}{2}right),}

Combinación con otras distribuciones

  • X Beta.α, β) y Y ~ F(2)β,2αentonces Pr()X≤ ≤ α α α α +β β x)=Pr()Y≥ ≥ x){displaystyle Pr(Xleq {lpha }{alpha +beta x}})=Pr(Ygeq x),} para todos x ■ 0.

Composición con otras distribuciones

  • Si p - Beta (α, β) y X - Bin.k, pentonces X ~ distribución beta-binomial
  • Si p - Beta (α, β) y X - NB(r, pentonces X ~ distribución binomial negativa beta

Generalizaciones

  • La generalización a múltiples variables, es decir, una distribución multivariada de Beta, se llama distribución Dirichlet. Los marginales Univariados de la distribución Dirichlet tienen una distribución beta. La distribución beta es conjugada a las distribuciones binomiales y Bernoulli de la misma manera que la distribución Dirichlet es conjugada a la distribución multinomio y distribución categórica.
  • La distribución de Pearson tipo I es idéntica a la distribución beta (excepto el cambio arbitrario y la escalada que también se puede lograr con la parametrización de cuatro parámetros de la distribución beta).
  • La distribución beta es el caso especial de la distribución beta no central donde λ λ =0{displaystyle lambda =0}: Beta⁡ ⁡ ()α α ,β β )=NonCentralBeta⁡ ⁡ ()α α ,β β ,0){displaystyle operatorname {Beta}(alphabeta)=operatorname {NonCentralBeta} (alphabeta0)}.
  • La distribución generalizada de beta es una familia de distribución de cinco parámetros que tiene la distribución beta como caso especial.
  • La distribución variate beta matriz es una distribución para matrices definitas positivas.

Inferencia estadística

Estimación de parámetros

Método de los momentos

Dos parámetros desconocidos

Dos parámetros desconocidos()α α ^ ^ ,β β ^ ^ ){beta}} de una distribución beta apoyada en el intervalo [0,1]) se puede estimar, utilizando el método de los momentos, con los dos primeros momentos (muestra media y varianza de muestra) como sigue. Deja:

muestra media(X)=x̄ ̄ =1N.. i=1NXi{displaystyle {text{sample mean(X)}}={bar {x}={frac} {1}{N}sum} ¿Qué?

sea la estimación de la media muestral y

muestra varianza(X)=v̄ ̄ =1N− − 1.. i=1N()Xi− − x̄ ̄ )2{displaystyle {text{sample variation(X)}}={bar {}={frac} {1}{N-1}sum ¿Qué?

sea la estimación de la varianza de la muestra. Las estimaciones del método de los momentos de los parámetros son

α α ^ ^ =x̄ ̄ ()x̄ ̄ ()1− − x̄ ̄ )v̄ ̄ − − 1),{fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft {fnK} {fnK} {fnK} {b} {b} {b}} {b}} {b}} {b}}} {b}}}}}} {b}}}}} {b}}}}} {b}}}} {b}}}}}}}}} {b}}}}}}} {b}}}}}}}}}}} {b}}}}}}}}}}}}}} {b}}}}}}}} {b}}}}}} {b}}}}}}}}}}}}}}} {b}}}}}}}}}}}} {b}}}}}}}}}}}}}} {b}}}}}}}}}}}}}}}} {b}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} si <math alttext="{displaystyle {bar {v}}v̄ ̄ .x̄ ̄ ()1− − x̄ ̄ ),{displaystyle {bar {v} {bar {x}}(1-{bar {x}),}<img alt="bar{v}
β β ^ ^ =()1− − x̄ ̄ )()x̄ ̄ ()1− − x̄ ̄ )v̄ ̄ − − 1),{displaystyle {hat {beta}=(1-{bar {x})left({frac {bar {x}(1-{bar {x}}}} {bar {}}}}}}}}} {b}}}}b}}b} {b}}b}}}}}}b}}}}}}}}}}}}}}}}}}}}b} {b}b}b}}b}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {b} {b} {b} {b}} {b}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {b}b}}}}}}}}}}}}}}}}}}}}}}} si <math alttext="{displaystyle {bar {v}}v̄ ̄ .x̄ ̄ ()1− − x̄ ̄ ).{displaystyle {bar {v} {bar {x}}(1-{bar {x}).}<img alt="bar{v}

Cuando se requiere la distribución a través de un intervalo conocido distinto a [0, 1] con variable aleatoria X, diga [a, c] con variable aleatoria Y, luego reemplazar x̄ ̄ {displaystyle {bar {x}} con Sí.̄ ̄ − − ac− − a,{displaystyle {frac {fnMicroc {\fnMicrosoft {fnMicrosoft {\fn\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnfnMicrosoft {fnMicrosoft {\\fnfn\\\\\\fn\\fn\fnMicrosoft {fn\fnMicrosoft {fn\\\fn\\\\\fn\\\fnMinfnfnfn\\fn\\fn\\fn\\fnfn\fnMicrosoftfn\\\\\\fn\\\fnMin {y}-a} {c-a}} y v̄ ̄ {displaystyle {bar}} con vȲ ̄ ()c− − a)2{displaystyle {frac {fnMicroc}bar {fnK} {fnK}}} {cH00}}} {cH00}} {cH00}}} {c-a}}}}}} {cH00}}}}}}}}}} {cH00}}}}} {c-}}}} {c-}}}} {c-}}}}}}}}}}}}}}}}}} {c- {c-}}}}}}}}}}}}}}}}}}}}} {c- {c-}}}}}}}}}}}}}}}}}}}}} {c- {c- {c- {c- {c- {c-}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {c- {c- en el par anterior de ecuaciones para los parámetros de forma (ver la sección "Parametrizaciones alternativas, cuatro parámetros" a continuación)., donde:

muestra media(Y)=Sí.̄ ̄ =1N.. i=1NYi{displaystyle {text{sample mean(Y)}}={bar {y}={frac {1}{N}sum} ¿Qué?
muestra varianza(Y)=vȲ ̄ =1N− − 1.. i=1N()Yi− − Sí.̄ ̄ )2{displaystyle {text{sample variation(Y)}}={bar {fnK}}={fnMic} {1}{N-1}sum ¿Qué?
Cuatro parámetros desconocidos
Soluciones para cálculos del parámetro vs. (sample) exceso de Kurtosis y (sample) cuadrada Skewness Beta distribución

Los cuatro parámetros (α α ^ ^ ,β β ^ ^ ,a^ ^ ,c^ ^ {displaystyle {hat {alpha}},{hat {beta}},{hat {hat {}}} {hat {}}}} {f}} {f}}} {f}}}} {f}}}} {f} {f}} {f}}}}}}} de una distribución beta apoyada en [a, c] intervalo -ver sección "Parametrizaciones alternativas, Cuatro parámetros"-) se puede estimar, utilizando el método de los momentos desarrollados por Karl Pearson, equiparando los valores de muestra y población de los primeros cuatro momentos centrales (medio, varianza, esquedad y exceso de kurtosis). El exceso de kurtosis se expresó en términos de la plaza de la cerda, y el tamaño de la muestra ν = α + β, (ver sección anterior "Kurtosis") como sigue:

<math alttext="{displaystyle {text{excess kurtosis}}={frac {6}{3+nu }}left({frac {(2+nu)}{4}}({text{skewness}})^{2}-1right){text{ if (skewness)}}^{2}-2<{text{excess kurtosis}}exceso de kurtosis=63+.. ()()2+.. )4()Skewness)2− − 1)si2− − 2.exceso de kurtosis.32()Skewness)2{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicros {} {fnMicrosoft Sans Serif} {fnMicrosoft Sans} {fnMicrosoft Sans Serif} {fnMicros} {fnMicros} {f}}}} {f}}}} {f} {f}f}f}f} {f}fnMicros}f}f}fnMicros}fnMis}fnMicros}fnMicros}f}fnMicros} {fnMis}fnMis}fnMicros}fnMis}fnMicros}fnMis}fnMicrosoft}fnMis}fnMicros}fnMis}f}fnMi<img alt="text{excess kurtosis} =frac{6}{3 + nu}left(frac{(2 + nu)}{4} (text{skewness})^2 - 1right)text{ if (skewness)}^2-2< text{excess kurtosis}

Se puede usar esta ecuación para resolver el tamaño de la muestra ν= α + β en términos del cuadrado de la asimetría y el exceso de curtosis de la siguiente manera:

.. ^ ^ =α α ^ ^ +β β ^ ^ =3()muestra exceso de kurtosis)− − ()muestreo)2+232()muestreo)2− − (sample excess kurtosis){fnMicrosoft {fnfnfnMicrosoft {fnMicrosoft {fnfnMicrosoft {fnfnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnfn\fn\fnfn\fnfn\\\fnfn\\fn\\fn\\fn\fnfnfn\\\fn\\\\\\fn\\\\\fnfn\\fn\\\fn\\fn\\fn\\\\\\\\\\\\fn\\\\\\fn\\\\\ }={hat {alpha ## {text{text{sample excess kurtosis}})-({text{sample skewness}})} {2}{2}{2}frac {3}{2}} {text{sample skewness}}}} {2}-{} {text {} {}} {}}} {}}} {}}}} {}}}}}} {}}}}}}}}}} {}}}}}} {}}}}} {}}} {}}}}}} {}}}}} {}}}}}}}} {}}}}}}}}}}} {}}}}}}}}} {}}}}}}}}}}} {} {}}}}}}}} {}} {}}}}}}} {}}}}} {}}}}} {}}}}}}}}}}}}} {}}}}}}}}}}}}}}
<math alttext="{displaystyle {text{ if (sample skewness)}}^{2}-2<{text{sample excess kurtosis}}si2− − 2.muestra exceso de kurtosis.32()muestreo)2{displaystyle {text{ if (sample skewness)}}}}{2}2} {text{text{sample excess kurtosis}}}} {tfrac {3}{2} {text{sample skewness}})}}{2}}}}}}}}}}}}}} {<img alt="{displaystyle {text{ if (sample skewness)}}^{2}-2<{text{sample excess kurtosis}}

Esta es la relación (multiplicada por un factor de 3) entre los límites límite derivados anteriormente para la distribución beta en un espacio (como lo hizo originalmente Karl Pearson) definido con las coordenadas del cuadrado de la asimetría en un eje y la exceso de curtosis en el otro eje (ver § Curtosis limitada por el cuadrado de la asimetría):

El caso de asimetría cero puede resolverse inmediatamente porque para asimetría cero, α = β y, por lo tanto, ν = 2α = 2β, por lo tanto, α = β = ν/2

α α ^ ^ =β β ^ ^ =.. ^ ^ 2=32()muestra exceso de kurtosis)+3− − (sample excess kurtosis){fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {f}\fnMicrosoft {\fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fn\\\\\fn\\\\\fnMicrosoft {\\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\\\\fnMicrosoft {\\\ }={hat {beta }={frac {hat {nu {fnMicroc {3} {fnMicroc}} {text{sample excess kurtosis}}})+3}{text{(sample excess kurtosis)}}}}}}}}}}}} {fnf} {fnMicroc {fnMicroc}}}}}}}}}}}}} {
<math alttext="{displaystyle {text{ if sample skewness}}=0{text{ and }}-2<{text{sample excess kurtosis}}si la muestra se hace=0y− − 2.muestra exceso de kurtosis.0{displaystyle {text{ if sample skewness}}}=0{text{ and }}2 0} {text{sample excess kurtosis}} {f}}}} {f}}<img alt="{displaystyle {text{ if sample skewness}}=0{text{ and }}-2<{text{sample excess kurtosis}}

(La kurtosis avanzada es negativa para la distribución beta con cero esquejes, que van de -2 a 0, de modo que .. ^ ^ {displaystyle {hat {nu}}} -y por lo tanto los parámetros de la forma muestra- es positivo, que van desde cero cuando los parámetros de la forma se acercan a cero y el exceso de kurtosis se acerca -2, a la infinidad cuando los parámetros de la forma se acercan a la infinidad y el exceso de kurtosis se acerca a cero.

Para el skewness de muestra no cero uno necesita resolver un sistema de dos ecuaciones acopladas. Puesto que la asiduidad y el exceso de kurtosis son independientes de los parámetros a^ ^ ,c^ ^ {displaystyle {hat {hat},{hat} {c}}, los parámetros α α ^ ^ ,β β ^ ^ {displaystyle {hat {alpha}},{hat {beta } se puede determinar de forma única a partir de la frescura de la muestra y la kurtosis sobrante de la muestra, resolviendo las ecuaciones acopladas con dos variables conocidas (skewness del muestreo y kurtosis sobrante) y dos desconocidos (los parámetros de la forma):

()muestreo)2=4()β β ^ ^ − − α α ^ ^ )2()1+α α ^ ^ +β β ^ ^ )α α ^ ^ β β ^ ^ ()2+α α ^ ^ +β β ^ ^ )2{displaystyle ({text{sample skewness}}}}{2}={frac {4({hat {beta {fnfn}} {fn}} {fnfn}} {fnfnfn}} {fn}} {fn} {fnfn} {fn} {fnfn}} {b} {fnf} {fnfnfnf}} {fnf} {fnfnfnfnfnfnfnfnf}}}} {fnfnfnfnfnfnfnfnfnfnf}}}}}}}}}}}}}} {fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnf}}}}}}}} - Sí.
muestra exceso de kurtosis=63+α α ^ ^ +β β ^ ^ ()()2+α α ^ ^ +β β ^ ^ )4()muestreo)2− − 1){displaystyle {text{sample excess kurtosis}={frac {6}{3+{hat {alpha }+{hat {beta {fnMicroc {fnMicroc {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}}}}}}}}left {fnMicroc {fnMicroc {fnMicroc {fnMicroc {f}}}}}}}}}}}}}}}left {left {m} {m} {m} {m} {m} {m} {m} {m} {m}f} {m} {f}m} {fnMift {fnMift {fracfnMift {fracfnMift {fnMift {fnMift {fracfracf}fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnf}fn {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}}}} {2}-1right)}
<math alttext="{displaystyle {text{ if (sample skewness)}}^{2}-2<{text{sample excess kurtosis}}si2− − 2.muestra exceso de kurtosis.32()muestreo)2{displaystyle {text{ if (sample skewness)}}}}{2}2} {text{text{sample excess kurtosis}}}} {tfrac {3}{2} {text{sample skewness}})}}{2}}}}}}}}}}}}}} {<img alt="{displaystyle {text{ if (sample skewness)}}^{2}-2<{text{sample excess kurtosis}}

resultando en la siguiente solución:

α α ^ ^ ,β β ^ ^ =.. ^ ^ 2()1± ± 11+16().. ^ ^ +1)().. ^ ^ +2)2()muestreo)2){displaystyle {hat {alpha}},{hat {beta }={frac {hat {nu }{2}left(1pm {frac {1} {sqrt {1+{hat {nu }+1)}{({hat {nu }}+2)}{2}({text{sample skewness}}}} {}}}}}}}derecho)}}}}}}}} {derecha)}}}}}}} {dere}}}}}}}}}}}} {dere}}}}}}}}}}} {dere}}}}}}}} {dere} {dere}} {dere}} {f}}} {f}}}}}}}}}}}} {f}} {f}}}} {f}}} {f}}}}} {f}} {f}}}}}}} {f} {f}}}}}}}} {f} {f}}}} {f}}}}}}}}}}}}}}}
<math alttext="{displaystyle {text{ if sample skewness}}neq 0{text{ and }}({text{sample skewness}})^{2}-2<{text{sample excess kurtosis}}si la muestra se haceل ل 0y()muestreo)2− − 2.muestra exceso de kurtosis.32()muestreo)2{displaystyle {text{ if sample skewness}}}neq 0{text{ and } {text{sample skewness}}}}}}} {2}2} {text{sample excess kurtosis}} {tfrac {3}{text{sample skewness}}}} {}}} {c}}}}}} {c}}}}}} {c}}}}}}}} {c}}}}}} {c}}}}} {c}}}} {c}}}}}}}}}}}}}}}} {c}}}} {f} {b}}}}} {b}}} {c}}}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {b}}}}}}} {<img alt="{displaystyle {text{ if sample skewness}}neq 0{text{ and }}({text{sample skewness}})^{2}-2<{text{sample excess kurtosis}}

Donde uno debe tomar las soluciones como sigue: {hat {beta }}}" xmlns="http://www.w3.org/1998/Math/MathML">α α ^ ^ ■β β ^ ^ {displaystyle {hat {alpha} {hat {beta} }hat{beta}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/9bba17be3bb65a91cb1d98c314aa0545401c2109" style="vertical-align: -0.671ex; width:6.037ex; height:3.176ex;"/> para (negativo) muestreo 0, y <math alttext="{displaystyle {hat {alpha }}α α ^ ^ .β β ^ ^ {displaystyle {hat {alpha}cantado {beta} }<img alt="hat{alpha} para (positivo) muestreo 0.

La trama acompañante muestra estas dos soluciones como superficies en un espacio con ejes horizontales de (sample excess kurtosis) y (sample squared skewness) y los parámetros de forma como eje vertical. Las superficies están limitadas por la condición de que el exceso de la muestra kurtosis debe ser atado por la esquejez cuadrada muestra como se estipula en la ecuación anterior. Las dos superficies se encuentran en el borde derecho definido por cero rotura. A lo largo de este borde derecho, ambos parámetros son iguales y la distribución es simétrica en forma de U para α = β = 1, uniforme para α = β = 1, en forma de U hacia arriba hacia abajo para 1 α = β, 2 y en forma de campana para α = β н 2. Las superficies también se encuentran en el borde frontal (más bajo) definido por la línea "el límite imposible" (exceso kurtosis + 2 - esquedad2 = 0). A lo largo de este límite (más bajo) ambos parámetros de forma enfoque cero, y la densidad de probabilidad se concentra más en un extremo que el otro extremo (con prácticamente nada en medio), con probabilidades p=β β α α +β β {displaystyle p={tfrac {beta ♫{alpha +beta } en el extremo izquierdo x = 0 y q=1− − p=α α α α +β β {displaystyle q=1-p={tfrac {Alpha}{alpha +beta } en el extremo derecho x = 1. Las dos superficies se separan más hacia el borde trasero. En este borde trasero los parámetros de superficie son muy diferentes entre sí. Como se señala, por ejemplo, por Bowman y Shenton, muestreo en el barrio de la línea (sample exceso kurtosis - (3/2)(sample skewness)2 = 0) (la porción justa en forma de J del borde trasero donde el azul se encuentra beige), "es peligrosamente cerca del caos", porque en esa línea el denominador de la expresión anterior para la estimación ν = α + β se convierte en cero y por lo tanto ν se acerca la infinidad ya que esa línea se acerca. Bowman y Shenton escriben que "los parámetros de momento más altos (kurtosis y esquedad) son extremadamente frágiles (cerca de esa línea). Sin embargo, la desviación media y estándar son bastante confiables". Por lo tanto, el problema es para el caso de la estimación de cuatro parámetro para distribuciones muy sesgadas de tal manera que el exceso de kurtosis se acerca (3/2) veces el cuadrado de la costura. Esta línea de límites se produce por distribuciones extremadamente esquejadas con valores muy grandes de uno de los parámetros y valores muy pequeños del otro parámetro. Ver § Kurtosis ligada por la plaza de la musla por un ejemplo numérico y comentarios adicionales sobre esta línea de borde trasero (sample excess kurtosis - (3/2)(sample skewness)2 = 0). Como señala el propio Karl Pearson este tema puede no ser de mucha importancia práctica, ya que este problema surge sólo para las distribuciones en forma de J (o en forma de imagen de espejo) con valores muy diferentes de parámetros de forma que es poco probable que ocurran mucho en la práctica. Las distribuciones habituales de forma de campana que se producen en la práctica no tienen este problema de estimación del parámetro.

Los dos parámetros restantes a^ ^ ,c^ ^ {displaystyle {hat {hat},{hat} {c}} se puede determinar utilizando el medio de muestra y la varianza de muestra usando una variedad de ecuaciones. Una alternativa es calcular el rango de intervalos de soporte ()c^ ^ − − a^ ^ ){displaystyle ({hat {c}-{hat {a}}} {f}} basado en la varianza de la muestra y la kurtosis de la muestra. Para este propósito se puede resolver, en términos de rango ()c^ ^ − − a^ ^ ){displaystyle ({hat {c}-{hat {a}}} {f}}, la ecuación que expresa el exceso de kurtosis en términos de la varianza de la muestra, y el tamaño de la muestra ν (ver § Kurtosis y § Parametrizaciones alternativas, cuatro parámetros):

muestra exceso de kurtosis=6()3+.. ^ ^ )()2+.. ^ ^ )()()c^ ^ − − a^ ^ )2(varia del muestreo)− − 6− − 5.. ^ ^ ){fnMicrosoft Sans Serif} {fnK} {fnMicrosoft} {fnK}} {f}} {f}} {fn}} {fnK} {fnK} {fnK} {f}} {fnMicrosoft} {fnMicrosoft} {fnMicrosoft}}}} {f} {f}} {f}f}}f}f}f}f}f} {f} {f}} {f}f}f}f}fnKf}f}f}f}f}f}f}f}f}f}f}f}f}f}f}}}f}f}f}f}f}f}fnKf}fnKf}fnKf}f}f}f}}fn

para obtener:

()c^ ^ − − a^ ^ )=(varia del muestreo)6+5.. ^ ^ +()2+.. ^ ^ )()3+.. ^ ^ )6(sample excess kurtosis){fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}}} {fnMicrosoft Sans Serif}}} {fn0} {fnfn0}} {fnfnfnfnfnfnfnfnfnfnKfnH0}}}}}}}}} {fnfnfnfnfnfnfnfnfnKfnKfnfnKfnfnfnfnKfnfnfnfnKfnfnKfnKfnKfnfnfnfnfnKfnfnfnKfnKfnfnKfnKfnKfnfnK}}}}fn {fnK}}} {fnK}} {fn}}} {fn}} {fn} {fnfn} {fn0}}}} {fnfnK}}}}}}}}}}}}} {fnfnf}} {fnfnfnfnfnfnfnfnfnKfnKfnfnKfnKfnK}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {

Otra alternativa es calcular el intervalo de soporte ()c^ ^ − − a^ ^ ){displaystyle ({hat {c}-{hat {a}}} {f}} basado en la varianza de la muestra y la aspersión de la muestra. Para este propósito se puede resolver, en términos de rango ()c^ ^ − − a^ ^ ){displaystyle ({hat {c}-{hat {a}}} {f}}, la ecuación que expresa la costura cuadrada en términos de la varianza de la muestra, y el tamaño de la muestra ν (ver sección titulada "Skewness" y "Parametrizaciones alternativas, cuatro parámetros"):

()muestreo)2=4()2+.. ^ ^ )2()()c^ ^ − − a^ ^ )2(varia del muestreo)− − 4()1+.. ^ ^ )){fnMicrosoft Sans Serif} {fnK} {fnMicroc {4} {fn}} {fn}}} {bigg} {fnK} {fnK} {fnK} {fnK} {f} {fnK}}} {fnK}} {f}}f}f}f}f}f}}f}f}}f}f}}f}f}f}f}f}f} {f}f}f}f}f}f}f}f}f} {f}f}f}f}}}f}}}}}f}f}f}f}f}f}f}f}f}f}}fnKf}f}f}f}f}}f}f}}}}}fn

para obtener:

()c^ ^ − − a^ ^ )=(varia del muestreo)2()2+.. ^ ^ )2()muestreo)2+16()1+.. ^ ^ ){fnMicrosoft Sans Serif} {fnK}} {fnMicroc {fnK} {fnMicrosoft Sans Serif}}} {fn0} {fn0}} {fnK} {f} {f}} {f}} {f} {fn0}}}} {f}f} {f}f}}}}}}}}}}} {f} {f}}}}f}}}}}}}f}}}}}} {f}}}}}}}}}}}}}}}}} {f} {f} {f}}f}}}}}}}}}}}}}}} {f}f}}} {f} {f}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f}}}}}

El parámetro restante se puede determinar desde el medio de la muestra y los parámetros previamente obtenidos: ()c^ ^ − − a^ ^ ),α α ^ ^ ,.. ^ ^ =α α ^ ^ +β β ^ ^ {displaystyle ({hat {}}-{hat {a}}} {hat {alpha}},{hat {nu} }={hat {alpha }+{hat {beta }:

a^ ^ =()muestra media)− − ()α α ^ ^ .. ^ ^ )()c^ ^ − − a^ ^ ){displaystyle {hat {}= {text{sample mean}}})-left({frac {hat {alpha }}{hat {nu }}}}right)({hat {hat {}-{hat {hat {a}}}}}}}} {f}}} {f}} {f}}}}} {f}}}}}}}}}}} {f}}}}}} {f} {f} {f}}}}}} {f} {f} {f}}} {f}f}}}}}}}}}}}}}}}}}}}} {f} {f}}}}}}}}}}}}}}}}}}}}}}}}}} {f} {f}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}} }

y finalmente, c^ ^ =()c^ ^ − − a^ ^ )+a^ ^ {displaystyle {hat {}= {hat {}-{hat {})+{hat {a}}}}} {f}} {f}} {f}}} {f}}} {f}}} {f}}}}} {f}}}} {f}}}}}}}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {.

En las fórmulas anteriores se pueden tomar, por ejemplo, como estimaciones de los momentos muestrales:

muestra media=Sí.̄ ̄ =1N.. i=1NYiVariación de la muestra=v̄ ̄ Y=1N− − 1.. i=1N()Yi− − Sí.̄ ̄ )2muestreo=G1=N()N− − 1)()N− − 2).. i=1N()Yi− − Sí.̄ ̄ )3v̄ ̄ Y32muestra exceso de kurtosis=G2=N()N+1)()N− − 1)()N− − 2)()N− − 3).. i=1N()Yi− − Sí.̄ ̄ )4v̄ ̄ Y2− − 3()N− − 1)2()N− − 2)()N− − 3){displaystyle {begin{aligned}{text{sample ♪♪♪♪♪♪♪ {1}{N}sum} ################################################################################################################################################################################################################################################################ varianza {fnMicroc} {1}{N-1}sum ################################################################################################################################################################################################################################################################ No. frac {sum {fn} {fn} {fn}} {fn}} {fn}} {\fn}}} {\fn}} {fn}}\fnfnfnK} {3}{2}}}\\\text{sample excess kurtosis}} {=G_{2}={frac {N(N+1)}{(N-1)(N-2)}{frac {sum}{fc {fc}} {fc} {fn2}}}}} {fn9}}}} {f}}}}fn9} {fn9} {fn9} {fn9} {fn9}}}}fn}}}}}fnfn9}fn9}fnfnfn9}fnfnfnfnfn9}fn9}fnfnfn9}fnfnfnfnfnfnfnfn9}}fnfnfnfn9}fnfnfnfnh ¿Por qué? {fnMicrosoft Sans Serif} {3}{2}{(N-2)}}end{aligned}}}

Los estimadores G1 para la asimetría de la muestra y G2 para la curtosis de la muestra son utilizados por DAP/SAS, PSPP/SPSS y Excel. Sin embargo, no son usados por BMDP y (según) no fueron usados por MINITAB en 1998. De hecho, Joanes y Gill en su estudio de 1998 concluyeron que los estimadores de asimetría y curtosis usados en BMDP y en MINITAB (en ese momento) habían menor varianza y error cuadrático medio en muestras normales, pero los estimadores de asimetría y curtosis utilizados en DAP/SAS, PSPP/SPSS, a saber, G1 y G2, tuvo un error cuadrático medio más pequeño en muestras de una distribución muy sesgada. Es por esta razón que hemos explicado "sesgo de la muestra", etc., en las fórmulas anteriores, para que quede explícito que el usuario debe elegir el mejor estimador de acuerdo con el problema en cuestión, como el mejor El estimador de asimetría y curtosis depende de la cantidad de asimetría (como lo muestran Joanes y Gill).

Máxima probabilidad

Dos parámetros desconocidos
Max (mejorable de bitácora /N) para la distribución beta maxima a α=β= 2
Max (mejorable de bitácora /N) para la distribución de Beta maxima a α=βEntendido.

Como también es el caso de las estimaciones de máxima verosimilitud para la distribución gamma, las estimaciones de máxima verosimilitud para la distribución beta no tienen una solución de forma cerrada general para valores arbitrarios de los parámetros de forma. Si X1,..., XN son variables aleatorias independientes cada una con una distribución beta, el conjunto la función logarítmica de verosimilitud para N iid observaciones es:

InL()α α ,β β ▪ ▪ X)=.. i=1NIn⁡ ⁡ ()Li()α α ,β β ▪ ▪ Xi))=.. i=1NIn⁡ ⁡ ()f()Xi;α α ,β β ))=.. i=1NIn⁡ ⁡ ()Xiα α − − 1()1− − Xi)β β − − 1B()α α ,β β ))=()α α − − 1).. i=1NIn⁡ ⁡ ()Xi)+()β β − − 1).. i=1NIn⁡ ⁡ ()1− − Xi)− − NIn⁡ ⁡ B()α α ,β β ){displaystyle {begin{aligned}ln} ,{mathcal {L} {alphabeta mid X) ################################################################################################################################################################################################################################################################ ¿Por qué? ################################################################################################################################################################################################################################################################ {X_{i}{alpha -1}(1-X_{i}{beta -1}{mathrm {B} (alphabeta)}}derecha)\\\cH1cH1sum ¿Por qué? ¿Por qué?

Encontrar el máximo con respecto a un parámetro de forma implica tomar la derivada parcial con respecto al parámetro de forma y establecer la expresión igual a cero, lo que produce el estimador de máxima verosimilitud de los parámetros de forma:

∂ ∂ In⁡ ⁡ L()α α ,β β ▪ ▪ X)∂ ∂ α α =.. i=1NIn⁡ ⁡ Xi− − N∂ ∂ In⁡ ⁡ B()α α ,β β )∂ ∂ α α =0{displaystyle {frac {partial ln {mathcal {L} {alphabeta mid X)}{partial alpha }= ¿Por qué? X_{i}-N{fracpartial ln mathrm {B} (alphabeta)}{partial alpha }=0}
∂ ∂ In⁡ ⁡ L()α α ,β β ▪ ▪ X)∂ ∂ β β =.. i=1NIn⁡ ⁡ ()1− − Xi)− − N∂ ∂ In⁡ ⁡ B()α α ,β β )∂ ∂ β β =0{displaystyle {frac {partial ln {mathcal {L} {alphabeta mid X)}{partial beta }= ¿Por qué? }=0}

donde:

∂ ∂ In⁡ ⁡ B()α α ,β β )∂ ∂ α α =− − ∂ ∂ In⁡ ⁡ .. ()α α +β β )∂ ∂ α α +∂ ∂ In⁡ ⁡ .. ()α α )∂ ∂ α α +∂ ∂ In⁡ ⁡ .. ()β β )∂ ∂ α α =− − ↑ ↑ ()α α +β β )+↑ ↑ ()α α )+0{displaystyle {frac {partial ln mathrm {B} (alphabeta)}{partial alpha }=-{frac {partial ln Gamma (alpha +beta)}{partial alpha }+{frac {partial ln Gamma (alpha)}{partial alpha }+{frac {partial ln Gamma (beta)}{partial alpha }=-psi (alpha +beta)+psi (alpha)+0}
∂ ∂ In⁡ ⁡ B()α α ,β β )∂ ∂ β β =− − ∂ ∂ In⁡ ⁡ .. ()α α +β β )∂ ∂ β β +∂ ∂ In⁡ ⁡ .. ()α α )∂ ∂ β β +∂ ∂ In⁡ ⁡ .. ()β β )∂ ∂ β β =− − ↑ ↑ ()α α +β β )+0+↑ ↑ ()β β ){displaystyle {frac {partial ln mathrm {B} (alphabeta)}{partial beta }=-{frac {partial ln Gamma (alpha +beta)}{partial beta }+{frac {partial ln Gamma (alpha)}{partial beta }+{frac {partial ln Gamma (beta)}{partial beta }=-psi (alpha +beta)+0+psi (beta)}

ya que la función digamma indicada como ψ(α) se define como la derivada logarítmica de la función gamma:

↑ ↑ ()α α )=∂ ∂ In⁡ ⁡ .. ()α α )∂ ∂ α α {displaystyle psi (alpha)={frac {partial ln Gamma (alpha)}{partial alpha }

Para garantizar que los valores con pendiente de tangente cero sean de hecho un máximo (en lugar de un punto de silla o un mínimo), también se debe cumplir la condición de que la curvatura sea negativa. Esto equivale a satisfacer que la segunda derivada parcial con respecto a los parámetros de forma es negativa

<math alttext="{displaystyle {frac {partial ^{2}ln {mathcal {L}}(alphabeta mid X)}{partial alpha ^{2}}}=-N{frac {partial ^{2}ln mathrm {B} (alphabeta)}{partial alpha ^{2}}}∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)∂ ∂ α α 2=− − N∂ ∂ 2In⁡ ⁡ B()α α ,β β )∂ ∂ α α 2.0{displaystyle {frac {partial ^{2}ln {mathcal {L}(alphabeta mid X)}{partial alpha ^{2}=- N{frac {partial ^{2}lnmathrm {B}{alphabeta}{partial alpha ^{2}}} {0}}<img alt="{displaystyle {frac {partial ^{2}ln {mathcal {L}}(alphabeta mid X)}{partial alpha ^{2}}}=-N{frac {partial ^{2}ln mathrm {B} (alphabeta)}{partial alpha ^{2}}}
<math alttext="{displaystyle {frac {partial ^{2}ln {mathcal {L}}(alphabeta mid X)}{partial beta ^{2}}}=-N{frac {partial ^{2}ln mathrm {B} (alphabeta)}{partial beta ^{2}}}∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)∂ ∂ β β 2=− − N∂ ∂ 2In⁡ ⁡ B()α α ,β β )∂ ∂ β β 2.0{displaystyle {frac {partial ^{2}ln {mathcal {L}(alphabeta mid X)}{partial beta ^{2}}=- N{frac {partial ^{2}lnmathrm {B}{alphabeta}{beta parcial ^{2}}}} {0}}<img alt="{displaystyle {frac {partial ^{2}ln {mathcal {L}}(alphabeta mid X)}{partial beta ^{2}}}=-N{frac {partial ^{2}ln mathrm {B} (alphabeta)}{partial beta ^{2}}}

Usando las ecuaciones anteriores, esto es equivalente a:

0}" xmlns="http://www.w3.org/1998/Math/MathML">∂ ∂ 2In⁡ ⁡ B()α α ,β β )∂ ∂ α α 2=↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β )■0{fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft} ^{2}ln mathrm {B} (alphabeta)}{partial alpha ¿Qué?0}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1e6864a9409f9bba6a7bdda1e43695bad6c61cba" style="vertical-align: -2.171ex; width:39.356ex; height:6.176ex;"/>
0}" xmlns="http://www.w3.org/1998/Math/MathML">∂ ∂ 2In⁡ ⁡ B()α α ,β β )∂ ∂ β β 2=↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β )■0{fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft} ^{2}ln mathrm {B} (alphabeta)}{partial beta ¿Qué?0}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c8355a7e7f6fa44f71e366b668191826ad5b051b" style="vertical-align: -2.505ex; width:39.201ex; height:6.509ex;"/>

donde la función trigamma, denominada ψ1(α), es la segunda de las funciones poligamma, y se define como la derivada de la función digamma:

↑ ↑ 1()α α )=∂ ∂ 2In⁡ ⁡ .. ()α α )∂ ∂ α α 2=∂ ∂ ↑ ↑ ()α α )∂ ∂ α α .{displaystyle psi _{1}(alpha)={frac {partial ^{2}ln {fnMicrosoft Sans Serif}}=,{frac {partial ,psi (alpha)}{partial alpha }}

Estas condiciones equivalen a afirmar que las varianzas de las variables transformadas logarítmicamente son positivas, ya que:

Var⁡ ⁡ [In⁡ ⁡ ()X)]=E⁡ ⁡ [In2⁡ ⁡ ()X)]− − ()E⁡ ⁡ [In⁡ ⁡ ()X)])2=↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β ){displaystyle operatorname {var} [ln(X)]=operatorname {E} [ln ^{2}(X)]-(operatorname {E} [ln(X)])^{2}=psi _{1}(alpha)-psi _{1}(alpha +beta)}}
Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]=E⁡ ⁡ [In2⁡ ⁡ ()1− − X)]− − ()E⁡ ⁡ [In⁡ ⁡ ()1− − X)])2=↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β ){displaystyle operatorname {var} [ln(1-X)]=operatorname {E} [ln ^{2}(1-X)]-(operatorname {E} [ln(1-X)])}=psi _{1}(beta)-psi _{1}(alpha +beta)}}

Por lo tanto, la condición de curvatura negativa en un máximo es equivalente a las declaraciones:

0}" xmlns="http://www.w3.org/1998/Math/MathML">Var⁡ ⁡ [In⁡ ⁡ ()X)]■0{displaystyle operatorname {var} [ln(X)]} 0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/5fb5a5d0db057469fb9dad8df2902fe93e3f3b0d" style="vertical-align: -0.838ex; width:14.585ex; height:2.843ex;"/>
0}" xmlns="http://www.w3.org/1998/Math/MathML">Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]■0{displaystyle operatorname {var} [ln(1-X)] Confío0} 0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c66a5aaa8362f578beb9b141b4108138b9d21e89" style="vertical-align: -0.838ex; width:18.588ex; height:2.843ex;"/>

Alternativamente, la condición de curvatura negativa en un máximo también es equivalente a afirmar que las siguientes derivadas logarítmicas de las medias geométricas GX y G(1−X) son positivos, ya que:

0}" xmlns="http://www.w3.org/1998/Math/MathML">↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β )=∂ ∂ In⁡ ⁡ GX∂ ∂ α α ■0{displaystyle psi _{1}(alpha)-psi _{1}(alpha +beta)={frac {partial ln G_{X}{partial alpha }} {0}}} {c}}}} {c}}}}}}} {c}} {c}}}}}}0}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/dff4369c6551204082795c96a76d02e1c3c09f1d" style="vertical-align: -2.005ex; width:34.428ex; height:5.509ex;"/>
0}" xmlns="http://www.w3.org/1998/Math/MathML">↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β )=∂ ∂ In⁡ ⁡ G()1− − X)∂ ∂ β β ■0{displaystyle psi _{1}(beta)-psi _{1}(alpha +beta)={frac {partial ln G_{(1-X)}{partial beta }} {0}}}}}0}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/8032acad733eb8da414442492eba553fc57b91ee" style="vertical-align: -2.338ex; width:37.652ex; height:6.343ex;"/>

Si bien estas pendientes son positivas, las otras pendientes son negativas:

<math alttext="{displaystyle {frac {partial ,ln G_{X}}{partial beta }},{frac {partial ln G_{(1-X)}}{partial alpha }}∂ ∂ In⁡ ⁡ GX∂ ∂ β β ,∂ ∂ In⁡ ⁡ G()1− − X)∂ ∂ α α .0.{displaystyle {frac {partial ,ln G_{X}{partial beta }},{frac {partial ln G_{(1-X)}{partial alpha - No.<img alt="{displaystyle {frac {partial ,ln G_{X}}{partial beta }},{frac {partial ln G_{(1-X)}}{partial alpha }}

Las pendientes de la media y la mediana con respecto a α y β muestran un comportamiento de signo similar.

De la condición de que en un máximo, el derivado parcial con respecto al parámetro de forma equivale a cero, obtenemos el siguiente sistema de ecuaciones de estimación de probabilidad máxima acoplada (para las probabilidades promedio de registro) que debe ser invertido para obtener las estimaciones (no conocidas) del parámetro de forma α α ^ ^ ,β β ^ ^ {displaystyle {hat {alpha}},{hat {beta } en términos del promedio (conocido) de logaritmos de las muestras X1,... XN:

E^ ^ [In⁡ ⁡ ()X)]=↑ ↑ ()α α ^ ^ )− − ↑ ↑ ()α α ^ ^ +β β ^ ^ )=1N.. i=1NIn⁡ ⁡ Xi=In⁡ ⁡ G^ ^ XE^ ^ [In⁡ ⁡ ()1− − X)]=↑ ↑ ()β β ^ ^ )− − ↑ ↑ ()α α ^ ^ +β β ^ ^ )=1N.. i=1NIn⁡ ⁡ ()1− − Xi)=In⁡ ⁡ G^ ^ ()1− − X){displaystyle {begin{aligned}{hat {name {E}} {ln(X)} {fnfn}} {fnfn}}fnfnfnfnfn1}}-psi ({hat {alpha) {fn}} {fn}}} {fn}}sum} ¿Qué? {hat {fn} {fnK}[ln(1-X)} {fnK}} {fnun {fn}} {fn0} {fnfnfn1-X)} {fnfnfnH00}fnfnfnH00fnK}fnfnfnKfnfnKfnKfnKfnH00fnKfnKfnKfnKfnKfnH00fnK]fnKfnKfnKfnKfnKfnKfnKfnKfnKfnKfnK]fnH00}fnKfnKfnK]fnKfnKfnKfnKfnK]fnKfnKfnKfnKfn {fn}} {fn}}} {fn}}sum} ################################################################################################################################################################################################################################################################

donde reconocemos log⁡ ⁡ G^ ^ X{displaystyle log {hat {G}_{X} como el logaritmo del medio geométrico de la muestra y log⁡ ⁡ G^ ^ ()1− − X){displaystyle log {hat {}_{(1-X)} como el logaritmo del medio geométrico de la muestra basado en (1 −X), la imagen del espejoX. Para α α ^ ^ =β β ^ ^ {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft }={hat {beta }, sigue que G^ ^ X=G^ ^ ()1− − X){fnMicrosoft Sans Serif}.

G^ ^ X=∏ ∏ i=1N()Xi)1/NG^ ^ ()1− − X)=∏ ∏ i=1N()1− − Xi)1/N{displaystyle {begin{aligned}{hat {G}_{X} ¿Por qué? {G}_{(1-X)} ¿Por qué?

Estas ecuaciones acopladas que contienen funciones digamma de las estimaciones del parámetro de forma α α ^ ^ ,β β ^ ^ {displaystyle {hat {alpha}},{hat {beta } debe ser resuelto por métodos numéricos como se hace, por ejemplo, por Beckman et al. Gnanadesikan et al. dan soluciones numéricas para algunos casos. N.L.Johnson y S.Kotz sugieren que para las estimaciones del parámetro "no demasiado pequeña" α α ^ ^ ,β β ^ ^ {displaystyle {hat {alpha}},{hat {beta }, la aproximación logarítmica a la función digamma ↑ ↑ ()α α ^ ^ ).. In⁡ ⁡ ()α α ^ ^ − − 12){displaystyle psi ({hat {alpha }})approx ln({hat {alpha }-{tfrac {1}{2}}}} puede ser utilizado para obtener valores iniciales para una solución iterativa, ya que las ecuaciones resultantes de esta aproximación se pueden resolver exactamente:

In⁡ ⁡ α α ^ ^ − − 12α α ^ ^ +β β ^ ^ − − 12.. In⁡ ⁡ G^ ^ X{displaystyleln {fnfnfnfnfnfnfn\fn\fn\fn\fn\fn\\fn\fn\fn\fn\fn\\fn\fn\\fn\\\\\fn\\\\\\fn\\\\\\fn\\\\\\\\\\\\fn\\\\\\\\\\\\\\fn\\fn\\\\\\fn\\\\\\\\\\\\\\\fn\\\\\ }-{frac {2} {fn} {fnK}} {fnK}}} {f}} {f}} {f}} {f}} {fn}}}} {f}}} {f}}} {f}} {f}}}} {f}}}} {f}}}}} {f} {f} {f}}}}}}}}}}}}} {f} {f} {f} {f} {f} {f} {f} {f} {f} {f} {f} {f}}}}} {f}}}}}}}} {f} {f} {f} {f} {f} {f} {f} {f} {f}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} }+{hat {beta }-{frac {1}{2}}}approx ln {hat {G}_{X}}} {f}} {f}} {f} {f}} {f}}}}}}}}} {f}} {f}}}}}}} {f}}}}}}}}}}}}}}}}}pr}}}pr}pr}próxi}}}}}}}}próxi}}}}}pr}}}}c}}}}pr}próxi}}prprprcc}}}c}}prprc}c}c}c}próxc}c}ccccccccc}}}cccc}ccccc}c}c}}}}}}c}c
In⁡ ⁡ β β ^ ^ − − 12α α ^ ^ +β β ^ ^ − − 12.. In⁡ ⁡ G^ ^ ()1− − X){displaystyle ln {frac {hat {beta }-{frac {2} {fn} {fnK}} {fnK}}} {f}} {f}} {f}} {f}} {fn}}}} {f}}} {f}}} {f}} {f}}}} {f}}}} {f}}}}} {f} {f} {f}}}}}}}}}}}}} {f} {f} {f} {f} {f} {f} {f} {f} {f} {f} {f} {f}}}}} {f}}}}}}}} {f} {f} {f} {f} {f} {f} {f} {f} {f}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} }+{hat {beta }-{frac {1}{2}}}approx ln {hat {G}_{(1-X)}}} {} {fn0}} {fn0}}}}}} {fn0}}}}}}} {fn0}}}}}}}}}} {fn}}}}}}}}}}}}}}}}}}}}}}}}}}}}

lo que conduce a la siguiente solución para los valores iniciales (de los parámetros de forma estimados en términos de las medias geométricas de la muestra) para una solución iterativa:

1}" xmlns="http://www.w3.org/1998/Math/MathML">α α ^ ^ .. 12+G^ ^ X2()1− − G^ ^ X− − G^ ^ ()1− − X))siα α ^ ^ ■1{fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft }approx {tfrac {1}{2}+{frac} {fnh} {fnh} {fnh00} {fnh00} {fnh}} {cH00}} {cH00}}} {cH00}} {fnfnHFF}}} {f}}} {cH00}}} {cHFF}}} {cH00} {f}}} {f} {f}} {f}} {f}}}}}}} {f}} {f} {f} {f} {f} {f} {f}} {f} {f}} {f} {f} {f}} {f} {f} {f}} {f} {f}}}}}} {f}}}}}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {f}} {fn}}} {fnK}}} {fnK}}}}}} {f}}}} {f}}}}} {fnK}}}}}}}}}}} {f}}}}}}}} {f}}}}} {f}}}}}}}}}}}}}} {f}}}}} {f}}}} {f}}}} {f}}}}}}}}}} {f}}}}}}}}} {f}}}}}}}}}}} {f}}}}}}}}}}}}} {f}} {f}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/b094d2b5237c96cf673258e2711635ebba0b28ba" style="vertical-align: -3.338ex; width:38.302ex; height:7.509ex;"/>
1}" xmlns="http://www.w3.org/1998/Math/MathML">β β ^ ^ .. 12+G^ ^ ()1− − X)2()1− − G^ ^ X− − G^ ^ ()1− − X))siβ β ^ ^ ■1{displaystyle {hat {beta }approx {tfrac {1}{2}+{frac} {fnMicrosoft Sans Serif}{2(1-{hat {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {f}} {fn}}} {fnK}}} {fnK}}}}}} {f}}} {f}}}} {fn0}}}}} {f}}}}}} {f}}}}}}}}}}}}}} {f}}}}}}}}}}}}}}}} {f}}}}} {f}}}} {f}}}} {f}}}}}}}} {f}}}}}}}}}}} {f}}}}}}}}}} {f}}}}}}}}}}} {f}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} 1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/28ca5f5ef49f3fea965c9a32dade659ef880f594" style="vertical-align: -3.338ex; width:38.23ex; height:7.843ex;"/>

Alternativamente, las estimaciones proporcionadas por el método de los momentos pueden usarse como valores iniciales para una solución iterativa de las ecuaciones acopladas de máxima verosimilitud en términos de las funciones digamma.

Cuando se requiere la distribución en un intervalo conocido que no sea [0, 1] con una variable aleatoria X, digamos [a, c ] con la variable aleatoria Y, luego reemplace ln(Xi) en la primera ecuación con

In⁡ ⁡ Yi− − ac− − a,{displaystyle ln {frac {Y_{i}-a}{c-a}}

y reemplaza ln(1−Xi) en la segunda ecuación con

In⁡ ⁡ c− − Yic− − a{displaystyle ln {frac {c-Y_{i} {c-a}}

(consulte la sección "Parametrizaciones alternativas, cuatro parámetros" a continuación).

Si se conoce uno de los parámetros de forma, el problema se simplifica considerablemente. La siguiente transformación de logit se puede utilizar para resolver para el parámetro de forma desconocida (para casos esquezados tal que α α ^ ^ ل ل β β ^ ^ {displaystyle {hat {fa }neq {beta} }, de lo contrario, si es simétrico, ambos parámetros -igual- se conocen cuando uno es conocido):

E^ ^ [In⁡ ⁡ ()X1− − X)]=↑ ↑ ()α α ^ ^ )− − ↑ ↑ ()β β ^ ^ )=1N.. i=1NIn⁡ ⁡ Xi1− − Xi=In⁡ ⁡ G^ ^ X− − In⁡ ⁡ ()G^ ^ ()1− − X)){displaystyle {hat {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {f}fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\fnMicrosoft {\\\fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft {E}}left[lnleft({frac {X}{1-X}right)right]=psi ({hat {alpha }}})-psi ({hat {beta }})={frac {1}{N}}sum}sum} ################################################################################################################################################################################################################################################################ {X_{i}{1-X_{i}}=ln {hat {G}_{X}-lnleft({hat {G}_{(1-X)}right)}}

Esta transformación logit es el logaritmo de la transformación que divide la variable X por su imagen de espejo (X/(1 - X) resultando en la "distribución beta invertida" o distribución beta prime (también conocida como distribución beta del segundo tipo o el tipo VI de Pearson) con soporte [0, +∞). Como se discutió anteriormente en la sección "Momentos de variables aleatorias transformadas logarítmicamente", la transformación logit In⁡ ⁡ X1− − X{displaystyle ln {frac {X}{1-X}}, estudiado por Johnson, extiende el soporte finito [0, 1] basado en la variable original X a un apoyo infinito en ambas direcciones de la línea real (—∞, +∞).

Si, por ejemplo, β β ^ ^ {displaystyle {hat {beta } es conocido, el parámetro desconocido α α ^ ^ {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft } se puede obtener en términos de la función inversa digamma del lado derecho de esta ecuación:

↑ ↑ ()α α ^ ^ )=1N.. i=1NIn⁡ ⁡ Xi1− − Xi+↑ ↑ ()β β ^ ^ ){displaystyle psi ({hat {alpha }})={frac {1}{N}sum} ################################################################################################################################################################################################################################################################ {X_{i}{1-X_{i}}+psi ({hat {beta }}}}}
α α ^ ^ =↑ ↑ − − 1()In⁡ ⁡ G^ ^ X− − In⁡ ⁡ G^ ^ ()1− − X)+↑ ↑ ()β β ^ ^ )){fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft }=psi ^{-1}(ln {hat [G}_{X}-n {hat {G}_{(1-X)}+psi ({hat {beta}})}}

En particular, si uno de los parámetros de forma tiene un valor de unidad, por ejemplo, β β ^ ^ =1{displaystyle {hat {beta }=1} (la distribución de la función de potencia con soporte consolidado [0,1]), utilizando la identidad י(x + 1) = (x) + 1/x en la ecuación ↑ ↑ ()α α ^ ^ )− − ↑ ↑ ()α α ^ ^ +β β ^ ^ )=In⁡ ⁡ G^ ^ X{displaystyle psi ({hat {alpha }})-psi ({hat {alpha }}+{hat {beta }}})=ln {hat {hat}}} {G}_{X}, el estimador de probabilidad máxima para el parámetro desconocido α α ^ ^ {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft } es, exactamente:

α α ^ ^ =− − 11N.. i=1NIn⁡ ⁡ Xi=− − 1In⁡ ⁡ G^ ^ X{fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft }=-{frac {1}{frac {1}{N}}sum} ¿Por qué? X_{i}=-{frac {1}{ln {fn} {G}_{X}}}

La beta tiene apoyo [0, 1], por lo tanto <math alttext="{displaystyle {hat {G}}_{X}G^ ^ X.1{displaystyle {hat {}_{X}traducido1}<img alt="hat{G}_X , y por lo tanto 0}" xmlns="http://www.w3.org/1998/Math/MathML">()− − In⁡ ⁡ G^ ^ X)■0{displaystyle (-ln {hat {G}_{X}]} {cH00}0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1e33bf71520d5c05a66871474c69a695632be63b" style="vertical-align: -0.838ex; width:14.051ex; height:3.343ex;"/>, y por consiguiente 0.}" xmlns="http://www.w3.org/1998/Math/MathML">α α ^ ^ ■0.{fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft {}}}}}0.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/4717b1e2f228d1dcd6ef64e903f377faa8075e44" style="vertical-align: -0.338ex; width:6.395ex; height:2.176ex;"/>

En conclusión, las estimaciones de máxima verosimilitud de los parámetros de forma de una distribución beta son (en general) una función complicada de la media geométrica muestral y de la media geométrica muestral basada en (1−X), la imagen especular de X. Uno puede preguntarse, si la varianza (además de la media) es necesaria para estimar dos parámetros de forma con el método de momentos, ¿por qué la varianza (logarítmica o geométrica) no es necesaria para estimar dos parámetros de forma con el método de máxima verosimilitud, por ejemplo? que sólo los medios geométricos bastan? La respuesta es porque la media no proporciona tanta información como la media geométrica. Para una distribución beta con parámetros de forma iguales α = β, la media es exactamente 1/2, independientemente del valor de los parámetros de forma y, por lo tanto, independientemente del valor de la dispersión estadística (la varianza). Por otro lado, la media geométrica de una distribución beta con parámetros de forma iguales α = β, depende del valor de los parámetros de forma, y por lo tanto contiene más información. Además, la media geométrica de una distribución beta no satisface las condiciones de simetría satisfechas por la media, por lo tanto, al emplear tanto la media geométrica basada en X como la media geométrica basada en (1 − X ), el método de máxima verosimilitud es capaz de proporcionar las mejores estimaciones para ambos parámetros α = β, sin necesidad de emplear la varianza.

Se puede expresar la verosimilitud logarítmica conjunta por N observaciones iid en términos de las estadísticas suficientes (las medias geométricas de la muestra) de la siguiente manera:

In⁡ ⁡ L()α α ,β β ▪ ▪ X)N=()α α − − 1)In⁡ ⁡ G^ ^ X+()β β − − 1)In⁡ ⁡ G^ ^ ()1− − X)− − In⁡ ⁡ B()α α ,β β ).{displaystyle {frac {ln {fn} {lphabeta mid X)}{N}}==(alpha -1)ln {fnK}_{X}+(beta) -1)ln {hat {G}_{(1-X)}-ln mathrm {B} (alphabeta). }

Podemos trazar la probabilidad de registro conjunto por N observaciones para valores fijos de la muestra medios geométricos para ver el comportamiento de la función de probabilidad como una función de los parámetros de forma α y β. En tal trama, los estimadores del parámetro de forma α α ^ ^ ,β β ^ ^ {displaystyle {hat {alpha}},{hat {beta } corresponde a la máxima de la función de probabilidad. Vea el gráfico adjunto que muestra que todas las funciones de probabilidad se intersectan en α = β = 1, que corresponde a los valores de los parámetros de forma que dan la máxima entropía (la máxima entropía ocurre para los parámetros de forma iguales a la unidad: la distribución uniforme). Es evidente desde la trama que la función de probabilidad da picos agudos para los valores de los estimadores de parámetros de forma cercanos a cero, pero que para los valores de los parámetros de forma estimados superiores a uno, la función de probabilidad se vuelve bastante plana, con picos menos definidos. Obviamente, el método de estimación de parámetros de probabilidad máxima para la distribución beta se vuelve menos aceptable para los valores más grandes de los estimadores de parámetros de forma, ya que la incertidumbre en la definición de pico aumenta con el valor de los estimadores de parámetros de forma. Uno puede llegar a la misma conclusión notando que la expresión para la curvatura de la función de probabilidad es en términos de las varianzas geométricas

∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)∂ ∂ α α 2=− − Var⁡ ⁡ [In⁡ ⁡ X]{displaystyle {frac {partial ^{2}ln {mathcal {L}(alphabeta mid X)}{partial alpha [ln X]
∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)∂ ∂ β β 2=− − Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]{displaystyle {frac {partial ^{2}ln {mathcal {L}(alphabeta mid X)}{partial beta ^{2}}=-operatorname {var} [ln(1-X)}}}}}}}}}

Estas diferencias (y por lo tanto las curvaturas) son mucho más grandes para los pequeños valores del parámetro de forma α y β. Sin embargo, para los valores del parámetro de forma α, β √≥n 1, las diferencias (y por lo tanto las curvaturas) se aplanan. Equivalentemente, este resultado se deriva del límite Cramér-Rao, ya que los componentes de la matriz de información Fisher para la distribución beta son estas diferencias logarítmicas. El límite Cramér-Rao establece que la varianza de cualquier imparciales estimador α α ^ ^ {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f} {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {\\\fn\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\fnMicrosoft {fnMicrosoft } de α está ligada por el recíproco de la información Fisher:

var()α α ^ ^ )≥ ≥ 1Var⁡ ⁡ [In⁡ ⁡ X]≥ ≥ 1↑ ↑ 1()α α ^ ^ )− − ↑ ↑ 1()α α ^ ^ +β β ^ ^ ){displaystyle mathrm {var} {hat {alpha }})geq {frac {1}{operatorname {var} {ln X}}}gq {frac {1} {fn} {fn} {fnuncio {fnfnfnK})-fnfnKfnKfnfnfnfnKfnKfnfnKfnKfnK}fnKfnKfnKfnKfnKfnKfnfnKfnKfnKfnKfnKfnKfnKfnKfnfnKfnfnfnKfnKfnKfnfnfnKfnKfnfnKfnKfnfnKfnKfn ♪♪♪♪♪
var()β β ^ ^ )≥ ≥ 1Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]≥ ≥ 1↑ ↑ 1()β β ^ ^ )− − ↑ ↑ 1()α α ^ ^ +β β ^ ^ ){displaystyle mathrm {var} {hat {beta }})gq {frac {1}{operatorname {var} [ln(1-X)}}}gq {frac {1}{fn0} {fn} {fnfn0} {fnfn0} {fn0}}} {fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnh}}}}fn ♪♪♪♪♪

por lo que la varianza de los estimadores aumenta al aumentar α y β, a medida que disminuyen las varianzas logarítmicas.

También se puede expresar la verosimilitud logarítmica conjunta por N observaciones iid en términos de las expresiones de la función digamma para los logaritmos de las medias geométricas de la muestra de la siguiente manera:

InL()α α ,β β ▪ ▪ X)N=()α α − − 1)()↑ ↑ ()α α ^ ^ )− − ↑ ↑ ()α α ^ ^ +β β ^ ^ ))+()β β − − 1)()↑ ↑ ()β β ^ ^ )− − ↑ ↑ ()α α ^ ^ +β β ^ ^ ))− − In⁡ ⁡ B()α α ,β β ){fnMicrosoft Sans Serif} {fnK} {fnMicrosoft Sans Serif} {fn} {fn} {fn} {fn}fn}fn}fnK}fn}fn} {fnK} {b}fn0fn0}b}b9}fnun}fnfnun}fnfn0fnun}fn0fn0fn0fnfnKfnfnun}fnKfnun}fnfnKfnKfnfnKfnun}fn0fnfnun}fnun}fnun}fnun}fnfnun}fnun}fnun}fnun}fnun}fnun}fnun}fnun}

esta expresión es idéntica a la negativa de la entropía cruzada (ver sección sobre "Cantidades de información (entropía)"). Por lo tanto, encontrar el máximo de la verosimilitud logarítmica conjunta de los parámetros de forma, por N observaciones iid, es idéntico a encontrar el mínimo de la entropía cruzada para la distribución beta, en función de los parámetros de forma.

InL()α α ,β β ▪ ▪ X)N=− − H=− − h− − DKL=− − In⁡ ⁡ B()α α ,β β )+()α α − − 1)↑ ↑ ()α α ^ ^ )+()β β − − 1)↑ ↑ ()β β ^ ^ )− − ()α α +β β − − 2)↑ ↑ ()α α ^ ^ +β β ^ ^ ){displaystyle {frac {ln,{mathcal {L} {alphabetamid X)}{N}}=-H=-h-D_{mathrm {KL} }=-ln mathrm {B} (alphabeta)+(alpha -1)psi ({hat {alpha }})+(beta -1)psi ({hat {beta })-(alpha +beta -2)psi ({hat {alpha }}+{} {hat {hat {betabeta}}}}}}}}}}}beta}}}}}}}}]

con la entropía cruzada definida de la siguiente manera:

H=∫ ∫ 01− − f()X;α α ^ ^ ,β β ^ ^ )In⁡ ⁡ ()f()X;α α ,β β ))dX{displaystyle H=int ¿Por qué?
Cuatro parámetros desconocidos

El procedimiento es similar al seguido en el caso de dos parámetros desconocidos. Si Y1,..., YN son variables aleatorias independientes, cada una con una distribución beta con cuatro parámetros, la función de verosimilitud logarítmica conjunta para N iid observaciones es:

InL()α α ,β β ,a,c▪ ▪ Y)=.. i=1NInLi()α α ,β β ,a,c▪ ▪ Yi)=.. i=1NInf()Yi;α α ,β β ,a,c)=.. i=1NIn()Yi− − a)α α − − 1()c− − Yi)β β − − 1()c− − a)α α +β β − − 1B()α α ,β β )=()α α − − 1).. i=1NIn⁡ ⁡ ()Yi− − a)+()β β − − 1).. i=1NIn⁡ ⁡ ()c− − Yi)− − NIn⁡ ⁡ B()α α ,β β )− − N()α α +β β − − 1)In⁡ ⁡ ()c− − a){displaystyle {begin{aligned}ln} {fnMicrosoft Sans Serif}(alphabetaa,cmid Y) {fnfn} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} Y... ################################################################################################################################################################################################################################################################ {fnMicrosoft Sans Serif}* - ¿Por qué? -1}{-a)}{alpha +beta -1}mathrm {B} (alphabeta)}\\fnMicrosoft Sans ¿Por qué? ################################################################################################################################################################################################################################################################ {B} (alphabeta)-N(alpha +beta -1)ln(c-a)end{aligned}}

Encontrar el máximo con respecto a un parámetro de forma implica tomar la derivada parcial con respecto al parámetro de forma y establecer la expresión igual a cero, lo que produce el estimador de máxima verosimilitud de los parámetros de forma:

∂ ∂ In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ α α =.. i=1NIn⁡ ⁡ ()Yi− − a)− − N()− − ↑ ↑ ()α α +β β )+↑ ↑ ()α α ))− − NIn⁡ ⁡ ()c− − a)=0{displaystyle {frac {partial ln {mathcal {L}}(alphabetaa,cmid Y)}{partial alpha }= ¿Por qué?
∂ ∂ In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ β β =.. i=1NIn⁡ ⁡ ()c− − Yi)− − N()− − ↑ ↑ ()α α +β β )+↑ ↑ ()β β ))− − NIn⁡ ⁡ ()c− − a)=0{displaystyle {frac {partial ln {mathcal {L} {alphabetaa,cmid Y)}{partial beta }= ¿Por qué?
∂ ∂ In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ a=− − ()α α − − 1).. i=1N1Yi− − a+N()α α +β β − − 1)1c− − a=0{displaystyle {frac {partial ln {mathcal {L} {alphabetaa,cmid Y)}{partial a}}=-(alpha -1)sum ¿Por qué? {1}{Y_{i}-a},+N(alpha +beta -1){frac {1}{c-a}=0}
∂ ∂ In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ c=()β β − − 1).. i=1N1c− − Yi− − N()α α +β β − − 1)1c− − a=0{displaystyle {frac {partial ln {mathcal {L} {alphabetaa,cmid Y)}{partial c}}=(beta -1)sum ¿Por qué? {1}{c-Y_{i}},-N(alpha +beta -1){frac {1}{c-a}=0}

estas ecuaciones pueden ser reorganizadas como el siguiente sistema de cuatro ecuaciones acopladas (las dos primeras ecuaciones son medios geométricos y las dos segundas ecuaciones son el medio armónico) en términos de las estimaciones de probabilidad máxima para los cuatro parámetros α α ^ ^ ,β β ^ ^ ,a^ ^ ,c^ ^ {displaystyle {hat {alpha}},{hat {beta}},{hat {hat {}}} {hat {}}}} {f}} {f}}} {f}}}} {f}}}} {f} {f}} {f}}}}}}}:

1N.. i=1NIn⁡ ⁡ Yi− − a^ ^ c^ ^ − − a^ ^ =↑ ↑ ()α α ^ ^ )− − ↑ ↑ ()α α ^ ^ +β β ^ ^ )=In⁡ ⁡ G^ ^ X{displaystyle {frac {fn}}sum} ################################################################################################################################################################################################################################################################ {fnh}- {fnh} {fnh}- {fnh}- {fnh} {fn} {fn} {fn} {fnK}} {fn} {fnfn} {fn}}}} {f}}} {fnH}}} {f} {f} {f} {f}}}}} {f}f}}}f}}}}}}}}} {f} {f} {f} {f} {f}f}}}}}}}}}}}}}}}}}}}}}}}}} {f} {f} {f} {f} {f} {f} {f} {f}}f}f}}}}}}}}}} {f} {f}} {f}}}}}}}f}}}}}}}}}} {}}}=psi ({hat {alpha }})-psi ({hat {alpha }}+{hat {beta }}})=ln {hat {hat {hat}}}={hat {beta}}}} {beta {fn}}}} {G}_{X}
1N.. i=1NIn⁡ ⁡ c^ ^ − − Yic^ ^ − − a^ ^ =↑ ↑ ()β β ^ ^ )− − ↑ ↑ ()α α ^ ^ +β β ^ ^ )=In⁡ ⁡ G^ ^ 1− − X{displaystyle {frac {fn}}sum} ################################################################################################################################################################################################################################################################ {fnK} {C}-Y_{i} {fn} {fnK} {c}-{hat {}}}=psi ({hat {beta }})-psi ({hat {alpha }}+{hat {beta }}}})=ln {hat {hat {hat}}}= {beta}} {G}_{1-X}
11N.. i=1Nc^ ^ − − a^ ^ Yi− − a^ ^ =α α ^ ^ − − 1α α ^ ^ +β β ^ ^ − − 1=H^ ^ X{displaystyle {frac {1}{frac} {fn}}}sum} ¿Por qué? {fnK}-{hat} {fn} {fn} {fn}} {fn}} {fn}} {fn}} {fn}} {fn}}} {f}}} {fn}} {f}}} {f}} {f}}} {f}}}} {f}} {f}}}}}}}}} {f} {f}}}}}}}}} {f}} {f}}} {f}}}}}}}}}}}}} {f}}}} {f}}}} {f}}}}}}}}} {f}}}} {f} {f} {f} {f}}}}} {f}}}} {f}} {f}}}}} {f}}}}} {f}}}} {f}}}}}}}}}}}} {f}}}}}}} {}}}={frac} {fnfnfnh} {fnfnfnfnfnfnfn\fn\fn\\fn\fn\fn\fn\fn\fn\fn\fn\\fn\\\fn\\\\\fnh1\\fnh1\fnh1\\\\\fnfnh1\\fnh1\\\\\fn\\\\\fnh1\\\\fnh1\\\\\fn\\fnh1\\fnh1\\fn\\\\\\\\\\\fn\\\\\ {fnMicrosoft Sans Serif} }+{hat {beta - Sí.
11N.. i=1Nc^ ^ − − a^ ^ c^ ^ − − Yi=β β ^ ^ − − 1α α ^ ^ +β β ^ ^ − − 1=H^ ^ 1− − X{displaystyle {frac {1}{frac} {fn}}}sum} ¿Por qué? {fnh}- {fnh} {fnh} {fnh} {fnh} {fnh} {fn} {fn}} {fn}}} {fn}}}} {fnfn}} {fnf}}}}} {fnf}}} {f}} {f}}}}}}}} {f}}}}} {f}}} {f}}}} {f}}} {f}}} {f}}}} {f} {f}}}}}}}}}}}}} {f} {f}}} {f} {f} {f} {f}} {f} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {c}-Y_{i}}={frac} {fnfnK} {fnMicrosoft Sans Serif} }+{hat {beta ♪ ♪ ♪♪♪♪♪♪♪♪♪♪ {H}_{1-X}

con medias geométricas de muestra:

G^ ^ X=∏ ∏ i=1N()Yi− − a^ ^ c^ ^ − − a^ ^ )1N{displaystyle {hat {}_{X}=prod ¿Por qué? {fnK} {fnK}} {fnK}}}}}derecha)} {fnK} {fn}fnK}} {fnK}}}} {fnK} {fnK}}}} {f}}}}}}}}}fnKf} {f}}}}} {f} {f}}}}}}}}f}}}}}}}}}}}}}}}} {f} {f}}}}}}}}}}}}}}}}} {f} {f} {f}}}f}}}}}}}}}}}}}}}}}}}} {f}} {f}f}}}}}}}}}}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {1}{N}}
G^ ^ ()1− − X)=∏ ∏ i=1N()c^ ^ − − Yic^ ^ − − a^ ^ )1N{displaystyle {hat {G}_{(1-X)}=prod ¿Por qué? {fnK} {C}-Y_{i} {fn} {fnK} Vale. {1}{N}}

Los parámetros a^ ^ ,c^ ^ {displaystyle {hat {hat},{hat} {c}} están incrustados dentro de las expresiones media geométricas de una manera no lineal (a la potencia 1/N). Esto excluye, en general, una solución de forma cerrada, incluso para una aproximación de valor inicial para fines de iteración. Una alternativa es utilizar como valores iniciales para la iteración los valores obtenidos del método de solución de momentos para el caso de cuatro parámetros. Además, las expresiones de los medios armónicos están bien definidas sólo para 1}" xmlns="http://www.w3.org/1998/Math/MathML">α α ^ ^ ,β β ^ ^ ■1{displaystyle {hat {alpha }},{hat {beta }}} {f}}} {f}}} {f}}}} {f}}}}} {f}}}}}}} {f}}}}} {f}} {f}} 1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/8cf28629a51347b164038f8ed1561affcfc32a08" style="vertical-align: -0.671ex; width:8.234ex; height:3.176ex;"/>, que excluye una solución de probabilidad máxima para parámetros de forma menos que unidad en el caso de cuatro parámetros. La matriz de información de Fisher para el caso de cuatro parámetro es positiva-definida solamente para las distribuciones de beta en forma de campana (simétrica o no simétrica), con puntos de inflexión situados a ambos lados del modo. Los siguientes componentes de información Fisher (que representan las expectativas de la curvatura de la función de probabilidad de registro) tienen singularidades en los siguientes valores:

α α =2:E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ a2]=Ia,a{displaystyle alpha =2:quad operatorname {E} left[-{frac {2} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn}} {fn0}} {fn0}}} {fn0}}} {fn0}}}}}}} {fn}}}}} {fn}}}}}}}}}}} { mathcal {I}_{a,a}
β β =2:E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ c2]=Ic,c{displaystyle beta =2:quad operatorname {E} left[-{frac {2} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn}} {fn}} {fn0}}} {fn0}}} {fn0}}} {fn0}}}}}} {fn}}}}}} {fn}}}}}}}}}} {m}}}}}}} {m}}}}}} {m}}}}}} {m}}}} {m}}}}} {f}}}}}}}}}}} {f}}}}} {m}}}}} {m}}}} {m}}}}}} {f}}} {f}}}}}}}}}}}} {m}}}}}}}}}}}}}}}}}}}}} {mm}}} mathcal {I}_{c,c}
α α =2:E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ α α ∂ ∂ a]=Iα α ,a{displaystyle alpha =2:quad operatorname {E} left[-{frac {1}{N} {fracpartial ^{2}ln {mathcal {L} {alphabetaa,cmid Y)}{partial alpha partial a}right]={mathcal {i}_{alphaa}}}}}}}}} {}}}} {}}}} {}}}}} {}}}} {}}}}}}}}}}} {
β β =1:E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ β β ∂ ∂ c]=Iβ β ,c{displaystyle beta =1:quad operatorname {E} left[-{frac {1}{N} {fracpartial ^{2}ln {mathcal {L} {alphabetaa,cmid Y)}{beta partial c}}right]={mathcal {}}_{betac}}}}}}} {c}} {c}} {c}}}} {c}}}}}}}} {c}}}}}}}}}} {c}}}}} {c}}}} {c}}}}}}}}}}} {m}}}}}}}}}}}}}}}}} {c\\\\cm}}}}}}}}}}}} {m}}}} {m} {m}}}}}}}}}}}}}}}}}}} {m}}}}}}}} {m}}}}}}}}} {m} {

(para obtener más información, consulte la sección sobre la matriz de información de Fisher). Por lo tanto, no es posible llevar a cabo estrictamente la estimación de máxima verosimilitud para algunas distribuciones bien conocidas que pertenecen a la familia de distribuciones beta de cuatro parámetros, como la distribución uniforme (Beta(1, 1, a, c)) y la distribución arcoseno (Beta(1/2, 1/2, a, c)). N.L.Johnson y S.Kotz ignoran las ecuaciones para las medias armónicas y en su lugar sugieren "Si a y c son desconocidos, y los estimadores de máxima verosimilitud de a, c, α y β, el procedimiento anterior (para el caso de dos parámetros desconocidos, con X transformado como X = (Y a)/(ca)) puede repetirse usando una sucesión de valores de prueba de a y c , hasta el par (a, c) para el cual la máxima verosimilitud (dados a y c) es lo más grande posible, se alcanza" (donde, con fines de claridad, su notación para los parámetros se ha traducido a la presente notación).

Matriz de información del pescador

Sea una variable aleatoria X que tenga una densidad de probabilidad f(x;α). La derivada parcial con respecto al parámetro α (desconocido y por estimar) de la función logarítmica de verosimilitud se denomina puntuación. El segundo momento de la partitura se denomina información de Fisher:

I()α α )=E⁡ ⁡ [()∂ ∂ ∂ ∂ α α In⁡ ⁡ L()α α ▪ ▪ X))2],{displaystyle {mathcal {}(alpha)=operatorname {E} left[left({frac {partial }{partial alpha }ln {mathcal {}}(alpha mid X)right)}right)}}

La expectativa de la puntuación es cero, por lo que la información de Fisher es también el segundo momento centrado en la media de la puntuación: la varianza de la puntuación.

Si la función logarítmica de verosimilitud es dos veces diferenciable con respecto al parámetro α, y bajo ciertas condiciones de regularidad, entonces la información de Fisher también se puede escribir de la siguiente manera (que a menudo es una forma más conveniente para fines de cálculo):

I()α α )=− − E⁡ ⁡ [∂ ∂ 2∂ ∂ α α 2In⁡ ⁡ ()L()α α ▪ ▪ X))].{displaystyle {mathcal {} {alpha)=-operatorname {E} left[{frac {partial ^{2}}{partial alpha ^{2}}ln({mathcal {} {} {alpha mid X)}right].}

Por lo tanto, la información de Fisher es el negativo de la expectativa de la segunda derivada con respecto al parámetro α de la función logarítmica de verosimilitud. Por lo tanto, la información de Fisher es una medida de la curvatura de la función logarítmica de verosimilitud de α. Una curvatura baja (y, por lo tanto, un radio de curvatura alto), una curva de función de verosimilitud logarítmica más plana tiene poca información de Fisher; mientras que una curva de función logarítmica de verosimilitud con una gran curvatura (y, por lo tanto, un radio de curvatura bajo) tiene una información de Fisher alta. Cuando la matriz de información de Fisher se calcula en las evaluaciones de los parámetros ('la matriz de información de Fisher observada'), es equivalente al reemplazo de la superficie de verosimilitud logarítmica verdadera por una aproximación de la serie de Taylor, tomada en cuanto a los términos cuadráticos. La palabra información, en el contexto de información de Fisher, se refiere a información sobre los parámetros. Información como: estimación, suficiencia y propiedades de varianzas de estimadores. El límite de Cramér-Rao establece que la inversa de la información de Fisher es un límite inferior en la varianza de cualquier estimador de un parámetro α:

Var⁡ ⁡ [α α ^ ^ ]≥ ≥ 1I()α α ).{displaystyle operatorname {var} [{hat {alpha }]geq {frac {1}{mathcal {} {alpha)}}}}} {fnMicroc {fnMicroc} {fnMitcal {fnMitcal}}}}}}}}}} {fnMinMicrosoft} {f}}}} {f}}}}}}}}} {f}}}}}}}} {f}}}}}}}}}}}} {f}} {f}}}}}}}}}}}}}}}}}}}}}}}}} {displaystyledisplaystyledisplaystyle \displaystyle \displaystyle {displaystyle \displaystyle \f} {f} {f} {displaystyle \f} {displaystyle \f} {f} {f} {f} {f

La precisión con la que se puede estimar el estimador de un parámetro α está limitada por la información de Fisher de la función logarítmica de verosimilitud. La información de Fisher es una medida del error mínimo involucrado en la estimación de un parámetro de una distribución y puede verse como una medida del poder de resolución de un experimento necesario para discriminar entre dos hipótesis alternativas de un parámetro.

Cuando hay N parámetros

[Silencio Silencio 1Silencio Silencio 2...... Silencio Silencio N],{displaystyle {begin{bmatrix}theta ¿Por qué? ¿Qué?

entonces la información de Fisher toma la forma de una matriz simétrica semidefinida positiva N×N, la matriz de información de Fisher, con un elemento típico:

()I()Silencio Silencio ))i,j=E⁡ ⁡ [()∂ ∂ ∂ ∂ Silencio Silencio iIn⁡ ⁡ L)()∂ ∂ ∂ ∂ Silencio Silencio jIn⁡ ⁡ L)].{fnMicrosoft Sans Serif}_{i,j}=operatorname {E} left[left({frac {partial }{theta] {fnfn} {fnfnh}m}m}m}ln} {fnfn} {fnfn}mn {mthcal {h}derecho)derecha].

Bajo ciertas condiciones de regularidad, la matriz de información de Fisher también se puede escribir de la siguiente forma, que a menudo es más conveniente para el cálculo:

()I()Silencio Silencio ))i,j=− − E⁡ ⁡ [∂ ∂ 2∂ ∂ Silencio Silencio i∂ ∂ Silencio Silencio jIn⁡ ⁡ ()L)].{fnMicrosoft Sans Serif}_{i,j}=-operatorname {E} left[{frac {partial ^{2}{partial theta _{i},partial theta _{j}}}ln({mathcal {L}})right],}

Con X1,..., XN iid variables aleatorias, un N "caja" dimensional se puede construir con lados X1,..., XN. Costa y Cover muestran que la entropía diferencial (Shannon) h(X) está relacionada con el volumen del conjunto típico (que tiene la entropía de muestra cercana a la entropía verdadera), mientras que la información de Fisher está relacionada con la superficie de este conjunto típico.

Dos parámetros

Para X1,..., XN aleatorio independiente variables, cada una de las cuales tiene una distribución beta parametrizada con parámetros de forma α y β, la función de verosimilitud logarítmica conjunta para N observaciones iid es:

In⁡ ⁡ ()L()α α ,β β ▪ ▪ X))=()α α − − 1).. i=1NIn⁡ ⁡ Xi+()β β − − 1).. i=1NIn⁡ ⁡ ()1− − Xi)− − NIn⁡ ⁡ B()α α ,β β ){displaystyle ln({mathcal {L}}(alphabeta mid X)=(alpha -1)sum ¿Por qué? ¿Por qué?

por lo tanto, la función de verosimilitud logarítmica conjunta por N observaciones iid es:

1NIn⁡ ⁡ ()L()α α ,β β ▪ ▪ X))=()α α − − 1)1N.. i=1NIn⁡ ⁡ Xi+()β β − − 1)1N.. i=1NIn⁡ ⁡ ()1− − Xi)− − In⁡ ⁡ B()α α ,β β ){displaystyle {frac {1}{N}ln({mathcal {L}(alphabeta mid X)=(alpha -1){frac {1}{N}sum} ¿Por qué? {1}{N}sum} ¿Por qué?

Para el caso de dos parámetros, la información de Fisher tiene 4 componentes: 2 diagonales y 2 fuera de la diagonal. Dado que la matriz de información de Fisher es simétrica, uno de estos componentes fuera de la diagonal es independiente. Por lo tanto, la matriz de información de Fisher tiene 3 componentes independientes (2 diagonales y 1 fuera de la diagonal).

Aryal y Nadarajah calcularon la matriz de información de Fisher para el caso de cuatro parámetros, a partir de la cual se puede obtener el caso de dos parámetros de la siguiente manera:

− − ∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)N∂ ∂ α α 2=Var⁡ ⁡ [In⁡ ⁡ ()X)]=↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β )=Iα α ,α α =E⁡ ⁡ [− − ∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)N∂ ∂ α α 2]=In⁡ ⁡ VarGX{displaystyle -{frac {partial ^{2}ln {mathcal {L}(alphabeta mid X)}{Npartial alpha ^{2}=operatorname {var} [ln(X)]=psi _{1}(alpha)-psi _{1}(alpha +beta)={mathcal {}_{alphaalpha }=operatorname {E} left[-{frac {partial ^{2}ln {mathcal {L}} {alphabetamid X)}{Npartial alpha ^{2}}right]=ln operatorname {var} _{GX}}}}}}}}=
− − ∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)N∂ ∂ β β 2=Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]=↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β )=Iβ β ,β β =E⁡ ⁡ [− − ∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)N∂ ∂ β β 2]=In⁡ ⁡ VarG()1− − X){displaystyle -{frac {partial ^{2}ln {mathcal {L}(alphabeta mid X)}{N,partial beta ^{2}=operatorname {var} [ln(1-X)]=psi _{1}(beta)-psi _{1}(alpha +beta)={mathcal {I}_{betabeta }=operatorname {E} left[-{frac {partial ^{2}ln {mathcal {L}} {alphabetamid X)}{Npartial beta ^{2}}right]=ln operatorname {var} _{G(1-X)}}}}}}
− − ∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)N∂ ∂ α α ∂ ∂ β β =cov⁡ ⁡ [In⁡ ⁡ X,In⁡ ⁡ ()1− − X)]=− − ↑ ↑ 1()α α +β β )=Iα α ,β β =E⁡ ⁡ [− − ∂ ∂ 2In⁡ ⁡ L()α α ,β β ▪ ▪ X)N∂ ∂ α α ∂ ∂ β β ]=In⁡ ⁡ covGX,()1− − X){displaystyle -{frac {partial ^{2}ln {mathcal {L}(alphabeta mid X)}{N,partial alpha ,partial beta }=operatorname {cov} [ln X,ln(1-X)]=-psi _{1}(alpha +beta)={mathcal {I}_{alphabeta }=operatorname {E} left[-{frac {partial ^{2}ln {mathcal {L}}(alphabetamid X)}{N,partial alpha ,partial beta }right]=lnoperatorname {cov} _{G{X} {1-X)

Dado que la matriz de información de Fisher es simétrica

Iα α ,β β =Iβ β ,α α =In⁡ ⁡ covGX,()1− − X){displaystyle {fnMithcal}_{alphabeta }={mathcal {I}_{betaalpha }=ln operatorname {cov} _{G{X,(1-X)}}

Los componentes de información de Fisher son iguales a las varianzas geométricas logarítmicas y la covarianza geométrica logarítmica. Por lo tanto, pueden expresarse como funciones trigamma, denotadas ψ1(α), la segunda de las funciones poligamma, definida como la derivada de la función digamma:

↑ ↑ 1()α α )=d2In⁡ ⁡ .. ()α α )∂ ∂ α α 2=∂ ∂ ↑ ↑ ()α α )∂ ∂ α α .{displaystyle psi _{1}(alpha)={frac {d^{2}ln Gamma (alfa)}{partial alpha ^{2}}=,{frac {partial psi (alpha)}{partial alpha }}

Estos derivados también se derivan en el § Dos parámetros desconocidos y tramas de la función de probabilidad de registro también se muestran en esa sección. § Variación geométrica y covariancia contiene parcelas y discusión adicional de los componentes de la matriz de información Fisher: las varias geométricas log y la covariancia geométrica log como función de los parámetros de forma α y β. § Momentos de variables aleatorias transformadas logarítmicamente contiene fórmulas para momentos de variables aleatorias transformadas logarítmicamente. Imágenes para los componentes de información Fisher Iα α ,α α ,Iβ β ,β β {displaystyle {mathcal {}_{alphaalpha},{mathcal {}_{betabeta} } y Iα α ,β β {displaystyle {máthcal}_{alphabeta } se muestran en § Variación geométrica.

El determinante de la matriz de información de Fisher es de interés (por ejemplo, para el cálculo de la probabilidad previa de Jeffreys). De las expresiones para los componentes individuales de la matriz de información de Fisher, se deduce que el determinante de la matriz de información (simétrica) de Fisher para la distribución beta es:

Det()I()α α ,β β ))=Iα α ,α α Iβ β ,β β − − Iα α ,β β Iα α ,β β =()↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β ))()↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β ))− − ()− − ↑ ↑ 1()α α +β β ))()− − ↑ ↑ 1()α α +β β ))=↑ ↑ 1()α α )↑ ↑ 1()β β )− − ()↑ ↑ 1()α α )+↑ ↑ 1()β β ))↑ ↑ 1()α α +β β )limα α → → 0Det()I()α α ,β β ))=limβ β → → 0Det()I()α α ,β β ))=JUEGO JUEGO limα α → → JUEGO JUEGO Det()I()α α ,β β ))=limβ β → → JUEGO JUEGO Det()I()α α ,β β ))=0{displaystyle {begin{aligned}det({mathcal {I}(alphabeta) {I}_{alphaalpha # {fnMitcal {I}_{betabeta {fnMicrosoft Sans Ser)

Del criterio de Sylvester (comprobando si los elementos diagonales son todos positivos), se deduce que la matriz de información de Fisher para el caso de dos parámetros es definida positiva (bajo la condición estándar de que los parámetros de forma son positivos α > 0 y β > 0).

Cuatro parámetros
Fisher Information I()a,aPara α=β vs rango (ca) y exponenteα=β
Fisher Information I()α,aPara α=β, vs. range (ca) y exponente α=β

Si Y1,..., YN son variables aleatorias independientes, cada una con una distribución beta con cuatro parámetros: los exponentes α y β, y también a (el mínimo del rango de distribución), y c (el máximo del rango de distribución) (sección titulada "Parametrizaciones alternativas", "Cuatro parámetros"), con función de densidad de probabilidad:

f()Sí.;α α ,β β ,a,c)=f()x;α α ,β β )c− − a=()Sí.− − ac− − a)α α − − 1()c− − Sí.c− − a)β β − − 1()c− − a)B()α α ,β β )=()Sí.− − a)α α − − 1()c− − Sí.)β β − − 1()c− − a)α α +β β − − 1B()α α ,β β ).{displaystyle f(y;alphabetaa,c)={frac {f(x;alphabeta)}{c-a}={frac {left({frac {y-a}{c-a}right)}{alpha -1}left({frac Vale. -1}{(c-a)B(alphabeta)}={frac {(y-a)^{alpha -1}(c-y)^{beta - 1} {c-a)}}}}

la función de verosimilitud logarítmica conjunta por N observaciones iid es:

1NIn⁡ ⁡ ()L()α α ,β β ,a,c▪ ▪ Y))=α α − − 1N.. i=1NIn⁡ ⁡ ()Yi− − a)+β β − − 1N.. i=1NIn⁡ ⁡ ()c− − Yi)− − In⁡ ⁡ B()α α ,β β )− − ()α α +β β − − 1)In⁡ ⁡ ()c− − a){displaystyle {frac {1}{N}ln({mathcal {L}(alphabetaa,cmid Y)={frac {alpha} - No. ################################################################################################################################################################################################################################################################ - No. ¿Por qué?

Para el caso de cuatro parámetros, la información de Fisher tiene 4*4=16 componentes. Tiene 12 componentes fuera de la diagonal = (4×4 total − 4 diagonal). Como la matriz de información de Fisher es simétrica, la mitad de estos componentes (12/2=6) son independientes. Por lo tanto, la matriz de información de Fisher tiene 6 componentes independientes fuera de la diagonal + 4 diagonales = 10 componentes independientes. Aryal y Nadarajah calcularon la matriz de información de Fisher para el caso de cuatro parámetros de la siguiente manera:

− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ α α 2=Var⁡ ⁡ [In⁡ ⁡ ()X)]=↑ ↑ 1()α α )− − ↑ ↑ 1()α α +β β )=Iα α ,α α =E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ α α 2]=In⁡ ⁡ ()varGX){displaystyle -{frac {1}{N}{frac} {partial ^{2}ln} {fnMicrosoft Sans Serif} {\fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f}}} {f}}}} {f}}} {\\fnMicros Serif}} {\fnMicrom}}}}}}} {f} {f} {\fnMitcal {fnMicrosoft Sans Serif} {f}}}}}} {fnMicros}} {fnMitcal {fnMitcal {fnMicrosoft Sans}}} {fnMicrosoft Sans Serif} {fnMicros}}}}}}}}}}}} {f}}}}}}} ^{2}=operatorname {var} [ln(X)]=psi _{1}(alpha)-psi _{1}(alpha +beta)={mathcal {}_{alphaalpha ##=operatorname {E} left[-{frac {2} {fn} {fnK} {fn}} {fn}} {fn} {fn}fn} {fn} {fn}fn}} {fn} {fn}fn} {fn}fn} {fn}fnfn}fn}fn}fn}fn}fn}\fn}fn}fn}fn}fn}fn}fn}fn}fn}fnfn}fn}fnfn}fn}fn}fnfn}fnfn}fn}fn}fn}fn}fnfnfnfn}fnfn}fn}fn}fn}fn}fn}fn}fn}fn} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}}derecha]=ln(operatorname {var_{GX}}}}}
− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ β β 2=Var⁡ ⁡ [In⁡ ⁡ ()1− − X)]=↑ ↑ 1()β β )− − ↑ ↑ 1()α α +β β )=Iβ β ,β β =E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ β β 2]=In⁡ ⁡ ()varG()1-X)){displaystyle -{frac {1}{N}{frac} {partial ^{2}ln} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f}}} {fnMicros}} {f}}}} {fnMicros Serif} {f}}}} {f}}}}}} {f} {f}} {fnMitcal {f}}}}} {fnMitcal {fffffnMicrob}} {fnMitcal {f}} {fnMicrosoft Sans}fffnMicrosoft Sans} {fnMicrosoft Sans} {fnMicrosoft Sans}}}}}}}}}}}} ^{2}=operatorname {var} [ln(1-X)]=psi _{1}(beta)-psi _{1}(alpha +beta)={mathcal {I}_{betabeta ##=operatorname {E} left[-{frac {2} {fn} {fnK} {fn}} {fn}} {fn} {fn}fn} {fn} {fn}fn}} {fn} {fn}fn} {fn}fn} {fn}fnfn}fn}fn}fn}fn}fn}\fn}fn}fn}fn}fn}fn}fn}fn}fn}fnfn}fn}fnfn}fn}fn}fnfn}fnfn}fn}fn}fn}fn}fnfnfnfn}fnfn}fn}fn}fn}fn}fn}fn}fn}fn} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}}right]=ln(operatorname {var_{G(1-X)}}}}
− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ α α ∂ ∂ β β =cov⁡ ⁡ [In⁡ ⁡ X,()1− − X)]=− − ↑ ↑ 1()α α +β β )=Iα α ,β β =E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ α α ∂ ∂ β β ]=In⁡ ⁡ ()covGX,()1− − X)){displaystyle -{frac {1}{N}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial alpha ,partial beta [ln X,(1-X)]=-psi _{1}(alpha +beta)={mathcal {I}_{alphabeta ##=operatorname {E} left[-{frac {1}{N} {fracpartial ^{2}ln {mathcal {L} {alphabetaa,cmid Y)}{partial alpha ,partial beta }right]=ln(operatorname {cov} _{G{X,(1-X)}}}}} {}}} {}}} {}}}}}} {

En las expresiones anteriores, el uso de X en lugar de Y en las expresiones var[ln(X)] = ln(var GX) no es un error. Las expresiones en términos de las varianzas geométricas logarítmicas y la covarianza geométrica logarítmica ocurren como funciones de la parametrización de dos parámetros X ~ Beta(α, β) porque al tomar las derivadas parciales con respecto a los exponentes (α, β) en el caso de cuatro parámetros, se obtienen las mismas expresiones que para el caso de dos parámetros: estos términos de la matriz de información de Fisher de cuatro parámetros son independientes del a mínimo y del c máximo del rango de distribución. El único término distinto de cero en la doble diferenciación de la función de verosimilitud logarítmica con respecto a los exponentes α y β es la segunda derivada del logaritmo de la función beta: ln(B(α, β)). Este término es independiente del mínimo a y del máximo c del rango de la distribución. La doble diferenciación de este término da como resultado funciones trigamma. Las secciones tituladas "Máxima probabilidad", "Dos parámetros desconocidos" y "Cuatro parámetros desconocidos" mostrar también este hecho.

La información de Fisher para N i.i.d. samples is N la información individual de Fisher (eq. 11.279, página 394 de Cover y Thomas). (Aryal y Nadarajah tomar una sola observación, N = 1, para calcular los siguientes componentes de la información Fisher, que conduce al mismo resultado que considerando los derivados de la probabilidad de registro por N observaciones. Además, debajo de la expresión errónea Ia,a{fnMicrosoft Sans Serif} en Aryal y Nadarajah ha sido corregido.)

2:quad operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial a^{2}}}right]&={mathcal {I}}_{a,a}={frac {beta (alpha +beta -1)}{(alpha -2)(c-a)^{2}}}\beta >2:quad operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial c^{2}}}right]&={mathcal {I}}_{c,c}={frac {alpha (alpha +beta -1)}{(beta -2)(c-a)^{2}}}\operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial a,partial c}}right]&={mathcal {I}}_{a,c}={frac {(alpha +beta -1)}{(c-a)^{2}}}\alpha >1:quad operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial alpha ,partial a}}right]&={mathcal {I}}_{alphaa}={frac {beta }{(alpha -1)(c-a)}}\operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial alpha ,partial c}}right]&={mathcal {I}}_{alphac}={frac {1}{(c-a)}}\operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial beta ,partial a}}right]&={mathcal {I}}_{betaa}=-{frac {1}{(c-a)}}\beta >1:quad operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial beta ,partial c}}right]&={mathcal {I}}_{betac}=-{frac {alpha }{(beta -1)(c-a)}}end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">α α ■2:E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ a2]=Ia,a=β β ()α α +β β − − 1)()α α − − 2)()c− − a)2β β ■2:E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ c2]=Ic,c=α α ()α α +β β − − 1)()β β − − 2)()c− − a)2E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ a∂ ∂ c]=Ia,c=()α α +β β − − 1)()c− − a)2α α ■1:E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ α α ∂ ∂ a]=Iα α ,a=β β ()α α − − 1)()c− − a)E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ α α ∂ ∂ c]=Iα α ,c=1()c− − a)E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ β β ∂ ∂ a]=Iβ β ,a=− − 1()c− − a)β β ■1:E⁡ ⁡ [− − 1N∂ ∂ 2In⁡ ⁡ L()α α ,β β ,a,c▪ ▪ Y)∂ ∂ β β ∂ ∂ c]=Iβ β ,c=− − α α ()β β − − 1)()c− − a){displaystyle {begin{aligned}alpha Conf2:quad operatorname {E} left[-{frac {2} {fn} {fnK} {fn}} {fn}} {fn} {fn}fn} {fn} {fn}fn}} {fn} {fn}fn} {fn}fn} {fn}fnfn}fn}fn}fn}fn}fn}\fn}fn}fn}fn}fn}fn}fn}fn}fn}fnfn}fn}fnfn}fn}fn}fnfn}fnfn}fn}fn}fn}fn}fnfnfnfn}fnfn}fn}fn}fn}fn}fn}fn}fn}fn} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}}derecha] {I}_{a,a}={frac {beta (alpha +beta) -1)}{(alpha -2)(c-a)^{2}}\beta >2:quad operatorname {E} left[-{frac {2} {fn} {fnK} {fn}} {fn}} {fn} {fn}fn} {fn} {fn}fn}} {fn} {fn}fn} {fn}fn} {fn}fnfn}fn}fn}fn}fn}fn}\fn}fn}fn}fn}fn}fn}fn}fn}fn}fnfn}fn}fnfn}fn}fn}fnfn}fnfn}fn}fn}fn}fn}fnfnfnfn}fnfn}fn}fn}fn}fn}fn}fn}fn}fn} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}}}derecha] {I}_{c,c}={frac} {alpha (alpha +beta -1)}{(beta -2)(c-a)^{2}\\\\fnMiembro de operador {E} left[-{frac {1}{N} {fracpartial ^{2}n {mathcal {L} {Alphabetaa,cmid Y)}{partial a,partial c}right] {I}_{a,c}={frac} {alpha +beta -1)}{(c-a)^{2}}\alpha √1:quad operatorname {E} left[-{frac {1} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn}} {fn}fn}fnfnMicroc}} {fn}}}\fn} {fn}}}}\fn}\fn}fn}fnfn}fn}fn}fn}fn}fn}fn}fn}fn}fn}\fn}fnfnfn}fn}fn}fn}fn}fnfn}fnfn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn {beta}{(alpha -1)(c-a)}\\fnMicrosoft Sans Serif} {E} left[-{frac {1} {fn} {fn} {fn} {fn} {fn} {\fn} {fn} {fn} {fn} {fn} {fnMicrosoft} {fn} {fn}} {fn0}} {fnMicroc}}}} {fn}}fn} {fn}fn}}}fn}}}}}fn}}}}}}}} {fn}fn}}fn} {fn} {fn} {fn}fn}}}}}}}}fn}}fn}}fn}fn}}fn}}fnfn}fn}fnun}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn} {E} left[-{frac {1} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn}fn}fnMicroc}} {fn}}}}} {fn} {fn}fn}fn} {fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fnfn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn {1}{(c-a)}\beta Conf1:quad operatorname {} {fn} {fn} {fn} {fn}fn} {fnfn} {fn} {fn} {fn} {fn} {fnMicrosoft} {fnMicrosoft}} {fnMicrosoft}}} {fnMicrosoft}} {f}}f}f}}}}f}}}f}f}}f}f}} {f}f}f}f}f}f}f}f}f}fn}fn}fnf}f}fnfnfnfnMicrocfn}}f}fn}}}fnun} {fnun}fnfn}}fn}fn}fn}fn}fn}fn}fn}fn}f}fn}2:quad operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial a^{2}}}right]&={mathcal {I}}_{a,a}={frac {beta (alpha +beta -1)}{(alpha -2)(c-a)^{2}}}\beta >2:quad operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial c^{2}}}right]&={mathcal {I}}_{c,c}={frac {alpha (alpha +beta -1)}{(beta -2)(c-a)^{2}}}\operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial a,partial c}}right]&={mathcal {I}}_{a,c}={frac {(alpha +beta -1)}{(c-a)^{2}}}\alpha >1:quad operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial alpha ,partial a}}right]&={mathcal {I}}_{alphaa}={frac {beta }{(alpha -1)(c-a)}}\operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial alpha ,partial c}}right]&={mathcal {I}}_{alphac}={frac {1}{(c-a)}}\operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial beta ,partial a}}right]&={mathcal {I}}_{betaa}=-{frac {1}{(c-a)}}\beta >1:quad operatorname {E} left[-{frac {1}{N}}{frac {partial ^{2}ln {mathcal {L}}(alphabetaa,cmid Y)}{partial beta ,partial c}}right]&={mathcal {I}}_{betac}=-{frac {alpha }{(beta -1)(c-a)}}end{aligned}}}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/636646f51bdb1a3193b1721483878e98f4f19c3e" style="vertical-align: -26.171ex; width:67.472ex; height:53.509ex;"/>

Las dos entradas diagonales inferiores de la matriz de información Fisher, con respecto al parámetro "a" (el mínimo del rango de distribución): Ia,a{fnMicrosoft Sans Serif}, y con respecto al parámetro "c" (el máximo del rango de distribución): Ic,c{fnMicrosoft Sans Serif} sólo se definen para los exponentes α > 2 y β > 2 respectivamente. Componente de la matriz de información de Fisher Ia,a{fnMicrosoft Sans Serif} para el mínimo "a" se acerca el infinito para el exponente α acercando 2 desde arriba, y el componente de la matriz de información Fisher Ic,c{fnMicrosoft Sans Serif} para el máximo "c" se acerca el infinito para el exponente β aproximándose 2 desde arriba.

La matriz de información de Fisher para el caso de los cuatro parámetros no depende de los valores individuales del mínimo "a" y el máximo "c", pero solo en el rango total (ca). Además, los componentes de la matriz de información de Fisher que dependen del rango (ca), dependen solo a través de su inversa (o el cuadrado de la inversa), tal que la información de Fisher disminuye al aumentar el rango (ca).

Las imágenes acompañantes muestran los componentes de información Fisher Ia,a{fnMicrosoft Sans Serif} y Iα α ,a{displaystyle {máthcal {} {Alphaa}} {cH00}}. Imágenes para los componentes de información Fisher Iα α ,α α {displaystyle {fnMithcal {fnh} {fnMicrosoft} {fnh} {\fnK}} {\fn}}}\\fnfnfnfnfnfn\fnfnMicrosoftf}}}}}\\fnMicrosoftfn}}} } y Iβ β ,β β {betabeta} } se muestran en § Variación geométrica. Todos estos componentes de información Fisher parecen una cuenca, con los "walls" de la cuenca que se encuentran en valores bajos de los parámetros.

Los siguientes componentes de información de Fisher de distribución beta de cuatro parámetros se pueden expresar en términos de dos parámetros: X ~ Beta(α, β) expectativas de la relación transformada ((1- X)/X) y de su imagen especular (X/(1-X)), escalada por el rango (ca), que puede ser útil para la interpretación:

1}" xmlns="http://www.w3.org/1998/Math/MathML">Iα α ,a=E⁡ ⁡ [1− − XX]c− − a=β β ()α α − − 1)()c− − a)siα α ■1{fnMicrosoft}= {fnMicroc} {fnMicroc} {fnMicroc} Está bien. {fnK} {beta} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}}} {fnunci}}}}}fnuncio } 1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/e670565bb8d06bace69cf892864520f5c83b5449" style="vertical-align: -2.671ex; margin-left: -0.069ex; width:42.385ex; height:8.343ex;"/>
1}" xmlns="http://www.w3.org/1998/Math/MathML">Iβ β ,c=− − E⁡ ⁡ [X1− − X]c− − a=− − α α ()β β − − 1)()c− − a)siβ β ■1{displaystyle {mathcal {} {betac}=-{frac} {fnMicroc} {fnMicroc} Está bien. {fnK} {fnK} {beta} {beta -1)} {fnK}} {f}beta 1" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/94f9b7788a4f19e1cbc765ab8fc85a7ad55dec4f" style="vertical-align: -2.671ex; margin-left: -0.069ex; width:45.422ex; height:8.343ex;"/>

Estos son también los valores esperados de la "distribución beta invertida" o distribución beta principal (también conocida como distribución beta de segundo tipo o Tipo VI de Pearson) y su imagen especular, escalada por el rango (ca).

Además, los siguientes componentes de información de Fisher se pueden expresar en términos de varianzas armónicas (1/X) o de varianzas basadas en las variables transformadas de relación ((1-X)/X) de la siguiente manera:

2:quad {mathcal {I}}_{a,a}&=operatorname {var} left[{frac {1}{X}}right]left({frac {alpha -1}{c-a}}right)^{2}=operatorname {var} left[{frac {1-X}{X}}right]left({frac {alpha -1}{c-a}}right)^{2}={frac {beta (alpha +beta -1)}{(alpha -2)(c-a)^{2}}}\beta >2:quad {mathcal {I}}_{c,c}&=operatorname {var} left[{frac {1}{1-X}}right]left({frac {beta -1}{c-a}}right)^{2}=operatorname {var} left[{frac {X}{1-X}}right]left({frac {beta -1}{c-a}}right)^{2}={frac {alpha (alpha +beta -1)}{(beta -2)(c-a)^{2}}}\{mathcal {I}}_{a,c}&=operatorname {cov} left[{frac {1}{X}},{frac {1}{1-X}}right]{frac {(alpha -1)(beta -1)}{(c-a)^{2}}}=operatorname {cov} left[{frac {1-X}{X}},{frac {X}{1-X}}right]{frac {(alpha -1)(beta -1)}{(c-a)^{2}}}={frac {(alpha +beta -1)}{(c-a)^{2}}}end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">α α ■2:Ia,a=Var⁡ ⁡ [1X]()α α − − 1c− − a)2=Var⁡ ⁡ [1− − XX]()α α − − 1c− − a)2=β β ()α α +β β − − 1)()α α − − 2)()c− − a)2β β ■2:Ic,c=Var⁡ ⁡ [11− − X]()β β − − 1c− − a)2=Var⁡ ⁡ [X1− − X]()β β − − 1c− − a)2=α α ()α α +β β − − 1)()β β − − 2)()c− − a)2Ia,c=cov⁡ ⁡ [1X,11− − X]()α α − − 1)()β β − − 1)()c− − a)2=cov⁡ ⁡ [1− − XX,X1− − X]()α α − − 1)()β β − − 1)()c− − a)2=()α α +β β − − 1)()c− − a)2{displaystyle {begin{aligned}alpha Conf2:quad {mathcal {I}_{a,a} {var} left[{frac] {1}{X}right]left({frac {alpha -1}{c-a}right)^{2}=operatorname {var} left[{fracfrac] {1-X}{X}derecha]left({frac {Alpha -1}{2}={frac {beta (alpha +beta) -1) {fnMicrosoft Sans Serif}\beta }quad {Mathcal {fnMicrosoft Sans Serif} {fnK} {fnMicroc} {fnMicroc} {f}} {fnunci}} {fnunci} {fnunci} {fnuncio}c}fnun} {c}fnun}fnun} {c}i}cp]cccccccccccccc}cccccccccccccccccccccccccccccccccccccccccc}cccccccccccccccccccc {I}_{a,c} {C} left [{frac {1}{X}} {frac} {1}{1-X}right]{frac {alpha -1)}{(c-a)^{2}}=operatorname {fnMic} {fnMic {fnMic} {X}}derecha]{frac {fnMic {fnMic {fnMicrosoft -1)(beta -1) {cH00}={frac {alpha +beta {fnMicrosoft Sans} {fnMicrosoft}} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}}2:quad {mathcal {I}}_{a,a}&=operatorname {var} left[{frac {1}{X}}right]left({frac {alpha -1}{c-a}}right)^{2}=operatorname {var} left[{frac {1-X}{X}}right]left({frac {alpha -1}{c-a}}right)^{2}={frac {beta (alpha +beta -1)}{(alpha -2)(c-a)^{2}}}\beta >2:quad {mathcal {I}}_{c,c}&=operatorname {var} left[{frac {1}{1-X}}right]left({frac {beta -1}{c-a}}right)^{2}=operatorname {var} left[{frac {X}{1-X}}right]left({frac {beta -1}{c-a}}right)^{2}={frac {alpha (alpha +beta -1)}{(beta -2)(c-a)^{2}}}\{mathcal {I}}_{a,c}&=operatorname {cov} left[{frac {1}{X}},{frac {1}{1-X}}right]{frac {(alpha -1)(beta -1)}{(c-a)^{2}}}=operatorname {cov} left[{frac {1-X}{X}},{frac {X}{1-X}}right]{frac {(alpha -1)(beta -1)}{(c-a)^{2}}}={frac {(alpha +beta -1)}{(c-a)^{2}}}end{aligned}}}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/f1f89730020364bb58791ca0eb47d0de25c896c2" style="vertical-align: -9.505ex; width:103.715ex; height:20.176ex;"/>

Consulte la sección "Momentos de variables aleatorias inversas, productos y transformadas linealmente" por estas expectativas.

El determinante de la matriz de información de Fisher es de interés (por ejemplo, para el cálculo de la probabilidad previa de Jeffreys). De las expresiones para los componentes individuales, se deduce que el determinante de la matriz de información (simétrica) de Fisher para la distribución beta con cuatro parámetros es:

2end{aligned}}}" xmlns="http://www.w3.org/1998/Math/MathML">Det()I()α α ,β β ,a,c))=− − Ia,c2Iα α ,aIα α ,β β +Ia,aIa,cIα α ,cIα α ,β β +Ia,c2Iα α ,β β 2− − Ia,aIc,cIα α ,β β 2− − Ia,cIα α ,aIα α ,cIβ β ,a+Ia,c2Iα α ,α α Iβ β ,a+2Ic,cIα α ,aIα α ,β β Iβ β ,a− − 2Ia,cIα α ,cIα α ,β β Iβ β ,a+Iα α ,c2Iβ β ,a2− − Ic,cIα α ,α α Iβ β ,a2+Ia,cIα α ,a2Iβ β ,c− − Ia,aIa,cIα α ,α α Iβ β ,c− − Ia,cIα α ,aIα α ,β β Iβ β ,c+Ia,aIα α ,cIα α ,β β Iβ β ,c− − Iα α ,aIα α ,cIβ β ,aIβ β ,c+Ia,cIα α ,α α Iβ β ,aIβ β ,c− − Ic,cIα α ,a2Iβ β ,β β +2Ia,cIα α ,aIα α ,cIβ β ,β β − − Ia,aIα α ,c2Iβ β ,β β − − Ia,c2Iα α ,α α Iβ β ,β β +Ia,aIc,cIα α ,α α Iβ β ,β β siα α ,β β ■2{displaystyle {begin{aligned}det({mathcal {I} {alphabetaa,c)={} {mátrico {fnh} {fnh} {fnh} {fnh} {fnh}} {\fnMitcal} {fn}}} {fnMitcal}}}} {fnh}}} {f}}} {f}}} {\fnH0}}}} {\f}}}}}}}\\\\\\\\\\\\\\fnH00}\fnHFF}\fnH00}\\\\fn\\\\fnh}\\\\\\\\fnh}\\\\\fn\fnh}\\fnh}fnh}}}}\\\\\\\fnh}}}}}}}}} {I}_{alphabeta }+{mathcal {I}_{a,a}{mathcal {I}_{a,c}{mathcal {I}_{alphac}{mathcal {I}_{alphabeta {fnMitcal {fnK} {fnK}} {fnMitcal {f}_ {cHFF}} {cHFF}}} {cHFF}} {cHFF}} {cHFF}} {\\fnHFF}}}}\cH00}}}}}}\\\\\cH0}}}}}\\\\cH00}}}}}}}}}}\\\\\\cH00}}}}}}}}}}}}}}}}}\\\\\\\\\\\cH}}}}\\\\\\\\\cH}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} }{2}-{mathcal {I}_{a,a}{mathcal {I}_{c,c}{mathcal {I}_{alphabeta ################################################################################################################################################################################################################################################################ {I}_{a,c}{mathcal {I}_{alphaa}{mathcal {I}_{alphac}{mathcal {I}_{betaa}+{mathcal {I}_{a,c} {2} {fnMitcal {I}_{alphaalpha - ¿Qué? {I}_{c,c}{mathcal {I}_{alphaa}{mathcal {I}_{alphabeta - ¿Qué? {I}_{a,c}{mathcal {I}_{alphac}{mathcal {I}_{alphabeta # {fnMitcal {I}_{betaa}+{mathcal {fnK} {fnK} {fnK}} {fnMicrosoft} {fnMicrosoft} {f}}} {fnMicrosoft}}} {fnK}}} {fnK}} {f}}}} {fnK}}} {fnK}}}}}} {\f}}}}}}}}\\\\\\\\\\\\\fnH}\\\\\fnH}\\\\\fn}\\\\\\\\\\\fnH}\\\\\\\\\\\fn\\\fnH}fn}\\fn}\\\\\\\\\fn {I}_{2}-{fnh} {I}_{c,c}{mathcal {I}_{alphaalpha # {fnMitcal {fnh} {fnK}} {fnK}}} {fnfnh}} {fnh}} {fn}}\fn}\fnfn}}\fn\fnfn}\\fnf}\fnfnh}}}\\\\\\fnh}\\\\\\fn\\\\\fn\fn\\\fnh}\fn}\\fn}\\\\fnh}\\\\\\\fnh}\\\\\fn\fnfnh}\fnh}\fn}}\\\\\\\\\\\\\fn {I}_{a,c}{mathcal {} {fn} {fnK} {fnMitcal} {fnK}} {fnK}} {fn}}} {fn}} {fnMitcal}} {fnK}}}} {fn}}} {\fn}}}}} {fnH}}}} {\\\\\\fn\\\\\\\\\\\\fn}\\\\\fnH}\\\\\fn}\\\\\\\\\\fn}\\\\\\\\\\\\\\\\fn}\fn}\\\\\\\\\\\\\fn {I}_{betac}\\fnh}- {fnMitcal {I}_{a,a}{mathcal {I}_{a,c}{mathcal {I}_{alphaalpha # {fnMitcal {I}_{betac}-{mathcal {I}_{a,c}{mathcal {I}_{alphaa}{mathcal {I}_{alphabeta # {fnMitcal {I}_{betac}+{mathcal {I}_{a,a}{mathcal {I}_{alphac}{mathcal {I}_{alphabeta # {fnMitcal {I}_{betac}\\fnh}- {fnMitcal {I}_{alphaa}{mathcal {I}_{alphac}{mathcal {I}_{betaa} {fnMitcal} {I}_{betac}+{mathcal {I}_{a,c}{mathcal {I}_{alphaalpha # {fnMitcal {I}_{betaa} {fnMitcal} {I}_{betac}-{mathcal {I}_{c,c}{mathcal {} {fn} {fnK} {fnMitcal} {fnK}} {fnK}} {fn}}} {fn}} {fnMitcal}} {fnK}}}} {fn}}} {\fn}}}}} {fnH}}}} {\\\\\\fn\\\\\\\\\\\\fn}\\\\\fnH}\\\\\fn}\\\\\\\\\\fn}\\\\\\\\\\\\\\\\fn}\fn}\\\\\\\\\\\\\fn {I}_{betabeta ################################################################################################################################################################################################################################################################ {I}_{a,c}{mathcal {I}_{alphaa}{mathcal {I}_{alphac}{mathcal {I}_{betabeta Mathcal {fnK} {fnK} {fnK}} {fnMicrosoft} {fnMicrosoft} {f}}} {fnMicrosoft}}} {fnK}}} {fnK}} {f}}}} {fnK}}} {fnK}}}}}} {\f}}}}}}}}\\\\\\\\\\\\\fnH}\\\\\fnH}\\\\\fn}\\\\\\\\\\\fnH}\\\\\\\\\\\fn\\\fnH}fn}\\fn}\\\\\\\\\fn {I}_{betabeta - Mathcal {I}_{a,c}{2} {mthcal {I}_{alphaalpha # {fnMitcal {I}_{betabeta }+{mathcal {I}_{a,a}{mathcal {I}_{c,c}{mathcal {I}_{alphaalpha # {fnMitcal {} {betabeta} } {text{ if }alphabeta }2end{aligned}}2end{aligned}}}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/2736604fb3cf676756af731d77faaf9041e60ae9" style="vertical-align: -10.171ex; width:96.157ex; height:21.509ex;"/>

Usando el criterio de Sylvester (ver si todos los elementos diagonales son positivos) y desde componentes diagonales Ia,a{fnMicrosoft Sans Serif} y Ic,c{fnMicrosoft Sans Serif} tienen singularidades en α=2 y β=2 sigue que la matriz de información de Fisher para el caso de cuatro parámetro es positivo-definido para α ratio2 y β ratio2. Dado que para α √≥ 2 y β > 2 la distribución beta es (simétrica o no simétrica) forma de campana, se sigue que la matriz de información Fisher es positiva-definida solamente para las distribuciones beta en forma de campana (simétrica o no simétrica), con puntos de inflexión situados a ambos lados del modo. Así pues, importantes distribuciones bien conocidas pertenecientes a la familia de distribución de beta de cuatro parámetros, como la distribución parabólica (Beta(2,2,2,a,c)) y la distribución uniforme (Beta(1,1,a,c))) tienen componentes de información Fisher (Beta(2,2,2,2, a,c))))Ia,a,Ic,c,Iα α ,a,Iβ β ,c{fnMicrosoft Sans Serif} {I}_{c,c},{mathcal {I}_{alphaa},{mathcal {I}_{betac}) que sopla (aproximadamente el infinito) en el caso de cuatro parámetros (aunque sus componentes de información Fisher están definidos para el caso de dos parámetros). Distribución del semicírculo Wigner de cuatro parámetros (Beta(3/2,3/2,a,c)) y distribución de arcsina (Beta(1/2,1/2,a,c)) tienen determinantes negativos de información Fisher para el caso de cuatro parámetros.

Inferencia bayesiana

Beta()1,1){displaystyle Beta(1,1)}: La densidad de probabilidad de distribución uniforme fue propuesta por Thomas Bayes para representar la ignorancia de probabilidades anteriores en la inferencia bayesiana.

El uso de distribuciones beta en la inferencia bayesiana se debe al hecho de que proporcionan una familia de distribuciones de probabilidad previas conjugadas para distribuciones binomiales (incluida la de Bernoulli) y geométricas. El dominio de la distribución beta se puede ver como una probabilidad y, de hecho, la distribución beta se usa a menudo para describir la distribución de un valor de probabilidad p:

P()p;α α ,β β )=pα α − − 1()1− − p)β β − − 1B()α α ,β β ).{displaystyle P(p;alphabeta)={frac {p^{alpha -1}(1-p)^{beta - ¿Qué?

Ejemplos de distribuciones beta utilizadas como probabilidades previas para representar la ignorancia de los valores de parámetros anteriores en la inferencia bayesiana son Beta(1,1), Beta(0,0) y Beta(1/2,1/2).

Regla de sucesión

Una aplicación clásica de la distribución beta es la regla de sucesión, introducida en el siglo XVIII por Pierre-Simon Laplace en el curso de tratar el problema del amanecer. Afirma que, dado s éxitos en n condicionalmente independiente Pruebas de Bernoulli con probabilidad p. que la estimación del valor esperado en el próximo juicio es s+1n+2{fnMicroc} {S+1} {n+2}}. Esta estimación es el valor esperado de la distribución posterior sobre p. a saber, Beta(s+1, ns+1), que es dada por la regla de Bayes si uno asume una probabilidad uniforme anterior sobre p (es decir, Beta(1, 1)) y luego observa que p generados s éxitos en n Ensayos. La regla de sucesión de Laplace ha sido criticada por científicos prominentes. R. T. Cox describió la aplicación de Laplace de la regla de sucesión al problema del amanecer (pág. 89) como "una parodia del uso adecuado del principio". Palabras de Keynes (Ch.XXX, p. 382) "de hecho esto es tan tonto un teorema que para entretenerlo es desacreditable." Karl Pearson mostró que la probabilidad de que la siguiente (n+ 1) los ensayos serán éxitos, después de no éxitos en ensayos n, es sólo 50%, que ha sido considerado demasiado bajo por científicos como Jeffreys e inaceptable como una representación del proceso científico de experimentación para probar una ley científica propuesta. Como señaló Jeffreys (pág. 128) (crédito C. D. Broad) La regla de sucesión de Laplace establece una alta probabilidad de éxito ((n+1)/(n+2)) en el próximo juicio, pero sólo una probabilidad moderada (50%) que una muestra adicional (n+1) comparable en tamaño será igualmente exitosa. Como señala Perks, "La regla de la sucesión misma es difícil de aceptar. Se asigna una probabilidad al próximo juicio que implica la suposición de que la ejecución real observada es una carrera promedio y que siempre estamos al final de una carrera promedio. Sería, uno pensaría, más razonable asumir que estábamos en medio de una carrera promedio. Claramente es necesario un valor más alto para ambas probabilidades para que se ajusten a una creencia razonable". Estos problemas con la regla de sucesión de Laplace motivaron a Haldane, Perks, Jeffreys y otros a buscar otras formas de probabilidad previa (ver la siguiente inferencia bayesiana). Según Jaynes, el principal problema con la regla de sucesión es que no es válido cuando s=0 o s=n (ver regla de sucesión, para un análisis de su validez).

Probabilidad previa de Bayes-Laplace (Beta(1,1))

Probabilidad previa de Bayes-Laplace (Beta(1,1))

Probabilidad previa de Bayes-Laplace (Beta(1,1))

Beta()0,0){displaystyle Beta(0,0)}: La probabilidad previa de Haldane expresando ignorancia total sobre información previa, donde ni siquiera estamos seguros de si es físicamente posible para un experimento producir un éxito o un fracaso. Como α, β → 0, la distribución beta se acerca a una distribución de dos puntos Bernoulli con toda densidad de probabilidad concentrada en cada extremo, a 0 y 1, y nada entre. Un trozo de moneda: una cara de la moneda siendo a 0 y la otra cara siendo a 1.

La distribución Beta(0,0) fue propuesta por J.B.S. Haldane, quien sugirió que la probabilidad previa que representa la incertidumbre completa debería ser proporcional a p−1(1−p)−1. La función p−1(1−p)−1 puede verse como el límite del numerador de la distribución beta cuando ambos parámetros de forma se acercan a cero: α, β → 0. La función Beta (en el denominador de la distribución beta) se acerca al infinito, para ambos parámetros que se acercan a cero, α, β → 0. Por lo tanto, p−1(1−p)−1 dividido por la función Beta se aproxima a una distribución de Bernoulli de 2 puntos con igual probabilidad 1/ 2 en cada extremo, en 0 y 1, y nada en el medio, como α, β → 0. Lanzamiento de una moneda: una cara de la moneda en 0 y la otra cara en 1. La distribución de probabilidad previa de Haldane Beta(0,0) es un "anterior impropio" porque su integración (de 0 a 1) no converge estrictamente a 1 debido a las singularidades en cada extremo. Sin embargo, esto no es un problema para calcular probabilidades posteriores a menos que el tamaño de la muestra sea muy pequeño. Además, Zellner señala que en la escala de probabilidades logarítmicas (la transformación logit ln(p/1−p)), el anterior de Haldane es el anterior uniformemente plano. El hecho de que una probabilidad previa uniforme en la variable transformada logit ln(p/1−p) (con dominio (-∞, ∞)) es equivalente a la previa de Haldane en el dominio [0, 1] fue señalado por Harold Jeffreys en la primera edición (1939) de su libro Theory of Probability (p. 123). Jeffreys escribe "Ciertamente, si llevamos la regla de Bayes-Laplace hasta los extremos, llegaremos a resultados que no se corresponden con la forma de pensar de nadie. La regla (Haldane) dx/(x(1−x)) va demasiado lejos en sentido contrario. Llevaría a la conclusión de que si una muestra es de un tipo con respecto a alguna propiedad, existe una probabilidad 1 de que toda la población sea de ese tipo." El hecho de que "uniforme" depende de la parametrización, llevó a Jeffreys a buscar una forma de priorización que fuera invariante bajo diferentes parametrizaciones.

La distribución Beta(0,0) fue propuesta por J.B.S. Haldane, quien sugirió que la probabilidad previa que representa la incertidumbre completa debería ser proporcional a p−1(1−p)−1. La función p−1(1−p)−1 puede verse como el límite del numerador de la distribución beta cuando ambos parámetros de forma se acercan a cero: α, β → 0. La función Beta (en el denominador de la distribución beta) se acerca al infinito, para ambos parámetros que se acercan a cero, α, β → 0. Por lo tanto, p−1(1−p)−1 dividido por la función Beta se aproxima a una distribución de Bernoulli de 2 puntos con igual probabilidad 1/ 2 en cada extremo, en 0 y 1, y nada en el medio, como α, β → 0. Lanzamiento de una moneda: una cara de la moneda en 0 y la otra cara en 1. La distribución de probabilidad previa de Haldane Beta(0,0) es un "anterior impropio" porque su integración (de 0 a 1) no converge estrictamente a 1 debido a las singularidades en cada extremo. Sin embargo, esto no es un problema para calcular probabilidades posteriores a menos que el tamaño de la muestra sea muy pequeño. Además, Zellner señala que en la escala de probabilidades logarítmicas (la transformación logit ln(p/1−p)), el anterior de Haldane es el anterior uniformemente plano. El hecho de que una probabilidad previa uniforme en la variable transformada logit ln(p/1−p) (con dominio (-∞, ∞)) es equivalente a la previa de Haldane en el dominio [0, 1] fue señalado por Harold Jeffreys en la primera edición (1939) de su libro Theory of Probability (p. 123). Jeffreys escribe "Ciertamente, si llevamos la regla de Bayes-Laplace hasta los extremos, llegaremos a resultados que no se corresponden con la forma de pensar de nadie. La regla (Haldane) dx/(x(1−x)) va demasiado lejos en sentido contrario. Llevaría a la conclusión de que si una muestra es de un tipo con respecto a alguna propiedad, existe una probabilidad 1 de que toda la población sea de ese tipo." El hecho de que "uniforme" depende de la parametrización, llevó a Jeffreys a buscar una forma de priorización que fuera invariante bajo diferentes parametrizaciones.

Jeffreys probabilidad previa para la distribución beta: la raíz cuadrada del determinante de la matriz de información de Fisher: Det()I()α α ,β β ))=↑ ↑ 1()α α )↑ ↑ 1()β β )− − ()↑ ↑ 1()α α )+↑ ↑ 1()β β ))↑ ↑ 1()α α +β β ){fnMicrosoft Sans Serif}(beta)-(beta)-(beta)-(beta)}={sqrt {psi _{1}(alpha)psi)-(beta)-(beta)-(beta) es una función de la función trigamma 1 de los parámetros de forma α, β
Densidades Posterior Beta con muestras que tienen éxito = "s", fracaso = "f" de s/(s + f) = 1/2, y s + f = {3,10,50}, basado en 3 diferentes funciones de probabilidad previa: Haldane (Beta(0,0), Jeffreys (Beta(1/2,1/2)) y Bayes (Beta(1,1)). La imagen muestra que hay poca diferencia entre los anteriores para el posterior con tamaño de muestra de 50 (con pico más pronunciado cerca p= 1/2). Existen diferencias significativas para tamaños de muestra muy pequeños (la distribución más plana para el tamaño de la muestra 3)
Densidades Posterior Beta con muestras que tienen éxito = "s", fracaso = "f" de s/(s + f) = 1/4, y s + f Iberia {3,10,50}, basado en tres funciones de probabilidad anteriores diferentes: Haldane (Beta(0,0), Jeffreys (Beta(1/2,1/2)) y Bayes (Beta(1,1)). La imagen muestra que hay poca diferencia entre los anteriores para el posterior con tamaño de muestra de 50 (con pico más pronunciado cerca p = 1/4). Las diferencias significativas aparecen en tamaños de muestra muy pequeños (la distribución muy marcada para el caso degenerado del tamaño de la muestra = 3, en este caso degenerado e improbable los resultados anteriores de Haldane en una forma "J" inversa con modo en p= 0 en lugar de p= 1/4. Si hay suficientes datos de muestreo, los tres anteriores de Bayes (Beta(1,1)), Jeffreys (Beta(1/2,1/2)) y Haldane (Beta(0,0)) deberían producir densidades de probabilidad posterior similares.
Densidades Posterior Beta con muestras que tienen éxito = s, fallo = f de s/(s + f) = 1/4, y s + f Iberia {4,12,40}, basado en tres funciones de probabilidad anteriores diferentes: Haldane (Beta(0,0), Jeffreys (Beta(1/2,1/2)) y Bayes (Beta(1,1)). La imagen muestra que hay poca diferencia entre los anteriores para el posterior con tamaño de muestra de 40 (con pico más pronunciado cerca p= 1/4). Diferencias significativas aparecen para tamaños de muestra muy pequeños

Harold Jeffreys propuso utilizar una medida de probabilidad previa no informativa que debería ser invariante bajo la reparametrización: proporcional a la raíz cuadrada del determinante de la matriz de información de Fisher. Para la distribución de Bernoulli, esto se puede mostrar de la siguiente manera: para una moneda que es "cara" con probabilidad p ∈ [0, 1] y es "cruz" con probabilidad 1 − p, para un dado (H,T) ∈ {(0,1), (1,0)} la probabilidad es pH (1 − p)T. Dado que T = 1 − H, la distribución de Bernoulli es pH(1 − p)1 − H. Considerando p como el único parámetro, se deduce que el logaritmo de verosimilitud para la distribución de Bernoulli es

In⁡ ⁡ L()p▪ ▪ H)=HIn⁡ ⁡ ()p)+()1− − H)In⁡ ⁡ ()1− − p).{displaystyle ln {mathcal}(pmid H)=Hln(p)+(1-H)ln(1-p). }

La matriz de información de Fisher tiene un solo componente (es un escalar, porque solo hay un parámetro: p), por lo tanto:

I()p)=E[()ddpIn⁡ ⁡ ()L()p▪ ▪ H)))2]=E[()Hp− − 1− − H1− − p)2]=p1()1− − p)0()1p− − 01− − p)2+p0()1− − p)1()0p− − 11− − p)2=1p()1− − p).{displaystyle {begin{aligned}{sqrt {fnMitcal {fnMitcal} {fnMitcal {fnMicrosoft Sans} {fnMicrosoft Sans} {fnMicrosoft Sans} {fnMicrosoft Sans} {fnMitcal {fnMitcal {f} {fnMicrosoft Principi}}}}}}}}}} {fncipi}}}}}}}}}}}}}}}} {fncipi}}}}}}}}}}}}}}} {\\\fnun\fnunfnun\fnunfnun\fnunfnunfnunfnunfnun\fnunfnunfnun\fnun\fnunfnunfnun}fnunfnunfnun\fnunfnun}\fnun {E} !left[left({frac {d} {dp}ln({mathcal {L}}(pmid H)right)}right)}\[6pt] limit={sqrt {fnuncio de operador {E}left[left({frac] {H} {p}-{frac} {1-H}{1-p} {2}derecha]}[6pt] {1}{}-{frac} {0}{1-p}right)}{2}+p^{0}(1-p)^{1}left({frac] {0} {p}-{frac} {1}{1-p}derecha)}\\fnMicroc {1}{sqrt {p(1-p)}}} {end{aligned}}}

Del mismo modo, para la distribución binomial con n ensayos de Bernoulli, se puede demostrar que

I()p)=np()1− − p).{fnMicroc {fnK}}} {fnMicroc {fn} {fn}} {fn}}}} {fn}}} {fnMicroc {fn}}}}} {fnfn}}}}} {fnfnMicroc}}}}} {fnf}}}}}}}}}} {

Así, para las distribuciones de Bernoulli y Binomial, Jeffreys prior es proporcional a 1p()1− − p){displaystyle scriptstyle {frac {1}{sqrt {p(1-p)}}}}, que resulta ser proporcional a una distribución beta con variable de dominio x = p, y parámetros de forma α = β = 1/2, la distribución de arcsina:

Beta()12,12)=1π π p()1− − p).{displaystyle Beta({tfrac {1}{2}} {tfrac {1}{2}}}={frac {1}{sqrt {p(1-p)}}}}}}} {fnMicroc {f}} {f} {f}}}}} {f}}}}}} {f}}}}}}}}}}} {f}}}}}}} {f}}}}}}} {f} {f}}}}}}} {f}}}} {f}}} {f}}}}}}}}}}}} {f}}}}}} {f}}}}}} {f}}}} {f}}}}} {f}} {f}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f}}}}}}

Se mostrará en la siguiente sección que la constante normalizadora para Jeffreys prior es inmaterial al resultado final porque la constante normalizadora cancela en Bayes theorem para la probabilidad posterior. Por lo tanto Beta(1/2,1/2) se utiliza como los Jeffreys anteriores tanto para las distribuciones benoulli como binomial. Como se muestra en la siguiente sección, al utilizar esta expresión como tiempos de probabilidad anteriores la probabilidad en el teorema de Bayes, la probabilidad posterior resulta ser una distribución beta. Es importante darse cuenta, sin embargo, que Jeffreys anterior es proporcional a 1p()1− − p){displaystyle scriptstyle {frac {1}{sqrt {p(1-p)}}}} para la distribución benoulli y binomial, pero no para la distribución beta. Jeffreys antes de la distribución beta es dado por el determinante de la información de Fisher para la distribución beta, que, como se muestra en la matriz de información § Fisher es una función de la función trigamma 1 de los parámetros de forma α y β como sigue:

Det()I()α α ,β β ))=↑ ↑ 1()α α )↑ ↑ 1()β β )− − ()↑ ↑ 1()α α )+↑ ↑ 1()β β ))↑ ↑ 1()α α +β β )limα α → → 0Det()I()α α ,β β ))=limβ β → → 0Det()I()α α ,β β ))=JUEGO JUEGO limα α → → JUEGO JUEGO Det()I()α α ,β β ))=limβ β → → JUEGO JUEGO Det()I()α α ,β β ))=0{fnMicrosoft Sans Ser)} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans} {fnMicrosoft Sans Serif} {fnMicrosoft ] {f} {fnMicrosoft} {fnMicrosoft}fnMicrosoft Sans}fnMicrosoft Sans}f} {fnMicrosoft Sans} {fnMicrosoft Sans} {fnMicrosoft Sans} {f}fnMicrosoft Sans}f}fnMicrosoft}fnMicrosoft Sans)}f} {fnMicrosoft}fnMicrosoft Sans)}fnMicrosoft Sans}fnMicrosoft Sans}f}fnMicrosoft Sans}f}f}fnMicro

Como se discutió anteriormente, Jeffreys anterior para las distribuciones de Bernoulli y binomial es proporcional a la distribución de arcoseno Beta(1/2,1/2), una curva unidimensional que parece una cuenca como una función del parámetro p de las distribuciones de Bernoulli y binomial. Las paredes de la cuenca están formadas por p acercándose a las singularidades en los extremos p → 0 y p → 1, donde Beta(1/2,1/2) tiende a infinito. Jeffreys anterior para la distribución beta es una superficie bidimensional (incrustada en un espacio tridimensional) que parece una cuenca con solo dos de sus paredes reunidas en la esquina α = β = 0 (y faltando las otras dos paredes) en función de los parámetros de forma α y β de la distribución beta. Las dos paredes contiguas de esta superficie bidimensional están formadas por los parámetros de forma α y β que se acercan a las singularidades (de la función trigamma) en α, β → 0. No tiene paredes para α, β → ∞ porque en este caso el determinante de la matriz de información de Fisher para la distribución beta se aproxima a cero.

En la siguiente sección se mostrará que la probabilidad previa de Jeffreys da como resultado probabilidades posteriores (cuando se multiplican por la función de probabilidad binomial) que son intermedias entre los resultados de probabilidad posterior de las probabilidades previas de Haldane y Bayes.

La anterior de Jeffrey puede ser difícil de obtener analíticamente y, en algunos casos, simplemente no existe (incluso para funciones de distribución simples como la distribución triangular asimétrica). Berger, Bernardo y Sun, en un artículo de 2009, definieron una distribución de probabilidad previa de referencia que (a diferencia de la anterior de Jeffrey) existe para la distribución triangular asimétrica. No pueden obtener una expresión de forma cerrada para su anterior de referencia, pero los cálculos numéricos muestran que se ajusta casi perfectamente al anterior (adecuado)

Beta⁡ ⁡ ()12,12)♪ ♪ 1Silencio Silencio ()1− − Silencio Silencio ){displaystyle operatorname {Beta} ({tfrac {1}{2}},{tfrac {1}{2}}})sim {frac {1}{sqrt {theta (1-theta)}}}}}}}}}}}

donde θ es la variable de vértice para la distribución triangular asimétrica con soporte [0, 1] (correspondiente a los siguientes valores de parámetro en el artículo de Wikipedia sobre la distribución triangular: vértice c = θ, extremo izquierdo a = 0, y extremo derecho b = 1). Berger et al. también dé un argumento heurístico de que Beta (1/2, 1/2) podría ser la referencia exacta de Berger-Bernardo-Sun anterior para la distribución triangular asimétrica. Por lo tanto, Beta(1/2,1/2) no solo es anterior de Jeffreys para las distribuciones de Bernoulli y binomial, sino que también parece ser la referencia previa de Berger-Bernardo-Sun para la distribución triangular asimétrica (para la cual la distribución anterior de Jeffreys no existe), una distribución utilizada en la gestión de proyectos y el análisis PERT para describir el costo y la duración de las tareas del proyecto.

Clarke y Barron demuestran que, entre los previos positivos continuos, el previo de Jeffrey (cuando existe) maximiza asintóticamente la información mutua de Shannon entre una muestra de tamaño n y el parámetro y, por lo tanto, el previo de Jeffrey es el más previo no informativo (información de medición como información de Shannon). La prueba se basa en un examen de la divergencia de Kullback-Leibler entre funciones de densidad de probabilidad para variables aleatorias iid.

Efecto de diferentes elecciones de probabilidad previas en la distribución beta posterior

Si se extraen muestras de la población de una variable aleatoria X que dan como resultado s éxitos y f fracasos en "n& #34; Pruebas de Bernoulli n = s + f, luego la función de probabilidad para los parámetros s y f dado x = p (la notación x = p en las expresiones a continuación enfatizará que el dominio x representa el valor del parámetro p en la distribución binomial), es la siguiente distribución binomial:

L()s,f▪ ▪ x=p)=()s+fs)xs()1− − x)f=()ns)xs()1− − x)n− − s.{displaystyle {mathcal {L}(s,fmid x=p)={s+fchoose s}x^{s}(1-x)^{f}={n {fn-s}

Si las creencias sobre la información de probabilidad previa se aproximan razonablemente bien mediante una distribución beta con parámetros α Prior y β Prior, entonces:

Previsibilidad()x=p;α α Prior,β β Prior)=xα α Prior− − 1()1− − x)β β Prior− − 1B()α α Prior,β β Prior){displaystyle {operatorname {PriorProbability}(x=p;alpha operatorname {Prior}beta operatorname {Prior})={frac {x^{alpha operatorname {Prior} -1}(1-x)^{beta operatorname {Prior} -1}{mathrm {B}}}}

Según Bayes' teorema para un espacio de eventos continuo, la probabilidad posterior viene dada por el producto de la probabilidad anterior y la función de verosimilitud (dada la evidencia s y f = ns), normalizado para que el área bajo la curva sea igual a uno, de la siguiente manera:

posteriorprobabilidad⁡ ⁡ ()x=p▪ ▪ s,n− − s)=Previsibilidad⁡ ⁡ ()x=p;α α Prior,β β Prior)L()s,f▪ ▪ x=p)∫ ∫ 01Previsibilidad⁡ ⁡ ()x=p;α α Prior,β β Prior)L()s,f▪ ▪ x=p)dx=()ns)xs+α α Prior− − 1()1− − x)n− − s+β β Prior− − 1/B()α α Prior,β β Prior)∫ ∫ 01()()ns)xs+α α Prior− − 1()1− − x)n− − s+β β Prior− − 1/B()α α Prior,β β Prior))dx=xs+α α Prior− − 1()1− − x)n− − s+β β Prior− − 1∫ ∫ 01()xs+α α Prior− − 1()1− − x)n− − s+β β Prior− − 1)dx=xs+α α Prior− − 1()1− − x)n− − s+β β Prior− − 1B()s+α α Prior,n− − s+β β Prior).{displaystyle {begin{aligned} {posteriorprobability} (x=pmid s,n-s)[6pt]={} {frac {operatorname {PriorProbability} (x=p;alpha operatorname {Prior}beta operatorname {Prior}{mathcal= ################################################################################################################################################################################################################################################################ {PriorProbability} (x=p;alpha operatorname {Prior}beta operatorname {Prior}){mathcal {L}}(s,fmid x=p)dx}\[6pt]={} {frac {{nchoose s}x^{s+alpha operatorname {1Prior}1} {Prior} -1}/mathrm {B} (alpha operatorname {Prior}beta operatorname {Prior}{int _{0}^{1}left({n choose s}x^{s+alpha operatorname {Prior} -1}(1-x)^{n-s+beta operatorname {Prior} -1}/mathrm {B} (alpha operatorname {Prior}beta operatorname {Prior})right)dx}[6pt]={} {frac} {x^{s+alpha operatorname {Prior} -1}(1-x)^{n-s+beta operatorname {Prior} -1} {int _{0}}left(x^{s+alpha operatorname {Prior} -1}(1-x)^{n-s+beta operatorname {Prior} -1}right)dx}[6pt]={} {frac} {x^{s+alpha operatorname {Prior} -1}(1-x)^{n-s+beta operatorname {Prior} -1}}{mathrm {B} (s+alpha operatorname {Prior}n-s+beta operatorname {Prior}}}}}}}end{aligned}}}}}} {Prior}} {Prior}}} {Prior}}}}} {Prior}}}} {Prior}}}}}}}} {Prior}}} {Prior}}}}}}}}}}}} {Prior}}}}}}} {Prior}}}}}}} {Prior}}}}} {Prior}}}}}}}}}}} {Prior}}}}}}}}}}}}}}}}}}}}}} {Prior}}}}}}}}}}}}} {

El coeficiente binomial

()s+fs)=()ns)=()s+f)!s!f!=n!s!()n− − s)!{displaystyle {s+f choose s}={n choose s}={frac {(s+f)}{s!f}}}={frac {n}{s! {n-s)}}}}}}}}} {

aparece tanto en el numerador como en el denominador de la probabilidad posterior, y no depende de la variable de integración x, por lo que se cancela, y es irrelevante para el resultado final. De manera similar, el factor de normalización para la probabilidad previa, la función beta B(αPrior,βPrior) se cancela y es irrelevante para el resultado final. Se puede obtener el mismo resultado de probabilidad posterior si se usa una probabilidad previa no normalizada.

xα α Prior− − 1()1− − x)β β Prior− − 1{displaystyle x^{alpha operatorname {Prior} -1}(1-x)^{beta operatorname {Prior} -1}}

porque todos los factores de normalización se anulan. Varios autores (incluido el propio Jeffreys) utilizan una fórmula previa no normalizada ya que la constante de normalización se cancela. El numerador de la probabilidad posterior termina siendo simplemente el producto (no normalizado) de la probabilidad anterior y la función de probabilidad, y el denominador es su integral de cero a uno. La función beta en el denominador, B(s + α Prior, ns + β Antes), aparece como una constante de normalización para garantizar que la probabilidad posterior total se integre a la unidad.

La relación s/n del número de éxitos al número total de intentos es una estadística suficiente en el caso binomial, que es relevante para los siguientes resultados.

Para la probabilidad previa de Bayes' (Beta(1,1)), la probabilidad posterior es:

<math alttext="{displaystyle operatorname {posteriorprobability} (p=xmid s,f)={frac {x^{s}(1-x)^{n-s}}{mathrm {B} (s+1,n-s+1)}},{text{ with mean }}={frac {s+1}{n+2}},{text{ (and mode }}={frac {s}{n}}{text{ if }}0<sposteriorprobabilidad⁡ ⁡ ()p=x▪ ▪ s,f)=xs()1− − x)n− − sB()s+1,n− − s+1),con media=s+1n+2,(y modo)=snsi0.s.n).{displaystyle operatorname {posteriorprobability} (p=xmid s,f)={frac {x^{s}(1-x)^{n-s}{mathrm {B} (s+1,n-s+1)}},{text{ with mean mean mean mean mean mean mean {fnfn} {fn+2}, {text{ (y mode }={frac {s}{n}}{text{ if }0cantados}}}}}}} {fn} {fnfn}}}} {fnfn}} {fnfnKfnK}}}}}} {fn}}}}}}}}}}}}}}} {\fnfnfnfnfnfnfnfnfnfnfnfnfn}fnfnfnfnfnfnfnfnfnfnfnfnfn}fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfn}fnfn<img alt="{displaystyle operatorname {posteriorprobability} (p=xmid s,f)={frac {x^{s}(1-x)^{n-s}}{mathrm {B} (s+1,n-s+1)}},{text{ with mean }}={frac {s+1}{n+2}},{text{ (and mode }}={frac {s}{n}}{text{ if }}0<s

Para la probabilidad previa de Jeffreys' (Beta(1/2,1/2)), la probabilidad posterior es:

<math alttext="{displaystyle operatorname {posteriorprobability} (p=xmid s,f)={x^{s-{tfrac {1}{2}}}(1-x)^{n-s-{frac {1}{2}}} over mathrm {B} (s+{tfrac {1}{2}},n-s+{tfrac {1}{2}})},{text{ with mean }}={frac {s+{tfrac {1}{2}}}{n+1}},{text{ (and mode= }}{frac {s-{tfrac {1}{2}}}{n-1}}{text{ if }}{tfrac {1}{2}}<sposteriorprobabilidad⁡ ⁡ ()p=x▪ ▪ s,f)=xs− − 12()1− − x)n− − s− − 12B()s+12,n− − s+12),con media=s+12n+1,(y modo=s− − 12n− − 1si12.s.n− − 12).{displaystyle operatorname {posteriorprobability} (p=xmid s,f)={x^{s-{tfrac {1}{2}} {1-x)}{n-s-{frac {1}{2}}} over mathrm {B} (s+{tfrac {1}{2}},n-s+{tfrac {1}{2}}}}} {text{ with mean }={frac {s+{tfrac {1}{2}} {n+1}}} {text{ (y modo= } {frac {fnMicroc {1}{2}} {n-1} {text{ if }{tfrac {1}{2} {c} {tfrac {1} {2}}}}} {cc}} {c}}}} {cc}}}} {cH00}}}}} {cH00}}} {c}}}}}} {c}}}}} {c}}}}} {ccccccc}}}}}}}}}}}} {ccccccc}}}}}}}}}}} {ccccccccccccccccccccccc}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {c<img alt="{displaystyle operatorname {posteriorprobability} (p=xmid s,f)={x^{s-{tfrac {1}{2}}}(1-x)^{n-s-{frac {1}{2}}} over mathrm {B} (s+{tfrac {1}{2}},n-s+{tfrac {1}{2}})},{text{ with mean }}={frac {s+{tfrac {1}{2}}}{n+1}},{text{ (and mode= }}{frac {s-{tfrac {1}{2}}}{n-1}}{text{ if }}{tfrac {1}{2}}<s

y para el Haldane probabilidad anterior (Beta(0,0)), la probabilidad posterior es:

<math alttext="{displaystyle operatorname {posteriorprobability} (p=xmid s,f)={frac {x^{s-1}(1-x)^{n-s-1}}{mathrm {B} (s,n-s)}},{text{ with mean}}={frac {s}{n}},{text{ (and mode= }}{frac {s-1}{n-2}}{text{ if }}1<sposteriorprobabilidad⁡ ⁡ ()p=x▪ ▪ s,f)=xs− − 1()1− − x)n− − s− − 1B()s,n− − s),con media=sn,(y modo=s− − 1n− − 2si1.s.n− − 1).{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fn-s-1} {fn-s} {} {fn-s]} {fn-s]} {fn0} {fnfnK} {fnMicrosoft}} {f}} {f}} {f}}}}}}} {ccf}}f}}}f}fnfn} {cccfnfnfnfnfnfnfnfnfnfnfnfnfncfnfnfnfnfnfnfnfnfnfnfn}fnfnfnfn}fnfnfnfnfnfnMin<img alt="{displaystyle operatorname {posteriorprobability} (p=xmid s,f)={frac {x^{s-1}(1-x)^{n-s-1}}{mathrm {B} (s,n-s)}},{text{ with mean}}={frac {s}{n}},{text{ (and mode= }}{frac {s-1}{n-2}}{text{ if }}1<s

De las expresiones anteriores se deduce que para s/n = 1/2) las tres probabilidades previas anteriores dan como resultado la ubicación idéntica para la media de probabilidad posterior = modo = 1/2. Para s/n < 1/2, la media de las probabilidades posteriores, utilizando los siguientes anteriores, son tales que: media para Bayes anterior > significa para Jeffreys anterior > significa para Haldane antes. Para s/n > 1/2 el orden de estas desigualdades se invierte de modo que la probabilidad previa de Haldane da como resultado la media posterior más grande. La probabilidad previa de Haldane Beta(0,0) da como resultado una densidad de probabilidad posterior con media (el valor esperado para la probabilidad de éxito en el "siguiente" prueba) idéntica a la relación s/n del número de éxitos con respecto al número total de pruebas. Por lo tanto, el previo de Haldane da como resultado una probabilidad posterior con un valor esperado en el próximo ensayo igual a la máxima verosimilitud. La probabilidad previa de Bayes Beta(1,1) da como resultado una densidad de probabilidad posterior con moda idéntica a la relación s/n (la máxima verosimilitud).

En el caso de que el 100% de los ensayos hayan sido exitosos s = n, la Bayes probabilidad previa Beta(1,1) da como resultado un valor esperado posterior igual a la regla de sucesión (n + 1)/(n + 2), mientras que la Beta previa de Haldane (0,0) da como resultado un valor esperado posterior de 1 (certeza absoluta de éxito en el próximo ensayo). La probabilidad previa de Jeffrey da como resultado un valor esperado posterior igual a (n + 1/2)/(n + 1). Perks (p. 303) señala: "Esto proporciona una nueva regla de sucesión y expresa un 'razonable' posición a tomar, a saber, que después de una racha ininterrumpida de n éxitos asumimos una probabilidad para el siguiente ensayo equivalente a la suposición de que estamos a la mitad de una racha promedio, es decir, que esperamos una falla una vez en (2n + 2) ensayos. La regla de Bayes-Laplace implica que estamos al final de una ejecución promedio o que esperamos una falla una vez en (n + 2) intentos. La comparación claramente favorece el nuevo resultado (lo que ahora se llama Jeffreys anterior) desde el punto de vista de la 'razonabilidad'.

Por el contrario, en el caso de que el 100 % de las pruebas hayan fallado (s = 0), la probabilidad previa de Bayes Beta(1,1) da como resultado un valor esperado posterior para el éxito en la próxima prueba igual a 1/(n + 2), mientras que la Beta anterior de Haldane (0,0) da como resultado un valor esperado posterior de éxito en la próxima prueba de 0 (certeza absoluta de fracaso en la próxima prueba). La probabilidad previa de Jeffrey da como resultado un valor esperado posterior para el éxito en la siguiente prueba igual a (1/2)/(n + 1), que Perks (p. 303) señala: " es un resultado mucho más razonablemente remoto que el resultado de Bayes-Laplace 1/(n + 2)".

Jaynes cuestiona (para el anterior uniforme Beta(1,1)) el uso de estas fórmulas para los casos s = 0 o s = n porque las integrales no convergen (Beta(1,1) es un previo impropio de s = 0 o s = n). En la práctica, se suelen cumplir las condiciones 0<s<n necesarias para que exista un modo entre ambos extremos para el bayesiano previo, y por tanto el bayesiano previo (siempre que 0 < s < n) da como resultado un modo posterior ubicado entre ambos extremos del dominio.

Como se señala en la sección sobre el estado de sucesión, K. Pearson mostró que después de los éxitos n en ensayos la probabilidad posterior (basada en la distribución Bayes Beta(1,1) como la probabilidad anterior) que la siguiente (n+ 1) todos los ensayos serán éxitos es exactamente 1/2, sea cual sea el valor den. Basado en la distribución Haldane Beta(0,0) como probabilidad previa, esta probabilidad posterior es 1 (absoluta certeza que después de los éxitos en n prueba el siguiente (n+ 1) todos los ensayos serán éxitos). Las ventajas (pág. 303) muestran que, por lo que ahora se conoce como los Jeffreys anteriores, esta probabilidad es ((n+ 1/2)/(n+ 1)(n+ 3/2)/(n+ 2)...(2)n+ 1/2)/(2)n+ 1), que para n= 1, 2, 3 da 15/24, 315/480, 9009/13440; abordando rápidamente un valor límite 1/2=0,0710678...... {displaystyle 1/{sqrt {2}=0.70710678ldots} como n tiende a infinito. Perks comenta que lo que ahora se conoce como el Jeffreys anterior: "es claramente más 'razonable' que el resultado de Bayes-Laplace o el resultado de la regla alternativa (Haldane) rechazada por Jeffreys que da certeza como la probabilidad. Claramente proporciona una correspondencia mucho mejor con el proceso de inducción. Si es 'absolutamente' razonable para el propósito, es decir, si es lo suficientemente grande, sin el absurdo de alcanzar la unidad, es un asunto para que otros decidan. Pero debe darse cuenta de que el resultado depende de la asunción de indiferencia completa y ausencia de conocimiento antes del experimento de muestreo."

Las siguientes son las varianzas de la distribución posterior obtenidas con estas tres distribuciones de probabilidad previas:

para la probabilidad previa de Bayes' (Beta(1,1)), la varianza posterior es:

diferencia=()n− − s+1)()s+1)()3+n)()2+n)2,paras=n2resultados en diferencias=112+4n{displaystyle {text{variance}}={frac {(n-s+1)}{(3+n)(2+n)}}}},{text{ which for }s={frac {fn} {fn} {fn} {fn}} {fnfn} {fn} {\fn}} {fn}\fn}fn} {fn}\fnfn}\\fn\fn\fnfnfn\fnfn}\\\fnfn}\\\\\\fnfnfnfn}fnfn\\\\fn\\\\\fnfnfn\fnfn\\\fn\fnfn}\\\\\\fnfnfn}\\fn}\fn}fn}\\\fn\\fn\\\fn Frac {1}{12+4n}}}

para la probabilidad previa de Jeffreys' (Beta(1/2,1/2)), la varianza posterior es:

diferencia=()n− − s+12)()s+12)()2+n)()1+n)2,paras=n2resultados en var=18+4n{displaystyle {text{variance}}={frac {n-s+{frac {1}{2}})(s+{frac {1}{2}}}}{(2+n)(1+n)}}{text{ which for }s={frac}s={frac] {n}{2}{text{ results in var}={frac {1}{8+4n}

y para la probabilidad previa de Haldane (Beta(0,0)), la varianza posterior es:

diferencia=()n− − s)s()1+n)n2,paras=n2resultados en diferencias=14+4n{displaystyle {text{variance}}={frac {(n-s)s}{(1+n)n^{2}}}}},{text{ which for }s={frac {n}{2}{text{ results in variation}={frac {1}{4+4n}

So, as remarked by Silvey, for large n, the variance is small and hence the posterior distribution is highly concentrated, whereas the assumed prior distribution was very diffuse. This is in accord with what one would hope for, as vague prior knowledge is transformed (through Bayes theorem) into a more precise posterior knowledge by an informative experiment. For small n the Haldane Beta(0,0) prior results in the largest posterior variance while the Bayes Beta(1,1) prior results in the more concentrated posterior. Jeffreys prior Beta(1/2,1/2) results in a posterior variance in between the other two. As n increases, the variance rapidly decreases so that the posterior variance for all three priors converges to approximately the same value (approaching zero variance as n → ∞). Recalling the previous result that the Haldane prior probability Beta(0,0) results in a posterior probability density with mean (the expected value for the probability of success in the "next" trial) identical to the ratio s/n of the number of successes to the total number of trials, it follows from the above expression that also the Haldane prior Beta(0,0) results in a posterior with variance identical to the variance expressed in terms of the max. likelihood estimate s/n and sample size (in § Variance):

diferencia=μ μ ()1− − μ μ )1+.. =()n− − s)s()1+n)n2{displaystyle {text{variance}}={frac {mu (1-mu)}{1+nu {fnh}} {fn}}}}

con la media μ = s/n y el tamaño de la muestra ν = n.

En la inferencia bayesiana, usar una distribución previa Beta(αPrior,βPrior) antes de una distribución binomial es equivalente a agregar (αAnterior − 1) pseudoobservaciones de "éxito" y (βAnterior − 1) pseudoobservaciones de "fracaso" al número real de éxitos y fracasos observados, y luego estimar el parámetro p de la distribución binomial por la proporción de éxitos sobre observaciones reales y pseudoobservaciones. Una Beta anterior uniforme (1,1) no suma (o resta) ninguna pseudo-observación ya que para Beta (1,1) se sigue que (αPrior − 1) = 0 y (βPrevia − 1) = 0. La Beta previa de Haldane (0,0) resta una pseudo observación de cada una y la Beta previa de Jeffreys (1/2, 1/2) resta 1/2 de la pseudo observación del éxito e igual número de fracasos. Esta sustracción tiene el efecto de suavizar la distribución posterior. Si la proporción de aciertos no es del 50% (s/n ≠ 1/2) valores de αPrior y βPrevio menor que 1 (y por lo tanto negativo (αPrior − 1) y (βPrior − 1)) favorecen la escasez, es decir, distribuciones donde el parámetro p está más cerca de 0 o 1. En efecto, los valores de αPrior y βPrior entre 0 y 1, cuando operan juntos, funcionan como un parámetro de concentración..

Los gráficos adjuntos muestran las funciones de densidad de probabilidad posterior para tamaños de muestra n ∈ {3,10,50}, éxitos s ∈ {n/2,n/4} y Beta(αPrior,βPrior) ∈ {Beta(0,0),Beta(1 /2,1/2),Beta(1,1)}. También se muestran los casos de n = {4,12,40}, éxito s = {n/4} y Beta(αPrior,βPrior) ∈ {Beta(0,0),Beta(1/2,1/2),Beta(1,1)}. La primera gráfica muestra los casos simétricos, para éxitos s ∈ {n/2}, con media = moda = 1/2 y la segunda gráfica muestra los casos sesgados s ∈ {n/4}. Las imágenes muestran que hay poca diferencia entre los anteriores para el posterior con un tamaño de muestra de 50 (caracterizado por un pico más pronunciado cerca de p = 1/2). Aparecen diferencias significativas para tamaños de muestra muy pequeños (en particular para la distribución más plana para el caso degenerado de tamaño de muestra = 3). Por lo tanto, los casos sesgados, con aciertos s = {n/4}, muestran un mayor efecto de la elección previa, con un tamaño de muestra pequeño, que los casos simétricos. Para distribuciones simétricas, la beta anterior de Bayes (1,1) da como resultado la distribución más "con picos" y las distribuciones posteriores más altas y la Beta previa de Haldane (0,0) dan como resultado la distribución máxima más plana y más baja. La Beta anterior de Jeffreys (1/2, 1/2) se encuentra entre ellos. Para distribuciones casi simétricas, no demasiado sesgadas, el efecto de las distribuciones previas es similar. Para un tamaño de muestra muy pequeño (en este caso, para un tamaño de muestra de 3) y una distribución sesgada (en este ejemplo, para s ∈ {n/4}), Haldane prior puede dan como resultado una distribución en forma de J invertida con una singularidad en el extremo izquierdo. Sin embargo, esto sucede solo en casos degenerados (en este ejemplo, n = 3 y, por lo tanto, s = 3/4 < 1, un valor degenerado porque s debería ser mayor que la unidad para que el posterior de Haldane antes tenga un modo ubicado entre los extremos, y porque s = 3/4 no es un número entero, por lo tanto, viola la suposición inicial de una distribución binomial para el probabilidad) y no es un problema en casos genéricos de tamaño de muestra razonable (tal que la condición 1 < s < n − 1, necesaria para que exista una moda entre ambos extremos, se cumple).

En el capítulo 12 (p. 385) de su libro, Jaynes afirma que el Haldane anterior Beta(0,0) describe un estado previo de conocimiento de completa ignorancia, donde ni siquiera estamos seguros de si es físicamente posible que un experimento produzca un éxito o un fracaso, mientras que la Beta anterior (uniforme) de Bayes (1,1) se aplica si se sabe que ambos resultados binarios son posibles. Jaynes afirma: "interpretar el anterior de Bayes-Laplace (Beta(1,1)) como que describe no un estado de completa ignorancia, sino el estado de conocimiento en el que hemos observado un éxito y un fracaso... una vez que hemos visto al menos un éxito y un fracaso, entonces sabemos que el experimento es verdaderamente binario, en el sentido de posibilidad física." Jaynes no habla específicamente de la Beta anterior de Jeffrey (1/2, 1/2) (la discusión de Jaynes sobre 'Jeffreys anterior' en las páginas 181, 423 y en el capítulo 12 del libro de Jaynes se refiere en cambio a lo impropio, no -normalizado, anterior a "1/p dp" introducido por Jeffreys en la edición de 1939 de su libro, siete años antes de que introdujera lo que ahora se conoce como anterior invariante de Jeffreys: la raíz cuadrada del determinante de la matriz de información de Fisher. "1/p" es anterior invariante de Jeffreys (1946) para la distribución exponencial, no para las distribuciones de Bernoulli o binomial). Sin embargo, de la discusión anterior se deduce que Jeffreys Beta (1/2,1/2) anterior representa un estado de conocimiento entre Haldane Beta (0,0) y Bayes Beta (1,1) anterior.

Del mismo modo, Karl Pearson en su libro de 1892 The Grammar of Science (p. 144 de la edición de 1900) sostuvo que el uniforme previo de Bayes (Beta(1,1) no era un previo de ignorancia total, y que debería usarse cuando información previa justificada para "distribuir nuestra ignorancia por igual"". K. Pearson escribió: "Sin embargo, la única suposición que parece que hemos hecho es esta: que, sin saber nada de la naturaleza, la rutina y anomy (del griego ανομία, a saber: a- "sin", y nomos "ley") deben considerarse igualmente probables. Ahora bien, no estábamos realmente justificados al hacer incluso esta suposición, porque implica un conocimiento que no poseemos sobre la naturaleza. Usamos nuestra experiencia de la constitución y acción de las monedas en general para afirmar que las caras y las cruces son igualmente probables, pero tenemos No hay derecho a afirmar ante la experiencia que, como nada sabemos de la naturaleza, la rutina y la ruptura son igualmente probables En nuestra ignorancia, debemos considerar ante la experiencia que la naturaleza puede consistir en todas las rutinas, todas las anomias (falta de normas) o una mezcla de las mismas. dos en cualquier proporción, y que todos ellos son igualmente probables. Cuál de estas constituciones después de la experiencia es la más probable debe depender claramente de cómo haya sido esa experiencia."

Si hay suficientes datos de muestreo, y el modo de probabilidad posterior no está ubicado en uno de los extremos del dominio (x=0 o x=1), los tres priores de Bayes (Beta (1,1)), Jeffreys (Beta(1/2,1/2)) y Haldane (Beta(0,0)) deberían producir densidades de probabilidad posteriores similares. De lo contrario, como Gelman et al. (p. 65), "si hay tan pocos datos disponibles que la elección de una distribución previa no informativa hace una diferencia, se debe incluir información relevante en la distribución previa", o como Berger (p. 125) señala "cuando diferentes a priori razonables arrojan respuestas sustancialmente diferentes, ¿puede ser correcto afirmar que existe una única respuesta? ¿No sería mejor admitir que existe incertidumbre científica, dependiendo la conclusión de creencias previas?."

Ocurrencia y aplicaciones

Estadísticas de pedidos

La distribución beta tiene una importante aplicación en la teoría de las estadísticas de orden. Un resultado básico es que la distribución del késimo más pequeño de una muestra de tamaño n de una distribución uniforme continua tiene una distribución beta. Este resultado se resume como:

U()k)♪ ♪ Beta⁡ ⁡ ()k,n+1− − k).{displaystyle U_{(k)}sim operatorname {Beta} (k,n+1-k). }

A partir de esto, y de la aplicación de la teoría relacionada con la transformada integral de probabilidad, se puede derivar la distribución de cualquier estadístico de orden individual a partir de cualquier distribución continua.

Lógica subjetiva

En la lógica estándar, las proposiciones se consideran verdaderas o falsas. En contraposición, la lógica subjetiva supone que los humanos no pueden determinar con absoluta certeza si una proposición sobre el mundo real es absolutamente verdadera o falsa. En lógica subjetiva, las estimaciones de probabilidad a posteriori de eventos binarios pueden representarse mediante distribuciones beta.

Análisis de ondas

Una ondícula es una oscilación similar a una onda con una amplitud que comienza en cero, aumenta y luego vuelve a disminuir hasta cero. Por lo general, se puede visualizar como una "breve oscilación" que pronto decae. Las wavelets se pueden usar para extraer información de muchos tipos diferentes de datos, incluidos, entre otros, señales de audio e imágenes. Por lo tanto, las wavelets se diseñan a propósito para que tengan propiedades específicas que las hagan útiles para el procesamiento de señales. Las ondículas se localizan tanto en el tiempo como en la frecuencia, mientras que la transformada de Fourier estándar solo se localiza en la frecuencia. Por lo tanto, las Transformadas de Fourier estándar solo son aplicables a procesos estacionarios, mientras que las wavelets son aplicables a procesos no estacionarios. Las wavelets continuas se pueden construir en base a la distribución beta. Las ondículas beta se pueden ver como una variedad suave de las ondículas de Haar cuya forma se ajusta con precisión mediante dos parámetros de forma α y β.

Genética de poblaciones

El modelo de Balding-Nichols es una parametrización de dos parámetros de la distribución beta utilizada en genética de poblaciones. Es una descripción estadística de las frecuencias alélicas en los componentes de una población subdividida:

α α =μ μ .. ,β β =()1− − μ μ ).. ,{displaystyle {begin{aligned}alpha {fnMicrosoft Sans Serif}

Donde .. =α α +β β =1− − FF{displaystyle nu =alpha +beta ={frac {1-F}{F}} y <math alttext="{displaystyle 0<F0.F.1{displaystyle 0 realizadas<img alt="0<F; aquí F es la distancia genética entre dos poblaciones.

Gestión de proyectos: modelado de costos y cronogramas de tareas

La distribución beta se puede usar para modelar eventos que están restringidos a tener lugar dentro de un intervalo definido por un valor mínimo y máximo. Por esta razón, la distribución beta junto con la distribución triangular se usa mucho en PERT, el método de la ruta crítica (CPM), el modelo de programación de costos conjuntos (JCSM) y otros sistemas de gestión/control de proyectos para describir el tiempo de finalización y el costo. de una tarea En la gestión de proyectos, los cálculos abreviados se utilizan ampliamente para estimar la media y la desviación estándar de la distribución beta:

μ μ ()X)=a+4b+c6σ σ ()X)=c− − a6{displaystyle {begin{aligned}mu (X) limit={frac {a+4b+c}{6}\sigma (X) {c-a}{6}end{aligned}}

donde a es el mínimo, c es el máximo y b es el valor más probable (la moda para α > 1 y β > 1).

La estimación anterior para el medio μ μ ()X)=a+4b+c6{displaystyle mu (X)={frac {a+4b+c}{6}}} se conoce como la estimación de tres puntos del PERT y es exacta para cualquiera de los siguientes valores β (para el α arbitrario dentro de estos rangos):

β = α (caso simétrico) con desviación estándar σ σ ()X)=c− − a21+2α α {displaystyle sigma (X)={frac {c-a}{2{sqrt {1+2alpha }, esquedad = 0, y exceso de kurtosis = − − 63+2α α {fnMicroc} {-6}{3+2alpha }

Beta Distribution beta=alpha from 1.05 to 4.95.svg

o

β = 6 − α para 5 años α " 1 ", con desviación estándar
σ σ ()X)=()c− − a)α α ()6− − α α )67,{displaystyle sigma (X)={frac {(c-a){sqrt {alpha (6-alpha)}}}}{6{sqrt {7}}}}}

# Skewness # ()3− − α α )72α α ()6− − α α ){displaystyle {frac {(3-alpha){sqrt {7}}{2{sqrt {alpha (6-alpha)}}}}}} {cHFF}}}}}} {cH00}}}}}}}}} {cH}}}}}}} {cH}}}}}}} {ccH0}}}}}}}}}}}}}}}} {, y exceso de kurtosis = 21α α ()6− − α α )− − 3{displaystyle {frac {21}{alpha (6-alpha)}-3}}

Beta Distribution beta=6-alpha from 1.05 to 4.95.svg

La estimación anterior para la desviación estándar σ(X) = (ca)/6 es exacta para cualquiera de los siguientes valores de α y β:

α = β = 4 (simétrica) con esqueje = 0, y kurtosis exceso = −6/11.
β = 6 − α y α α =3− − 2{displaystyle alpha =3-{sqrt {2}} (de cola derecha, mordedura positiva) =12{displaystyle ={frac {1}{sqrt {2}} {}} {f}} {f}}} {f}}} {fn}}} {fn}}}}}}}}} {fnK}}}}} {f}}}}} {f}}}}}}}, y exceso de kurtosis = 0
β = 6 − α y α α =3+2{displaystyle alpha =3+{sqrt {2}} (de cola izquierda, mordedura negativa) =− − 12{displaystyle ={frac {-1}{sqrt {2}}}, y exceso de kurtosis = 0

Beta Distribution for conjugate alpha beta.svg

De lo contrario, estas pueden ser aproximaciones deficientes para distribuciones beta con otros valores de α y β, mostrando errores promedio del 40 % en la media y del 549 % en la varianza.

Generación de variables aleatorias

Si X y Y son independientes, con X♪ ♪ .. ()α α ,Silencio Silencio ){displaystyle Xsim Gamma (alphatheta)} y Y♪ ♪ .. ()β β ,Silencio Silencio ){displaystyle Ysim Gamma (betatheta)} entonces

XX+Y♪ ♪ B()α α ,β β ).{displaystyle {frac {X}{X+Y}sim mathrm {B} (alphabeta). }

Así que un algoritmo para generar variatos beta es generar XX+Y{displaystyle {frac {X}{X+Y}}}, donde X es un variate gamma con parámetros (α, 1) y Y es un variate gamma independiente con parámetros (β, 1). De hecho, aquí. XX+Y{displaystyle {frac {X}{X+Y}}} y X+Y{displaystyle X+Y. son independientes, y X+Y♪ ♪ .. ()α α +β β ,Silencio Silencio ){displaystyle X+Ysim Gamma (alpha +betatheta)}. Si Z♪ ♪ .. ()γ γ ,Silencio Silencio ){displaystyle Zsim Gamma (gammatheta)} y Z{displaystyle Z} es independiente de X{displaystyle X} y Y{displaystyle Sí., entonces X+YX+Y+Z♪ ♪ B()α α +β β ,γ γ ){displaystyle {frac {X+Y}{X+Y+Z}sim mathrm {B} (alpha +betagamma)} y X+YX+Y+Z{displaystyle {frac {X+Y}{X+Y+Z}} es independiente de XX+Y{displaystyle {frac {X}{X+Y}}}. Esto demuestra que el producto de la independencia B()α α ,β β ){displaystyle mathrm {B} (alphabeta)} y B()α α +β β ,γ γ ){displaystyle mathrm {B} (alpha +betagamma)} variables aleatorias B()α α ,β β +γ γ ){displaystyle mathrm {B} (alphabeta +gamma)} variable aleatoria.

Además, el kto order statistic of n variatos distribuidos uniformemente B()k,n+1− − k){displaystyle mathrm {B} (k,n+1-k)}, por lo que una alternativa si α y β son pequeños enteros es generar α + β − 1 variates uniformes y elegir el α-th menor.

Otra forma de generar la distribución Beta es mediante el modelo de urna Pólya. De acuerdo con este método, uno comienza con una "urna" con α "negro" bolas y β "blanco" bolas y dibujar uniformemente con el reemplazo. En cada ensayo se añade una bola adicional según el color de la última bola extraída. Asintóticamente, la proporción de bolas negras y blancas se distribuirá según la distribución Beta, donde cada repetición del experimento producirá un valor diferente.

También es posible utilizar el muestreo por transformada inversa.

Aproximación normal a la distribución Beta

Distribución beta B()α α ,β β ){displaystyle mathrm {B} (alphabeta)} con α ~ β y α y β 1 es aproximadamente normal con media 1/2 y varianza 1/4(2α + 1). Si α ≥ β la aproximación normal se puede mejorar tomando el cubo raíz del logaritmo de la reciprocal de B()α α ,β β ){displaystyle mathrm {B} (alphabeta)}

Historia

Thomas Bayes, en un artículo póstumo publicado en 1763 por Richard Price, obtuvo una distribución beta como la densidad de la probabilidad de éxito en los ensayos de Bernoulli (ver § Aplicaciones, inferencia bayesiana), pero el artículo no analiza ninguno de los momentos de la distribución beta o discutir alguna de sus propiedades.

Karl Pearson analizó la distribución beta como solución Tipo I de Pearson distribuciones

La primera discusión moderna sistemática sobre la distribución beta probablemente se deba a Karl Pearson. En los artículos de Pearson, la distribución beta se expresa como una solución de una ecuación diferencial: la distribución Tipo I de Pearson, a la que es esencialmente idéntica, excepto por cambios arbitrarios y cambios de escala (las distribuciones beta y Tipo I de Pearson). siempre se puede igualar mediante la elección adecuada de los parámetros). De hecho, en varios libros y artículos de revistas en inglés en las pocas décadas anteriores a la Segunda Guerra Mundial, era común referirse a la distribución beta como la distribución Tipo I de Pearson. William P. Elderton en su monografía de 1906 "Curvas de frecuencia y correlación" analiza más a fondo la distribución beta como la distribución Tipo I de Pearson, incluida una discusión completa del método de los momentos para el caso de cuatro parámetros y diagramas de (lo que Elderton describe como) J-en forma de U, en forma de J, torcido en forma de "sombrero de tres picos" formas, casos de líneas rectas horizontales y en ángulo. Elderton escribió: "Estoy principalmente en deuda con el profesor Pearson, pero la deuda es de un tipo por el cual es imposible ofrecer un agradecimiento formal". Elderton en su monografía de 1906 proporciona una impresionante cantidad de información sobre la distribución beta, incluidas ecuaciones para el origen de la distribución elegida como moda, así como para otras distribuciones de Pearson: tipos I a VII. Elderton también incluyó una serie de apéndices, incluido un apéndice ("II") sobre las funciones beta y gamma. En ediciones posteriores, Elderton agregó ecuaciones para el origen de la distribución elegida como media y análisis de las distribuciones de Pearson VIII a XII.

Como señalaron Bowman y Shenton, "Fisher y Pearson tenían una diferencia de opinión en el enfoque de la estimación de (parámetros), en particular en relación con (el método de Pearson de) momentos y (Fisher' s método de) máxima verosimilitud en el caso de la distribución Beta." También según Bowman y Shenton, “el caso de un modelo de Tipo I (distribución beta) que fue el centro de la controversia fue pura casualidad. Habría sido difícil encontrar un modelo más complicado de 4 parámetros." El largo conflicto público de Fisher con Karl Pearson puede seguirse en una serie de artículos en revistas prestigiosas. Por ejemplo, con respecto a la estimación de los cuatro parámetros para la distribución beta, y la crítica de Fisher al método de momentos de Pearson por ser arbitrario, consulte el artículo de Pearson 'Método de momentos y método de máxima verosimilitud" (publicado tres años después de su retiro del University College de Londres, donde su puesto se había dividido entre Fisher y el hijo de Pearson, Egon) en el que Pearson escribe "Leo" (artículo de Koshai en el Journal of the Royal Statistical Society, 1933) que, hasta donde yo sé, es el único caso actualmente publicado de la aplicación del método del profesor Fisher. Para mi asombro, ese método depende de calcular primero las constantes de la curva de frecuencia mediante el Método de los Momentos (Pearson) y luego superponerlas, según lo que Fisher llama "el Método de Máxima Verosimilitud" una mayor aproximación para obtener, lo que tiene, obtendrá así, "valores más eficientes" de las constantes de la curva."

El tratado de David y Edwards sobre la historia de la estadística cita el primer tratamiento moderno de la distribución beta, en 1911, utilizando la designación beta que se ha vuelto estándar, debido a Corrado Gini, un estadístico italiano, demógrafo y sociólogo, quien desarrolló el coeficiente de Gini. N.L.Johnson y S.Kotz, en su monografía completa y muy informativa sobre personalidades históricas destacadas en ciencias estadísticas, acreditan a Corrado Gini como "uno de los primeros bayesianos... que se ocupó del problema de obtener los parámetros de una distribución Beta inicial, destacando técnicas que anticiparon el advenimiento del llamado enfoque empírico de Bayes."

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save