Distribución a priori conjugada

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En la teoría de probabilidad bayesiana, si la distribución posterior p (θ | x) está en la misma familia de distribución de probabilidad que la distribución de probabilidad anterior p (θ), la distribución anterior y la posterior se denominan distribuciones conjugadas, y la anterior se denomina distribución previa conjugada. para la función de verosimilitud p (x | θ).

Un previo conjugado es una conveniencia algebraica, que da una expresión de forma cerrada para el posterior; de lo contrario, puede ser necesaria la integración numérica. Además, los a priori conjugados pueden dar intuición, al mostrar de manera más transparente cómo una función de probabilidad actualiza una distribución a priori.

El concepto, así como el término "conjugado anterior", fueron introducidos por Howard Raiffa y Robert Schlaifer en su trabajo sobre la teoría de la decisión bayesiana. Un concepto similar había sido descubierto de forma independiente por George Alfred Barnard.

Ejemplo

La forma del anterior conjugado generalmente se puede determinar mediante la inspección de la densidad de probabilidad o la función de masa de probabilidad de una distribución. Por ejemplo, considere una variable aleatoria que consiste en el número de éxitos sen los norteensayos de Bernoulli con una probabilidad de éxito desconocida qen [0,1]. Esta variable aleatoria seguirá la distribución binomial, con una función de masa de probabilidad de la forma{displaystyle p(s)={n elegir s}q^{s}(1-q)^{ns}}

El previo conjugado habitual es la distribución beta con parámetros (alfa, beta):p(q)={q^{alpha -1}(1-q)^{beta -1} over mathrm {B} (alpha,beta)}

donde alfay betase eligen para reflejar cualquier creencia o información existente (alfa= 1 y beta= 1 darían una distribución uniforme) y Β (alfa, beta) es la función Beta que actúa como una constante de normalización.

En este contexto, alfay betase denominan hiperparámetros (parámetros del anterior), para distinguirlos de los parámetros del modelo subyacente (aquí q). Es una característica típica de los previos conjugados que la dimensionalidad de los hiperparámetros es uno mayor que la de los parámetros de la distribución original. Si todos los parámetros son valores escalares, esto significa que habrá un hiperparámetro más que un parámetro; pero esto también se aplica a los parámetros con valores vectoriales y matriciales. (Consulte el artículo general sobre la familia exponencial y considere también la distribución de Wishart, antes conjugada de la matriz de covarianza de una distribución normal multivariante, para ver un ejemplo en el que se trata de una gran dimensionalidad).

Si luego muestreamos esta variable aleatoria y obtenemos s éxitos y f = n - s fracasos, tenemos{displaystyle {begin{alineado}P(s,fmid q=x)&={s+f elegir s}x^{s}(1-x)^{f},\P(q =x)&={x^{alpha -1}(1-x)^{beta -1} over mathrm {B} (alpha,beta)},\P(q=x mid s,f)&={frac {P(s,fmid x)P(x)}{int P(s,fmid y)P(y)dy}}\&={{ {s+f elegir s}x^{s+alpha -1}(1-x)^{f+beta -1}/mathrm {B} (alpha,beta)} over int_{ y=0}^{1}left({s+f elegir s}y^{s+alpha -1}(1-y)^{f+beta -1}/mathrm {B} (alpha,beta)right)dy}\&={x^{s+alpha -1}(1-x)^{f+beta -1} over mathrm {B} (s+alpha,f+ beta)},end{alineado}}}

que es otra distribución Beta con parámetros (alfa+ s, beta+ f). Esta distribución posterior podría usarse como distribución anterior para más muestras, con los hiperparámetros simplemente agregando cada información adicional a medida que llega.

Interpretaciones

Pseudo-observaciones

A menudo es útil pensar en los hiperparámetros de una distribución previa conjugada como correspondientes a haber observado un cierto número de pseudoobservaciones con propiedades especificadas por los parámetros. Por ejemplo, se puede pensar que los valores alfay betade una distribución beta corresponden a  alfa -1éxitos y beta-1fracasos si se usa el modo posterior para elegir un ajuste de parámetro óptimo, o alfaéxitos y fracasos.betafallos si se utiliza la media posterior para elegir un ajuste de parámetro óptimo. En general, para casi todas las distribuciones previas conjugadas, los hiperparámetros se pueden interpretar en términos de pseudoobservaciones. Esto puede ayudar tanto a proporcionar una intuición detrás de las ecuaciones de actualización a menudo desordenadas, como a ayudar a elegir hiperparámetros razonables para una anterior.

Analogía con funciones propias

Las funciones previas conjugadas son análogas a las funciones propias en la teoría de operadores, en el sentido de que son distribuciones en las que el "operador condicionante" actúa de una manera bien entendida, pensando en el proceso de cambio de lo anterior a lo posterior como un operador.

Tanto en las funciones propias como en las anteriores conjugadas, existe un espacio de dimensión finita que el operador conserva: la salida tiene la misma forma (en el mismo espacio) que la entrada. Esto simplifica enormemente el análisis, ya que por lo demás considera un espacio de dimensión infinita (espacio de todas las funciones, espacio de todas las distribuciones).

Sin embargo, los procesos son solo análogos, no idénticos: el condicionamiento no es lineal, ya que el espacio de distribuciones no está cerrado bajo combinación lineal, solo combinación convexa, y el posterior es solo de la misma forma que el anterior, no un múltiplo escalar.

Así como uno puede analizar fácilmente cómo evoluciona una combinación lineal de funciones propias bajo la aplicación de un operador (porque, con respecto a estas funciones, el operador está diagonalizado), uno puede analizar fácilmente cómo evoluciona una combinación convexa de anteriores conjugados bajo condicionamiento; esto se llama usar un hiperprior y corresponde al uso de una densidad de mezcla de anteriores conjugados, en lugar de un único conjugado previo.

Sistema dinámico

Se puede pensar en el condicionamiento sobre antecedentes conjugados como la definición de un tipo de sistema dinámico (de tiempo discreto): a partir de un conjunto dado de hiperparámetros, los datos entrantes actualizan estos hiperparámetros, por lo que uno puede ver el cambio en los hiperparámetros como una especie de "evolución temporal" de el sistema, correspondiente al "aprendizaje". Comenzar en diferentes puntos produce diferentes flujos a lo largo del tiempo. De nuevo, esto es análogo al sistema dinámico definido por un operador lineal, pero tenga en cuenta que dado que diferentes muestras conducen a diferentes inferencias, esto no depende simplemente del tiempo, sino de los datos a lo largo del tiempo. Para conocer enfoques relacionados, consulte Estimación bayesiana recursiva y Asimilación de datos.

Ejemplo práctico

Suponga que un servicio de alquiler de coches opera en su ciudad. Los conductores pueden dejar y recoger automóviles en cualquier lugar dentro de los límites de la ciudad. Puede buscar y alquilar coches mediante una aplicación.

Suponga que desea encontrar la probabilidad de que pueda encontrar un automóvil de alquiler a una corta distancia de su domicilio en cualquier momento del día.

Durante tres días, mira la aplicación y encuentra la siguiente cantidad de automóviles a poca distancia de su domicilio:{ estilo de visualización  mathbf {x} = [3,4,1]}

Si asumimos que los datos provienen de una distribución de Poisson, podemos calcular la estimación de máxima verosimilitud de los parámetros del modelo que es {textstyle lambda ={frac {3+4+1}{3}}aprox. 2,67.}Usando esta estimación de máxima verosimilitud podemos calcular la probabilidad de que haya al menos un automóvil disponible en un día determinado:{textstyle p(x>0|lambda aprox. 2,67)=1-p(x=0|lambda aprox. 2,67)=1-{frac {2,67^{0}e^{-2,67}}{ 0!}}aproximadamente 0,93}

Esta es la distribución de Poisson que es más probable que haya generado los datos observados mathbf{x}. Pero los datos también podrían haber venido de otra distribución de Poisson, por ejemplo, una con { estilo de visualización  lambda = 3}, o lambda =2, etc. De hecho, hay un número infinito de distribuciones de Poisson que podrían haber generado los datos observados y con relativamente pocos puntos de datos deberíamos estar bastante inseguros sobre cuál la distribución exacta de poisson generó estos datos. Intuitivamente, deberíamos tomar un promedio ponderado de la probabilidad de { estilo de visualización p (x> 0 |  lambda)}cada una de esas distribuciones de Poisson, ponderado por la probabilidad de cada uno, dados los datos que hemos observado mathbf{x}.

Generalmente, esta cantidad se conoce como la distribución predictiva posterior {displaystyle p(x|mathbf {x})=int _{theta }p(x|theta)p(theta |mathbf {x})dtheta ,,}donde Xes un nuevo punto de datos, mathbf{x}son los datos observados y  thetason los parámetros del modelo. Usando el teorema de Bayes podemos expandir {displaystyle p(theta |mathbf {x})={frac {p(mathbf {x} |theta)p(theta)}{p(mathbf {x})}},, }por lo tanto {displaystyle p(x|mathbf {x})=int _{theta }p(x|theta){frac {p(mathbf {x} |theta)p(theta)}{ p(mathbf {x})}}dtheta,.}. Generalmente, esta integral es difícil de calcular. Sin embargo, si elige una distribución previa conjugada p(theta), se puede derivar una expresión de forma cerrada. Esta es la columna predictiva posterior en las tablas a continuación.

Volviendo a nuestro ejemplo, si elegimos la distribución Gamma como nuestra distribución anterior sobre la tasa de las distribuciones de Poisson, entonces el predictivo posterior es la distribución binomial negativa, como se puede ver en la última columna de la tabla a continuación. La distribución Gamma está parametrizada por dos hiperparámetros Alfa Betaque tenemos que elegir. Al observar los gráficos de la distribución gamma, elegimos { estilo de visualización  alfa =  beta = 2}, que parece ser un dato previo razonable para el número promedio de autos. La elección de los hiperparámetros previos es inherentemente subjetiva y se basa en el conocimiento previo.

Dados los hiperparámetros anteriores alfay betapodemos calcular los hiperparámetros posteriores {estilo de texto alpha '=alpha +sum _{i}x_{i}=2+3+4+1=10}y{ estilo de texto  beta '=  beta + n = 2 + 3 = 5}

Dados los hiperparámetros posteriores, finalmente podemos calcular el predictivo posterior de{textstyle p(x>0|mathbf {x})=1-p(x=0|mathbf {x})=1-NBleft(0,|,10,{frac {1 {1+5}}derecha)aprox. 0,84}

Esta estimación mucho más conservadora refleja la incertidumbre en los parámetros del modelo, que tiene en cuenta el predictivo posterior.

Tabla de distribuciones conjugadas

Sea n el número de observaciones. En todos los casos a continuación, se supone que los datos constan de n puntos x_{1},ldots,x_{n}(que serán vectores aleatorios en los casos multivariados).

Si la función de verosimilitud pertenece a la familia exponencial, entonces existe un conjugado anterior, a menudo también en la familia exponencial; ver Familia exponencial: Distribuciones conjugadas.

Cuando la función de verosimilitud es una distribución discreta

ProbabilidadParámetros del modeloDistribución previa conjugadaHiperparámetros previosHiperparámetros posterioresInterpretación de hiperparámetrospredictivo posterior
Bernoullip (probabilidad)Beta{displaystyle alpha,,beta in mathbb {R} !}alpha +sum _{i=1}^{n}x_{i},,beta +n-sum _{i=1}^{n}x_{i}!alfaéxitos, betafracasosp({tilde {x}}=1)={frac {alpha '}{alpha '+beta '}}
Binomiop (probabilidad)Beta{displaystyle alpha,,beta in mathbb {R} !}alpha +sum_{i=1}^{n}x_{i},,beta +sum_{i=1}^{n}N_{i}-sum_{i=1} ^{n}x_{i}!alfaéxitos, betafracasosoperatorname {BetaBin} ({tilde {x}}|alpha ',beta ')(beta-binomial)
Binomial negativocon número de falla conocido, rp (probabilidad)Beta{displaystyle alpha,,beta in mathbb {R} !}{displaystyle alpha +rn,,beta +sum _{i=1}^{n}x_{i}!}alfatotal de éxitos, betafracasos (es decir, {displaystyle {frac {beta}{r}}}experimentos, asumiendo que rpermanece fijo){displaystyle operatorname {BetaNegBin} ({tilde {x}}|alpha ',beta ')}(binomial beta-negativo)
venenoλ (tasa)Gama{displaystyle k,,theta in mathbb {R} !}{displaystyle k+sum _{i=1}^{n}x_{i}, {frac {theta}{ntheta +1}}!}kocurrencias totales en {displaystyle {frac {1}{theta}}}intervalos{displaystyle operatorname {NB} left({tilde {x}}mid k',{frac {theta '}{theta '+1}}right)}(binomial negativo)
Alfa Beta !alpha +sum _{i=1}^{n}x_{i}, beta +n!alfaocurrencias totales en betaintervalos{displaystyle operatorname {NB} left({tilde {x}}mid alpha ',{frac {1}{1+beta '}}right)}(binomial negativo)
Categóricop (vector de probabilidad), k (número de categorías; es decir, tamaño de p)Dirichlet{displaystyle {boldsymbol {alpha }}in mathbb {R} ^{k}!}{displaystyle {boldsymbol {alpha }}+(c_{1},ldots,c_{k}),}donde c_{yo}está el número de observaciones en la categoría ialpha _{i}ocurrencias de categoriai{displaystyle {begin{alineado}p({tilde {x}}=i)&={frac {{alpha_{i}}'}{sum_{i}{alpha_{i }}'}}\&={frac {alpha _{i}+c_{i}}{sum _{i}alpha _{i}+n}}end{alineado}}}
multinomialp (vector de probabilidad), k (número de categorías; es decir, tamaño de p)Dirichlet{displaystyle {boldsymbol {alpha }}in mathbb {R} ^{k}!}{displaystyle {boldsymbol {alpha }}+sum _{i=1}^{n}mathbf {x} _{i}!}alpha _{i}ocurrencias de categoriai{displaystyle operatorname {DirMult} ({tilde {mathbf {x} }}mid {boldsymbol {alpha }}')}(Dirichlet-multinomial)
Hipergeométricocon tamaño de población total conocido, NM (número de miembros objetivo)Beta-binomialn=N,alfa,,beta!alpha +sum_{i=1}^{n}x_{i},,beta +sum_{i=1}^{n}N_{i}-sum_{i=1} ^{n}x_{i}!alfaéxitos, betafracasos
Geométricop 0 (probabilidad)Beta{displaystyle alpha,,beta in mathbb {R} !}alpha +n,,beta +sum _{i=1}^{n}x_{i}!alfaexperimentos, betafracasos totales

Cuando la función de verosimilitud es una distribución continua

ProbabilidadParámetros del modeloDistribución previa conjugadaHiperparámetros previosHiperparámetros posterioresInterpretación de hiperparámetrospredictivo posterior
Normalcon varianza conocida σμ (media)Normalmu _{0},,sigma _{0}^{2}!{displaystyle {frac {1}{{frac {1}{sigma _{0}^{2}}}+{frac {n}{sigma ^{2}}}}}left({frac {mu _{0}}{sigma _{0}^{2}}}+{frac {sum _{i=1}^{n}x_{i}}{sigma ^ {2}}}derecha),izquierda({frac {1}{sigma _{0}^{2}}}+{frac {n}{sigma ^{2}}}derecha) ^{-1}}la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) 1/sigma _{0}^{2}y con media muestralmu _{0}{mathcal {N}}({tilde {x}}|mu _{0}',{sigma _{0}^{2}}'+sigma ^{2})
Normalcon precisión conocida τμ (media)Normal{ estilo de visualización  mu _ {0}, ,  tau _ {0} ^ {-1} !}{displaystyle {frac {tau_{0}mu_{0}+tau sum_{i=1}^{n}x_{i}}{tau_{0}+ntau }},,izquierda(tau _{0}+ntau derecha)^{-1}}la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) tau _{0}y con media muestralmu _{0}{displaystyle {mathcal {N}}left({tilde {x}}mid mu_{0}',{frac {1}{tau_{0}'}}+{frac {1}{tau}}derecho)}
Normalcon media conocida μσ (varianza)gama inversamathbf {alfa,,beta}mathbf {alpha } +{frac {n}{2}},,mathbf {beta } +{frac {sum _{i=1}^{n}{(x_{i}- mu)^{2}}}{2}}la varianza se estimó a partir de 2  alfaobservaciones con varianza muestral beta /alfa(es decir, con la suma de las desviaciones al cuadrado 2beta, donde las desviaciones son de la media conocida mu)t_{2alpha '}({tilde {x}}|mu,sigma ^{2}=beta '/alpha ')
Normalcon media conocida μσ (varianza)Chi-cuadrado inverso escaladonu,,sigma _{0}^{2}!nu +n,,{frac {nu sigma _{0}^{2}+sum _{i=1}^{n}(x_{i}-mu)^{2}} {nu+n}}!la varianza se estimó a partir de nuobservaciones con varianza muestralsigma _{0}^{2}t_{nu '}({tilde {x}}|mu,{sigma _{0}^{2}}')
Normalcon media conocida μτ (precisión)GamaAlfa Beta !alpha +{frac {n}{2}},,beta +{frac {sum _{i=1}^{n}(x_{i}-mu)^{2}}{ 2}}!la precisión se estimó a partir de 2  alfalas observaciones con la varianza de la muestra beta /alfa(es decir, con la suma de las desviaciones al cuadrado 2beta, donde las desviaciones son de la media conocida mu){displaystyle t_{2alpha '}({tilde {x}}mid mu,sigma ^{2}=beta '/alpha ')}
Normalμ y σSuponiendo intercambiabilidadgamma normal-inversamu _{0},,nu,,alfa,,beta{frac {nu mu _{0}+n{bar {x}}}{nu +n}},,nu +n,,alpha +{frac {n}{2 }},,beta +{tfrac {1}{2}}sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}+{frac {n nu }{nu +n}}{frac {({bar {x}}-mu _{0})^{2}}{2}}{ barra {x}}es la media de la muestrala media se estimó a partir de nuobservaciones con media muestral mu _{0}; la varianza se estimó a partir de 2  alfalas observaciones con la media muestral mu _{0}y la suma de las desviaciones al cuadrado2beta{displaystyle t_{2alpha '}left({tilde {x}}mid mu ',{frac {beta '(nu '+1)}{nu 'alpha '}} Correcto)}
Normalμ y τSuponiendo intercambiabilidadNormal-gammamu _{0},,nu,,alfa,,beta{frac {nu mu _{0}+n{bar {x}}}{nu +n}},,nu +n,,alpha +{frac {n}{2 }},,beta +{tfrac {1}{2}}sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}+{frac {n nu }{nu +n}}{frac {({bar {x}}-mu _{0})^{2}}{2}}{ barra {x}}es la media de la muestrala media se estimó a partir de nulas observaciones con la media muestral mu _{0}, y la precisión se estimó a partir de 2  alfalas observaciones con la media muestral mu _{0}y la suma de las desviaciones al cuadrado2beta{displaystyle t_{2alpha '}left({tilde {x}}mid mu ',{frac {beta '(nu '+1)}{alpha 'nu '}} Correcto)}
Normal multivariado con matriz de covarianza conocida Σμ (vector medio)Normal multivariante{boldsymbol {boldsymbol {mu}}}_{0},,{boldsymbol {Sigma}}_{0}left({boldsymbol {Sigma }}_{0}^{-1}+n{boldsymbol {Sigma }}^{-1}right)^{-1}left({boldsymbol { Sigma }}_{0}^{-1}{boldsymbol {mu }}_{0}+n{boldsymbol {Sigma }}^{-1}mathbf {bar {x}}  Correcto),left({boldsymbol {Sigma }}_{0}^{-1}+n{boldsymbol {Sigma }}^{-1}right)^{-1}mathbf {bar {x}}es la media de la muestrala media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) { símbolo de negrita { Sigma}}_{0}^{-1}y con media muestral{ símbolo de negrita { mu}}_{0}{displaystyle {mathcal {N}}({tilde {mathbf {x} }}mid {{boldsymbol {mu }}_{0}}',{{boldsymbol {Sigma }}_ {0}}'+{ símbolo de negrita { Sigma}})}
Normal multivariante con matriz de precisión conocida Λμ (vector medio)Normal multivariantemathbf {boldsymbol {mu}}_{0},,{boldsymbol {Lambda}}_{0}left({boldsymbol {Lambda }}_{0}+n{boldsymbol {Lambda }}right)^{-1}left({boldsymbol {Lambda }}_{0}{ boldsymbol {mu }}_{0}+n{boldsymbol {Lambda }}mathbf {bar {x}} right),,left({boldsymbol {Lambda }}_{0} +n{boldsymbol {Lambda}}right)mathbf {bar {x}}es la media de la muestrala media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) boldsymbolLambda_0y con media muestral{ símbolo de negrita { mu}}_{0}{displaystyle {mathcal {N}}left({tilde {mathbf {x} }}mid {{boldsymbol {mu }}_{0}}',{{{boldsymbol {Lambda }}_{0}}'}^{-1}+{boldsymbol {Lambda }}^{-1}right)}
Normal multivariado con media conocida μΣ (matriz de covarianza)Wishart inversanu,,{boldsymbol {Psi }}n+nu,,{boldsymbol {Psi }}+sum _{i=1}^{n}(mathbf {x_{i}} -{boldsymbol {mu }})(mathbf { x_{i}} -{boldsymbol {mu}})^{T}la matriz de covarianza se estimó a partir de nulas observaciones con la suma de los productos de desviación por pares{ símbolo de negrita { Psi}}t_{nu '-p+1}left({tilde {mathbf {x} }}|{boldsymbol {mu }},{frac {1}{nu '-p+1}} { símbolo de negrita { Psi}}'  derecha)
Normal multivariado con media conocida μΛ (matriz de precisión)Deseosnu,,mathbf {V}n+nu,,left(mathbf {V} ^{-1}+sum _{i=1}^{n}(mathbf {x_{i}} -{boldsymbol {mu }})(mathbf {x_{i}} -{boldsymbol {mu }})^{T}right)^{-1}la matriz de covarianza se estimó a partir de nulas observaciones con la suma de los productos de desviación por paresmathbf {V} ^{-1}{displaystyle t_{nu '-p+1}left({tilde {mathbf {x} }}mid {boldsymbol {mu }},{frac {1}{nu '-p +1}}{mathbf {V} '}^{-1}right)}
Normal multivarianteμ (vector medio) y Σ (matriz de covarianza)normal-inverso-de Wishart{ símbolo de negrita { mu }}_{0}, ,  kappa _ {0}, ,  nu _ {0}, , { símbolo de negrita { Psi }}{frac {kappa_{0}{boldsymbol {mu}}_{0}+nmathbf {bar {x}} }{kappa_{0}+n}},,kappa _ {0}+n,,nu_{0}+n,,{boldsymbol {Psi }}+mathbf {C} +{frac {kappa _{0}n}{kappa _{0}+n}}(mathbf {bar {x}} -{ boldsymbol {mu }}_{0})(mathbf {bar {x}} -{boldsymbol {mu }}_{0})^{T}mathbf {bar {x}}es la media de la muestramathbf {C} =sum _{i=1}^{n}(mathbf {x_{i}} -mathbf {bar {x}})(mathbf {x_{i}} -mathbf {bar {x}})^{T}la media se estimó a partir de kappa _{0}observaciones con media muestral { símbolo de negrita { mu}}_{0}; la matriz de covarianza se estimó a partir de nu _{0}las observaciones con la media de la muestra { símbolo de negrita { mu}}_{0}y con la suma de los productos de desviación por pares{ símbolo en negrita { Psi }} =  nu _ {0} { símbolo en negrita { Sigma}}_ {0}t_{{nu _{0}}'-p+1}left({tilde {mathbf {x} }}|{{boldsymbol {mu }}_{0}}',{frac {{kappa _{0}}'+1}{{kappa _{0}}'({nu _{0}}'-p+1)}}{boldsymbol {Psi }}' Correcto)
Normal multivarianteμ (vector medio) y Λ (matriz de precisión)normal-Wishart{boldsymbol {mu}}_{0},,kappa _{0},,nu _{0},,mathbf {V}{frac {kappa_{0}{boldsymbol {mu}}_{0}+nmathbf {bar {x}} }{kappa_{0}+n}},,kappa _ {0}+n,,nu_{0}+n,,left(mathbf {V} ^{-1}+mathbf {C} +{frac {kappa _{0}n}{kappa _{0}+n}}(mathbf {bar { x}} -{boldsymbol {mu }}_{0})(mathbf {bar {x}} -{boldsymbol {mu }}_{0})^{T}right)^{ -1}mathbf {bar {x}}es la media de la muestramathbf {C} =sum _{i=1}^{n}(mathbf {x_{i}} -mathbf {bar {x}})(mathbf {x_{i}} -mathbf {bar {x}})^{T}la media se estimó a partir de kappa _{0}observaciones con media muestral { símbolo de negrita { mu}}_{0}; la matriz de covarianza se estimó a partir de nu _{0}las observaciones con la media de la muestra { símbolo de negrita { mu}}_{0}y con la suma de los productos de desviación por paresmathbf {V} ^{-1}{displaystyle t_{{nu _{0}}'-p+1}left({tilde {mathbf {x} }}mid {{boldsymbol {mu }}_{0}}',{frac {{kappa _{0}}'+1}{{kappa _{0}}'({nu _{0}}'-p+1)}}{mathbf {V} '}^{-1}derecho)}
UniformeU(0,theta)!Paretox_{m},,k!max{,x_{1},ldots,x_{n},x_{mathrm {m} }},,k+n!kobservaciones con valor máximox_{m}
Paretocon mínimo conocido x mk (forma)GamaAlfa Beta !alpha +n,,beta +sum _{i=1}^{n}ln {frac {x_{i}}{x_{mathrm {m} }}}!alfaobservaciones con la suma betadel orden de magnitud de cada observación (es decir, el logaritmo de la relación de cada observación al mínimo x_{m})
Weibullcon forma conocida βθ (escala)gama inversaa,b!a+n,,b+sum_{i=1}^{n}x_{i}^{beta}!aobservaciones con suma bde la β'- ésima potencia de cada observación
Log-normalLo mismo que para la distribución normal después de aplicar el logaritmo natural a los datos de los hiperparámetros posteriores. Consulte Fink (1997, págs. 21 y 22) para ver los detalles.
Exponencialλ (tasa)GamaAlfa Beta !alpha +n,,beta +sum _{i=1}^{n}x_{i}! alfa -1observaciones que sumanbeta{displaystyle operatorname {Lomax} ({tilde {x}}mid beta ',alpha ')}(Distribución Lomax)
Gammacon forma conocida αβ (tasa)Gamaalfa _{0},,beta _{0}!alpha _{0}+nalpha,,beta _{0}+sum _{i=1}^{n}x_{i}!{ estilo de visualización  alfa _ {0}/ alfa}observaciones con sumabeta _{0}{displaystyle operatorname {CG} ({tilde {mathbf {x} }}mid alpha,{alpha _{0}}',{beta _{0}}')=operatorname { beta '} ({tilde {mathbf {x} }}|alpha,{alpha _{0}}',1,{beta _{0}}')}
Gamma inversacon forma conocida αβ (escala inversa)Gamaalfa _{0},,beta _{0}!alpha _{0}+nalpha,,beta _{0}+sum _{i=1}^{n}{frac {1}{x_{i}}}!{ estilo de visualización  alfa _ {0}/ alfa}observaciones con sumabeta _{0}
Gammacon tasa conocida βα (forma)propto {frac {a^{alpha -1}beta ^{alpha c}}{Gamma (alpha)^{b}}}a B C!aprod _{i=1}^{n}x_{i},,b+n,,c+n!bu Cobservaciones (bpara estimar alfa, Cpara estimar beta) con productoa
Gamaα (forma), β (escala inversa)propto {frac {p^{alpha -1}e^{-beta q}}{Gamma (alpha)^{r}beta ^{-alpha s}}}p,,q,,r,,s!pprod _{i=1}^{n}x_{i},,q+sum _{i=1}^{n}x_{i},,r+n,,s+n !alfase estimó a partir de robservaciones con producto pags; betase estimó a partir de sobservaciones con sumaq
Betaα, β{displaystyle propto {frac {Gamma (alpha +beta)^{k},p^{alpha },q^{beta }}{Gamma (alpha)^{k} ,Gamma (beta)^{k}}}}{displaystyle p,,q,,k!}{displaystyle pprod_{i=1}^{n}x_{i},,qprod_{i=1}^{n}(1-x_{i}),,k+n !}alfay betase estimaron a partir de kobservaciones con producto pagsy producto de los complementosq

Contenido relacionado

Distribución t de Student

Serie de tiempo

En matemáticas, una serie de tiempo es una serie de puntos de datos indexados en orden de tiempo. Más comúnmente, una serie de tiempo es una secuencia...

Teoría de colas

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save