Familia exponencial
En probabilidad y estadística, una familia exponencial es un conjunto paramétrico de distribuciones de probabilidad de cierta forma, que se especifica a continuación. Esta forma especial se elige por conveniencia matemática, incluida la posibilidad de que el usuario calcule expectativas, covarianzas utilizando la diferenciación basada en algunas propiedades algebraicas útiles, así como por generalidad, ya que las familias exponenciales son, en cierto sentido, conjuntos de distribuciones muy naturales a considerar. El término clase exponencial se usa a veces en lugar de "familia exponencial", o el término más antiguo familia Koopman-Darmois. Los términos "distribución" y "familia" a menudo se usan libremente: específicamente, una familia exponencial es un conjunto de distribuciones, donde la distribución específica varía con el parámetro; sin embargo, una familia paramétrica de distribuciones a menudo se denomina "una distribución" (como "la distribución normal", que significa "la familia de distribuciones normales"), y el conjunto de todas las familias exponenciales a veces se denomina vagamente "el" familia exponencial. Son distintos porque poseen una variedad de propiedades deseables, la más importante es la existencia de una estadística suficiente.
El concepto de familias exponenciales se atribuye a E. J. G. Pitman, G. Darmois y B. O. Koopman en 1935–1936. Las familias exponenciales de distribuciones proporcionan un marco general para seleccionar una posible parametrización alternativa de una familia paramétrica de distribuciones, en términos de parámetros naturales, y para definir estadísticos de muestra útiles, denominados estadísticos suficientes naturales de la familia.
Definición
La mayoría de las distribuciones comúnmente utilizadas forman una familia exponencial o un subconjunto de una familia exponencial, que se enumeran en la subsección a continuación. Las subsecciones que le siguen son una secuencia de definiciones matemáticas cada vez más generales de una familia exponencial. Un lector casual puede desear restringir la atención a la primera y más simple definición, que corresponde a una familia de un solo parámetro de distribuciones de probabilidad discretas o continuas.
Ejemplos de distribuciones familiares exponenciales
Las familias exponenciales incluyen muchas de las distribuciones más comunes. Entre muchas otras, las familias exponenciales incluyen las siguientes:
- normal
- exponencial
- gamma
- Chi-squared
- beta
- Dirichlet
- Bernoulli
- categórica
- Poisson
- Wishart
- inverse Wishart
- geométrico
Varias distribuciones comunes son familias exponenciales, pero solo cuando ciertos parámetros son fijos y conocidos. Por ejemplo:
- binomial (con número fijo de juicios)
- multinomio (con número fijo de juicios)
- binomio negativo (con número fijo de fracasos)
Observe que en cada caso, los parámetros que deben fijarse determinan un límite en el tamaño de los valores de observación.
Ejemplos de distribuciones comunes que no son familias exponenciales son la t de Student, la mayoría de las distribuciones mixtas e incluso la familia de distribuciones uniformes cuando los límites no son fijos. Consulte la sección a continuación sobre ejemplos para obtener más información.
Parámetro escalar
Una familia exponencial de un solo parámetro es un conjunto de distribuciones de probabilidad cuya función de densidad de probabilidad (o función de masa de probabilidad, para el caso de una distribución discreta) se puede expresar en la forma
- fX()x▪ ▪ Silencio Silencio )=h()x)exp[.. ()Silencio Silencio )⋅ ⋅ T()x)− − A()Silencio Silencio )]{displaystyle f_{X}(xmid theta)=h(x),exp !{bigl [},eta (theta)cdot T(x)-A(theta),{bigr]}}}}}
donde T(x), h(x), η (θ) y A(θ) son funciones conocidas. Por supuesto, la función h(x) debe ser no negativa.
Una forma equivalente alternativa que se da a menudo es
- fX()x▪ ▪ Silencio Silencio )=h()x)g()Silencio Silencio )exp[.. ()Silencio Silencio )⋅ ⋅ T()x)]{displaystyle f_{X}(xmid theta)=h(x),g(theta),exp !{bigl [},eta (theta)cdot T(x),{bigr]}}}}
o equivalente
- fX()x▪ ▪ Silencio Silencio )=exp[.. ()Silencio Silencio )⋅ ⋅ T()x)− − A()Silencio Silencio )+B()x)]{displaystyle f_{X}(xmid theta)=exp !{bigl [},eta (theta)cdot T(x)-A(theta)+B(x),{bigr]}}}}
El valor θ se denomina parámetro de la familia.
Además, el apoyo de fX()x▪ ▪ Silencio Silencio ){displaystyle f_{X}!left(xmid theta right)} (es decir, el conjunto de todos) x{displaystyle x} para la cual fX()x▪ ▪ Silencio Silencio ){displaystyle f_{X}!left(xmid theta right)} es mayor de 0) no depende de Silencio Silencio {displaystyle theta }. Esto se puede utilizar para excluir una distribución paramétrica de la familia de ser una familia exponencial. Por ejemplo, la distribución de Pareto tiene un pdf que se define para x≥ ≥ xm{displaystyle xgeq x_{m} ()xm{displaystyle x_{m} ser el parámetro escala) y su apoyo, por lo tanto, tiene un límite inferior xm{displaystyle x_{m}. Desde el apoyo fα α ,xm()x){displaystyle f_{alphax_{m}!(x)} depende del valor del parámetro, la familia de las distribuciones de Pareto no forma una familia exponencial de distribuciones (al menos cuando xm{displaystyle x_{m} es desconocido).
A menudo x es un vector de mediciones, en cuyo caso T()x) puede ser una función desde el espacio de los posibles valores de x a los números reales. Más generalmente, .()Silencio) y T()x) puede cada uno ser valorado vector tal que .. .()Silencio Silencio )⋅ ⋅ T()x){displaystyle eta '(theta)cdot T(x)} es de valor real. Sin embargo, véase el debate a continuación sobre los parámetros vectoriales, en relación con curva familia exponencial.
Si .()Silencio)Silencio, entonces se dice que la familia exponencial forma canónica. Definiendo un parámetro transformado .=.()Silencio), siempre es posible convertir una familia exponencial a forma canónica. La forma canónica es no única, ya que .()Silencio) puede ser multiplicado por cualquier constante no cero, siempre que T()x) se multiplica por el recíproco de esa constante, o una constante c se puede agregar a .()Silencio) y h()x) multiplicado por exp[− − c⋅ ⋅ T()x)]{displaystyle exp !{bigl [}-ccdot T(x),{bigr]}} para compensarlo. En el caso especial .()Silencio)Silencio y T()x)x entonces la familia se llama una familia exponencial natural.
Incluso cuando x es un escalar, y solo hay un único parámetro, las funciones η(θ) y T (x) aún pueden ser vectores, como se describe a continuación.
La función A(θ), o equivalentemente g(θ), se determina automáticamente una vez que la se han elegido otras funciones, ya que debe asumir una forma que haga que la distribución se normalice (suma o integre a uno sobre todo el dominio). Además, ambas funciones siempre se pueden escribir como funciones de η, incluso cuando η(θ) no es uno a uno función, es decir, dos o más valores diferentes de θ se asignan al mismo valor de η(θ), y por lo tanto η(θ) no se puede invertir. En tal caso, todos los valores de θ asignados al mismo η(θ) también tendrán el mismo valor para A(θ) y g(θ).
Factorización de las variables involucradas
Lo que es importante tener en cuenta, y lo que caracteriza a todas las variantes de la familia exponencial, es que los parámetros y las variables de observación deben factorizarse (se pueden separar en productos, cada uno de los cuales involucra solo un tipo de variable), ya sea directamente o dentro de cualquiera de las partes (la base o el exponente) de una operación de exponenciación. En general, esto significa que todos los factores que constituyen la función de densidad o masa deben tener una de las siguientes formas:
- f()x),g()Silencio Silencio ),cf()x),cg()Silencio Silencio ),[f()x)]c,[g()Silencio Silencio )]c,[f()x)]g()Silencio Silencio ),[g()Silencio Silencio )]f()x),[f()x)]h()x)g()Silencio Silencio ),o[g()Silencio Silencio )]h()x)j()Silencio Silencio ),{f} {f} {x}} {f}} {f}} {g}} {g}} {g}} {g}} {g} {g} {f} {f}} {f}} {f}}} {g} {g} {f}}} {c} {c} {c}}}} {c}}}}}}}} {cc} {cc}}}}} {c}}}}} {c}}}} {ccccccccccccccccccccccccccccccccccccccccccccccccccccc}}}}}}}}
donde f y h son funciones arbitrarias de x; g y j son funciones arbitrarias de θ; y c es una "constante" expresión (es decir, una expresión que no implica x o θ).
Hay más restricciones sobre cuántos de estos factores pueden ocurrir. Por ejemplo, las dos expresiones:
- [f()x)g()Silencio Silencio )]h()x)j()Silencio Silencio ),[f()x)]h()x)j()Silencio Silencio )[g()Silencio Silencio )]h()x)j()Silencio Silencio ),{displaystyle {[f(x)g(theta)]}{h(x)j(theta)},qquad {[f(x)}}^{h(x)j(theta)}[g(theta)]}{h(x)j(theta)}}}}
son iguales, es decir, un producto de dos "permitidos" factores Sin embargo, cuando se reescribe en la forma factorizada,
- [f()x)g()Silencio Silencio )]h()x)j()Silencio Silencio )=[f()x)]h()x)j()Silencio Silencio )[g()Silencio Silencio )]h()x)j()Silencio Silencio )=e[h()x)log f()x)]j()Silencio Silencio )+h()x)[j()Silencio Silencio )log g()Silencio Silencio )],{f(x)g(theta)} {h(x)j(theta)}={h(x)}} {h(x)j(theta)} [g(theta)]^{h(x)j(theta)}=e^{h(x)log f(x)}j(theta)theta)
se puede ver que no se puede expresar en la forma requerida. (Sin embargo, una forma de este tipo es miembro de una familia exponencial curva, que permite múltiples términos factorizados en el exponente).
Para ver por qué una expresión de la forma
- [f()x)]g()Silencio Silencio ){displaystyle {[f(x)}} {g(theta)}
califica,
- [f()x)]g()Silencio Silencio )=eg()Silencio Silencio )log f()x){displaystyle {[f(x)}}{g(theta)}=e^{g(theta)log f(x)}}
and hence factorise inside of the exponent. Similarly,
- [f()x)]h()x)g()Silencio Silencio )=eh()x)g()Silencio Silencio )log f()x)=e[h()x)log f()x)]g()Silencio Silencio )[displaystyle {[f(x)]} {h(x)g(theta)}=e^{h(x)g(theta)log f(x)}=e^{h(x)log f(x)]g(theta)}}}}}
y nuevamente factoriza dentro del exponente.
Un factor que consiste en una suma en la que ambos tipos de variables están implicadas (por ejemplo, un factor de la forma 1+f()x)g()Silencio Silencio ){displaystyle 1+f(x)g(theta)}) no se puede factorizar de esta manera (excepto en algunos casos donde ocurre directamente en un exponente); por eso, por ejemplo, la distribución Cauchy y la distribución t de Student no son familias exponenciales.
Parámetro vectorial
Did you mean:The definition in terms of one real-number parameter can be extended to one real-vector parameter
- Silencio Silencio ↑ ↑ [Silencio Silencio 1,Silencio Silencio 2,...... ,Silencio Silencio s]T.{displaystyle {boldsymbol {theta }equiv left[,theta _{1},theta _{2},,,ldots,theta _{s},right]}{mathsf {}}~}}}}
Se dice que una familia de distribuciones pertenece a una familia vectorial exponencial si la función de densidad de probabilidad (o función de masa de probabilidad, para distribuciones discretas) se puede escribir como
- fX()x▪ ▪ Silencio Silencio )=h()x)exp ().. i=1s.. i()Silencio Silencio )Ti()x)− − A()Silencio Silencio )),{displaystyle f_{X}(xmid {boldsymbol {theta })=h(x),exp left(sum _{i=1}{s}eta {fnMicrosoft Sans Serif} ¿Qué?
o en una forma más compacta,
- fX()x▪ ▪ Silencio Silencio )=h()x)exp ().. ()Silencio Silencio )⋅ ⋅ T()x)− − A()Silencio Silencio )){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif})=h(x),exp {Big (}{boldsymbol {eta }({boldsymbol {theta })cdot mathbf {T} (x)-A({boldsymbol {Big}
Esta forma escribe la suma como un producto de puntos de funciones de valor vectorial .. ()Silencio Silencio ){displaystyle {boldsymbol {eta} {boldsymbol {theta }}}} y T()x){displaystyle mathbf {T} (x),}.
Una forma equivalente alternativa que se ve a menudo es
- fX()x▪ ▪ Silencio Silencio )=h()x)g()Silencio Silencio )exp ().. ()Silencio Silencio )⋅ ⋅ T()x)){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif})=h(x),g({boldsymbol {theta }}),exp {Big (}{boldsymbol {eta } {f} {cdot}} {cdotb} {cdot}}} {b}} {cdotb}}}} {cdotcdotcdotcdotb} {b} {b}} {cdotcdotb}}}}}}}}}}}}} {b} {cdotcdotcdotcdotb} {cdotcdotb}} {cdotf}}} {i}}}}}}}}}}} {cdotcdotcdotcdotcdotb}cdot
Como en el caso de valores escalares, se dice que la familia exponencial está en forma canónica si
- .. i()Silencio Silencio )=Silencio Silencio iО О i.{displaystyle quad eta _{i}({boldsymbol {theta })=theta _{i}quad forall i,}
Se dice que una familia vectorial exponencial es curva si la dimensión de
- Silencio Silencio ↑ ↑ [Silencio Silencio 1,Silencio Silencio 2,...... ,Silencio Silencio d]T{displaystyle {boldsymbol {theta }equiv left[,theta _{1},theta _{2},,ldots,theta _{d},,derecha]} {Mathsf {}}}}}}}}}}}
es menor que la dimensión del vector
- .. ()Silencio Silencio )↑ ↑ [.. 1()Silencio Silencio ),.. 2()Silencio Silencio ),...... ,.. s()Silencio Silencio )]T.{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}
Es decir, si la dimensión, d, del vector de parámetros es menor que el número de funciones, s, del vector de parámetros en la representación anterior de la función de densidad de probabilidad. Las distribuciones más comunes en la familia exponencial no son curvas, y muchos algoritmos diseñados para trabajar con cualquier familia exponencial implícita o explícitamente asumen que la distribución no es curva.
Al igual que en el caso de un parámetro de valor escalar, la función A()Silencio Silencio ){displaystyle A({boldsymbol {theta }}} o equivalente g()Silencio Silencio ){displaystyle g({boldsymbol {theta }}} se determina automáticamente por la limitación de normalización, una vez que se han elegido las otras funciones. Incluso si .. ()Silencio Silencio ){displaystyle {boldsymbol {eta} {boldsymbol {theta }}}} no es una a una, funciones A().. ){displaystyle A({boldsymbol {eta }}}} y g().. ){displaystyle g({boldsymbol {eta }}}} puede definirse requiriendo que la distribución sea normalizada para cada valor del parámetro natural .. {displaystyle {boldsymbol {eta }. Esto produce el forma canónica
- fX()x▪ ▪ .. )=h()x)exp ().. ⋅ ⋅ T()x)− − A().. )),{fnMicrosoft Sans Serif}=h(x),exp {Big (}{boldsymbol {eta }cdot mathbf {T} (x)-A({boldsymbol {eta }}} {Big)}}}}}}}}}
o equivalente
- fX()x▪ ▪ .. )=h()x)g().. )exp ().. ⋅ ⋅ T()x)).{fnMicrosoft Sans Serif}=h(x),g({boldsymbol {eta }),exp {Big {Big (}{boldsymbol {eta }}cdot mathbf {c] {Big)}}}}}}cdot mathbf {Big)}}}}}}}}} {cdotcdotcdotbf}}} {bf} {b} {b}} {cdotb}} {b} {b}} {b}}}}}}} {f}} {f}} {b} {cdotb}}}}} {b}}} {b}}}} {cdotcdotf}}}}}}}} {cdotcdotcdotcdotcdotcdotb}}
Las formas anteriores a veces se pueden ver con .. TT()x){displaystyle {boldsymbol {eta } {Mathsf {T}Mathbf {T} (x)} en lugar de .. ⋅ ⋅ T()x){displaystyle {boldsymbol {eta}cdot mathbf {T} (x),}. Estas son exactamente formulaciones equivalentes, simplemente utilizando diferentes notaciones para el producto de puntos.
Parámetro vectorial, variable vectorial
La forma de vector-parámetro sobre una sola variable aleatoria de valor escalar puede expandirse de manera trivial para cubrir una distribución conjunta sobre un vector de variables aleatorias. La distribución resultante es simplemente la misma que la distribución anterior para una variable aleatoria de valor escalar con cada ocurrencia del escalar x reemplazada por el vector
- x=()x1,x2,⋯ ⋯ ,xk)T.{displaystyle mathbf {x} =left(x_{1},x_{2},cdotsx_{k}right)^{mathsf {T}~}}
Las dimensiones k la variable aleatoria no necesita igualar la dimensión d del vector del parámetro, ni (en el caso de una función exponencial curva) la dimensión s del parámetro natural .. {displaystyle {boldsymbol {eta } y suficiente estadística T()x).
La distribución en este caso se escribe como
- fX()x▪ ▪ Silencio Silencio )=h()x)exp().. i=1s.. i()Silencio Silencio )Ti()x)− − A()Silencio Silencio )){displaystyle f_{X}!left(mathbf {x} mid {boldsymbol {theta }right)=h(mathbf {x}),exp !left(,sum _{i=1}etas}eta ¿Por qué?
O de forma más compacta como
- fX()x▪ ▪ Silencio Silencio )=h()x)exp().. ()Silencio Silencio )⋅ ⋅ T()x)− − A()Silencio Silencio )){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}
O alternativamente como
- fX()x▪ ▪ Silencio Silencio )=g()Silencio Silencio )h()x)exp().. ()Silencio Silencio )⋅ ⋅ T()x)){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft {fnMicrosoft} {fnMicrosoft ]f}fnMicrosoft} {f} {f}fnMicrosoft}f}f}f}f}f}f}f} {f}f}f}f}f}f}fnMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMientras,fnMinMinMinMinMinMinMinMinMinMinMientras,fnMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMientras
Formulación teórica de la medida
Utilizamos funciones de distribución acumulativa (CDF) para abarcar distribuciones discretas y continuas.
Suppose H es una función que no disminuye de una variable real. Luego Lebesgue–Stieltjes integrales con respecto a dH()x){displaystyle {rm {d,}H(mathbf {x})} son integrales con respecto a Medida de referencia de la familia exponencial generada por H.
Cualquier miembro de esa familia exponencial tiene una función de distribución acumulativa
- dF()x▪ ▪ Silencio Silencio )=exp ().. ()Silencio Silencio )⋅ ⋅ T()x)− − A()Silencio Silencio ))dH()x).{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {Theta},right)=bigl {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {d,}H(Mathbf {x})~.
H()x) es un integrador Lebesgue-Stieltjes para la medida de referencia. Cuando la medida de referencia es finita, se puede normalizar y H es en realidad la función de distribución acumulativa de una distribución de probabilidad. Si F es absolutamente continuo con una densidad f()x){displaystyle f(x)} con respecto a una medida de referencia dx{displaystyle ,{rm {}}x,} (típicamente medida de Lebesgue), uno puede escribir dF()x)=f()x)dx{displaystyle ,{rm {d,}F(x)=f(x)~{rm {d,}}x,}. En este caso, H es también absolutamente continuo y se puede escribir dH()x)=h()x)dx{displaystyle ,{rm {d,}H(x)=h(x),{rm {d,}}x,} así las fórmulas se reducen a la de los párrafos anteriores. Si F es discreto, entonces H es una función de paso (con pasos en el apoyo de F).
Alternativamente, podemos escribir la medida de probabilidad directamente como
- P()dx▪ ▪ Silencio Silencio )=exp ().. ()Silencio Silencio )⋅ ⋅ T()x)− − A()Silencio Silencio ))μ μ ()dx).{displaystyle {fnMicrosoft Sans Serif}
para algunas medidas de referencia μ μ {displaystyle mu ,}.
Interpretación
En las definiciones anteriores, las funciones T(x), η(θ), y A(η) eran arbitrarios. Sin embargo, estas funciones tienen interpretaciones importantes en la distribución de probabilidad resultante.
- T()x) es un suficiente estadística de la distribución. Para las familias exponenciales, la estadística suficiente es una función de los datos que contienen toda la información los datos x proporciona respecto a los valores de parámetro desconocidos. Esto significa que, para cualquier conjunto de datos x{displaystyle x} y Sí.{displaystyle y}, la relación de probabilidad es la misma, es decir f()x;Silencio Silencio 1)f()x;Silencio Silencio 2)=f()Sí.;Silencio Silencio 1)f()Sí.;Silencio Silencio 2){displaystyle {frac {f(x;theta _{1}}{f(x;theta _{2}}}}={frac {f(y;theta _{1})}{f(y;theta _{2}}}}}}}}}}}}} { si T()x) T()Sí.). Esto es cierto incluso si x y Sí. no son iguales entre sí. La dimensión de T()x) iguala el número de parámetros Silencio y abarca toda la información relativa a los datos relacionados con el parámetro Silencio. La estadística suficiente de un conjunto de observaciones de datos distribuidas idénticamente independientes es simplemente la suma de estadísticas suficientes individuales, y encapsula toda la información necesaria para describir la distribución posterior de los parámetros, dada la información (y por lo tanto para obtener cualquier estimación deseada de los parámetros). (Esta propiedad importante se discute más adelante.)
- . se llama parámetro natural. El conjunto de valores . para la cual la función fX()x;.. ){displaystyle f_{X}(x;eta)} es integrador se llama el espacio para parámetro natural. Se puede demostrar que el espacio del parámetro natural es siempre convexo.
- A().) se llama función log-partition porque es el logaritmo de un factor de normalización, sin el cual fX()x;Silencio Silencio ){displaystyle f_{X}(x;theta)} no sería una distribución de probabilidad:
- A().. )=log ()∫ ∫ Xh()x)exp ().. ()Silencio Silencio )⋅ ⋅ T()x))dx){displaystyle A(eta)=log left(int _{X}h(x),exp(eta (theta)cdot T(x)),mathrm {d} xright)}
La función A es importante en su propio derecho, porque la media, la varianza y otros momentos de la estadística suficiente T()x) puede derivarse simplemente por diferenciación A().). Por ejemplo, porque log(x) es uno de los componentes de la estadística suficiente de la distribución gamma, E [log x]{displaystyle operatorname {mathcal {E} [log x]} se puede determinar fácilmente para esta distribución utilizando A().). Técnicamente, esto es verdad porque
- K()u▪ ▪ .. )=A().. +u)− − A().. ),{displaystyle Kleft(umid eta right)=A(eta +u)-A(eta),}
es la función generadora cumulante del estadístico suficiente.
Propiedades
Las familias exponenciales tienen una gran cantidad de propiedades que las hacen extremadamente útiles para el análisis estadístico. En muchos casos, se puede demostrar que solo las familias exponenciales tienen estas propiedades. Ejemplos:
- Las familias exponenciales son las únicas familias con suficientes estadísticas que pueden resumir cantidades arbitrarias de datos independientes distribuidos idénticamente utilizando un número fijo de valores. (Pitman-Koopman-Darmois theorem)
- Las familias exponenciales tienen antecedentes conjugados, una propiedad importante en las estadísticas bayesianas.
- La distribución predictiva posterior de una variable aleatoria exponencial-familia con anterioridad conyugal siempre se puede escribir en forma cerrada (siempre que el factor normalizador de la distribución exponencial-familia puede ser escrito en forma cerrada).
- En la aproximación de campo medio en bahías de variación (utilizadas para aproximar la distribución posterior en grandes redes bayesianas), la mejor distribución posterior aproximada de un nodo exponencial-familia (un nodo es una variable aleatoria en el contexto de las redes bayesianas) con un anterior conjugado está en la misma familia que el nodo.
Dada una familia exponencial definida por fX()x▪ ▪ Silencio Silencio )=h()x)exp[Silencio Silencio ⋅ ⋅ T()x)− − A()Silencio Silencio )]{displaystyle f_{X}(xmid theta)=h(x),exp !{bigl [},theta cdot T(x)-A(theta),{bigr]}}}}, donde .. {displaystyle Theta } es el espacio del parámetro, tal que Silencio Silencio ▪ ▪ .. ⊂ ⊂ Rk{displaystyle theta in Theta subset mathbb {R} ^{k}. Entonces...
- Si .. {displaystyle Theta } tiene interior no vacío Rk{displaystyle mathbb {R} {cH00}, a continuación, dado cualquier muestra de IID X1,...,Xn♪ ♪ fX{displaystyle X_{1},... F_{X}, la estadística T()X1,...,Xn):=.. i=1nT()Xi){displaystyle T(X_{1},...,X_{n}:=sum ¿Qué? es una estadística completa para Silencio Silencio {displaystyle theta }.
- T{displaystyle T} es una estadística mínima para Silencio Silencio {displaystyle theta } iff para todos Silencio Silencio 1,Silencio Silencio 2▪ ▪ .. {displaystyle theta _{1},theta _{2}in Theta }, y x1,x2{displaystyle x_{1},x_{2}} en apoyo de X{displaystyle X}, si ()Silencio Silencio 1− − Silencio Silencio 2)⋅ ⋅ ()T()x1)− − T()x2))=0{displaystyle (theta _{1}-theta _{2})cdot (T(x_{1})-T(x_{2})=0}, entonces Silencio Silencio 1=Silencio Silencio 2{displaystyle theta ♪ {1}=theta ¿Qué? o x1=x2{displaystyle x_{1}=x_{2}}.
Ejemplos
Es fundamental, al considerar los ejemplos de esta sección, recordar la discusión anterior sobre lo que significa decir que una "distribución" es una familia exponencial y, en particular, tener en cuenta que el conjunto de parámetros que pueden variar es fundamental para determinar si una "distribución" es o no es una familia exponencial.
Las distribuciones normal, exponencial, log-normal, gamma, chi-cuadrado, beta, Dirichlet, Bernoulli, categórica, Poisson, geométrica, gaussiana inversa, von Mises y von Mises-Fisher son familias exponenciales.
Algunas distribuciones son familias exponenciales solo si algunos de sus parámetros se mantienen fijos. La familia de distribuciones de Pareto con un límite mínimo fijo xm forman una familia exponencial. Las familias de distribuciones binomiales y multinomiales con un número fijo de intentos n pero con parámetros de probabilidad desconocidos son familias exponenciales. La familia de distribuciones binomiales negativas con un número fijo de fallas (también conocido como parámetro de tiempo de parada) r es una familia exponencial. Sin embargo, cuando se permite que varíe cualquiera de los parámetros fijos mencionados anteriormente, la familia resultante no es una familia exponencial.
Como se mencionó anteriormente, como regla general, el soporte de una familia exponencial debe permanecer igual en todas las configuraciones de parámetros de la familia. Esta es la razón por la cual los casos anteriores (por ejemplo, binomial con un número variable de intentos, Pareto con un límite mínimo variable) no son familias exponenciales: en todos los casos, el parámetro en cuestión afecta el soporte (particularmente, cambiando el valor mínimo o máximo posible). Por razones similares, ni la distribución uniforme discreta ni la distribución uniforme continua son familias exponenciales, ya que uno o ambos límites varían.
La distribución de Weibull con parámetro de forma fija k es una familia exponencial. A diferencia de los ejemplos anteriores, el parámetro de forma no afecta al soporte; el hecho de que permitir que varíe hace que Weibull no sea exponencial se debe más bien a la forma particular de la función de densidad de probabilidad de Weibull (k aparece en el exponente de un exponente).
En general, las distribuciones que resultan de una mezcla finita o infinita de otras distribuciones, p. las densidades de modelos mixtos y las distribuciones de probabilidad compuestas, son no familias exponenciales. Los ejemplos son modelos típicos de mezcla gaussiana, así como muchas distribuciones de colas pesadas que resultan de la combinación (es decir, mezcla infinita) de una distribución con una distribución anterior sobre uno de sus parámetros, p. la distribución t de Student (compuesta por una distribución normal sobre una distribución previa de precisión gamma) y las distribuciones binomial beta y multinomial de Dirichlet. Otros ejemplos de distribuciones que no son familias exponenciales son la distribución F, la distribución de Cauchy, la distribución hipergeométrica y la distribución logística.
Los siguientes son algunos ejemplos detallados de la representación de algunas distribuciones útiles como familias exponenciales.
Distribución normal: media desconocida, varianza conocida
Como primer ejemplo, considere una variable aleatoria distribuida normalmente con media desconocida μ y varianza conocida σ2. La función de densidad de probabilidad es entonces
- fσ σ ()x;μ μ )=12π π σ σ 2e− − ()x− − μ μ )2/()2σ σ 2).{displaystyle f_{sigma }(x;mu)={frac {1}{sqrt {2pisigma ^{2}}}}}e^{-(x-mu)}/(2sigma ^{2}}}}}}}}}
Esta es una familia exponencial de un solo parámetro, como se puede ver configurando
- hσ σ ()x)=12π π σ σ 2e− − x2/()2σ σ 2)Tσ σ ()x)=xσ σ Aσ σ ()μ μ )=μ μ 22σ σ 2.. σ σ ()μ μ )=μ μ σ σ .{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicroc {1}{sqrt {2pi sigma ^{2}}}e^{-x^{2}/(2sigma ^{2}}[4pt]T_{sigma }(x) {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicroc {mu ^{2}}{2sigma ^{2}}[4pt]eta _{sigma } {mu)} {fnMicroc {m} {fnMicroc} {fnMicrosoft}}}}}}}}}}}}}fnun}}}fnun}}fnun}fnun}}}fnun}fnun}fnunfnun}fnunfnunfnunfnun}fnunfnunfnun}fnun}fnun}fnunfnun}fnun}fnunfnun}fnunfnun}fnunfnun}fnun}fnunfnun}fnun}
Si σ = 1, esto está en forma canónica, como entonces η(μ) = μ.
Distribución normal: media desconocida y varianza desconocida
A continuación, considere el caso de una distribución normal con media desconocida y varianza desconocida. La función de densidad de probabilidad es entonces
- f()Sí.;μ μ ,σ σ )=12π π σ σ 2e− − ()Sí.− − μ μ )2/2σ σ 2.{displaystyle f(y;musigma)={frac {1}{sqrt {2pi sigma ^{2}}}}}e^{-(y-mu)^{2}/2sigma ^{2}}}}
Esta es una familia exponencial que se puede escribir en forma canónica definiendo
- .. =[μ μ σ σ 2,− − 12σ σ 2]h()Sí.)=12π π T()Sí.)=()Sí.,Sí.2)TA().. )=μ μ 22σ σ 2+log Silencioσ σ Silencio=− − .. 124.. 2+12log Silencio12.. 2Silencio{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicros {fnMicrosoft Sans Serif} {fnMicros} {fnMicros} {c}}}cH00}fnMicros} {f} {f}f}f}f}f}f}}f}f}f}f}}fnMicrom}f}f}f}f}f}fnKf}fnKf}fnKf}fnKfnKfnKf}f}fnun}fnKf}fnKcfnKf}fnKfnKfnKfnKf}fnMinKf}fnKf}fnMin {T}fn}fnunció= {frac {mu ^{2}}{2sigma ^{2}}}}+log {1}{2}{4eta ################################################################################################################################################################################################################################################################
Distribución binomial
Como ejemplo de una familia exponencial discreta, considere la distribución binomial con un número conocido de intentos n. La función de masa de probabilidad para esta distribución es
- f()x)=()nx)px()1− − p)n− − x,x▪ ▪ {}0,1,2,...... ,n}.{displaystyle f(x)={nchoose x}p^{x}(1-p)^{n-x},quad xin {0,1,2,ldotsn}.}
Esto se puede escribir de manera equivalente como
- f()x)=()nx)exp ()xlog ()p1− − p)+nlog ()1− − p)),{displaystyle f(x)={n choose x}exp left(xlog left({frac {p}{1-p}right)+nlog(1-p)right),}
lo que demuestra que la distribución binomial es una familia exponencial, cuyo parámetro natural es
- .. =log p1− − p.{displaystyle eta =log {frac {p}{1-p}}
Esta función de p se conoce como logit.
Tabla de distribuciones
La siguiente tabla muestra cómo reescribir una serie de distribuciones comunes como distribuciones de familia exponencial con parámetros naturales. Consulte las tarjetas para las principales familias exponenciales.
Para una variable escalar y un parámetro escalar, la forma es la siguiente:
- fX()x▪ ▪ Silencio Silencio )=h()x)exp ().. ()Silencio Silencio )T()x)− − A().. )){displaystyle f_{X}(xmid theta)=h(x)exp {Big (}eta ({theta })T(x)-A({eta } {Big)}}}
Para una variable escalar y un parámetro vectorial:
- fX()x▪ ▪ Silencio Silencio )=h()x)exp ().. ()Silencio Silencio )⋅ ⋅ T()x)− − A().. )){displaystyle f_{X}(xmid {boldsymbol {theta })=h(x)exp {Big (}{boldsymbol {eta }}({boldsymbol {theta }})cdot mathbf {T} (x)-A({boldsymbol {eta }){Big)}}}}}}}}}} {Big)}}}}}}}}
- fX()x▪ ▪ Silencio Silencio )=h()x)g()Silencio Silencio )exp ().. ()Silencio Silencio )⋅ ⋅ T()x)){fnMicrosoft Sans Serif})=h(x)g({boldsymbol {theta })exp {Big (}{boldsymbol {Theta }})cdotmathbf} {Bigsymbol {Big}} {cdotcdot} {cdotbf}}} {cdot}} {cdotcdot}} {cdotcdot} {i} {i} {cdotcdotcdotbf} {i} {i}}}}}} {i} {i}} {i} {cdotcdot {i}}} {cdoti} {cdoti} {cdoti} {i} {i}} {i}}}}}}}}}}}}}}cdotcdoti}
Para una variable vectorial y un parámetro vectorial:
- fX()x▪ ▪ Silencio Silencio )=h()x)exp ().. ()Silencio Silencio )⋅ ⋅ T()x)− − A().. )){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMitbf {f})bf {fnMitbf {fnMicrosoft}} {fnMicrosoft Sans Serif} {cdot} {m} {cdot} {cdotbf} {f}f} {f}cdot} {cdot} {cdotcdotcdot} {f} {cdotf} {cdotcdotb} {cdotf} {f} {f} {f}f} {f} {f} {f} {f} {f} {cdotcdotf} {cdot}}}f} {f} {f} {f} {cdotf} {f} {f} {cdot}}}
Las fórmulas anteriores eligen la forma funcional de la familia exponencial con una función log-partition A().. ){displaystyle A({boldsymbol {eta }}}}. La razón de esto es para que los momentos de las estadísticas suficientes se puedan calcular fácilmente, simplemente diferenciando esta función. Las formas alternativas implican la parametrización de esta función en términos del parámetro normal Silencio Silencio {displaystyle {boldsymbol {theta } en lugar del parámetro natural, y/o utilizando un factor g().. ){displaystyle g({boldsymbol {eta }}}} fuera del exponencial. La relación entre este último y el primero es:
- A().. )=− − log g().. ){displaystyle A({boldsymbol {eta })=-log g({boldsymbol {eta }}}}
- g().. )=e− − A().. ){displaystyle g({boldsymbol {eta }})=e^{-A({boldsymbol {eta }}}}}}
Para convertir entre las representaciones que involucran los dos tipos de parámetros, use las fórmulas a continuación para escribir un tipo de parámetro en términos del otro.
Distribution | Parameter(s) θ {displaystyle {boldsymbol {theta }}} | Natural parameter(s) η {displaystyle {boldsymbol {eta }}} | Inverse parameter mapping | Base measure h ( x ) {displaystyle h(x)} | Sufficient statistic T ( x ) {displaystyle T(x)} | Log-partition A ( η ) {displaystyle A({boldsymbol {eta }})} | Log-partition A ( θ ) {displaystyle A({boldsymbol {theta }})} |
---|---|---|---|---|---|---|---|
Bernoulli distribution | p {displaystyle p} |
log
p
1
−
p
{displaystyle log {frac {p}{1-p}}}
|
1
1
+
e
−
η
=
e
η
1
+
e
η
{displaystyle {frac {1}{1+e^{-eta }}}={frac {e^{eta }}{1+e^{eta }}}}
|
1 {displaystyle 1} | x {displaystyle x} | log ( 1 + e η ) {displaystyle log(1+e^{eta })} | − log ( 1 − p ) {displaystyle -log(1-p)} |
binomial distribution with known number of trials n {displaystyle n} |
p {displaystyle p} | log p 1 − p {displaystyle log {frac {p}{1-p}}} | 1 1 + e − η = e η 1 + e η {displaystyle {frac {1}{1+e^{-eta }}}={frac {e^{eta }}{1+e^{eta }}}} | ( n x ) {displaystyle {n choose x}} | x {displaystyle x} | n log ( 1 + e η ) {displaystyle nlog(1+e^{eta })} | − n log ( 1 − p ) {displaystyle -nlog(1-p)} |
Poisson distribution | λ {displaystyle lambda } | log λ {displaystyle log lambda } | e η {displaystyle e^{eta }} | 1 x ! {displaystyle {frac {1}{x!}}} | x {displaystyle x} | e η {displaystyle e^{eta }} | λ {displaystyle lambda } |
negative binomial distribution with known number of failures r {displaystyle r} |
p {displaystyle p} | log p {displaystyle log p} | e η {displaystyle e^{eta }} | ( x + r − 1 x ) {displaystyle {x+r-1 choose x}} | x {displaystyle x} | − r log ( 1 − e η ) {displaystyle -rlog(1-e^{eta })} | − r log ( 1 − p ) {displaystyle -rlog(1-p)} |
exponential distribution | λ {displaystyle lambda } | − λ {displaystyle -lambda } | − η {displaystyle -eta } | 1 {displaystyle 1} | x {displaystyle x} | − log ( − η ) {displaystyle -log(-eta)} | − log λ {displaystyle -log lambda } |
Pareto distribution with known minimum value x m {displaystyle x_{m}} |
α {displaystyle alpha } | − α − 1 {displaystyle -alpha -1} | − 1 − η {displaystyle -1-eta } | 1 {displaystyle 1} | log x {displaystyle log x} | − log ( − 1 − η ) + ( 1 + η ) log x m {displaystyle -log(-1-eta)+(1+eta)log x_{mathrm {m} }} | − log α − α log x m {displaystyle -log alpha -alpha log x_{mathrm {m} }} |
Weibull distribution with known shape k |
λ {displaystyle lambda } | − 1 λ k {displaystyle -{frac {1}{lambda ^{k}}}} | ( − η ) − 1 k {displaystyle (-eta)^{-{frac {1}{k}}}} | x k − 1 {displaystyle x^{k-1}} | x k {displaystyle x^{k}} | − log ( − η ) − log k {displaystyle -log(-eta)-log k} | k log λ − log k {displaystyle klog lambda -log k} |
Laplace distribution with known mean μ {displaystyle mu } |
b {displaystyle b} | − 1 b {displaystyle -{frac {1}{b}}} | − 1 η {displaystyle -{frac {1}{eta }}} | 1 {displaystyle 1} | | x − μ | {displaystyle |x-mu |} | log ( − 2 η ) {displaystyle log left(-{frac {2}{eta }}right)} | log 2 b {displaystyle log 2b} |
chi-squared distribution | ν {displaystyle nu } | ν 2 − 1 {displaystyle {frac {nu }{2}}-1} | 2 ( η + 1 ) {displaystyle 2(eta +1)} | e − x 2 {displaystyle e^{-{frac {x}{2}}}} | log x {displaystyle log x} | log Γ ( η + 1 ) + ( η + 1 ) log 2 {displaystyle log Gamma (eta +1)+(eta +1)log 2} | log Γ ( ν 2 ) + ν 2 log 2 {displaystyle log Gamma left({frac {nu }{2}}right)+{frac {nu }{2}}log 2} |
normal distribution known variance |
μ {displaystyle mu } | μ σ {displaystyle {frac {mu }{sigma }}} | σ η {displaystyle sigma eta } | e − x 2 2 σ 2 2 π σ {displaystyle {frac {e^{-{frac {x^{2}}{2sigma ^{2}}}}}{{sqrt {2pi }}sigma }}} | x σ {displaystyle {frac {x}{sigma }}} | η 2 2 {displaystyle {frac {eta ^{2}}{2}}} | μ 2 2 σ 2 {displaystyle {frac {mu ^{2}}{2sigma ^{2}}}} |
continuous Bernoulli distribution | λ {displaystyle lambda } | log λ 1 − λ {displaystyle log {frac {lambda }{1-lambda }}} | e η 1 + e η {displaystyle {frac {e^{eta }}{1+e^{eta }}}} | 1 {displaystyle 1} | x {displaystyle x} | log e η − 1 η {displaystyle log {frac {e^{eta }-1}{eta }}} | log ( 1 − 2 λ ( 1 − λ ) log ( 1 − λ λ ) ) {displaystyle log left({frac {1-2lambda }{(1-lambda)log left({frac {1-lambda }{lambda }}right)}}right)} |
normal distribution | μ , σ 2 {displaystyle mu sigma ^{2}} | [ μ σ 2 − 1 2 σ 2 ] {displaystyle {begin{bmatrix}{dfrac {mu }{sigma ^{2}}}\[10pt]-{dfrac {1}{2sigma ^{2}}}end{bmatrix}}} | [ − η 1 2 η 2 − 1 2 η 2 ] {displaystyle {begin{bmatrix}-{dfrac {eta _{1}}{2eta _{2}}}\[15pt]-{dfrac {1}{2eta _{2}}}end{bmatrix}}} | 1 2 π {displaystyle {frac {1}{sqrt {2pi }}}} | [ x x 2 ] {displaystyle {begin{bmatrix}x\x^{2}end{bmatrix}}} | − η 1 2 4 η 2 − 1 2 log ( − 2 η 2 ) {displaystyle -{frac {eta _{1}^{2}}{4eta _{2}}}-{frac {1}{2}}log(-2eta _{2})} | μ 2 2 σ 2 + log σ {displaystyle {frac {mu ^{2}}{2sigma ^{2}}}+log sigma } |
log-normal distribution | μ , σ 2 {displaystyle mu sigma ^{2}} | [ μ σ 2 − 1 2 σ 2 ] {displaystyle {begin{bmatrix}{dfrac {mu }{sigma ^{2}}}\[10pt]-{dfrac {1}{2sigma ^{2}}}end{bmatrix}}} | [ − η 1 2 η 2 − 1 2 η 2 ] {displaystyle {begin{bmatrix}-{dfrac {eta _{1}}{2eta _{2}}}\[15pt]-{dfrac {1}{2eta _{2}}}end{bmatrix}}} | 1 2 π x {displaystyle {frac {1}{{sqrt {2pi }}x}}} | [ log x ( log x ) 2 ] {displaystyle {begin{bmatrix}log x\(log x)^{2}end{bmatrix}}} | − η 1 2 4 η 2 − 1 2 log ( − 2 η 2 ) {displaystyle -{frac {eta _{1}^{2}}{4eta _{2}}}-{frac {1}{2}}log(-2eta _{2})} | μ 2 2 σ 2 + log σ {displaystyle {frac {mu ^{2}}{2sigma ^{2}}}+log sigma } |
inverse Gaussian distribution | μ , λ {displaystyle mu lambda } | [ − λ 2 μ 2 − λ 2 ] {displaystyle {begin{bmatrix}-{dfrac {lambda }{2mu ^{2}}}\[15pt]-{dfrac {lambda }{2}}end{bmatrix}}} | [ η 2 η 1 − 2 η 2 ] {displaystyle {begin{bmatrix}{sqrt {dfrac {eta _{2}}{eta _{1}}}}\[15pt]-2eta _{2}end{bmatrix}}} | 1 2 π x 3 2 {displaystyle {frac {1}{{sqrt {2pi }}x^{frac {3}{2}}}}} | [ x 1 x ] {displaystyle {begin{bmatrix}x\[5pt]{dfrac {1}{x}}end{bmatrix}}} | − 2 η 1 η 2 − 1 2 log ( − 2 η 2 ) {displaystyle -2{sqrt {eta _{1}eta _{2}}}-{frac {1}{2}}log(-2eta _{2})} | − λ μ − 1 2 log λ {displaystyle -{frac {lambda }{mu }}-{frac {1}{2}}log lambda } |
gamma distribution | α , β {displaystyle alpha beta } | [ α − 1 − β ] {displaystyle {begin{bmatrix}alpha -1\-beta end{bmatrix}}} | [ η 1 + 1 − η 2 ] {displaystyle {begin{bmatrix}eta _{1}+1\-eta _{2}end{bmatrix}}} | 1 {displaystyle 1} | [ log x x ] {displaystyle {begin{bmatrix}log x\xend{bmatrix}}} | log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) {displaystyle log Gamma (eta _{1}+1)-(eta _{1}+1)log(-eta _{2})} | log Γ ( α ) − α log β {displaystyle log Gamma (alpha)-alpha log beta } |
k , θ {displaystyle k, theta } | [ k − 1 − 1 θ ] {displaystyle {begin{bmatrix}k-1\[5pt]-{dfrac {1}{theta }}end{bmatrix}}} | [ η 1 + 1 − 1 η 2 ] {displaystyle {begin{bmatrix}eta _{1}+1\[5pt]-{dfrac {1}{eta _{2}}}end{bmatrix}}} | log Γ ( k ) + k log θ {displaystyle log Gamma (k)+klog theta } | ||||
inverse gamma distribution | α , β {displaystyle alpha beta } | [ − α − 1 − β ] {displaystyle {begin{bmatrix}-alpha -1\-beta end{bmatrix}}} | [ − η 1 − 1 − η 2 ] {displaystyle {begin{bmatrix}-eta _{1}-1\-eta _{2}end{bmatrix}}} | 1 {displaystyle 1} | [ log x 1 x ] {displaystyle {begin{bmatrix}log x\{frac {1}{x}}end{bmatrix}}} | log Γ ( − η 1 − 1 ) − ( − η 1 − 1 ) log ( − η 2 ) {displaystyle log Gamma (-eta _{1}-1)-(-eta _{1}-1)log(-eta _{2})} | log Γ ( α ) − α log β {displaystyle log Gamma (alpha)-alpha log beta } |
generalized inverse Gaussian distribution | p , a , b {displaystyle p, a, b} | [ p − 1 − a / 2 − b / 2 ] {displaystyle {begin{bmatrix}p-1\-a/2\-b/2end{bmatrix}}} | [ η 1 + 1 − 2 η 2 − 2 η 3 ] {displaystyle {begin{bmatrix}eta _{1}+1\-2eta _{2}\-2eta _{3}end{bmatrix}}} | 1 {displaystyle 1} | [ log x x 1 x ] {displaystyle {begin{bmatrix}log x\x\{frac {1}{x}}end{bmatrix}}} | log 2 K η 1 + 1 ( 4 η 2 η 3 ) − η 1 + 1 2 log η 2 η 3 {displaystyle log 2K_{eta _{1}+1}({sqrt {4eta _{2}eta _{3}}})-{frac {eta _{1}+1}{2}}log {frac {eta _{2}}{eta _{3}}}} | log 2 K p ( a b ) − p 2 log a b {displaystyle log 2K_{p}({sqrt {ab}})-{frac {p}{2}}log {frac {a}{b}}} |
scaled inverse chi-squared distribution | ν , σ 2 {displaystyle nu sigma ^{2}} | [ − ν 2 − 1 − ν σ 2 2 ] {displaystyle {begin{bmatrix}-{dfrac {nu }{2}}-1\[10pt]-{dfrac {nu sigma ^{2}}{2}}end{bmatrix}}} | [ − 2 ( η 1 + 1 ) η 2 η 1 + 1 ] {displaystyle {begin{bmatrix}-2(eta _{1}+1)\[10pt]{dfrac {eta _{2}}{eta _{1}+1}}end{bmatrix}}} | 1 {displaystyle 1} | [ log x 1 x ] {displaystyle {begin{bmatrix}log x\{frac {1}{x}}end{bmatrix}}} | log Γ ( − η 1 − 1 ) − ( − η 1 − 1 ) log ( − η 2 ) {displaystyle log Gamma (-eta _{1}-1)-(-eta _{1}-1)log(-eta _{2})} | log Γ ( ν 2 ) − ν 2 log ν σ 2 2 {displaystyle log Gamma left({frac {nu }{2}}right)-{frac {nu }{2}}log {frac {nu sigma ^{2}}{2}}} |
beta distribution (variant 1) |
α , β {displaystyle alpha beta } | [ α β ] {displaystyle {begin{bmatrix}alpha \beta end{bmatrix}}} | [ η 1 η 2 ] {displaystyle {begin{bmatrix}eta _{1}\eta _{2}end{bmatrix}}} | 1 x ( 1 − x ) {displaystyle {frac {1}{x(1-x)}}} | [ log x log ( 1 − x ) ] {displaystyle {begin{bmatrix}log x\log(1-x)end{bmatrix}}} | log Γ ( η 1 ) + log Γ ( η 2 ) − log Γ ( η 1 + η 2 ) {displaystyle log Gamma (eta _{1})+log Gamma (eta _{2})-log Gamma (eta _{1}+eta _{2})} | log Γ ( α ) + log Γ ( β ) − log Γ ( α + β ) {displaystyle log Gamma (alpha)+log Gamma (beta)-log Gamma (alpha +beta)} |
beta distribution (variant 2) |
α , β {displaystyle alpha beta } | [ α − 1 β − 1 ] {displaystyle {begin{bmatrix}alpha -1\beta -1end{bmatrix}}} | [ η 1 + 1 η 2 + 1 ] {displaystyle {begin{bmatrix}eta _{1}+1\eta _{2}+1end{bmatrix}}} | 1 {displaystyle 1} | [ log x log ( 1 − x ) ] {displaystyle {begin{bmatrix}log x\log(1-x)end{bmatrix}}} | log Γ ( η 1 + 1 ) + log Γ ( η 2 + 1 ) − log Γ ( η 1 + η 2 + 2 ) {displaystyle log Gamma (eta _{1}+1)+log Gamma (eta _{2}+1)-log Gamma (eta _{1}+eta _{2}+2)} | log Γ ( α ) + log Γ ( β ) − log Γ ( α + β ) {displaystyle log Gamma (alpha)+log Gamma (beta)-log Gamma (alpha +beta)} |
multivariate normal distribution | μ , Σ {displaystyle {boldsymbol {mu }}, {boldsymbol {Sigma }}} | [ Σ − 1 μ − 1 2 Σ − 1 ] {displaystyle {begin{bmatrix}{boldsymbol {Sigma }}^{-1}{boldsymbol {mu }}\[5pt]-{frac {1}{2}}{boldsymbol {Sigma }}^{-1}end{bmatrix}}} | [ − 1 2 η 2 − 1 η 1 − 1 2 η 2 − 1 ] {displaystyle {begin{bmatrix}-{frac {1}{2}}{boldsymbol {eta }}_{2}^{-1}{boldsymbol {eta }}_{1}\[5pt]-{frac {1}{2}}{boldsymbol {eta }}_{2}^{-1}end{bmatrix}}} | ( 2 π ) − k 2 {displaystyle (2pi)^{-{frac {k}{2}}}} | [ x x x T ] {displaystyle {begin{bmatrix}mathbf {x} \[5pt]mathbf {x} mathbf {x} ^{mathsf {T}}end{bmatrix}}} | − 1 4 η 1 T η 2 − 1 η 1 − 1 2 log | − 2 η 2 | {displaystyle -{frac {1}{4}}{boldsymbol {eta }}_{1}^{mathsf {T}}{boldsymbol {eta }}_{2}^{-1}{boldsymbol {eta }}_{1}-{frac {1}{2}}log left|-2{boldsymbol {eta }}_{2}right|} | 1 2 μ T Σ − 1 μ + 1 2 log | Σ | {displaystyle {frac {1}{2}}{boldsymbol {mu }}^{mathsf {T}}{boldsymbol {Sigma }}^{-1}{boldsymbol {mu }}+{frac {1}{2}}log |{boldsymbol {Sigma }}|} |
categorical distribution (variant 1) |
p
1
,
…
,
p
k
{displaystyle p_{1}, ldots,p_{k}}
where ∑ i = 1 k p i = 1 {displaystyle textstyle sum _{i=1}^{k}p_{i}=1} |
[ log p 1 ⋮ log p k ] {displaystyle {begin{bmatrix}log p_{1}\vdots \log p_{k}end{bmatrix}}} |
[
e
η
1
⋮
e
η
k
]
{displaystyle {begin{bmatrix}e^{eta _{1}}\vdots \e^{eta _{k}}end{bmatrix}}}
where ∑ i = 1 k e η i = 1 {displaystyle textstyle sum _{i=1}^{k}e^{eta _{i}}=1} |
1 {displaystyle 1} |
[
[
x
=
1
]
⋮
[
x
=
k
]
]
{displaystyle {begin{bmatrix}[x=1]\vdots \{[x=k]}end{bmatrix}}}
|
0 {displaystyle 0} | 0 {displaystyle 0} |
categorical distribution (variant 2) |
p
1
,
…
,
p
k
{displaystyle p_{1}, ldots,p_{k}}
where ∑ i = 1 k p i = 1 {displaystyle textstyle sum _{i=1}^{k}p_{i}=1} |
[ log p 1 + C ⋮ log p k + C ] {displaystyle {begin{bmatrix}log p_{1}+C\vdots \log p_{k}+Cend{bmatrix}}} |
[
1
C
e
η
1
⋮
1
C
e
η
k
]
=
{displaystyle {begin{bmatrix}{dfrac {1}{C}}e^{eta _{1}}\vdots \{dfrac {1}{C}}e^{eta _{k}}end{bmatrix}}=}
[ e η 1 ∑ i = 1 k e η i ⋮ e η k ∑ i = 1 k e η i ] {displaystyle {begin{bmatrix}{dfrac {e^{eta _{1}}}{sum _{i=1}^{k}e^{eta _{i}}}}\[10pt]vdots \[5pt]{dfrac {e^{eta _{k}}}{sum _{i=1}^{k}e^{eta _{i}}}}end{bmatrix}}} where ∑ i = 1 k e η i = C {displaystyle textstyle sum _{i=1}^{k}e^{eta _{i}}=C} |
1 {displaystyle 1} |
[
[
x
=
1
]
⋮
[
x
=
k
]
]
{displaystyle {begin{bmatrix}[x=1]\vdots \{[x=k]}end{bmatrix}}}
|
0 {displaystyle 0} | 0 {displaystyle 0} |
categorical distribution (variant 3) |
p
1
,
…
,
p
k
{displaystyle p_{1}, ldots,p_{k}}
where p k = 1 − ∑ i = 1 k − 1 p i {displaystyle p_{k}=1-textstyle sum _{i=1}^{k-1}p_{i}} |
[
log
p
1
p
k
⋮
log
p
k
−
1
p
k
0
]
=
{displaystyle {begin{bmatrix}log {dfrac {p_{1}}{p_{k}}}\[10pt]vdots \[5pt]log {dfrac {p_{k-1}}{p_{k}}}\[15pt]0end{bmatrix}}=}
[ log p 1 1 − ∑ i = 1 k − 1 p i ⋮ log p k − 1 1 − ∑ i = 1 k − 1 p i 0 ] {displaystyle {begin{bmatrix}log {dfrac {p_{1}}{1-sum _{i=1}^{k-1}p_{i}}}\[10pt]vdots \[5pt]log {dfrac {p_{k-1}}{1-sum _{i=1}^{k-1}p_{i}}}\[15pt]0end{bmatrix}}}
|
[
e
η
1
∑
i
=
1
k
e
η
i
⋮
e
η
k
∑
i
=
1
k
e
η
i
]
=
{displaystyle {begin{bmatrix}{dfrac {e^{eta _{1}}}{sum _{i=1}^{k}e^{eta _{i}}}}\[10pt]vdots \[5pt]{dfrac {e^{eta _{k}}}{sum _{i=1}^{k}e^{eta _{i}}}}end{bmatrix}}=}
[ e η 1 1 + ∑ i = 1 k − 1 e η i ⋮ e η k − 1 1 + ∑ i = 1 k − 1 e η i 1 1 + ∑ i = 1 k − 1 e η i ] {displaystyle {begin{bmatrix}{dfrac {e^{eta _{1}}}{1+sum _{i=1}^{k-1}e^{eta _{i}}}}\[10pt]vdots \[5pt]{dfrac {e^{eta _{k-1}}}{1+sum _{i=1}^{k-1}e^{eta _{i}}}}\[15pt]{dfrac {1}{1+sum _{i=1}^{k-1}e^{eta _{i}}}}end{bmatrix}}}
|
1 {displaystyle 1} |
[
[
x
=
1
]
⋮
[
x
=
k
]
]
{displaystyle {begin{bmatrix}[x=1]\vdots \{[x=k]}end{bmatrix}}}
|
log ( ∑ i = 1 k e η i ) = log ( 1 + ∑ i = 1 k − 1 e η i ) {displaystyle log left(sum _{i=1}^{k}e^{eta _{i}}right)=log left(1+sum _{i=1}^{k-1}e^{eta _{i}}right)} | − log p k = − log ( 1 − ∑ i = 1 k − 1 p i ) {displaystyle -log p_{k}=-log left(1-sum _{i=1}^{k-1}p_{i}right)} |
multinomial distribution (variant 1) with known number of trials n {displaystyle n} |
p
1
,
…
,
p
k
{displaystyle p_{1}, ldots,p_{k}}
where ∑ i = 1 k p i = 1 {displaystyle textstyle sum _{i=1}^{k}p_{i}=1} |
[ log p 1 ⋮ log p k ] {displaystyle {begin{bmatrix}log p_{1}\vdots \log p_{k}end{bmatrix}}} |
[
e
η
1
⋮
e
η
k
]
{displaystyle {begin{bmatrix}e^{eta _{1}}\vdots \e^{eta _{k}}end{bmatrix}}}
where ∑ i = 1 k e η i = 1 {displaystyle textstyle sum _{i=1}^{k}e^{eta _{i}}=1} |
n ! ∏ i = 1 k x i ! {displaystyle {frac {n!}{prod _{i=1}^{k}x_{i}!}}} | [ x 1 ⋮ x k ] {displaystyle {begin{bmatrix}x_{1}\vdots \x_{k}end{bmatrix}}} | 0 {displaystyle 0} | 0 {displaystyle 0} |
multinomial distribution (variant 2) with known number of trials n {displaystyle n} |
p
1
,
…
,
p
k
{displaystyle p_{1}, ldots,p_{k}}
where ∑ i = 1 k p i = 1 {displaystyle textstyle sum _{i=1}^{k}p_{i}=1} |
[ log p 1 + C ⋮ log p k + C ] {displaystyle {begin{bmatrix}log p_{1}+C\vdots \log p_{k}+Cend{bmatrix}}} |
[
1
C
e
η
1
⋮
1
C
e
η
k
]
=
{displaystyle {begin{bmatrix}{dfrac {1}{C}}e^{eta _{1}}\vdots \{dfrac {1}{C}}e^{eta _{k}}end{bmatrix}}=}
[ e η 1 ∑ i = 1 k e η i ⋮ e η k ∑ i = 1 k e η i ] {displaystyle {begin{bmatrix}{dfrac {e^{eta _{1}}}{sum _{i=1}^{k}e^{eta _{i}}}}\[10pt]vdots \[5pt]{dfrac {e^{eta _{k}}}{sum _{i=1}^{k}e^{eta _{i}}}}end{bmatrix}}} where ∑ i = 1 k e η i = C {displaystyle textstyle sum _{i=1}^{k}e^{eta _{i}}=C} |
n ! ∏ i = 1 k x i ! {displaystyle {frac {n!}{prod _{i=1}^{k}x_{i}!}}} | [ x 1 ⋮ x k ] {displaystyle {begin{bmatrix}x_{1}\vdots \x_{k}end{bmatrix}}} | 0 {displaystyle 0} | 0 {displaystyle 0} |
multinomial distribution (variant 3) with known number of trials n {displaystyle n} |
p
1
,
…
,
p
k
{displaystyle p_{1}, ldots,p_{k}}
where p k = 1 − ∑ i = 1 k − 1 p i {displaystyle p_{k}=1-textstyle sum _{i=1}^{k-1}p_{i}} |
[
log
p
1
p
k
⋮
log
p
k
−
1
p
k
0
]
=
{displaystyle {begin{bmatrix}log {dfrac {p_{1}}{p_{k}}}\[10pt]vdots \[5pt]log {dfrac {p_{k-1}}{p_{k}}}\[15pt]0end{bmatrix}}=}
[ log p 1 1 − ∑ i = 1 k − 1 p i ⋮ log p k − 1 1 − ∑ i = 1 k − 1 p i 0 ] {displaystyle {begin{bmatrix}log {dfrac {p_{1}}{1-sum _{i=1}^{k-1}p_{i}}}\[10pt]vdots \[5pt]log {dfrac {p_{k-1}}{1-sum _{i=1}^{k-1}p_{i}}}\[15pt]0end{bmatrix}}} |
[
e
η
1
∑
i
=
1
k
e
η
i
⋮
e
η
k
∑
i
=
1
k
e
η
i
]
=
{displaystyle {begin{bmatrix}{dfrac {e^{eta _{1}}}{sum _{i=1}^{k}e^{eta _{i}}}}\[10pt]vdots \[5pt]{dfrac {e^{eta _{k}}}{sum _{i=1}^{k}e^{eta _{i}}}}end{bmatrix}}=}
[ e η 1 1 + ∑ i = 1 k − 1 e η i ⋮ e η k − 1 1 + ∑ i = 1 k − 1 e η i 1 1 + ∑ i = 1 k − 1 e η i ] {displaystyle {begin{bmatrix}{dfrac {e^{eta _{1}}}{1+sum _{i=1}^{k-1}e^{eta _{i}}}}\[10pt]vdots \[5pt]{dfrac {e^{eta _{k-1}}}{1+sum _{i=1}^{k-1}e^{eta _{i}}}}\[15pt]{dfrac {1}{1+sum _{i=1}^{k-1}e^{eta _{i}}}}end{bmatrix}}} |
n ! ∏ i = 1 k x i ! {displaystyle {frac {n!}{prod _{i=1}^{k}x_{i}!}}} | [ x 1 ⋮ x k ] {displaystyle {begin{bmatrix}x_{1}\vdots \x_{k}end{bmatrix}}} | n log ( ∑ i = 1 k e η i ) = n log ( 1 + ∑ i = 1 k − 1 e η i ) {displaystyle nlog left(sum _{i=1}^{k}e^{eta _{i}}right)=nlog left(1+sum _{i=1}^{k-1}e^{eta _{i}}right)} | − n log p k = − n log ( 1 − ∑ i = 1 k − 1 p i ) {displaystyle -nlog p_{k}=-nlog left(1-sum _{i=1}^{k-1}p_{i}right)} |
Dirichlet distribution (variant 1) |
α 1 , … , α k {displaystyle alpha _{1}, ldots,alpha _{k}} | [ α 1 ⋮ α k ] {displaystyle {begin{bmatrix}alpha _{1}\vdots \alpha _{k}end{bmatrix}}} | [ η 1 ⋮ η k ] {displaystyle {begin{bmatrix}eta _{1}\vdots \eta _{k}end{bmatrix}}} | 1 ∏ i = 1 k x i {displaystyle {frac {1}{prod _{i=1}^{k}x_{i}}}} | [ log x 1 ⋮ log x k ] {displaystyle {begin{bmatrix}log x_{1}\vdots \log x_{k}end{bmatrix}}} | ∑ i = 1 k log Γ ( η i ) − log Γ ( ∑ i = 1 k η i ) {displaystyle sum _{i=1}^{k}log Gamma (eta _{i})-log Gamma left(sum _{i=1}^{k}eta _{i}right)} | ∑ i = 1 k log Γ ( α i ) − log Γ ( ∑ i = 1 k α i ) {displaystyle sum _{i=1}^{k}log Gamma (alpha _{i})-log Gamma left(sum _{i=1}^{k}alpha _{i}right)} |
Dirichlet distribution (variant 2) |
α 1 , … , α k {displaystyle alpha _{1}, ldots,alpha _{k}} | [ α 1 − 1 ⋮ α k − 1 ] {displaystyle {begin{bmatrix}alpha _{1}-1\vdots \alpha _{k}-1end{bmatrix}}} | [ η 1 + 1 ⋮ η k + 1 ] {displaystyle {begin{bmatrix}eta _{1}+1\vdots \eta _{k}+1end{bmatrix}}} | 1 {displaystyle 1} | [ log x 1 ⋮ log x k ] {displaystyle {begin{bmatrix}log x_{1}\vdots \log x_{k}end{bmatrix}}} | ∑ i = 1 k log Γ ( η i + 1 ) − log Γ ( ∑ i = 1 k ( η i + 1 ) ) {displaystyle sum _{i=1}^{k}log Gamma (eta _{i}+1)-log Gamma left(sum _{i=1}^{k}(eta _{i}+1)right)} | ∑ i = 1 k log Γ ( α i ) − log Γ ( ∑ i = 1 k α i ) {displaystyle sum _{i=1}^{k}log Gamma (alpha _{i})-log Gamma left(sum _{i=1}^{k}alpha _{i}right)} |
Wishart distribution | V , n {displaystyle mathbf {V} n} | [ − 1 2 V − 1 n − p − 1 2 ] {displaystyle {begin{bmatrix}-{frac {1}{2}}mathbf {V} ^{-1}\[5pt]{dfrac {n-p-1}{2}}end{bmatrix}}} | [ − 1 2 η 1 − 1 2 η 2 + p + 1 ] {displaystyle {begin{bmatrix}-{frac {1}{2}}{{boldsymbol {eta }}_{1}}^{-1}\[5pt]2eta _{2}+p+1end{bmatrix}}} | 1 {displaystyle 1} | [ X log | X | ] {displaystyle {begin{bmatrix}mathbf {X} \log |mathbf {X} |end{bmatrix}}} |
−
(
η
2
+
p
+
1
2
)
log
|
−
η
1
|
{displaystyle -left(eta _{2}+{frac {p+1}{2}}right)log |-{boldsymbol {eta }}_{1}|}
+
log
Γ
p
(
η
2
+
p
+
1
2
)
=
{displaystyle +log Gamma _{p}left(eta _{2}+{frac {p+1}{2}}right)=}
|
n 2 ( p log 2 + log | V | ) + log Γ p ( n 2 ) {displaystyle {frac {n}{2}}(plog 2+log |mathbf {V} |)+log Gamma _{p}left({frac {n}{2}}right)} |
Note: Uses the fact that t r ( A T B ) = vec ( A ) ⋅ vec ( B ) , {displaystyle {rm {tr}}(mathbf {A} ^{mathsf {T}}mathbf {B})=operatorname {vec} (mathbf {A})cdot operatorname {vec} (mathbf {B}),} i.e. the trace of a matrix product is much like a dot product. The matrix parameters are assumed to be vectorized (laid out in a vector) when inserted into the exponential form. Also, V {displaystyle mathbf {V} } and X {displaystyle mathbf {X} } are symmetric, so e.g. V T = V . {displaystyle mathbf {V} ^{mathsf {T}}=mathbf {V} .} | |||||||
inverse Wishart distribution | Ψ , m {displaystyle mathbf {Psi },m} | [ − 1 2 Ψ − m + p + 1 2 ] {displaystyle {begin{bmatrix}-{frac {1}{2}}{boldsymbol {Psi }}\[5pt]-{dfrac {m+p+1}{2}}end{bmatrix}}} | [ − 2 η 1 − ( 2 η 2 + p + 1 ) ] {displaystyle {begin{bmatrix}-2{boldsymbol {eta }}_{1}\[5pt]-(2eta _{2}+p+1)end{bmatrix}}} | 1 {displaystyle 1} | [ X − 1 log | X | ] {displaystyle {begin{bmatrix}mathbf {X} ^{-1}\log |mathbf {X} |end{bmatrix}}} |
(
η
2
+
p
+
1
2
)
log
|
−
η
1
|
{displaystyle left(eta _{2}+{frac {p+1}{2}}right)log |-{boldsymbol {eta }}_{1}|}
+
log
Γ
p
(
−
(
η
2
+
p
+
1
2
)
)
=
{displaystyle +log Gamma _{p}left(-{Big (}eta _{2}+{frac {p+1}{2}}{Big)}right)=}
|
m 2 ( p log 2 − log | Ψ | ) + log Γ p ( m 2 ) {displaystyle {frac {m}{2}}(plog 2-log |{boldsymbol {Psi }}|)+log Gamma _{p}left({frac {m}{2}}right)} |
normal-gamma distribution | α , β , μ , λ {displaystyle alpha beta mu lambda } | [ α − 1 2 − β − λ μ 2 2 λ μ − λ 2 ] {displaystyle {begin{bmatrix}alpha -{frac {1}{2}}\-beta -{dfrac {lambda mu ^{2}}{2}}\lambda mu \-{dfrac {lambda }{2}}end{bmatrix}}} | [ η 1 + 1 2 − η 2 + η 3 2 4 η 4 − η 3 2 η 4 − 2 η 4 ] {displaystyle {begin{bmatrix}eta _{1}+{frac {1}{2}}\-eta _{2}+{dfrac {eta _{3}^{2}}{4eta _{4}}}\-{dfrac {eta _{3}}{2eta _{4}}}\-2eta _{4}end{bmatrix}}} | 1 2 π {displaystyle {dfrac {1}{sqrt {2pi }}}} | [ log τ τ τ x τ x 2 ] {displaystyle {begin{bmatrix}log tau \tau \tau x\tau x^{2}end{bmatrix}}} |
log
Γ
(
η
1
+
1
2
)
−
1
2
log
(
−
2
η
4
)
{displaystyle log Gamma left(eta _{1}+{frac {1}{2}}right)-{frac {1}{2}}log left(-2eta _{4}right)}
− ( η 1 + 1 2 ) log ( − η 2 + η 3 2 4 η 4 ) {displaystyle -left(eta _{1}+{frac {1}{2}}right)log left(-eta _{2}+{dfrac {eta _{3}^{2}}{4eta _{4}}}right)} |
log Γ ( α ) − α log β − 1 2 log λ {displaystyle log Gamma left(alpha right)-alpha log beta -{frac {1}{2}}log lambda } |
- * El soporte de Iverson es una generalización de la discreta función delta: Si la expresión entre corchetes es verdadera, el soporte tiene valor 1; si la declaración adjunta es falsa, el soporte de Iverson es cero. Hay muchas notaciones variantes, por ejemplo entre corchetes ondulados: ⧙a=b⧘ es equivalente al [a=b] notación utilizada arriba.
Las tres variantes de distribución categórica y distribución multinomial se deben a que los parámetros pi{displaystyle P_{i} están limitados, de tal manera que
- .. i=1kpi=1.{displaystyle sum ¿Qué?
Así, sólo hay k− − 1{displaystyle k-1} parámetros independientes.
- Variante 1 usos k{displaystyle k} parámetros naturales con una relación simple entre los parámetros estándar y naturales; sin embargo, sólo k− − 1{displaystyle k-1} de los parámetros naturales son independientes, y el conjunto de k{displaystyle k} los parámetros naturales no son identificables. La limitación de los parámetros habituales se traduce en una limitación similar en los parámetros naturales.
- El Variante 2 demuestra que todo el conjunto de parámetros naturales no es identificable: Agregar cualquier valor constante a los parámetros naturales no tiene efecto en la distribución resultante. Sin embargo, mediante el uso de la limitación en los parámetros naturales, la fórmula para los parámetros normales en términos de los parámetros naturales se puede escribir de una manera independiente en la constante que se añade.
- Variante 3 muestra cómo hacer que los parámetros sean identificables de una manera conveniente C=− − log pk.{displaystyle C=-log. Esto efectivamente "pivots" alrededor pk{displaystyle P_{k} y hace que el último parámetro natural tenga el valor constante de 0. Todas las fórmulas restantes están escritas de una manera que no accede pk{displaystyle ¿Por qué?, de modo que efectivamente el modelo sólo tiene k− − 1{displaystyle k-1} parámetros, tanto del tipo habitual como natural.
Las variantes 1 y 2 no son realmente familias exponenciales estándar en absoluto. Más bien son Familias exponenciales curvadas, es decir, hay k− − 1{displaystyle k-1} parámetros independientes incrustados en k{displaystyle k}- espacio de parámetro dimensional. Muchos de los resultados estándar para las familias exponenciales no se aplican a las familias exponenciales curvas. Un ejemplo es la función log-partition A()x){displaystyle A(x)}, que tiene el valor de 0 en los casos curvados. En las familias exponenciales estándar, los derivados de esta función corresponden a los momentos (más técnicamente, los acumuladores) de las estadísticas suficientes, por ejemplo la media y la varianza. Sin embargo, un valor de 0 sugiere que la media y la diferencia de todas las estadísticas suficientes son uniformemente 0, mientras que de hecho la media de la i{displaystyle i}t suficiente estadística debe ser pi{displaystyle ¿Por qué?. (Esto emerge correctamente al usar la forma de A()x){displaystyle A(x)} mostrado en variante 3.)
Momentos y cumulantes del estadístico suficiente
Normalización de la distribución
Empezamos con la normalización de la distribución de probabilidad. En general, cualquier función no negativa f(x) que sirva como núcleo de una distribución de probabilidad (la parte que codifica toda dependencia de x) se puede convertir en una distribución adecuada mediante la normalización: es decir,
- p()x)=1Zf()x){displaystyle p(x)={}{Z}f(x)}
dónde
- Z=∫ ∫ xf()x)dx.{displaystyle Z=int _{x}f(x),dx.}
El factor Z a veces se denomina normalizador o función de partición, en base a una analogía con la física estadística.
En el caso de una familia exponencial donde
- p()x;.. )=g().. )h()x)e.. ⋅ ⋅ T()x),{displaystyle p(x;{boldsymbol {eta })=g({boldsymbol {eta })h(x)e^{boldsymbol {eta }cdot mathbf {T} (x)}}}}}}
el núcleo es
- K()x)=h()x)e.. ⋅ ⋅ T()x){displaystyle K(x)=h(x)e^{boldsymbol {eta }cdot mathbf {T} (x)}}
y la función de partición es
- Z=∫ ∫ xh()x)e.. ⋅ ⋅ T()x)dx.{displaystyle Z=int _{x}h(x)e^{{boldsymbol {eta }cdot mathbf {T}(x)},dx.}
Dado que la distribución debe normalizarse, tenemos
- 1=∫ ∫ xg().. )h()x)e.. ⋅ ⋅ T()x)dx=g().. )∫ ∫ xh()x)e.. ⋅ ⋅ T()x)dx=g().. )Z.{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {cdot} {cdotm} {fnMicrosoft Sans Serif} {fnMicrosoft ] {fnMicrosoft ] {fnMicrosoft ] {fnMicrosoft} Z.}
En otras palabras,
- g().. )=1Z{displaystyle g({boldsymbol {eta })={frac {1}{Z}}
o equivalente
- A().. )=− − log g().. )=log Z.{displaystyle A({boldsymbol {eta })=-log g({boldsymbol {eta }})=log Z.}
Esto justifica llamar a A el log-normalizer o log-partition function.
Función generadora de momentos del estadístico suficiente
Ahora, la función generadora de momento de T(x) es
- MT()u)↑ ↑ E[eu⊤ ⊤ T()x)▪ ▪ .. ]=∫ ∫ xh()x)e().. +u)⊤ ⊤ T()x)− − A().. )dx=eA().. +u)− − A().. ){displaystyle M_{T}(u)equiv E[e^{u^{top }T(x)}mid eta ]=int _{x}h(x)e^{(eta +u)}T(x)-A(eta)},dx=e^{A(eta +u)-A(eta}}
probando la afirmación anterior de que
- K()u▪ ▪ .. )=A().. +u)− − A().. ){displaystyle K(umid eta)=A(eta +u)-A(eta)}
es la función generadora cumulante para T.
Una subclase importante de familias exponenciales son las familias exponenciales naturales, que tienen una forma similar para la función generadora de momentos para la distribución de x.
Identidades diferenciales para cumulantes
En particular, usando las propiedades de la función generadora cumulante,
- E ()Tj)=∂ ∂ A().. )∂ ∂ .. j{displaystyle operatorname {fnMicrosoft Sans Serif}{partial A(eta)}{partial eta - Sí.
y
- cov ()Ti,Tj)=∂ ∂ 2A().. )∂ ∂ .. i∂ ∂ .. j.{displaystyle operatorname {cov} left(T_{i}, T_{j}right)={frac {partial ^{2}A(eta)}{partial eta _{i},partial eta - Sí.
Los primeros dos momentos crudos y todos los segundos momentos mixtos se pueden recuperar de estas dos identidades. Los momentos de orden superior y los cumulantes se obtienen mediante derivadas superiores. Esta técnica suele ser útil cuando T es una función complicada de los datos, cuyos momentos son difíciles de calcular por integración.
Otra forma de ver esto que no se basa en la teoría de los cumulantes es partir del hecho de que la distribución de una familia exponencial debe normalizarse y diferenciarse. Ilustramos usando el caso simple de un parámetro unidimensional, pero una derivación análoga se mantiene de manera más general.
En el caso unidimensional, tenemos
- p()x)=g().. )h()x)e.. T()x).{displaystyle p(x)=g(eta)h(x)e^{eta T(x)}.
Esto debe normalizarse, por lo que
- 1=∫ ∫ xp()x)dx=∫ ∫ xg().. )h()x)e.. T()x)dx=g().. )∫ ∫ xh()x)e.. T()x)dx.{displaystyle 1=int _{x}p(x),dx=int _{x}g(eta)h(x)e^{eta T(x)},dx=g(eta)int _{x}h(x)e^{eta T(x)},dx.}
Tome la derivada de ambos lados con respecto a η:
- 0=g().. )dd.. ∫ ∫ xh()x)e.. T()x)dx+g.().. )∫ ∫ xh()x)e.. T()x)dx=g().. )∫ ∫ xh()x)()dd.. e.. T()x))dx+g.().. )∫ ∫ xh()x)e.. T()x)dx=g().. )∫ ∫ xh()x)e.. T()x)T()x)dx+g.().. )∫ ∫ xh()x)e.. T()x)dx=∫ ∫ xT()x)g().. )h()x)e.. T()x)dx+g.().. )g().. )∫ ∫ xg().. )h()x)e.. T()x)dx=∫ ∫ xT()x)p()x)dx+g.().. )g().. )∫ ∫ xp()x)dx=E [T()x)]+g.().. )g().. )=E [T()x)]+dd.. log g().. )##### ########################################################################################################################################################################################################################################################### [T(x)]+{frac {g'(eta)}{g(eta)}\=operatorname [T(x)]+{d}{deta }log g(eta)end{aligned}}
Por lo tanto,
- E [T()x)]=− − dd.. log g().. )=dd.. A().. ).{displaystyle operatorname {E} [T(x)]=-{frac {d}log g(eta)={frac {deta }A(eta).}
Ejemplo 1
Como ejemplo introductorio, considere la distribución gamma, cuya distribución está definida por
- p()x)=β β α α .. ()α α )xα α − − 1e− − β β x.{displaystyle p(x)={frac {beta ^{alpha ¿Qué? -1}e^{-beta x}
Refiriéndose a la tabla anterior, podemos ver que el parámetro natural viene dado por
- .. 1=α α − − 1,{displaystyle eta _{1}=alpha -1.
- .. 2=− − β β ,{displaystyle eta ¿Qué?
las sustituciones inversas son
- α α =.. 1+1,{displaystyle alpha =eta ¿Qué?
- β β =− − .. 2,{displaystyle beta =-eta _{2},}
las estadísticas suficientes ()log x,x),{displaystyle (log x,x),} y la función log-partition es
- A().. 1,.. 2)=log .. ().. 1+1)− − ().. 1+1)log ()− − .. 2).{displaystyle A(eta _{1},eta _{2})=log Gamma (eta _{1}+1)-(eta _{1}+1)log(-eta _{2}). }
Podemos encontrar la media de las estadísticas suficientes de la siguiente manera. Primero, para η1:
- E [log x]=∂ ∂ A().. 1,.. 2)∂ ∂ .. 1=∂ ∂ ∂ ∂ .. 1()log .. ().. 1+1)− − ().. 1+1)log ()− − .. 2))=↑ ↑ ().. 1+1)− − log ()− − .. 2)=↑ ↑ ()α α )− − log β β ,{displaystyle {begin{aligned}operatorname {E} [log x] implica={frac {partial A(eta _{1},eta _{2}}{partial eta ¿Qué? {partial }{partial eta ¿Qué? Gamma (eta _{1}+1)-(eta _{1}+1)log(-eta _{2})right)\cl=psi (eta _{1}+1)-log(-eta _{2})\\\\cH1logbetaend{aligned}}}}}}}}
Donde ↑ ↑ ()x){displaystyle psi (x)} es la función digamma (derivativa de gamma log), y usamos las sustituciones inversas en el último paso.
Ahora, para η2:
- E [x]=∂ ∂ A().. 1,.. 2)∂ ∂ .. 2=∂ ∂ ∂ ∂ .. 2()log .. ().. 1+1)− − ().. 1+1)log ()− − .. 2))=− − ().. 1+1)1− − .. 2()− − 1)=.. 1+1− − .. 2=α α β β ,{displaystyle {begin{aligned}operatorname {E} [x] ventaja={frac {partial A(eta _{1},eta _{2}}}{partial eta ¿Qué? {partial }{partial eta ¿Qué? Gamma (eta _{1}+1)-(eta _{1}+1)log(-eta _{2})right)\cliente=-(eta _{1}+1){frac {1}{-eta _{2}}} {frac {eta _{1}+1}{-eta ################################################################################################################################################################################################################################################################
haciendo de nuevo la sustitución inversa en el último paso.
Para calcular la varianza de x, simplemente diferenciamos de nuevo:
- Var ()x)=∂ ∂ 2A().. 1,.. 2)∂ ∂ .. 22=∂ ∂ ∂ ∂ .. 2.. 1+1− − .. 2=.. 1+1.. 22=α α β β 2.{displaystyle {begin{aligned}operatorname {Var} (x) sentimiento={frac {partial ^{2}Aleft(eta _{1},eta _{2}right)}{partial eta ¿Qué? {partial }{partial eta ¿Qué? _{1}+1}{-eta - ¿Por qué? ##{1}+1}{eta ¿Por qué?
Todos estos cálculos se pueden realizar mediante integración, haciendo uso de varias propiedades de la función gamma, pero esto requiere mucho más trabajo.
Ejemplo 2
Como otro ejemplo, considere una variable aleatoria de valor real X con densidad
- pSilencio Silencio ()x)=Silencio Silencio e− − x()1+e− − x)Silencio Silencio +1{displaystyle p_{theta }(x)={frac {theta e^{-x}{left(1+e^{-x}right)^{theta #
indexado por parámetro de forma Silencio Silencio ▪ ▪ ()0,JUEGO JUEGO ){displaystyle theta in (0,infty)} (esto se llama la distribución-logística del puño). La densidad puede ser reescrita como
- e− − x1+e− − xexp ()− − Silencio Silencio log ()1+e− − x)+log ()Silencio Silencio )){displaystyle {frac {-x}{1+e^{-x}}exp left(-theta log left(1+e^{-x}right)+log(theta)right)}
Observe que esta es una familia exponencial con parámetro natural
- .. =− − Silencio Silencio ,{displaystyle eta =-theta}
estadística suficiente
- T=log ()1+e− − x),{displaystyle T=log left(1+e^{-x}right),}
y función de partición de registro
- A().. )=− − log ()Silencio Silencio )=− − log ()− − .. ){displaystyle A(eta)=-log(theta)=-log(-eta)}
Así que usando la primera identidad,
- E ()log ()1+e− − X))=E ()T)=∂ ∂ A().. )∂ ∂ .. =∂ ∂ ∂ ∂ .. [− − log ()− − .. )]=1− − .. =1Silencio Silencio ,{displaystyle operatorname {E} (log(1+e^{-X})=operatorname {E} (T)={frac {partial A(eta)}{partial eta {fnMicrosoft Sans Serif}= {fnMicrosoft Sans Serif}={fnMicroc {1}{-eta }={frac {1} {theta}}} {fnMicroc {}} {fnMicroc}} {Theta}}}}} {f}}}}} {f}}}} {fnMicroc {f}} {f}} {f}}}}}} {f}} {f}}}}}}}}} {f}}}}}}}}}}}}} {f}}}}}}}}}}}} {f}}}}}} {f}}}}} {f}}}}}}}}}}}}}}} {f}}}}} {f} {f}}}} {f}}}}}}}}}}}}}} {f}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}
y usando la segunda identidad
- Var ()log ()1+e− − X))=∂ ∂ 2A().. )∂ ∂ .. 2=∂ ∂ ∂ ∂ .. [1− − .. ]=1()− − .. )2=1Silencio Silencio 2.{displaystyle operatorname {var} (log left(1+e^{-X}right)={frac {partial ^{2}A(eta)}{partial eta ^{2}}}={fracfrac {partial }{partial eta }}left[{frac {1}{-eta }right]={frac {1}{(-eta)}}={frac {1}{theta ^{2}}}}}}}}}}}} {partial }{partial }} {
Este ejemplo ilustra un caso en el que usar este método es muy simple, pero el cálculo directo sería casi imposible.
Ejemplo 3
El último ejemplo es uno en el que la integración sería extremadamente difícil. Este es el caso de la distribución Wishart, que se define sobre matrices. Incluso tomar derivadas es un poco complicado, ya que implica cálculo matricial, pero las identidades respectivas se enumeran en ese artículo.
De la tabla anterior, podemos ver que el parámetro natural viene dado por
- .. 1=− − 12V− − 1,{displaystyle {boldsymbol {eta }_{1}=-{frac {1} {2}mathbf {V} } {-1}
- .. 2=n− − p− − 12,{displaystyle eta ¿Qué? {n-p-1}{2}}}
las sustituciones inversas son
- V=− − 12.. 1− − 1,{displaystyle mathbf {V} =-{frac {1}{2}{boldsymbol {eta} }_{1} {-1}
- n=2.. 2+p+1,{displaystyle n=2eta ¿Qué?
y las estadísticas suficientes ()X,log SilencioXSilencio).{displaystyle (mathbf {X}log Silenciomathbf {X} Silencio).}
La función de partición de registro está escrita en varias formas en la tabla, para facilitar la diferenciación y la sustitución hacia atrás. Utilizamos los siguientes formularios:
- A().. 1,n)=− − n2log Silencio− − .. 1Silencio+log .. p()n2),{displaystyle A({boldsymbol {eta }_{1},n)=-{frac ################################################################################################################################################################################################################################################################ ################################################################################################################################################################################################################################################################ "Gamma"
- A()V,.. 2)=().. 2+p+12)()plog 2+log SilencioVSilencio)+log .. p().. 2+p+12).{displaystyle A(mathbf {V}eta _{2}=left(eta) ¿Por qué? "Gamma" ¿Qué?
- Expectativa de X (asociado con .1)
Para diferenciar con respecto a η1, necesitamos la siguiente identidad de cálculo matricial:
- ∂ ∂ log SilencioaXSilencio∂ ∂ X=()X− − 1)T{displaystyle {frac {partial log Наmathbf {X}}{partial mathbf {X}}=(mathbf {X} {f} {f}} {f}} {f}} {f}} {f}}} {f}}}} {f}}} {f}}} {f}}}} {f}}}} {f}
Entonces:
- E [X]=∂ ∂ A().. 1,⋯ ⋯ )∂ ∂ .. 1=∂ ∂ ∂ ∂ .. 1[− − n2log Silencio− − .. 1Silencio+log .. p()n2)]=− − n2().. 1− − 1)T=n2()− − .. 1− − 1)T=n()V)T=nV{displaystyle {begin{aligned}operatorname [mathbf {X}] {boldsymbol {eta] }_{1}\\fnMic {partial }{partial {boldsymbol {eta - ¿Qué? ################################################################################################################################################################################################################################################################ ################################################################################################################################################################################################################################################################ Gamma _{p}left({frac {n} {2}right)derecha]\demn=-{frac {fn} {fn} {fn} {fn}} {fn}} {\fn}} {\fn} {fn}fn} {fn}}} {fn}}} {fn}} {\fn}\fn}\\fn}\fn}}\\\\\fn}\\fn}\\fn}fn}\\fn}}\\\\\\\\\\\\\fn}fn}\\\\\\\\fn}\fn}\\\\\\\\\\\\fn}fn}\\\\\\\\\\\fn}\\\ {fn}\\fnK}\fnMicroc {fn} {fn} {fn} {fn}} {fn} {fn} {fn} {fn}} {fn}} {fn}}} {fn}}} {fn}} {\fn} {fn}}}}} {fn}}}} { {fn} {fn}\fnfnfn} {fnfn}}}\\cHFF}\\\cH30}}\\fnfn\fn}}}}}}}}}}\\\\cH0}}\\\\cH0}}\\\\\\\\cH00}}\\\\\cH3}\\cH00}cH3}}\\\cH00}}\\\\\\\\\\\\cH3n}\cH3}}\\\\cH00}}}}\\\\\cH00}}}}\\\\cH00}}}}}}}}
La última línea utiliza el hecho de que V es simétrica y, por lo tanto, es la misma cuando se transpone.
- Expectativa de log TENXTEN (asociado con .2)
Ahora, para η2, primero necesitamos expandir la parte de la función de partición logarítmica que involucra la función gamma multivariante:
- log .. p()a)=log ()π π p()p− − 1)4∏ ∏ j=1p.. ()a+1− − j2))=p()p− − 1)4log π π +.. j=1plog .. [a+1− − j2]{displaystyle log Gamma _{p}(a)=log left(pi ^{frac {p(p-1)}{4}prod _{j=1}{p}p} Gamma left(a+{frac {1-j}{2}right)={frac {p(p-1)}{4}log pi +sum _{j=1}{p}log} Gamma left[a+{frac {1-j}{2}derecha]
También necesitamos la función digamma:
- ↑ ↑ ()x)=ddxlog .. ()x).{displaystyle psi (x)={frac {dx}log Gamma (x). }
Entonces:
- E [log SilencioXSilencio]=∂ ∂ A()...... ,.. 2)∂ ∂ .. 2=∂ ∂ ∂ ∂ .. 2[− − ().. 2+p+12)()plog 2+log SilencioVSilencio)+log .. p().. 2+p+12)]=∂ ∂ ∂ ∂ .. 2[().. 2+p+12)()plog 2+log SilencioVSilencio)+p()p− − 1)4log π π +.. j=1plog .. ().. 2+p+12+1− − j2)]=plog 2+log SilencioVSilencio+.. j=1p↑ ↑ ().. 2+p+12+1− − j2)=plog 2+log SilencioVSilencio+.. j=1p↑ ↑ ()n− − p− − 12+p+12+1− − j2)=plog 2+log SilencioVSilencio+.. j=1p↑ ↑ ()n+1− − j2){displaystyle {begin{aligned}operatorname {E} [log ⋅mathbf {X} ⋅] ################################################################################################################################################################################################################################################################ ¿Por qué? ¿Por qué? "Gamma" ¿Por qué? {partial }{partial eta _{2}}left[left] {2}+{frac {p+1}{2}}right)(plog 2+log mathbf {V} TEN)+{frac {p(p-1)}{4}log pi +sum _{j=1}log}p}log Gamma left(eta _{2}+{frac {p+1}{2}+{frac} {1-j}{2}derecha]\\fnMicrosoft Sans Serif} 2+log Silenciomathbf {V} ← _{j=1}p}psi left(eta) _{2}+{frac {p+1}{2}+{frac} {1-j}{2}right)\\fnMicrosoft Sans ServientosfnMicrosoft _{j=1}{p}p}p}psileft({fracfnMicroc] {n-p-1}{2}+{frac} {p+1}{2}+{frac} {1-j}{2}right)\\fnMicrosoft Sans Serif} 2+log Silenciomathbf {V} ← _{j=1}p}psi left({frac {n+1-j}{2}right)end{aligned}}
Esta última fórmula se incluye en el artículo de distribución de Wishart. Ambas expectativas son necesarias cuando se derivan las ecuaciones de actualización de Bayes variacional en una red de Bayes que involucra una distribución de Wishart (que es el conjugado previo de la distribución normal multivariante).
Calcular estas fórmulas usando integración sería mucho más difícil. El primero, por ejemplo, requeriría integración matricial.
Entropía
Entropía relativa
La entropía relativa (divergencia de Kullback-Leibler, divergencia KL) de dos distribuciones en una familia exponencial tiene una expresión simple como la divergencia de Bregman entre los parámetros naturales con respecto al log-normalizador. La entropía relativa se define en términos de una integral, mientras que la divergencia de Bregman se define en términos de una derivada y un producto interno y, por lo tanto, es más fácil de calcular y tiene una expresión de forma cerrada (suponiendo que la derivada tiene una expresión de forma cerrada). Además, la divergencia de Bregman en términos de los parámetros naturales y el log-normalizador es igual a la divergencia de Bregman de los parámetros duales (parámetros de expectativa), en el orden opuesto, para la función conjugada convexa.
Fijación de una familia exponencial con normalizador de troncos A{displaystyle A} (con convexo conjugado) AAlternativa Alternativa {displaystyle A^{*}), escribiendo PA,Silencio Silencio {displaystyle P_{A,theta } para la distribución en esta familia correspondiente a un valor fijo del parámetro natural Silencio Silencio {displaystyle theta } (escritura) Silencio Silencio .{displaystyle theta} para otro valor, y con .. ,.. .{displaystyle etaeta} para los parámetros de doble expectativa/momento correspondientes), escritura KL para la divergencia KL, y BA{displaystyle B_{A} para la divergencia Bregman, las divergencias están relacionadas como:
- KL()PA,Silencio Silencio ∥ ∥ PA,Silencio Silencio .)=BA()Silencio Silencio .∥ ∥ Silencio Silencio )=BAAlternativa Alternativa ().. ∥ ∥ .. .).{displaystyle {rm {}(P_{A,theta) ♪parallel P_{A,theta '}=B_{A}(theta 'parallel theta)=B_{A^{*}}(eta parallel eta ').}}}
La divergencia KL se escribe de manera convencional con respecto al parámetro primer, mientras que la divergencia de Bregman se escribe de manera convencional con respecto al parámetro segundo y, por lo tanto, se puede leer como "la entropía relativa es igual a la divergencia de Bregman definida por el normalizador logarítmico en los parámetros naturales intercambiados", o de manera equivalente como "igual a la divergencia de Bregman definida por el dual al normalizador logarítmico en los parámetros de expectativa".
Derivación de máxima entropía
Las familias exponenciales surgen naturalmente como respuesta a la siguiente pregunta: ¿cuál es la distribución de máxima entropía consistente con las restricciones dadas sobre los valores esperados?
La entropía de información de una distribución de probabilidad dF(x) solo se puede calcular con respecto a alguna otra distribución de probabilidad (o, más generalmente, una medida positiva), y ambas medidas deben ser mutuamente absolutamente continuas. En consecuencia, debemos elegir una medida de referencia dH(x) con el mismo soporte que dF(x).
Did you mean:The entropy of dF(x) relative to d(x) is
- S[dF▪ ▪ dH]=− − ∫ ∫ dFdHlog dFdHdH{displaystyle S[d] ¿Qué?
o
- S[dF▪ ▪ dH]=∫ ∫ log dHdFdF{displaystyle S[d] Fmid dH]=int log {frac {dH} {dF},dF}
donde dF/dH y dH/dF son derivados de Radon-Nikodym. La definición ordinaria de entropía para una distribución discreta apoyada en un conjunto I, a saber
- S=− − .. i▪ ▪ Ipilog pi{displaystyle S=-sum _{iin I'p_{i}log P_{i}
assumed, thought this is seldom pointed out, that dH is chosen to be the counting measure on I.
Considere ahora una colección de cantidades observables (variables aleatorias) Ti. La distribución de probabilidad dF cuya entropía con respecto a dH es máxima, sujeta a las condiciones de que el valor esperado de Ti sea igual a ti, es una familia exponencial con dH como medida de referencia y (T1,..., Tn) como estadística suficiente.
La derivación es un cálculo variacional simple usando multiplicadores de Lagrange. La normalización se impone dejando que T0 = 1 sea una de las restricciones. Los parámetros naturales de la distribución son los multiplicadores de Lagrange, y el factor de normalización es el multiplicador de Lagrange asociado a T0.
Para ver ejemplos de tales derivaciones, consulte Distribución de probabilidad de máxima entropía.
Papel en las estadísticas
Estimación clásica: suficiencia
Según el teorema de Pitman-Koopman-Darmois, entre familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se estima, solo en familias exponenciales existe un estadístico suficiente cuya dimensión permanece acotada como aumenta el tamaño de la muestra.
En forma menos concisa, suponga Xk, (donde k = 1, 2, 3,... n) son variables aleatorias independientes, idénticamente distribuidas. Solo si su distribución es una de la familia exponencial de distribuciones, existe una estadística suficiente T(X1,..., Xn) cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n; la estadística T puede ser un vector o un solo número escalar, pero sea lo que sea, su tamaño no crecerá ni se reducirá cuando se obtengan más datos.
Como contraejemplo, si estas condiciones se relajan, la familia de distribuciones uniformes (discretas o continuas, con uno o ambos límites desconocidos) tiene una estadística suficiente, a saber, el máximo de la muestra, el mínimo de la muestra y el tamaño de la muestra, pero no forman una familia exponencial, ya que el dominio varía con los parámetros.
Estimación bayesiana: distribuciones conjugadas
Las familias exponenciales también son importantes en las estadísticas bayesianas. En las estadísticas bayesianas una distribución previa se multiplica por una función de probabilidad y luego se normaliza para producir una distribución posterior. En el caso de una probabilidad que pertenece a una familia exponencial existe un precedente conyugal, que a menudo también está en una familia exponencial. Un conjugado anterior π para el parámetro .. {displaystyle {boldsymbol {eta } de una familia exponencial
- f()x▪ ▪ .. )=h()x)exp ().. TT()x)− − A().. )){displaystyle f(xmid {boldsymbol {eta })=h(x)exp left({boldsymbol {eta - Sí.
está dado por
- pπ π ().. ▪ ▪ χ χ ,.. )=f()χ χ ,.. )exp ().. Tχ χ − − .. A().. )),{displaystyle p_{pi }({boldsymbol {eta }mid {boldsymbol {chi }},nu)=f({boldsymbol {chi },nu)expleft({boldsymbol {eta)} ♪♪ {T}{boldsymbol {chi }nu A({boldsym {boleta }}}right),}
o equivalente
- pπ π ().. ▪ ▪ χ χ ,.. )=f()χ χ ,.. )g().. ).. exp ().. Tχ χ ),χ χ ▪ ▪ Rs{\fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicrosoft Sans Serif} {nMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {f}}}}}\fnK\bnKf}f}b9\\b9}\\\\b2\\b2cH00b2\\b2cH00b2cH00cH00cH00\\\\\\\\cH00\\\\cH00cH00cH00cH00cH00cH00\\\\cH0}\cH00cH00cH00\\\\\cH009 ♪♪ {T}{boldsymbol {chi}right),qquad {boldsymbol {chi }in mathbb {R} {fn}
Donde s es la dimensión de .. {displaystyle {boldsymbol {eta } y 0}" xmlns="http://www.w3.org/1998/Math/MathML">.. ■0{displaystyle nu0" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/bb9a5b220856a9047b20d89d6c17f7724232f230" style="vertical-align: -0.338ex; width:5.493ex; height:2.176ex;"/> y χ χ {displaystyle {boldsymbol {fn\fnMicrosoft {\fnMicrosoft {\\\\\fnMicrosoft {\\\\\\\\\\\\fnMicrosoft {\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ } son hiperparametros (parametros de control). .. {displaystyle nu } corresponde al número efectivo de observaciones que la distribución anterior contribuye, y χ χ {displaystyle {boldsymbol {fn\fnMicrosoft {\fnMicrosoft {\\\\\fnMicrosoft {\\\\\\\\\\\\fnMicrosoft {\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ } corresponde a la cantidad total que estas pseudoobservaciones contribuyen a la estadística suficiente sobre todas las observaciones y pseudoobservaciones. f()χ χ ,.. ){displaystyle f({boldsymbol {chi }},nu)} es una constante de normalización que se determina automáticamente por las funciones restantes y sirve para asegurar que la función dada es una función de densidad de probabilidad (es decir, se normaliza). A().. ){displaystyle A({boldsymbol {eta }}}} y equivalente g().. ){displaystyle g({boldsymbol {eta }}}} son las mismas funciones que en la definición de la distribución sobre la cual π es el conjugado anterior.
Una previa conjugada es aquella que, cuando se combina con la probabilidad y se normaliza, produce una distribución posterior que es del mismo tipo que la anterior. Por ejemplo, si uno está estimando la probabilidad de éxito de una distribución binomial, entonces si elige usar una distribución beta como la anterior, la posterior es otra distribución beta. Esto hace que el cálculo del posterior sea particularmente simple. De manera similar, si uno está estimando el parámetro de una distribución de Poisson, el uso de una gamma anterior conducirá a otra gamma posterior. Los antecedentes conjugados suelen ser muy flexibles y pueden ser muy convenientes. Sin embargo, si la creencia de uno sobre el valor probable del parámetro theta de un binomio está representada por (digamos) una distribución previa bimodal (de dos jorobas), entonces esto no puede representarse por una distribución beta. Sin embargo, se puede representar usando una densidad de mezcla como la anterior, aquí una combinación de dos distribuciones beta; esta es una forma de hiperprior.
Una probabilidad arbitraria no pertenecerá a una familia exponencial y, por lo tanto, en general, no existe un conjugado anterior. El posterior tendrá entonces que ser calculado por métodos numéricos.
Para mostrar que la distribución anterior anterior es una anterior conjugada, podemos derivar la distribución posterior.
Primero, suponga que la probabilidad de una sola observación sigue una familia exponencial, parametrizada usando su parámetro natural:
- pF()x▪ ▪ .. )=h()x)g().. )exp ().. TT()x)){displaystyle p_{F}(xmid {boldsymbol {eta })=h(x)g({boldsymbol {eta })exp left({boldsymbol {eta - Sí.
Entonces, para datos X=()x1,...... ,xn){displaystyle mathbf {X} =(x_{1},ldotsx_{n}}, la probabilidad se calcula de la siguiente manera:
- p()X▪ ▪ .. )=()∏ ∏ i=1nh()xi))g().. )nexp ().. T.. i=1nT()xi)){displaystyle p(mathbf {X} mid {boldsymbol {eta }=left(prod) {fnfn} {fnfn}}fn}fn}n}n}n}n}n}n}fnpp\pnpnpnpnnnnnnnnnnnnnn\nnn\\nn\nnn\nn\nnnnn\\n\nn\nnn]nnnnnnnnn\]]]]\\\nnnnnnnn]nn]nnn]nn]n\n\nnnnn\\nnnnnn\\nnn ♪♪ {T}sum _{i=1} {n}mathbf {T} (x_{i})right)}
Entonces, para el anterior conjugado anterior:
- pπ π ().. ▪ ▪ χ χ ,.. )=f()χ χ ,.. )g().. ).. exp ().. Tχ χ )∝ ∝ g().. ).. exp ().. Tχ χ ){begin{pi} {boldsymbol {chi }mid {boldsymbol {chi }mid {boldsymbol {chi }},nu)} {boldsymbol {chi }f} {f}f}f} {f}f}f}f}f}f}f} ♪♪ {T}{boldsymbol {chi }})propto g({boldsymbol {eta }})^{nu }exp({boldsymbol {eta ♪♪ {T}{boldsymbol {chi}}end{aligned}} {f}} {f}} {f}}} {f}}}} {f}}} {f}}} {f}}}}}} {f}}} {f}}}} {f}}}}}} {f}}}}}}}} {f}}}}}} {f}}}} {f}}}}}}}}}}}}}}}}}}}}}} {f} {f} {f}}}}}}}}}}}}}}}}}} {f}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}
Entonces podemos calcular el posterior de la siguiente manera:
- p().. ▪ ▪ X,χ χ ,.. )∝ ∝ p()X▪ ▪ .. )pπ π ().. ▪ ▪ χ χ ,.. )=()∏ ∏ i=1nh()xi))g().. )nexp ().. T.. i=1nT()xi))f()χ χ ,.. )g().. ).. exp ().. Tχ χ )∝ ∝ g().. )nexp ().. T.. i=1nT()xi))g().. ).. exp ().. Tχ χ )∝ ∝ g().. ).. +nexp ().. T()χ χ +.. i=1nT()xi))){displaystyle {begin{aligned}p({boldsymbol {eta }mid mathbf {X}{boldsymbol {chi }},nu) ventajapropto p(mathbf {X} mid {boldsymbol {eta} ♪ ♪♪♪♪♪♪♪♪♪♪♪♪ }mid {boldsymbol {chi }}nu)\\\fnMicrosoft Sans Serif} ################################################################################################################################################################################################################################################################ ♪♪ {T}}sum _{i=1}n}mathbf {T} (x_{i})right)f({boldsymbol {chi }},nu)g({boldsymbol {eta })^{nu }exp({boldsymbol {eta {eta) ♪♪ {T}}{boldsymbol {chi })\\fn}\fn}fn}fn}n}n}fn}fn}fn}fn}fn}fn}fn}fn}fn}fn}fnfn}\fnfn\p\\pnfnhn\\pnpnpnpppnppppppppnpnpnpnpnccc\\cpn\cccpnccccccccccccccccccccccccccccccccccc ♪♪ {T}}sum _{i=1} {n}mathbf {T} (x_{i})right)g({boldsymbol {eta }})}{nu }exp({boldsymbol {eta)} ♪♪ {T}{boldsymbol {chi })\\fn}\fn}fn}}\n}n}\nn}nn}nnn\nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn\nnnnnnnnnnnsennnnnnnnnnnnnnnnnnnnnnnnnnnnnnn }{rm {}left({boldsymbol {chi }+sum ¿Por qué?
La última línea es el núcleo de la distribución posterior, es decir,
- p().. ▪ ▪ X,χ χ ,.. )=pπ π ().. Silencioχ χ +.. i=1nT()xi),.. +n){displaystyle p({boldsymbol {eta }mid mathbf {X}{boldsymbol {chi},nu)=p_{pi}left({boldsymbol {eta).... ¿Por qué?
Esto demuestra que el posterior tiene la misma forma que el anterior.
Los datos X entran en esta ecuación solo en la expresión
- T()X)=.. i=1nT()xi),{displaystyle mathbf {T} (mathbf {X})=sum ¿Qué?
que se denomina la estadística suficiente de los datos. Es decir, el valor de la estadística suficiente es suficiente para determinar completamente la distribución posterior. Los propios puntos de datos no son necesarios, y todos los conjuntos de puntos de datos con la misma estadística suficiente tendrán la misma distribución. Esto es importante porque la dimensión de la estadística suficiente no crece con el tamaño de los datos — sólo tiene tantos componentes como los componentes .. {displaystyle {boldsymbol {eta } (equivalentemente, el número de parámetros de la distribución de un único punto de datos).
Las ecuaciones de actualización son las siguientes:
- χ χ .=χ χ +T()X)=χ χ +.. i=1nT()xi).. .=.. +n{displaystyle {begin{aligned}{boldsymbol {chi ♪♪♪♪♪ }+ mathbf {T} (mathbf {X})\\fnMitbf {fnMitbf}}+sum ¿Por qué?
Esto muestra que las ecuaciones de actualización se pueden escribir simplemente en términos del número de puntos de datos y la estadística suficiente de los datos. Esto se puede ver claramente en los diversos ejemplos de ecuaciones de actualización que se muestran en la página anterior conjugada. Debido a la forma en que se computa la estadística suficiente, implica necesariamente sumas de componentes de los datos (en algunos casos disfrazados como productos u otras formas), un producto puede ser escrito en términos de una suma de logaritmos). Los casos en que las ecuaciones de actualización para distribuciones particulares no coinciden exactamente con las formas anteriores son casos en que el anterior conjugado se ha expresado utilizando una parametrización diferente que el que produce un conjugado antes de la forma anterior, a menudo específicamente porque la forma anterior se define sobre el parámetro natural .. {displaystyle {boldsymbol {eta } mientras que los anteriores conjugados se definen generalmente sobre el parámetro real Silencio Silencio .{displaystyle {boldsymbol {theta }}
Prueba de hipótesis: pruebas uniformemente más poderosas
Una familia exponencial de un parámetro tiene una razón de verosimilitud monótona no decreciente en el estadístico suficiente T(x), siempre que η (θ) no es decreciente. Como consecuencia, existe una prueba uniformemente más poderosa para probar la hipótesis H0: θ ≥ θ0 vs. H1: θ < θ0.
Modelos lineales generalizados
Las familias exponenciales forman la base de las funciones de distribución utilizadas en los modelos lineales generalizados (GLM), una clase de modelo que abarca muchos de los modelos de regresión comúnmente utilizados en estadística. Los ejemplos incluyen la regresión logística utilizando la familia binomial y la regresión de Poisson.