Distribución de Dirichlet

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En probabilidad y estadísticas, Dirichlet distribution (después de Peter Gustav Lejeune Dirichlet), a menudo denotado , es una familia de distribuciones continuas de probabilidad multivariada parametizada por un vector de realidades positivas. Es una generalización multivariada de la distribución beta, por lo tanto su nombre alternativo Distribución multivariada de beta (MBD). Las distribuciones de dirichlet se utilizan comúnmente como distribuciones previas en estadísticas Bayesianas, y de hecho, la distribución Dirichlet es el conjugado antes de la distribución categórica y distribución multinomio.

La generalización de dimensión infinita de la distribución de Dirichlet es el proceso de Dirichlet.

Definiciones

Función de densidad de probabilidad

Ilustrando cómo el registro de la función de densidad cambia cuando K= 3 mientras cambiamos el vector α desde α= (0.3, 0.3, 0.3) a (2,0, 2.0, 2.0), manteniendo todo el individuo Es igual al otro.

La distribución de Dirichlet de orden K ≥ 2 con parámetros α1,..., α< sub>K > 0 tiene una función de densidad de probabilidad con respecto a la medida de Lebesgue en el espacio euclidiano RK-1 dada por

Donde pertenecer al estándar simplex, o en otras palabras:

La constante de normalización es la función beta multivariada, que se puede expresar en términos de la función gamma:

Soporte

El apoyo de la distribución Dirichlet es el conjunto de K- vectores dimensionales cuyas entradas son números reales en el intervalo [0,1] tal que , es decir, la suma de las coordenadas es igual a 1. Estos pueden verse como las probabilidades de K-El evento categórico. Otra manera de expresar esto es que el dominio de la distribución Dirichlet es en sí mismo un conjunto de distribuciones de probabilidad, específicamente el conjunto de K- distribuciones discretas dimensionales. The technical term for the set of points in the support of a K-dimensional La distribución de dirichlet es el estándar abierto (K − 1)-simplex, que es una generalización de un triángulo, incrustado en la dimensión siguiente-alta. Por ejemplo, con K= 3, el soporte es un triángulo equilátero incrustado en una moda sub-ángulo en espacio tridimensional, con vértices en (1,0,0), (0,1,0) y (0,0,1), es decir, tocar cada uno de los ejes de coordenadas en un punto 1 unidad lejos del origen.

Casos especiales

Un caso especial común es el simétrica Dirichlet distribution, donde todos los elementos que componen el vector del parámetro tienen el mismo valor. El caso simétrico puede ser útil, por ejemplo, cuando se pide un Dirichlet anterior a los componentes, pero no hay conocimiento previo que favorezca un componente sobre otro. Dado que todos los elementos del vector del parámetro tienen el mismo valor, la distribución simétrica de Dirichlet puede ser parametrizada por un solo valor escalar α, llamado el parámetro de concentración. En términos de α, la función de densidad tiene la forma

Cuando α=1, la distribución simétrica de Dirichlet es equivalente a una distribución uniforme sobre el estándar abierto (K − 1)-simplex, es decir, es uniforme en todos los puntos de su soporte. Esta distribución en particular se conoce como distribución plana de Dirichlet. Los valores del parámetro de concentración superiores a 1 prefieren variables que sean distribuciones densas y distribuidas uniformemente, es decir, todos los valores dentro de una sola muestra son similares entre sí. Los valores del parámetro de concentración inferiores a 1 prefieren distribuciones dispersas, es decir, la mayoría de los valores dentro de una sola muestra estarán cerca de 0 y la gran mayoría de la masa se concentrará en unos pocos de los valores.

Más generalmente, el vector del parámetro se escribe a veces como el producto de un parámetro de concentración (calar) α and a (vector) base measure Donde yace dentro de laK− 1)-simplex (es decir, sus coordenadas suma a uno). El parámetro de concentración en este caso es mayor por un factor K que el parámetro de concentración para una distribución simétrica Dirichlet descrito anteriormente. Esta construcción se vincula con el concepto de una medida de base al discutir los procesos de Dirichlet y a menudo se utiliza en la literatura de modelado de temas.

^ Si definimos el parámetro de concentración como la suma de los parámetros Dirichlet para cada dimensión, la distribución Dirichlet con parámetro de concentración K, la dimensión de la distribución, es la distribución uniforme en el (K- 1)-simplex.

Propiedades

Momentos

Vamos. .

Dejar

Entonces

Además, si

La matriz es, por tanto, singular.

De manera más general, los momentos de variables aleatorias distribuidas por Dirichlet se pueden expresar como

Modo

La moda de la distribución es el vector (x1,..., xK) con

Distribuciones marginales

Las distribuciones marginales son distribuciones beta:

Conjugar a categórica o multinomial

(feminine)

La distribución de Dirichlet es la distribución previa conjugada de la distribución categórica (una distribución de probabilidad discreta genérica con un número determinado de resultados posibles) y la distribución multinomial (la distribución sobre los recuentos observados de cada categoría posible en un conjunto de observaciones distribuidas categóricamente). Esto significa que si un punto de datos tiene una distribución categórica o multinomial, y la distribución anterior del parámetro de la distribución (el vector de probabilidades que genera el punto de datos) se distribuye como un Dirichlet, entonces la distribución posterior del El parámetro también es un Dirichlet. Intuitivamente, en tal caso, a partir de lo que sabemos sobre el parámetro antes de observar el punto de datos, podemos actualizar nuestro conocimiento en función del punto de datos y terminar con una nueva distribución de la misma forma que la anterior. Esto significa que podemos actualizar sucesivamente nuestro conocimiento de un parámetro incorporando nuevas observaciones una a una, sin encontrarnos con dificultades matemáticas.

Formalmente, esto se puede expresar de la siguiente manera. Dado un modelo

entonces se cumple lo siguiente:

Esta relación se utiliza en la estadística bayesiana para estimar el parámetro subyacente p de una distribución categórica dada una colección de N muestras. Intuitivamente, podemos ver el vector hiperprior α como pseudocuentas, es decir, como una representación del número de observaciones en cada categoría que ya hemos visto. Luego simplemente sumamos los recuentos de todas las nuevas observaciones (el vector c) para derivar la distribución posterior.

En los modelos de mezcla bayesianos y otros modelos bayesianos jerárquicos con componentes de mezcla, las distribuciones de Dirichlet se utilizan comúnmente como distribuciones previas para las variables categóricas que aparecen en los modelos. Consulte la sección sobre aplicaciones a continuación para obtener más información.

Relación con la distribución multinomial de Dirichlet

En un modelo en el que se coloca una distribución previa de Dirichlet sobre un conjunto de observaciones con valores categóricos, la distribución marginal conjunta de las observaciones (es decir, la distribución conjunta de las observaciones, con el parámetro anterior marginado) es un multinomial de Dirichlet. distribución. Esta distribución juega un papel importante en los modelos bayesianos jerárquicos, porque al hacer inferencias sobre dichos modelos utilizando métodos como el muestreo de Gibbs o el Bayes variacional, las distribuciones previas de Dirichlet a menudo quedan marginadas. Consulte el artículo sobre esta distribución para obtener más detalles.

Entropía

Si X es un variable aleatoria, la entropía diferencial de X (en unidades nat) es

Donde es la función digamma.

La siguiente fórmula para se puede utilizar para derivar la entropía diferencial anterior. Desde las funciones son las estadísticas suficientes de la distribución de Dirichlet, las identidades diferenciales exponenciales de la familia se pueden utilizar para obtener una expresión analítica para la expectativa de (ver ecuación (2.62) en) y su matriz de covariancia asociada:

y

Donde es la función digamma, es la función trigamma, y es el Kronecker delta.

El espectro de la información Rényi para valores distintos es dado por

y la información entropía es el límite va a 1.

Otra medida interesante relacionada es la entropía de un vector discreto categórico (un-de-K binario) con distribución de masa de probabilidad , es decir, . La entropía de la información condicional , dado es

Esta función es una variable de escalar al azar. Si tiene una distribución de Dirichlet simétrica con todos , el valor esperado de la entropía (en unidades nat) es

Agregación

Si

entonces, si las variables aleatorias con subíndices i y j se eliminan del vector y se reemplazan por su suma,

Esta propiedad de agregación se puede utilizar para derivar la distribución marginal de mencionado anteriormente.

Neutralidad

Si , entonces el vectorX se dice que neutral en el sentido de que XK es independiente de Donde

y de manera similar para eliminar cualquiera de . Observar que cualquier permutación de X es también neutral (una propiedad no poseída por muestras extraídas de una distribución generalizada de Dirichlet).

Combinando esto con la propiedad de la agregación sigue que Xj +... + XK es independiente de . De hecho es cierto, más allá, para la distribución Dirichlet, que para , el par y los dos vectores y , visto como triple de vectores normalizados al azar, son mutuamente independientes. El resultado análogo es verdadero para la partición de los índices {1,2,...,K} en cualquier otro par de subconjuntos no-singleton.

Función característica

La función característica de la distribución de Dirichlet es una forma confluente de la serie hipergeométrica de Lauricella. Phillips lo da como

dónde

La suma es sobre enteros no negativos y . Phillips afirma que esta forma es "inconveniente para el cálculo numérico" y da una alternativa en términos de un camino complejo integral:

Donde L denota cualquier camino en el plano complejo originario , rodeando en la dirección positiva todas las singularidades del integrado y volviendo a .

Desigualdad

Función de densidad de probabilidad juega un papel clave en una desigualdad multifuncional que implica varios límites para la distribución Dirichlet.

Distribuciones relacionadas

Para distribuciones Gamma distribuidas independientemente K:

tenemos:

Aunque los Xis no son independientes entre sí, se puede ver que se generan a partir de un conjunto de K gamma independientes. variable aleatoria. Desafortunadamente, dado que la suma V se pierde al formar X (de hecho, se puede demostrar que V es estocásticamente independiente de X), no es posible recuperar las variables aleatorias gamma originales solo a partir de estos valores. Sin embargo, debido a que es más sencillo trabajar con variables aleatorias independientes, esta reparametrización aún puede ser útil para pruebas sobre propiedades de la distribución de Dirichlet.

Conjugado previo de la distribución de Dirichlet

Debido a que la distribución de Dirichlet es una distribución familiar exponencial, tiene un anterior conjugado. El prior conjugado es de la forma:

Aquí. es un K-dimensional vector real y es un parámetro de escalar. El dominio de se limita al conjunto de parámetros para los cuales la función de densidad no normalizada anterior puede ser normalizada. La condición (necesaria y suficiente) es:

La propiedad de conjugación se puede expresar como

sianteriores: ] y [observación: Entonces...posterior: ].

En la literatura publicada no hay ningún algoritmo práctico para generar eficientemente muestras de .

Ocurrencia y aplicaciones

Modelos bayesianos

Las distribuciones de Dirichlet se utilizan con mayor frecuencia como distribución previa de variables categóricas o variables multinomiales en modelos de mezcla bayesianos y otros modelos bayesianos jerárquicos. (En muchos campos, como en el procesamiento del lenguaje natural, las variables categóricas a menudo se denominan de manera imprecisa "variables multinomiales".

La inferencia sobre modelos bayesianos jerárquicos a menudo se realiza utilizando el muestreo de Gibbs y, en tal caso, las instancias de la distribución de Dirichlet generalmente se marginan del modelo integrando la variable aleatoria de Dirichlet. Esto hace que las diversas variables categóricas extraídas de la misma variable aleatoria de Dirichlet se correlacionen, y la distribución conjunta sobre ellas asume una distribución multinomial de Dirichlet, condicionada a los hiperparámetros de la distribución de Dirichlet (los parámetros de concentración). Una de las razones para hacer esto es que el muestreo de Gibbs de la distribución multinomial de Dirichlet es extremadamente fácil; consulte ese artículo para obtener más información.


Interpretaciones intuitivas de los parámetros

El parámetro de concentración

Las distribuciones de Dirichlet se utilizan muy a menudo como distribuciones previas en la inferencia bayesiana. El tipo más simple y quizás más común de Dirichlet prior es la distribución de Dirichlet simétrica, donde todos los parámetros son iguales. Esto corresponde al caso en el que no se tiene información previa para favorecer un componente sobre cualquier otro. Como se describió anteriormente, el valor único α al que se establecen todos los parámetros se denomina parámetro de concentración. Si el espacio muestral de la distribución de Dirichlet se interpreta como una distribución de probabilidad discreta, entonces, intuitivamente, se puede considerar que el parámetro de concentración determina cuán "concentrado" la masa de probabilidad de la distribución de Dirichlet hacia su centro, lo que lleva a muestras con masa dispersa casi por igual entre todos los componentes, es decir, con un valor mucho menor que 1, la masa estará muy concentrada en unos pocos componentes, y todo el resto tendrá casi sin masa, y con un valor mucho mayor que 1, la masa estará dispersa casi por igual entre todos los componentes. Consulte el artículo sobre el parámetro de concentración para obtener más información.

Corte de hilo

Un ejemplo de uso de la distribución Dirichlet es si se quiere cortar cadenas (cada longitud inicial 1.0) en K piezas con diferentes longitudes, donde cada pieza tenía una longitud media designada, pero permitiendo cierta variación en los tamaños relativos de las piezas. Recordad que El los valores especifican las longitudes medias de las piezas cortadas de cadena resultantes de la distribución. La varianza alrededor de este significado varía inversamente con .

Example of Dirichlet(1/2,1/3,1/6) distribution
Ejemplo de distribución Dirichlet(1/2,1/3,1/6)

La urna de Pólya

Considere una urna que contiene bolas de K colores diferentes. Inicialmente, la urna contiene α1 bolas de color 1, α2 bolas de color 2, y así sucesivamente.. Ahora realiza N sorteos de la urna, donde después de cada sorteo, la bola se vuelve a colocar en la urna con una bola adicional del mismo color. En el límite cuando N se acerca al infinito, las proporciones de bolas de diferentes colores en la urna se distribuirán como Dir(α1,...,αK).

Para una prueba formal, tenga en cuenta que las proporciones de las bolas de diferentes colores forman una martingala acotada con valor de [0,1]K, de ahí el teorema de convergencia de la martingala., estas proporciones convergen casi con seguridad y en promedio a un vector aleatorio limitante. Para ver que este vector limitante tiene la distribución de Dirichlet anterior, verifique que todos los momentos mixtos concuerden.

Cada extracción de la urna modifica la probabilidad de sacar una bola de cualquier color de la urna en el futuro. Esta modificación disminuye con el número de extracciones, ya que el efecto relativo de agregar una nueva bola a la urna disminuye a medida que la urna acumula un número creciente de bolas.


Generación de variables aleatorias

De distribución gamma

Con una fuente de variatos aleatorios distribuidos por Gamma, se puede probar fácilmente un vector aleatorio de la K-dimensional Distribución de dirichlet con parámetros . Primero, dibujar K muestras aleatorias independientes de Gamma distribuciones cada una con densidad

y luego configurar

[Proof]

La distribución conjunta de los variates de gamma muestras independientemente, , es dado por el producto:

A continuación, se utiliza un cambio de variables, parametrising en términos de y y realiza un cambio de variables tales que . Cada una de las variables e igualmente . Uno debe entonces utilizar el cambio de fórmula de variables, en que es la transformación Jacobian. Escribir y explícitamente como una función de x, se obtiene El Jacobiano ahora parece

Contenido relacionado

Conjunto vacío

En matemáticas, el conjunto vacío es el conjunto único que no tiene elementos; su tamaño o cardinalidad es cero. Algunas teorías axiomáticas de...

Precisión y exactitud

En un conjunto de medidas, la exactitud es la cercanía de las medidas a un valor específico, mientras que la precisión es la cercanía de las medidas entre...

Historia de la lógica

La historia de la lógica se ocupa del estudio del desarrollo de la ciencia de la inferencia válida tal como se encuentran en el Organon, encontraron una...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save