Distribución multinomial
En teoría de la probabilidad, la distribución multinomial es una generalización de la distribución binomial. Por ejemplo, modela la probabilidad de conteos para cada lado de un dado de k caras lanzado n veces. Para n ensayos independientes, cada uno de los cuales conduce al éxito exactamente en una de las k categorías, donde cada categoría tiene una probabilidad de éxito fija dada, la distribución multinomial da la probabilidad de cualquier combinación particular de números de éxitos para las distintas categorías.
Cuando k es 2 y n es 1, la distribución multinomial es la distribución de Bernoulli. Cuando k es 2 y n es mayor que 1, es la distribución binomial. Cuando k es mayor que 2 y n es 1, es la distribución categórica. El término "multinoulli" A veces se utiliza para la distribución categórica para enfatizar esta relación de cuatro vías (por lo que n determina el sufijo y k el prefijo).
La distribución de Bernoulli modela el resultado de un único ensayo de Bernoulli. En otras palabras, modela si lanzar una moneda (posiblemente sesgada) una vez resultará en un éxito (obtener cara) o en un fracaso (obtener cruz). La distribución binomial generaliza esto al número de caras al realizar n lanzamientos independientes (ensayos de Bernoulli) de la misma moneda. La distribución multinomial modela el resultado de n experimentos, donde el resultado de cada prueba tiene una distribución categórica, como lanzar un dado de k caras n > veces.
Vamos. k ser un número finito fijo. Matemáticamente, tenemos k posibles resultados mutuamente excluyentes, con las probabilidades correspondientes p1,... pk, y n juicios independientes. Desde k los resultados son mutuamente excluyentes y uno debe ocurrir que tenemos pi≥ 0 para i= 1,...k y . Entonces si las variables al azar Xi indicar el número de resultados i se observa sobre el n ensayos, el vector X=X1,...Xk) sigue una distribución multinomial con parámetros n y p, donde p=p1,...pk). Si bien los juicios son independientes, sus resultados Xi son dependientes porque deben ser resumidos a n.
Definiciones
Función de masa de probabilidad
Supongamos que uno hace un experimento para extraer n bolas de k colores diferentes de una bolsa y reemplazar las bolas extraídas después de cada extracción. Las bolas del mismo color son equivalentes. Denota la variable que es el número de bolas de color extraídas i (i = 1,..., k) como X i, y denotamos como pi la probabilidad de que un La extracción dada estará en color i. La función de masa de probabilidad de esta distribución multinomial es:
para enteros no negativos x1,..., xk sub>.
La función de masa de probabilidad se puede expresar usando la función gamma como:
Esta forma muestra su parecido con la distribución de Dirichlet, que es su anterior conjugada.
Ejemplo
Supongamos que en una elección a tres bandas para un país grande, el candidato A recibió el 20% de los votos, el candidato B recibió el 30% de los votos y el candidato C recibió el 50% de los votos. Si se seleccionan seis votantes al azar, ¿cuál es la probabilidad de que haya exactamente un partidario del candidato A, dos partidarios del candidato B y tres partidarios del candidato C en la muestra?
Nota: Dado que suponemos que la población votante es grande, es razonable y permisible pensar que las probabilidades no cambian una vez que se selecciona un votante para la muestra. Técnicamente hablando, esto es un muestreo sin reemplazo, por lo que la distribución correcta es la distribución hipergeométrica multivariada, pero las distribuciones convergen a medida que la población crece en comparación con un tamaño de muestra fijo.
Propiedades
Valor esperado y varianza
El número esperado de veces que se observó el resultado i en n ensayos es
La matriz de covarianza es la siguiente. Cada entrada diagonal es la varianza de una variable aleatoria distribuida binomialmente y, por lo tanto, es
Las entradas fuera de la diagonal son las covarianzas:
para i, j distinto.
Todas las covarianzas son negativas porque para n fijo, un aumento en un componente de un vector multinomial requiere una disminución en otro componente.
Cuando estas expresiones se combinan en una matriz con i, j elemento el resultado es un k × k matriz de covariancia positiva y definitiva de rango k1. En el caso especial k=n y dónde pi son todos iguales, la matriz de covariancia es la matriz de centro.
Las entradas de la matriz de correlación correspondiente son
Tenga en cuenta que el número de ensayos n desaparece de esta expresión.
Cada uno de los componentes k por separado tiene una distribución binomial con los parámetros n y pi , para el valor apropiado del subíndice i.
El soporte de la distribución multinomial es el conjunto
Su número de elementos es
Notación matricial
En notación matricial,
y
con pT = la transposición del vector fila del vector columna < b>p.
Visualización
Como cortes del triángulo de Pascal generalizado
Así como uno puede interpretar la distribución binomial como cortes unidimensionales (normalizados) (1D) del triángulo de Pascal, también se puede interpretar la distribución multinomial como cortes 2D (triangulares) del triángulo de Pascal. pirámide, o rebanadas 3D/4D/+ (en forma de pirámide) de análogos de dimensiones superiores del triángulo de Pascal. Esto revela una interpretación del rango de la distribución: "pirámides" equiláteras discretizadas; en dimensión arbitraria, es decir. un simplex con una cuadrícula.
Como coeficientes polinómicos
Del mismo modo, al igual que uno puede interpretar la distribución binomial como los coeficientes polinomios de cuando se expande, se puede interpretar la distribución multinomial como los coeficientes de cuando se expande, notando que sólo los coeficientes deben resumir hasta 1.
Teoría de la gran desviación
Asintóticas
Por la fórmula de Stirling, al límite , tenemos
Esta fórmula se puede interpretar de la siguiente manera.
Considerar , el espacio de todas las distribuciones posibles sobre las categorías . Es un simple. Después muestras independientes de la distribución categórica (que es cómo construimos la distribución multinomial), obtenemos una distribución empírica .
Por la fórmula asintotica, la probabilidad de que la distribución empírica se desvía de la distribución real decays exponencialmente, a un ritmo . Los más experimentos y los más diferentes es de , lo menos probable es ver tal distribución empírica.
Si es un subconjunto cerrado , entonces dividiendo en pedazos, y razonando sobre la tasa de crecimiento en cada pieza , obtenemos el teorema de Sanov, que afirma que
Concentración en general N
Debido a la decadencia exponencial, en general , casi toda la masa de probabilidad se concentra en un pequeño barrio . En este pequeño barrio, podemos tomar el primer término no cero en la expansión de Taylor , para obtener
Teorema. En el límite, converge en la distribución a la distribución entre chismes .
Prueba. El espacio de todas las distribuciones sobre categorías es un simplex: , y el conjunto de todas las distribuciones empíricas posibles después experimentos es un subconjunto del simplex: . Es decir, es la intersección entre y la celosa .
As aumentos, la mayoría de la masa de probabilidad se concentra en un subconjunto cerca , y la distribución de probabilidad cerca se vuelve bien aproximado por
Finalmente, desde el sencillo no es todo , pero sólo dentro de un - plano dimensional, obtenemos el resultado deseado.
Concentración condicional en N grande
El fenómeno de concentración anterior se puede generalizar fácilmente al caso en el que condicionamos restricciones lineales. Ésta es la justificación teórica de la prueba chi-cuadrado de Pearson.
Teorema. Si imponemos limitaciones lineales independientes
Prueba. La misma prueba se aplica, pero esta vez es la intersección de con y hiperplanos, todos linealmente independientes, así que la densidad de probabilidad está restringido a un - plano dimensional.
El teorema anterior no es totalmente satisfactorio, porque por definición, cada uno de debe ser un número racional, mientras que puede ser elegido de cualquier número en . En particular, puede satisfacer limitaciones lineales que no puede ser posible satisfacer, como . El próximo teorema fija esta cuestión:
Teorema.
- Funciones , tal que son continuamente diferentes en un barrio y los vectores son linealmente independientes;
- secuencias dadas , tal que asintotica para cada uno ;
- entonces para la distribución multinomial condicional a limitaciones , convergencias en la distribución a en el límite.
En el caso de que todo son iguales, el Teorema reduce a la concentración de entropías alrededor de la Entropía Máxima.
Distribuciones relacionadas
En algunos campos como el procesamiento del lenguaje natural, las distribuciones categóricas y multinomiales son sinónimos y es común hablar de una distribución multinomial cuando una distribución categórica es realmente significada. Esto se deriva del hecho de que a veces es conveniente expresar el resultado de una distribución categórica como un vector "1-de-K" (un vector con un elemento que contiene 1 y todos los demás elementos que contienen un 0) en lugar de como entero en el rango ; en este formulario, una distribución categórica equivale a una distribución multinomial en un solo juicio.
- Cuando k = 2, la distribución multinomial es la distribución binomial.
- Distribución categórica, distribución de cada ensayo; para k = 2, esta es la distribución de Bernoulli.
- La distribución Dirichlet es el conjugado antes del multinomio en las estadísticas Bayesianas.
- Dirichlet-multinomial distribution.
- Distribución beta-binomial.
- Distribución multinomial negativa
- Principio Hardy-Weinberg (es una distribución trinomial con probabilidades )
Inferencia estadística
Pruebas de equivalencia para distribuciones multinomiales
El objetivo de las pruebas de equivalencia es establecer la concordancia entre una distribución multinomial teórica y las frecuencias de conteo observadas. La distribución teórica puede ser una distribución multinomial completamente especificada o una familia paramétrica de distribuciones multinomiales.
Vamos. denotar una distribución multinomial teórica y dejar ser una verdadera distribución subyacente. Las distribuciones y se consideran equivalentes si para una distancia y un parámetro de tolerancia . El problema de la prueba de equivalencia es versus . La verdadera distribución subyacente es desconocido. En cambio, las frecuencias contables se observan, donde es un tamaño de muestra. Usos de una prueba de equivalencia rechazar . Si puede ser rechazado entonces la equivalencia entre y se muestra a un nivel de significado dado. La prueba de equivalencia para la distancia euroclidiana se puede encontrar en el libro de texto de Wellek (2010). La prueba de equivalencia para la distancia total de variación se desarrolla en Ostrovski (2017). La prueba exacta de equivalencia para la distancia acumulativa específica se propone en Frey (2009).
La distancia entre la verdadera distribución subyacente y una familia de las distribuciones multinomiales se define por . Entonces el problema de prueba de equivalencia es dado por y . La distancia generalmente se computa con la optimización numérica. Las pruebas para este caso se desarrollan recientemente en Ostrovski (2018).
Generación de variables aleatorias
Primero, reordenar los parámetros tal que están ordenados en orden descendente (esto es sólo para acelerar la computación y no estrictamente necesario). Ahora, para cada ensayo, dibujar una variable auxiliar X de una distribución uniforme (0, 1). El resultado resultante es el componente
{}Xj = 1, Xk = 0 para kلj } es una observación de la distribución multinomial y n1. Una suma de repeticiones independientes de este experimento es una observación de una distribución multinomial con n igual al número de esas repeticiones.
Muestreo utilizando muestras binomiales condicionales repetidas
Dados los parámetros y un total para la muestra tales que , es posible probar secuencialmente el número en un estado arbitrario , partiendo el espacio del estado en y no..., condicionado a cualquier muestra anterior ya tomada, repetidamente.
Algoritmo: muestreo binomial condicional secuencial
S = N
rho = 1para i dentro [1,k-1]:
si rho != 0:
X[i] ~ Binom()S,p[i]/rho) más X[i] = 0 S = S - X[i] rho = rho - p[i]X[k] = S
Heurísticamente, cada aplicación de la muestra binomial reduce el número disponible para muestrear y las probabilidades condicionales también se actualizan para garantizar la coherencia lógica.
Contenido relacionado
Conjunto vacío
Historia de la lógica
Menor que <