Distribución hipergeométrica
En teoría de probabilidad y estadísticas, distribución hipergeométrica es una distribución discreta de probabilidad que describe la probabilidad de k{displaystyle k} éxitos (aleatorios para los que el objeto dibujado tiene una característica especificada) en n{displaystyle n} dibuja, sin sustitución de una población finita de tamaño N{displaystyle N} que contiene exactamente K{displaystyle K} objetos con esa característica, donde cada sorteo es un éxito o un fracaso. En cambio, la distribución binomial describe la probabilidad de k{displaystyle k} éxitos en n{displaystyle n} sorteos con reemplazo.
Definiciones
Función de masa de probabilidad
Las siguientes condiciones caracterizan la distribución hipergeométrica:
- El resultado de cada sorteo (los elementos de la población que se muestra) se puede clasificar en una de dos categorías mutuamente excluyentes (por ejemplo, Paso/Fail o Empleado/Desempleado).
- La probabilidad de cambios de éxito en cada sorteo, ya que cada sorteo disminuye la población (muestreo sin reemplazo de una población finita).
Una variable aleatoria X{displaystyle X} sigue la distribución hipergeométrica si su función de masa de probabilidad (pmf) es dada por
- pX()k)=Pr()X=k)=()Kk)()N− − Kn− − k)()Nn),{displaystyle p_{X}(k)=Pr(X=k)={frac {binom {}{} {binom}} {binom} {fnMicrosoft}}}}} {binom}} {binom}}}}} {binom}}}} {binom}}}} {binom}} {binom}}} {binom}}} {binom}}}}} {binom}}}}}}} { {N-K}{n-k} {binom} {N}}}}
dónde
- N{displaystyle N} es el tamaño de la población,
- K{displaystyle K} es el número de estados de éxito en la población,
- n{displaystyle n} es el número de sorteos (es decir, la cantidad obtenida en cada juicio),
- k{displaystyle k} es el número de éxitos observados,
- ()ab){textstyle textstyle {a choose B} es un coeficiente binomio.
El F es positivo cuando max()0,n+K− − N)≤ ≤ k≤ ≤ min()K,n){displaystyle max(0,n+K-N)leq kleq min(K,n)}.
Una variable aleatoria distribuida hipergeométricamente con parámetros N{displaystyle N}, K{displaystyle K} y n{displaystyle n} escrito X♪ ♪ Hipergeométrico ()N,K,n){textstyle Xsim operatorname {Hypergeometric} (N,K,n)} y tiene función de masa de probabilidad pX()k){textstyle p_{X}(k)} arriba.
Identidades combinatorias
Según sea necesario, tenemos
- .. 0≤ ≤ k≤ ≤ min()n,K)()Kk)()N− − Kn− − k)()Nn)=1,{displaystyle sum _{0leq kleq min(n,K)}{K choose k}{N-K choose n-k} over {N choose n}=1,}
que esencialmente se deriva de la identidad de Vandermonde de la combinatoria.
También tenga en cuenta que
- ()Kk)()N− − Kn− − k)()Nn)=()nk)()N− − nK− − k)()NK);{displaystyle {{K choose k}{N-K choose n-k} over {N choose ### {{n choose k}{N-n} {fn} {K-K}}} {N choose K}};}
Esta identidad puede mostrarse expresando los coeficientes binomiales en términos de factoriales y reorganizando a este último, pero sí también se deriva de la simetría del problema. De hecho, considere dos rondas de dibujo sin reemplazo. En la primera ronda, K{displaystyle K} fuera de N{displaystyle N} mármoles neutros se extraen de una urna sin reposición y color verde. Luego los mármoles de colores se vuelven a poner. En la segunda vuelta, n{displaystyle n} mármoles se dibujan sin reemplazo y color rojo. Luego, el número de mármoles con ambos colores en ellos (es decir, el número de mármoles que se han dibujado dos veces) tiene la distribución hipergeométrica. La simetría en K{displaystyle K} y n{displaystyle n} se deriva del hecho de que las dos rondas son independientes, y uno podría haber comenzado por dibujar n{displaystyle n} bolas y colores rojos primero.
Propiedades
Ejemplo de trabajo
La aplicación clásica de la distribución hipergeométrica es el muestreo sin reemplazo. Piensa en una urna con dos colores de canicas, rojas y verdes. Defina sacar una canica verde como un éxito y sacar una canica roja como un fracaso (análogo a la distribución binomial). Si la variable N describe el número de todas las canicas en la urna (consulte la tabla de contingencia a continuación) y K describe el número de canicas verdes canicas, entonces N − K corresponde al número de canicas rojas. En este ejemplo, X es la variable aleatoria cuyo resultado es k, el número de canicas verdes que realmente se sacaron en el experimento. Esta situación se ilustra en el siguiente cuadro de contingencia:
dibujado | no dibujado | total | |
---|---|---|---|
mármoles verdes | k | K − k | K |
mármoles rojos | n − k | N + k − n− K | N - K |
total | n | N - | N |
Ahora, suponga (por ejemplo) que hay 5 canicas verdes y 45 rojas en la urna. De pie junto a la urna, cierras los ojos y sacas 10 canicas sin reposición. ¿Cuál es la probabilidad de que exactamente 4 de los 10 sean verdes? Tenga en cuenta que aunque estamos analizando el éxito/fracaso, los datos no están modelados con precisión por la distribución binomial, porque la probabilidad de éxito en cada prueba no es la misma, ya que el tamaño de la población restante cambia a medida que eliminamos cada mármol.
Este problema se resume en la siguiente tabla de contingencia:
dibujado | no dibujado | total | |
---|---|---|---|
mármoles verdes | k = 4 | K − k = 1 | K = 5 |
mármoles rojos | n − k = 6 | N + k − n− K = 39 | N - K = 45 |
total | n = 10 | N - = 40 | N = 50 |
La probabilidad de sacar exactamente k canicas verdes se puede calcular con la fórmula
- P()X=k)=f()k;N,K,n)=()Kk)()N− − Kn− − k)()Nn).{displaystyle P(X=k)=f(k;N,K,n)={{{{ K choose k} {{N-K} choose {n-k}} over {N choose n}}.}
Por lo tanto, en este ejemplo calcula
- P()X=4)=f()4;50,5,10)=()54)()456)()5010)=5⋅ ⋅ 814506010272278170=0,003964583...... .{displaystyle P(X=4)=f(4;50,5,10)={{{5 choose 4}{45} choose {6}} over {50 choose 10}={5cdot 8145060 over 10272278170}=0.003964583dots.}
Intuitivamente, esperaríamos que fuera aún más improbable que las 5 canicas verdes estuvieran entre las 10 extraídas.
- P()X=5)=f()5;50,5,10)=()55)()455)()5010)=1⋅ ⋅ 122175910272278170=0,0001189375...... ,{displaystyle P(X=5)=f(5;50,5,10)={{5 choose 5}{45} choose {5}} over {50 choose 10}={1cdot 1221759 over 10272278170}=0.0001189375dots}
Como era de esperar, la probabilidad de sacar 5 canicas verdes es aproximadamente 35 veces menor que la de sacar 4.
Simetrías
Intercambiando los roles de las canicas verdes y rojas:
- f()k;N,K,n)=f()n− − k;N,N− − K,n){displaystyle f(k;N,K,n)=f(n-k;N,N-K,n)}
Intercambio de roles de canicas extraídas y no extraídas:
- f()k;N,K,n)=f()K− − k;N,K,N− − n){displaystyle f(k;N,K,n)=f(K-k;N,K,N-n)}
Intercambiando los roles de las canicas verdes y dibujadas:
- f()k;N,K,n)=f()k;N,n,K){displaystyle f(k;N,K,n)=f(k;N,n,K)}
Estas simetrías generan el grupo dihedral D4{displaystyle D_{4}.
Orden de los sorteos
La probabilidad de dibujar cualquier conjunto de mármoles verdes y rojos (la distribución hipergeométrica) depende sólo de los números de mármoles verdes y rojos, no del orden en que aparecen; es decir, es una distribución intercambiable. Como resultado, la probabilidad de dibujar un mármol verde en el iT{displaystyle i^{text{th}}} sorteo
- P()Gi)=KN.{displaystyle P(G_{i})={frac {K}}}
Esta es una probabilidad ex ante, es decir, se basa en no conocer los resultados de los sorteos anteriores.
Límites de cola
Vamos X♪ ♪ Hipergeométrico ()N,K,n){displaystyle Xsim operatorname {Hypergeometric} (N,K,n)} y p=K/N{displaystyle P=K/N}. Entonces... <math alttext="{displaystyle 0<t0.t.nK/N{displaystyle 0 No se entiende<img alt="{displaystyle 0<t podemos derivar los siguientes límites:
- Pr[X≤ ≤ ()p− − t)n]≤ ≤ e− − nD()p− − t∥ ∥ p)≤ ≤ e− − 2t2nPr[X≥ ≥ ()p+t)n]≤ ≤ e− − nD()p+t∥ ∥ p)≤ ≤ e− − 2t2n{fnMicrosoft Sans Serif}(p-tparallel p)}leq e^{2}n}\pr[Xgn]n}(p-tparallel p)}leq e^{-2t^{2}n}\pr[Xgq (p+t)n}leqp} {p}ccccc}ccccccccccccccccH0cccH0c] - ¿Qué?
dónde
- D()a∥ ∥ b)=alog ab+()1− − a)log 1− − a1− − b{displaystyle D(aparallel b)=alog {frac {a}{b}+(1-a)log {frac {1-a}{1-b}}
es la divergencia Kullback-Leibler y se utiliza que D()a∥ ∥ b)≥ ≥ 2()a− − b)2{displaystyle D(aparallel b)geq 2(a-b)}{2}.
Si n es mayor que N/2, puede ser útil aplicar simetría para "invertir" los límites, que te dan lo siguiente:
- Pr[X≤ ≤ ()p− − t)n]≤ ≤ e− − ()N− − n)D()p+tnN− − nSilencioSilenciop)≤ ≤ e− − 2t2nnN− − nPr[X≥ ≥ ()p+t)n]≤ ≤ e− − ()N− − n)D()p− − tnN− − nSilencioSilenciop)≤ ≤ e− − 2t2nnN− − n{displaystyle {begin{aligned}Pr[Xleq (p-t)n] {Tn} {N-n} sobrevivir)}leq e^{-2t^{2}n{tfrac {n} {N-n}\\\\\fn}\\\fn}\\\\\\\\\\\\\fn}\\fn}\\\\\\\\\fn}\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\cH Pr[Xgeq (p+t)n] limitleq e^{-(N-n){text{D}(p-{tfrac) {Tn} {N-n} sobrevivir)}leq e^{-2t^{2}n{tfrac {n} {N-n}\\fnMicrosoft Sans Serif}}\fnMicrosoft Sans Serif}
Inferencia Estadística
Prueba hipergeométrica
El prueba hipergeométrica utiliza la distribución hipergeométrica para medir el significado estadístico de haber dibujado una muestra consistente en un número específico k{displaystyle k} éxitos (sin n{displaystyle n} de una población de tamaño N{displaystyle N} que contiene K{displaystyle K} éxitos. En una prueba de sobrerepresentación de éxitos en la muestra, el valor p hipergeométrico se calcula como la probabilidad de dibujo aleatorio k{displaystyle k} o más éxitos de la población n{displaystyle n} sorteos totales. En una prueba para la subrepresentación, el valor p es la probabilidad de dibujar aleatoriamente k{displaystyle k} o menos éxitos.
La prueba basada en la distribución hipergeométrica (prueba hipergeométrica) es idéntica a la correspondiente versión de una cola de la prueba exacta de Fisher. Recíprocamente, el valor p de una prueba exacta de Fisher de dos lados se puede calcular como la suma de dos pruebas hipergeométricas apropiadas (para obtener más información, consulte).
La prueba se usa a menudo para identificar qué subpoblaciones están sobrerrepresentadas o subrepresentadas en una muestra. Esta prueba tiene una amplia gama de aplicaciones. Por ejemplo, un grupo de marketing podría usar la prueba para comprender su base de clientes probando un conjunto de clientes conocidos para detectar la sobrerrepresentación de varios subgrupos demográficos (por ejemplo, mujeres, personas menores de 30 años).
Distribuciones relacionadas
Vamos X♪ ♪ Hipergeométrico ()N,K,n){displaystyle Xsim operatorname {Hypergeometric} (N,K,n)} y p=K/N{displaystyle P=K/N}.
- Si n=1{displaystyle n=1} entonces X{displaystyle X} tiene una distribución Bernoulli con parámetro p{displaystyle p}.
- Vamos Y{displaystyle Sí. tener una distribución binomial con parámetros n{displaystyle n} y p{displaystyle p}; esto modela el número de éxitos en el problema de muestreo analógico con reemplazo. Si N{displaystyle N} y K{displaystyle K} son grandes en comparación con n{displaystyle n}, y p{displaystyle p} no está cerca de 0 o 1, entonces X{displaystyle X} y Y{displaystyle Sí. tienen distribuciones similares, es decir, P()X≤ ≤ k).. P()Y≤ ≤ k){displaystyle P(Xleq k)approx P(Yleq k)}.
- Si n{displaystyle n} es grande, N{displaystyle N} y K{displaystyle K} son grandes en comparación con n{displaystyle n}, y p{displaystyle p} no está cerca de 0 o 1, entonces
- P()X≤ ≤ k).. CCPR CCPR ()k− − npnp()1− − p)){displaystyle P(Xleq k)approx Phi left({frac {k-np} {sqrt {np(1-p)}}right)}
Donde CCPR CCPR {displaystyle Phi } es la función de distribución normal
- Si las probabilidades de dibujar un mármol verde o rojo no son iguales (por ejemplo, porque los mármoles verdes son más grandes/más fáciles de entender que los mármoles rojos) entonces X{displaystyle X} tiene una distribución hipergeométrica no central
- La distribución beta-binomial es un conjugado previo a la distribución hipergeométrica.
La siguiente tabla describe cuatro distribuciones relacionadas con el número de éxitos en una secuencia de sorteos:
Con reemplazos | No hay reemplazos | |
---|---|---|
Número de sorteos | Distribución binomial | distribución hipergeométrica |
Número de fallos | Distribución binomial negativa | distribución hipergeométrica negativa |
Distribución hipergeométrica multivariante
El modelo de una urna con canicas verdes y rojas se puede extender al caso donde hay más de dos colores de canicas. Si hay ki canicas de color i en la urna y tomas N canicas al azar sin reemplazo, luego el número de canicas de cada color en la muestra (K1, K2,..., Kc) tiene la distribución hipergeométrica multivariante. Esto tiene la misma relación con la distribución multinomial que la distribución hipergeométrica tiene con la distribución binomial: la distribución multinomial es la distribución "con reemplazo" distribución y la hipergeométrica multivariada es la distribución "sin reemplazo" distribución.
Las propiedades de esta distribución se dan en la tabla adyacente, donde c es el número de diferentes colores y n=.. i=1cki{displaystyle n=sum ¿Qué? es el número total de mármoles en la urna.
Ejemplo
Suponga que hay 5 canicas negras, 10 blancas y 15 rojas en una urna. Si se eligen seis canicas sin reemplazo, la probabilidad de que se elijan exactamente dos de cada color es
- P()2negro,2blanco,2rojo)=()52)()102)()152)()306)=0,079575596816976{displaystyle P(2{text{ black}},2{text{ white}},2{text{ red}}}={{5 choose 2}{10 choose 2}{15 choose 2}}over {30 choose 6}=0.0795796816976}
Ocurrencia y aplicaciones
Aplicación para auditar elecciones
Las auditorías electorales normalmente prueban una muestra de recintos contados por máquina para ver si los recuentos a mano o por máquina coinciden con los recuentos originales. Las discrepancias dan como resultado un informe o un recuento mayor. Las tasas de muestreo generalmente están definidas por ley, no por diseño estadístico, por lo que para un tamaño de muestra legalmente definido n, ¿cuál es la probabilidad de no detectar un problema que está presente en los recintos K?, como un truco o un error? Esta es la probabilidad de que k = 0. Los errores a menudo son oscuros y un hacker puede minimizar la detección al afectar solo a unos pocos distritos, lo que aún afectará las elecciones cerradas, por lo que un escenario plausible es para K del orden del 5 % de N. Las auditorías generalmente cubren del 1% al 10% de los recintos (a menudo el 3%), por lo que tienen una alta probabilidad de no detectar un problema. Por ejemplo, si un problema está presente en 5 de 100 recintos, una muestra del 3 % tiene una probabilidad del 86 % de que k = 0, por lo que el problema no se notará, y solo el 14 % de probabilidad de que aparezca. en la muestra (k positivo):
- Pr()X=0)=()Hack0)()N− − Hackn− − 0)()Nn)=()N− − Hackn)()Nn)=()N− − Hack)!n!()N− − Hack− − n)!N!n!()N− − n)!=()N− − Hack)!()N− − Hack− − n)!N!()N− − n)!=()100− − 53)()1003)=()100− − 5)!()100− − 5− − 3)!100!()100− − 3)!=95!92!100!97!=95× × 94× × 93100× × 99× × 98=86% % {displaystyle {begin{aligned}Pr(X=0) Condenado={frac {binom {text{Hack}} {binom}}}{binom}}} {binom}}} {fnMicrosoft} {N-{text{Hack} {n-0}} {binom} {fnK}} {fn}}} {fn-0}}}}} {fn-0}}} {fn}}}}} {fn}}}}} {fn}}}}}}}} { {N} {fn} {binom {fn} {fn} {fn}} {binom}} {binom}} {fn}}} {fn}}} {fn}}}} {fn}}} {binom}}}}}}} {binom}}}}} {binom}}}}} { ¡No! ¡No! {N!} {n! {N-n)}} {frac {frac {frac {(N-{text{Hack}}}}{(N-{text{})}}} {fn0}} {fn0}}}}} {cH00}}}}} {cH00}}} {fn0}}} {f}}}}}}}}}}} {f}}}}}} {f}}}} {f}} {f}}}}}}}}} {f}}}} { ¡No! {fn} {fn} {}} {binom {binom {100-5}{} {}}} {} {binom {100}}}}}}={frac {frac {fn0} {fn0}} {95}} {fn0}} {}}} {fn0}} {fn0}}}} {fn0} {fn0} {fn0}}}}}}}}}}}} {}} {}} {fnMinMinMinMinMinMinMinMin0}}} {}}}}} {}}}}}}}}} {}}}}} {} {}}}} {}}}}}}} {} {}}}}} {}}}}} {}}}}} {}}}} {}}}}} {} {} {}}} {}}}}}}}}}}}}}}}}}}}}}} 98}=86%end{aligned}}
La muestra necesitaría 45 recintos para tener una probabilidad inferior al 5 % de que k = 0 en la muestra y, por lo tanto, tener una probabilidad superior al 95 % de encontrar el problema:
- P()X=0)=()100− − 545)()10045)=95!50!100!55!=95× × 94× × ⋯ ⋯ × × 51100× × 99× × ⋯ ⋯ × × 56=55× × 54× × 53× × 52× × 51100× × 99× × 98× × 97× × 96=4.6% % {binom {100-5}{100}{45}}={frac {frac {95}{50}}{frac {100}}}}}}={frac {frac {95!}}}{frac {100!}}{55}}}}={95frac {95times 94timescdotstimes 51}{100}}}}}}}}}}}}}}}}}}}}}}}}} {frac}}}}}}}}}}} {frac}}}} {frac}}}}}}}} {f}}}}}}}}}}} {frac} {f}} {f} {fc}}}}} {f}} {fnMisesfc} {f}fnMisesfnMis {95fnMisesfnMisesfnMisesf}fnMis 56}={frac {55times 54times 53times 52times 51}{100times 99times 98times 97times 96}=4.6%}
Solicitud para Texas Hold'em Poker
En el póquer Hold'em, los jugadores hacen la mejor mano posible combinando las dos cartas que tienen en la mano con las 5 cartas (cartas comunitarias) que finalmente aparecen sobre la mesa. La baraja tiene 52 y hay 13 de cada palo.
Para este ejemplo, suponga que un jugador tiene 2 tréboles en la mano y hay 3 cartas en la mesa, 2 de las cuales también son tréboles. Al jugador le gustaría saber la probabilidad de que una de las próximas 2 cartas que se muestren sea un trébol para completar el color.
(Tenga en cuenta que la probabilidad calculada en este ejemplo asume que no se conoce información sobre las cartas en las manos de los otros jugadores; sin embargo, los jugadores de póquer experimentados pueden considerar cómo los otros jugadores hacen sus apuestas (pasar, igualar, subir o retirarse) al considerar la probabilidad para cada escenario. Estrictamente hablando, el enfoque para calcular las probabilidades de éxito descrito aquí es preciso en un escenario en el que solo hay un jugador en la mesa; en un juego de varios jugadores, esta probabilidad podría ajustarse un poco en función del juego de apuestas de los oponentes.)
Hay 4 clubes mostrando así que hay 9 clubes todavía invisibles. Hay 5 cartas mostrando (2 en la mano y 3 en la mesa) así que hay 52− − 5=47{displaystyle 52-5=47} aún no visto.
La probabilidad de que una de las dos próximas tarjetas sea un club se puede calcular utilizando hipergeometría con k=1,n=2,K=9{displaystyle k=1,n=2,K=9} y N=47{displaystyle N=47}. (alrededor del 31,64%)
La probabilidad de que ambas de las dos próximas tarjetas giradas son clubes se pueden calcular utilizando hipergeometría con k=2,n=2,K=9{displaystyle k=2,n=2,K=9} y N=47{displaystyle N=47}. (alrededor del 3,33%)
La probabilidad de que ninguna de las dos próximas tarjetas giradas son clubes se puede calcular utilizando hipergeométrico con k=0,n=2,K=9{displaystyle k=0,n=2,K=9} y N=47{displaystyle N=47}. (alrededor del 5,03%)
Solicitud de Keno
La distribución hipergeométrica es indispensable para calcular las probabilidades de Keno. En Keno, se extraen al azar 20 bolas de una colección de 80 bolas numeradas en un contenedor, como en el bingo americano. Antes de cada sorteo, un jugador selecciona un cierto número de puntos marcando un formulario de papel provisto para este propósito. Por ejemplo, un jugador podría jugar un 6-punto marcando 6 números, cada uno de un rango de 1 a 80 inclusive. Luego (después de que todos los jugadores hayan llevado sus formularios a un cajero y se les haya dado un duplicado de su formulario marcado, y hayan pagado su apuesta) se extraen 20 bolas. Algunas de las bolas extraídas pueden coincidir con algunas o todas las bolas seleccionadas por el jugador. En términos generales, cuantos más golpes (bolas extraídas que coincidan con los números de jugador seleccionados), mayor será la recompensa.
Por ejemplo, si un cliente apuesta ("juega") $1 por un 6 (un ejemplo bastante común) y acierta 4 de los 6, el casino pagará $4. Los pagos pueden variar de un casino a otro, pero $4 es un valor típico aquí. La probabilidad de este evento es:
- P()X=4)=f()4;80,6,20)=()64)()80− − 620− − 4)()8020).. 0,02853791{displaystyle P(X=4)=f(4;80,6,20)={{6choose 4}{80-6}choose {20-4}}}over {80choose 20}approx 0.02853791}
Del mismo modo, la posibilidad de golpear 5 puntos de 6 seleccionados es ()65)()7415)()8020).. 0,003095639{displaystyle {{6 choose 5}{74} choose {15}} {80 choose 20}approx 0.003095639}un pago típico podría ser $88. El pago por golpear a los 6 sería alrededor de $1500 (probabilidad Ω 0.000128985 o 7752-a-1). El único otro pago no cero podría ser $1 para golpear 3 números (es decir, usted consigue su apuesta de vuelta), que tiene una probabilidad cerca de 0.129819548.
Tomando la suma de los productos de los pagos por las probabilidades correspondientes, obtenemos un rendimiento esperado de 0,70986492 o aproximadamente el 71 % para un 6 puntos, para una ventaja de la casa del 29 %. Otros anuncios reproducidos tienen un retorno esperado similar. Este rendimiento tan pobre (para el jugador) generalmente se explica por los grandes gastos generales (espacio de piso, equipo, personal) requeridos para el juego.
Contenido relacionado
Julia conjunto
Demografía de Zimbabue
Chuck-a-suerte