Distribución binomial

Compartir Imprimir Citar

En teoría de probabilidad y estadística, la distribución binomial con parámetros n y p es la distribución de probabilidad discreta del número de éxitos en una secuencia de n experimentos independientes, cada uno con una pregunta de sí o no, y cada uno con su propio resultado de valor booleano: éxito (con probabilidad p) o fracaso (con probabilidad q = 1 − p). Un solo experimento de éxito/fracaso también se denomina prueba de Bernoulli o experimento de Bernoulli, y una secuencia de resultados se denomina proceso de Bernoulli; para un solo ensayo, es decir, n = 1, la distribución binomial es una distribución de Bernoulli. La distribución binomial es la base de la popular prueba binomial de significancia estadística.

La distribución binomial se usa con frecuencia para modelar el número de éxitos en una muestra de tamaño n extraída con reemplazo de una población de tamaño N. Si el muestreo se realiza sin reposición, los sorteos no son independientes y por tanto la distribución resultante es una distribución hipergeométrica, no binomial. Sin embargo, para N mucho mayor que n, la distribución binomial sigue siendo una buena aproximación y se usa ampliamente.

Definiciones

Función de probabilidad

En general, si la variable aleatoria X sigue la distribución binomial con parámetros nmatemáticas {N}y p ∈ [0,1], escribimos X ~ B(n, p). La probabilidad de obtener exactamente k éxitos en n ensayos independientes de Bernoulli viene dada por la función de masa de probabilidad:{displaystyle f(k,n,p)=Pr(k;n,p)=Pr(X=k)={binom {n}{k}}p^{k}(1-p) ^{nk}}

para k = 0, 1, 2,..., n, donde{displaystyle {binom {n}{k}}={frac {n!}{k!(nk)!}}}

es el coeficiente binomial, de ahí el nombre de la distribución. La fórmula se puede entender de la siguiente manera: k éxitos ocurren con probabilidad p y nk fracasos ocurren con probabilidad (1 − p). Sin embargo, los k éxitos pueden ocurrir en cualquier lugar entre los n intentos, y existen {tbinom {n}{k}}diferentes formas de distribuir k éxitos en una secuencia de n intentos.

Al crear tablas de referencia para la probabilidad de distribución binomial, generalmente la tabla se llena hasta n /2 valores. Esto se debe a que para k > n /2, la probabilidad se puede calcular por su complemento comof(k,n,p)=f(nk,n,1-p).

Mirando la expresión f (k, n, p) como una función de k, hay un valor de k que la maximiza. Este valor de k se puede encontrar calculando{frac {f(k+1,n,p)}{f(k,n,p)}}={frac {(nk)p}{(k+1)(1-p)}}

y comparándolo con 1. Siempre hay un entero M que satisface<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c70d7a3d60734136e1f05651e856e4fdb28274ad" alt="(n+1)p-1leq M

f (k, n, p) es monótona creciente para k < M y monótona decreciente para k > M, con la excepción del caso donde (n + 1) p es un número entero. En este caso, hay dos valores para los que f es máxima: (n + 1) p y (n + 1) p − 1. M es el resultado más probable (es decir, el más probable, aunque todavía puede ser improbable en general) de los ensayos de Bernoulli y se llama el modo.

Ejemplo

Supongamos que una moneda sesgada sale cara con una probabilidad de 0,3 cuando se lanza al aire. La probabilidad de ver exactamente 4 caras en 6 lanzamientos es{displaystyle f(4,6,0.3)={binom {6}{4}}0.3^{4}(1-0.3)^{6-4}=0.059535.}

Función de distribución acumulativa

La función de distribución acumulada se puede expresar como:{displaystyle F(k;n,p)=Pr(Xleq k)=sum_{i=0}^{lfloor krfloor}{n choose i}p^{i}(1 -p)^{ni},}

donde lpiso krpisoestá el "piso" debajo de k, es decir, el mayor entero menor o igual que k.

También se puede representar en términos de la función beta incompleta regularizada, de la siguiente manera:{begin{alineado}F(k;n,p)&=Pr(Xleq k)\&=I_{1-p}(nk,k+1)\&=(nk){n elegir k}int _{0}^{1-p}t^{nk-1}(1-t)^{k},dt.end{alineado}}

que es equivalente a la función de distribución acumulativa de la distribución F:{displaystyle F(k;n,p)=F_{F{text{-distribución}}}left(x={frac {1-p}{p}}{frac {k+1}{ nk}};d_{1}=2(nk),d_{2}=2(k+1)right).}

A continuación se dan algunos límites de forma cerrada para la función de distribución acumulativa.

Propiedades

Valor esperado y varianza

Si X ~ B (n, p), es decir, X es una variable aleatoria distribuida binomialmente, siendo n el número total de experimentos y p la probabilidad de que cada experimento produzca un resultado exitoso, entonces el valor esperado de X es:{ estilo de visualización  nombre del operador {E} [X] = np.}

Esto se deriva de la linealidad del valor esperado junto con el hecho de que X es la suma de n variables aleatorias de Bernoulli idénticas, cada una con un valor esperado p. En otras palabras, si X_1, ldots, X_nson variables aleatorias de Bernoulli idénticas (e independientes) con parámetro p, entonces {displaystyle X=X_{1}+cdots +X_{n}}y{displaystyle operatorname {E} [X]=operatorname {E} [X_{1}+cdots +X_{n}]=operatorname {E} [X_{1}]+cdots +operatorname { E} [X_{n}]=p+cdots +p=np.}

la varianza es:{displaystyle operatorname {Var} (X)=npq=np(1-p).}

Esto se sigue de manera similar del hecho de que la varianza de una suma de variables aleatorias independientes es la suma de las varianzas.

Momentos superiores

Los primeros 6 momentos centrales, definidos como {displaystyle mu _{c}=nombre del operador {E} left[(X-nombre del operador {E} [X])^{c}right]}, están dados por{displaystyle {begin{alineado}mu_{1}&=0,\mu_{2}&=np(1-p),\mu_{3}&=np(1- p)(1-2p),\mu _{4}&=np(1-p)(1+(3n-6)p(1-p)),\mu _{5}&= np(1-p)(1-2p)(1+(10n-12)p(1-p)),\mu _{6}&=np(1-p)(1-30p(1- p)(1-4p(1-p))+5np(1-p)(5-26p(1-p))+15n^{2}p^{2}(1-p)^{2}).end{alineado}}}

Los momentos no centrales satisfacen{displaystyle {begin{alineado}operatorname {E} [X]&=np,\operatorname {E} [X^{2}]&=np(1-p)+n^{2}p ^{2},end{alineado}}}

y en general{displaystyle operatorname {E} [X^{c}]=sum _{k=0}^{c}left{{c atop k}right}n^{underline {k} }p^{k},}

donde {displaystyle textstyle left{{c atop k}right}}son los números de Stirling de la segunda especie, y {displaystyle n^{subrayado {k}}=n(n-1)cdots (n-k+1)}es la kpotencia descendente de norte. Se sigue un límite simple al limitar los momentos binomiales a través de los momentos de Poisson superiores:{displaystyle operatorname {E} [X^{c}]leq left({frac {c}{log(c/(np)+1)}}right)^{c}leq (np)^{c}exp left({frac {c^{2}}{2np}}right).}

Esto muestra que si { estilo de visualización c = O ({ sqrt {np}})}, entonces { estilo de visualización  nombre del operador {E} [X^{c}]}es a lo sumo un factor constante alejado de{ estilo de visualización  nombre del operador {E} [X]^{c}}

Modo

Por lo general, la moda de una distribución binomial B (n,  plpiso (n+1)prpiso) es igual a, donde lpiso cdot rpisoes la función de suelo. Sin embargo, cuando (n + 1) p es un número entero y p no es ni 0 ni 1, entonces la distribución tiene dos modas: (n + 1) p y (n + 1) p − 1. Cuando p es igual a 0 o 1, el modo será 0 y n correspondientemente. Estos casos se pueden resumir de la siguiente manera:{text{modo}}={begin{cases}lfloor (n+1),prfloor &{text{if }}(n+1)p{text{ es 0 o un número no entero} },\(n+1),p {text{ y }} (n+1),p-1&{text{si }}(n+1)pen {1, puntos,n},\n&{text{si}}(n+1)p=n+1.end{casos}}

Prueba: Deja{displaystyle f(k)={binom {n}{k}}p^{k}q^{nk}.}

For pag=0only f(0)tiene un valor distinto de cero con f(0)=1. Para pag=1encontramos f(n)=1y f(k)=0para kneqn. Esto prueba que la moda es 0 para pag=0y nortepara pag=1.

deja <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/ea074f5b36db6eff17f1aa84d73e30e3de12c4d6" alt="0<p_ Encontramos{frac {f(k+1)}{f(k)}}={frac {(nk)p}{(k+1)(1-p)}}.

De esto se sigue(n+1)p-1Flecha derecha f(k+1)<f(k)\k=(n+1)p-1Flecha derecha f(k+ 1)=f(k)\kf(k)end{alineado}}}">

Entonces, cuando (n+1)p-1es un número entero, entonces (n+1)p-1y (n+1)pes un modo. En el caso de que (n+1)p-1notinmathbb {Z}, entonces solo lpiso (n+1)p-1rpiso +1=lpiso (n+1)prpisoes un modo.

Mediana

En general, no existe una fórmula única para encontrar la mediana de una distribución binomial, e incluso puede que no sea única. Sin embargo, se han establecido varios resultados especiales:

Límites de cola

Para knp, se pueden derivar límites superiores para la cola inferior de la función de distribución acumulativa F(k;n,p)=Pr(Xleq k), la probabilidad de que haya como máximo k éxitos. Dado que {displaystyle Pr(Xgeq k)=F(nk;n,1-p)}, estos límites también pueden verse como límites para la cola superior de la función de distribución acumulativa para knp.

La desigualdad de Hoeffding produce el límite simple{displaystyle F(k;n,p)leq exp left(-2nleft(p-{frac {k}{n}}right)^{2}right),!}

que sin embargo no es muy apretado. En particular, para p = 1, tenemos que F (k; n, p) = 0 (para k fijo, n con k < n), pero el límite de Hoeffding se evalúa como una constante positiva.

Se puede obtener un límite más agudo a partir del límite de Chernoff:{displaystyle F(k;n,p)leq exp left(-nDleft({frac {k}{n}}parallel pright)right)}

donde D (a || p) es la entropía relativa (o divergencia de Kullback-Leibler) entre una moneda a y una moneda p (es decir, entre la distribución de Bernoulli(a) y Bernoulli(p)):{displaystyle D(aparallel p)=(a)log {frac {a}{p}}+(1-a)log {frac {1-a}{1-p}}. !}

Asintóticamente, este límite es razonablemente estrecho; ver para más detalles.

También se pueden obtener límites inferiores en la cola { estilo de visualización F (k; n, p)}, conocidos como límites anticoncentración. Aproximando el coeficiente binomial con la fórmula de Stirling se puede demostrar que{displaystyle F(k;n,p)geq {frac {1}{sqrt {8n{tfrac {k}{n}}(1-{tfrac {k}{n}})}} }exp left(-nDleft({frac {k}{n}}parallel pright)right),}

lo que implica el límite más simple pero más flexible{displaystyle F(k;n,p)geq {frac {1}{sqrt {2n}}}exp left(-nDleft({frac {k}{n}}parallel p bien bien).}

Para p = 1/2 y k ≥ 3 n /8 para n par, es posible hacer constante el denominador:{displaystyle F(k;n,{tfrac {1}{2}})geq {frac {1}{15}}exp left(-16nleft({frac {1}{2 }}-{frac {k}{n}}derecho)^{2}derecho).!}

Inferencia estadística

Estimación de parámetros

Cuando se conoce n, el parámetro p se puede estimar utilizando la proporción de aciertos:{displaystyle {widehat {p}}={frac {x}{n}}.}

Este estimador se encuentra utilizando el estimador de máxima verosimilitud y también el método de los momentos. Este estimador es insesgado y uniformemente con mínima varianza, demostrado mediante el teorema de Lehmann-Scheffé, ya que se basa en un estadístico mínimo suficiente y completo (ie: x). También es consistente tanto en probabilidad como en MSE.

También existe un estimador Bayesiano de forma cerrada para p cuando se usa la distribución Beta como una distribución previa conjugada. Cuando se usa un general { estilo de visualización  nombre del operador {Beta} ( alfa,  beta)}como a priori, el estimador medio posterior es:{displaystyle {widehat {p}}_{b}={frac {x+alpha }{n+alpha +beta }}.}

El estimador de Bayes es asintóticamente eficiente y, a medida que el tamaño de la muestra se acerca al infinito (n → ∞), se acerca a la solución MLE. El estimador de Bayes está sesgado (cuánto depende de los priores), admisible y consistente en probabilidad.

Para el caso especial de usar la distribución uniforme estándar como una distribución previa no informativa { estilo de visualización  nombre del operador {Beta} ( alfa = 1,  beta = 1) = U (0,1)}, el estimador medio posterior se convierte en:{displaystyle {widehat {p}}_{b}={frac {x+1}{n+2}}.}

(Un modo posterior solo debería conducir al estimador estándar). Este método se llama la regla de sucesión, que fue introducida en el siglo XVIII por Pierre-Simon Laplace.

Al estimar p con eventos muy raros y una n pequeña (p. ej., si x=0), el uso del estimador estándar conduce a {displaystyle {sombrero ancho {p}}=0,}lo que a veces es poco realista e indeseable. En tales casos, existen varios estimadores alternativos. Una forma es usar el estimador de Bayes, lo que lleva a:{displaystyle {widehat {p}}_{b}={frac{1}{n+2}}.}

Otro método es utilizar el límite superior del intervalo de confianza obtenido mediante la regla de tres:{displaystyle {widehat {p}}_{text{regla de 3}}={frac {3}{n}}.}

Intervalos de confianza

Incluso para valores bastante grandes de n, la distribución real de la media es significativamente no normal. Debido a este problema, se han propuesto varios métodos para estimar los intervalos de confianza.

En las ecuaciones para los intervalos de confianza a continuación, las variables tienen el siguiente significado:

Método Wald

{displaystyle {widehat {p,}}pm z{sqrt {frac {{widehat {p,}}(1-{widehat {p,}})}{n}}}.}

Se puede añadir una corrección de continuidad de 0,5/ n.

Método Agresti-Coull

{displaystyle {tilde {p}}pm z{sqrt {frac {{tilde {p}}(1-{tilde {p}})}{n+z^{2}}}} }

Aquí la estimación de p se modifica a{displaystyle {tilde {p}}={frac {n_{1}+{frac {1}{2}}z^{2}}{n+z^{2}}}}

Este método funciona bien para 10}">y { estilo de visualización n_ {1}  neq 0, n}. Ver aquí para { estilo de visualización n  leq 10}. Para { estilo de visualización n_ {1} = 0, n}usar el método de Wilson (puntuación) a continuación.

Método del arcoseno

{displaystyle sin ^{2}left(arcsin left({sqrt {widehat {p,}}}right)pm {frac {z}{2{sqrt {n}} }}derecho).}

Método de Wilson (puntuación)

La notación en la siguiente fórmula difiere de las fórmulas anteriores en dos aspectos:

{displaystyle {frac {{widehat {p,}}+{frac {z^{2}}{2n}}+z{sqrt {{frac {{widehat {p,}} (1-{widehat {p,}})}{n}}+{frac {z^{2}}{4n^{2}}}}}}{1+{frac {z^{ 2}}{n}}}}}

Comparación

El llamado método "exacto" (Clopper-Pearson) es el más conservador. (Exacto no significa perfectamente preciso; más bien, indica que las estimaciones no serán menos conservadoras que el valor real).

El método de Wald, aunque comúnmente recomendado en los libros de texto, es el más sesgado.

Distribuciones relacionadas

Sumas de binomios

Si X ~ B(n, p) e Y ~ B(m, p) son variables binomiales independientes con la misma probabilidad p, entonces X + Y es nuevamente una variable binomial; su distribución es Z=X+Y ~ B(n+m, p):{begin{alineado}operatorname {P} (Z=k)&=sum _{i=0}^{k}left[{binom {n}{i}}p^{i}(1 -p)^{ni}right]left[{binom {m}{ki}}p^{ki}(1-p)^{m-k+i}right]\&={ binom {n+m}{k}}p^{k}(1-p)^{n+mk}end{alineado}}

Una variable aleatoria con distribución binomial X ~ B(n, p) puede considerarse como la suma de n variables aleatorias con distribución de Bernouli. Entonces, la suma de dos variables aleatorias binomiales distribuidas X ~ B(n, p) y Y ~ B(m, p) es equivalente a la suma de n + m variables aleatorias distribuidas de Bernouli, lo que significa que Z=X+Y ~ B(n+m, p). Esto también se puede probar directamente usando la regla de la suma.

Sin embargo, si X e Y no tienen la misma probabilidad p, entonces la varianza de la suma será menor que la varianza de una variable binomial distribuida comoB(n+m,{bar {p}}).,

Distribución binomial de Poisson

La distribución binomial es un caso especial de la distribución binomial de Poisson, que es la distribución de una suma de n ensayos de Bernoulli independientes no idénticos B(p i).

Razón de dos distribuciones binomiales

Este resultado fue derivado por primera vez por Katz y coautores en 1978.

Sean independientes X ~ B(n, p 1) y Y ~ B(m, p 2). Sea T = (X / n)/(Y / m).

Entonces log(T) tiene una distribución aproximadamente normal con media log(p 1 / p 2) y varianza ((1/ p 1) − 1)/ n + ((1/ p 2) − 1)/ m.

Binomios condicionales

Si X ~ B(n, p) e Y | X ~ B(X, q) (la distribución condicional de Y, dada X), entonces Y es una variable aleatoria binomial simple con distribución Y ~ B(n, pq).

Por ejemplo, imagine lanzar n bolas a una canasta U X y tomar las bolas que golpean y lanzarlas a otra canasta U Y. Si p es la probabilidad de golpear U X entonces X ~ B(n, p) es el número de bolas que golpean U X. Si q es la probabilidad de golpear U Y entonces el número de bolas que golpean U Y es Y ~ B(X, q) y por lo tanto Y ~ B(n, pq).

Distribución de Bernoulli

La distribución de Bernoulli es un caso especial de la distribución binomial, donde n = 1. Simbólicamente, X ~ B(1, p) tiene el mismo significado que X ~ Bernoulli(p). Por el contrario, cualquier distribución binomial, B(n, p), es la distribución de la suma de n ensayos de Bernoulli independientes, Bernoulli(p), cada uno con la misma probabilidad p.

Aproximación normal

Si n es lo suficientemente grande, entonces el sesgo de la distribución no es demasiado grande. En este caso, una aproximación razonable a B(n, p) viene dada por la distribución normal{displaystyle {mathcal {N}}(np,,np(1-p)),}

y esta aproximación básica se puede mejorar de forma sencilla utilizando una corrección de continuidad adecuada. La aproximación básica generalmente mejora a medida que n aumenta (al menos 20) y es mejor cuando p no está cerca de 0 o 1. Se pueden usar varias reglas generales para decidir si n es lo suficientemente grande y si p está lo suficientemente lejos de los extremos de cero o uno:

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/0b11c4995a7ecebeaf37eb6affc1405179cb9b18" alt="{displaystyle {frac {|1-2p|}{sqrt {np(1-p)}}}={frac {1}{sqrt {n}}}left|{sqrt {frac {1-p}{p}}}-{sqrt {frac {p}{1-p}}},right|

Esto se puede precisar utilizando el teorema de Berry-Esseen.

{displaystyle mu pm 3sigma =nppm 3{sqrt {np(1-p)}}in (0,n).}Esta regla de 3 desviaciones estándar es equivalente a las siguientes condiciones, que también implican la primera regla anterior.9left({frac {1-p}{p}}right)quad {text{y}}quad n>9left({frac {p}{1- p}}derecha).}">

El siguiente es un ejemplo de aplicación de una corrección de continuidad. Supongamos que se desea calcular Pr(X ≤ 8) para una variable aleatoria binomial X. Si Y tiene una distribución dada por la aproximación normal, entonces Pr(X ≤ 8) se aproxima por Pr(Y ≤ 8.5). La suma de 0,5 es la corrección de continuidad; la aproximación normal sin corregir da resultados considerablemente menos precisos.

Esta aproximación, conocida como teorema de Moivre-Laplace, ahorra mucho tiempo cuando se realizan cálculos a mano (los cálculos exactos con n grande son muy onerosos); históricamente, fue el primer uso de la distribución normal, introducida en el libro de Abraham de Moivre The Doctrine of Chances en 1738. Hoy en día, puede verse como una consecuencia del teorema del límite central ya que B(n, p) es una suma de n variables de Bernoulli independientes, idénticamente distribuidas con parámetro p. Este hecho es la base de una prueba de hipótesis, una "prueba z de proporción", para el valor de p usando x/n, la proporción muestral y el estimador de p, en un estadístico de prueba común.

Por ejemplo, supongamos que uno toma una muestra aleatoria de n personas de una gran población y les pregunta si están de acuerdo con una afirmación determinada. Por supuesto, la proporción de personas que estén de acuerdo dependerá de la muestra. Si se muestrearan grupos de n personas repetidamente y verdaderamente al azar, las proporciones seguirían una distribución normal aproximada con media igual a la verdadera proporción p de concordancia en la población y con desviación estándar{displaystyle sigma ={sqrt {frac {p(1-p)}{n}}}}

Aproximación de Poisson

La distribución binomial converge hacia la distribución de Poisson a medida que el número de intentos tiende a infinito mientras que el producto np permanece fijo o al menos p tiende a cero. Por lo tanto, la distribución de Poisson con parámetro λ = np puede usarse como una aproximación a B(n, p) de la distribución binomial si n es lo suficientemente grande y p lo suficientemente pequeño. Según dos reglas generales, esta aproximación es buena si n ≥ 20 y p ≤ 0,05, o si n ≥ 100 y np ≤ 10.

En cuanto a la precisión de la aproximación de Poisson, véase Novak, cap. 4, y referencias en el mismo.

Distribuciones limitantes

{frac{X-np}{sqrt {np(1-p)}}}se aproxima a la distribución normal con valor esperado 0 y varianza 1. Este resultado a veces se expresa vagamente diciendo que la distribución de X es asintóticamente normal con valor esperado 0 y varianza 1. Este resultado es un caso específico del teorema del límite central.

Distribución beta

La distribución binomial y la distribución beta son vistas diferentes del mismo modelo de ensayos de Bernoulli repetidos. La distribución binomial es el PMF de k éxitos dados n eventos independientes, cada uno con una probabilidad p de éxito. Matemáticamente, cuando α = k + 1 y β = nk + 1, la distribución beta y la distribución binomial están relacionadas por un factor de n + 1:{displaystyle operatorname {Beta} (p;alpha;beta)=(n+1)operatorname {Binom} (k;n;p)}

Las distribuciones beta también proporcionan una familia de distribuciones de probabilidad previas para distribuciones binomiales en la inferencia bayesiana:{displaystyle P(p;alpha,beta)={frac {p^{alpha -1}(1-p)^{beta -1}}{mathrm {B} (alpha, beta)}}.}

Dada una previa uniforme, la distribución posterior para la probabilidad de éxito p dados n eventos independientes con k éxitos observados es una distribución beta.

Generación de números aleatorios

Los métodos para la generación de números aleatorios donde la distribución marginal es una distribución binomial están bien establecidos. Una forma de generar muestras de variables aleatorias a partir de una distribución binomial es utilizar un algoritmo de inversión. Para hacerlo, se debe calcular la probabilidad de que Pr(X = k) para todos los valores k de 0 a n. (Estas probabilidades deben sumar un valor cercano a uno, para abarcar todo el espacio muestral). Luego, al usar un generador de números pseudoaleatorios para generar muestras uniformemente entre 0 y 1, uno puede transformar las muestras calculadas en números discretos usando el probabilidades calculadas en el primer paso.

Historia

Esta distribución fue derivada por Jacob Bernoulli. Consideró el caso donde p = r /(r + s) donde p es la probabilidad de éxito yr y s son números enteros positivos. Blaise Pascal había considerado anteriormente el caso donde p = 1/2.