Distribución binomial
En teoría de probabilidad y estadística, la distribución binomial con parámetros n y p es la distribución de probabilidad discreta del número de éxitos en una secuencia de n experimentos independientes, cada uno con una pregunta de sí o no, y cada uno con su propio resultado de valor booleano: éxito (con probabilidad p) o fracaso (con probabilidad q = 1 − p). Un solo experimento de éxito/fracaso también se denomina prueba de Bernoulli o experimento de Bernoulli, y una secuencia de resultados se denomina proceso de Bernoulli; para un solo ensayo, es decir, n = 1, la distribución binomial es una distribución de Bernoulli. La distribución binomial es la base de la popular prueba binomial de significancia estadística.
La distribución binomial se usa con frecuencia para modelar el número de éxitos en una muestra de tamaño n extraída con reemplazo de una población de tamaño N. Si el muestreo se realiza sin reposición, los sorteos no son independientes y por tanto la distribución resultante es una distribución hipergeométrica, no binomial. Sin embargo, para N mucho mayor que n, la distribución binomial sigue siendo una buena aproximación y se usa ampliamente.
Definiciones
Función de probabilidad
En general, si la variable aleatoria X sigue la distribución binomial con parámetros n ∈ y p ∈ [0,1], escribimos X ~ B(n, p). La probabilidad de obtener exactamente k éxitos en n ensayos independientes de Bernoulli viene dada por la función de masa de probabilidad:
para k = 0, 1, 2,..., n, donde
es el coeficiente binomial, de ahí el nombre de la distribución. La fórmula se puede entender de la siguiente manera: k éxitos ocurren con probabilidad p y n − k fracasos ocurren con probabilidad (1 − p). Sin embargo, los k éxitos pueden ocurrir en cualquier lugar entre los n intentos, y existen diferentes formas de distribuir k éxitos en una secuencia de n intentos.
Al crear tablas de referencia para la probabilidad de distribución binomial, generalmente la tabla se llena hasta n /2 valores. Esto se debe a que para k > n /2, la probabilidad se puede calcular por su complemento como
Mirando la expresión f (k, n, p) como una función de k, hay un valor de k que la maximiza. Este valor de k se puede encontrar calculando
y comparándolo con 1. Siempre hay un entero M que satisface<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/c70d7a3d60734136e1f05651e856e4fdb28274ad" alt="(n+1)p-1leq M
f (k, n, p) es monótona creciente para k < M y monótona decreciente para k > M, con la excepción del caso donde (n + 1) p es un número entero. En este caso, hay dos valores para los que f es máxima: (n + 1) p y (n + 1) p − 1. M es el resultado más probable (es decir, el más probable, aunque todavía puede ser improbable en general) de los ensayos de Bernoulli y se llama el modo.
Ejemplo
Supongamos que una moneda sesgada sale cara con una probabilidad de 0,3 cuando se lanza al aire. La probabilidad de ver exactamente 4 caras en 6 lanzamientos es
Función de distribución acumulativa
La función de distribución acumulada se puede expresar como:
donde está el "piso" debajo de k, es decir, el mayor entero menor o igual que k.
También se puede representar en términos de la función beta incompleta regularizada, de la siguiente manera:
que es equivalente a la función de distribución acumulativa de la distribución F:
A continuación se dan algunos límites de forma cerrada para la función de distribución acumulativa.
Propiedades
Valor esperado y varianza
Si X ~ B (n, p), es decir, X es una variable aleatoria distribuida binomialmente, siendo n el número total de experimentos y p la probabilidad de que cada experimento produzca un resultado exitoso, entonces el valor esperado de X es:
Esto se deriva de la linealidad del valor esperado junto con el hecho de que X es la suma de n variables aleatorias de Bernoulli idénticas, cada una con un valor esperado p. En otras palabras, si son variables aleatorias de Bernoulli idénticas (e independientes) con parámetro p, entonces
y
la varianza es:
Esto se sigue de manera similar del hecho de que la varianza de una suma de variables aleatorias independientes es la suma de las varianzas.
Momentos superiores
Los primeros 6 momentos centrales, definidos como , están dados por
Los momentos no centrales satisfacen
y en general
donde son los números de Stirling de la segunda especie, y
es la
potencia descendente de
. Se sigue un límite simple al limitar los momentos binomiales a través de los momentos de Poisson superiores:
Esto muestra que si , entonces
es a lo sumo un factor constante alejado de
Modo
Por lo general, la moda de una distribución binomial B (n, p) es igual a, donde
es la función de suelo. Sin embargo, cuando (n + 1) p es un número entero y p no es ni 0 ni 1, entonces la distribución tiene dos modas: (n + 1) p y (n + 1) p − 1. Cuando p es igual a 0 o 1, el modo será 0 y n correspondientemente. Estos casos se pueden resumir de la siguiente manera:
Prueba: Deja
For only
tiene un valor distinto de cero con
. Para
encontramos
y
para
. Esto prueba que la moda es 0 para
y
para
.
deja <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/ea074f5b36db6eff17f1aa84d73e30e3de12c4d6" alt="0<p_ Encontramos.
De esto se sigue(n+1)p-1Flecha derecha f(k+1)<f(k)\k=(n+1)p-1Flecha derecha f(k+ 1)=f(k)\kf(k)end{alineado}}}">
Entonces, cuando es un número entero, entonces
y
es un modo. En el caso de que
, entonces solo
es un modo.
Mediana
En general, no existe una fórmula única para encontrar la mediana de una distribución binomial, e incluso puede que no sea única. Sin embargo, se han establecido varios resultados especiales:
- Si np es un número entero, entonces la media, la mediana y la moda coinciden y son iguales a np.
- Cualquier mediana m debe estar dentro del intervalo ⌊ np ⌋ ≤ m ≤ ⌈ np ⌉.
- Una mediana m no puede estar demasiado lejos de la media: | m - np | ≤ min{ ln 2, max{ pags, 1 − pags } }.
- La mediana es única e igual a m = round(np) cuando | m - np | ≤ min{ p, 1 − p } (excepto en el caso en que p = 1/2y n es impar).
- Cuando p es un número racional (con la excepción de p = 1/2 y n impar) la mediana es única.
- Cuando p = 1/2 y n es impar, cualquier número m en el intervalo1/2(norte - 1) ≤ metro ≤ 1/2(n + 1) es una mediana de la distribución binomial. Si p = 1/2 y n es par, entonces m = n /2 es la única mediana.
Límites de cola
Para k ≤ np, se pueden derivar límites superiores para la cola inferior de la función de distribución acumulativa , la probabilidad de que haya como máximo k éxitos. Dado que
, estos límites también pueden verse como límites para la cola superior de la función de distribución acumulativa para k ≥ np.
La desigualdad de Hoeffding produce el límite simple
que sin embargo no es muy apretado. En particular, para p = 1, tenemos que F (k; n, p) = 0 (para k fijo, n con k < n), pero el límite de Hoeffding se evalúa como una constante positiva.
Se puede obtener un límite más agudo a partir del límite de Chernoff:
donde D (a || p) es la entropía relativa (o divergencia de Kullback-Leibler) entre una moneda a y una moneda p (es decir, entre la distribución de Bernoulli(a) y Bernoulli(p)):
Asintóticamente, este límite es razonablemente estrecho; ver para más detalles.
También se pueden obtener límites inferiores en la cola , conocidos como límites anticoncentración. Aproximando el coeficiente binomial con la fórmula de Stirling se puede demostrar que
lo que implica el límite más simple pero más flexible
Para p = 1/2 y k ≥ 3 n /8 para n par, es posible hacer constante el denominador:
Inferencia estadística
Estimación de parámetros
Cuando se conoce n, el parámetro p se puede estimar utilizando la proporción de aciertos:
Este estimador se encuentra utilizando el estimador de máxima verosimilitud y también el método de los momentos. Este estimador es insesgado y uniformemente con mínima varianza, demostrado mediante el teorema de Lehmann-Scheffé, ya que se basa en un estadístico mínimo suficiente y completo (ie: x). También es consistente tanto en probabilidad como en MSE.
También existe un estimador Bayesiano de forma cerrada para p cuando se usa la distribución Beta como una distribución previa conjugada. Cuando se usa un general como a priori, el estimador medio posterior es:
El estimador de Bayes es asintóticamente eficiente y, a medida que el tamaño de la muestra se acerca al infinito (n → ∞), se acerca a la solución MLE. El estimador de Bayes está sesgado (cuánto depende de los priores), admisible y consistente en probabilidad.
Para el caso especial de usar la distribución uniforme estándar como una distribución previa no informativa , el estimador medio posterior se convierte en:
(Un modo posterior solo debería conducir al estimador estándar). Este método se llama la regla de sucesión, que fue introducida en el siglo XVIII por Pierre-Simon Laplace.
Al estimar p con eventos muy raros y una n pequeña (p. ej., si x=0), el uso del estimador estándar conduce a lo que a veces es poco realista e indeseable. En tales casos, existen varios estimadores alternativos. Una forma es usar el estimador de Bayes, lo que lleva a:
Otro método es utilizar el límite superior del intervalo de confianza obtenido mediante la regla de tres:
Intervalos de confianza
Incluso para valores bastante grandes de n, la distribución real de la media es significativamente no normal. Debido a este problema, se han propuesto varios métodos para estimar los intervalos de confianza.
En las ecuaciones para los intervalos de confianza a continuación, las variables tienen el siguiente significado:
- n 1 es el número de éxitos de n, el número total de intentos
es la proporción de aciertos
es el cuantil de una distribución normal estándar (es decir, probit) correspondiente a la tasa de error objetivo
. Por ejemplo, para un nivel de confianza del 95 %, el error
= 0,05, por lo que
= 0,975 y
= 1,96.
Método Wald
Se puede añadir una corrección de continuidad de 0,5/ n.
Método Agresti-Coull
Aquí la estimación de p se modifica a
Este método funciona bien para 10}">y
. Ver aquí para
. Para
usar el método de Wilson (puntuación) a continuación.
Método del arcoseno
Método de Wilson (puntuación)
La notación en la siguiente fórmula difiere de las fórmulas anteriores en dos aspectos:
- En primer lugar, z x tiene una interpretación ligeramente diferente en la siguiente fórmula: tiene su significado ordinario de 'el x -ésimo cuantil de la distribución normal estándar', en lugar de ser una abreviatura de 'el (1 − x)-ésimo cuantil'.
- En segundo lugar, esta fórmula no utiliza un signo más-menos para definir los dos límites. En su lugar, se puede usar
para obtener el límite inferior o
para obtener el límite superior. Por ejemplo: para un nivel de confianza del 95 %, el error
= 0,05, por lo que se obtiene el límite inferior utilizando
y el límite superior utilizando
.
Comparación
El llamado método "exacto" (Clopper-Pearson) es el más conservador. (Exacto no significa perfectamente preciso; más bien, indica que las estimaciones no serán menos conservadoras que el valor real).
El método de Wald, aunque comúnmente recomendado en los libros de texto, es el más sesgado.
Distribuciones relacionadas
Sumas de binomios
Si X ~ B(n, p) e Y ~ B(m, p) son variables binomiales independientes con la misma probabilidad p, entonces X + Y es nuevamente una variable binomial; su distribución es Z=X+Y ~ B(n+m, p):
Una variable aleatoria con distribución binomial X ~ B(n, p) puede considerarse como la suma de n variables aleatorias con distribución de Bernouli. Entonces, la suma de dos variables aleatorias binomiales distribuidas X ~ B(n, p) y Y ~ B(m, p) es equivalente a la suma de n + m variables aleatorias distribuidas de Bernouli, lo que significa que Z=X+Y ~ B(n+m, p). Esto también se puede probar directamente usando la regla de la suma.
Sin embargo, si X e Y no tienen la misma probabilidad p, entonces la varianza de la suma será menor que la varianza de una variable binomial distribuida como
Distribución binomial de Poisson
La distribución binomial es un caso especial de la distribución binomial de Poisson, que es la distribución de una suma de n ensayos de Bernoulli independientes no idénticos B(p i).
Razón de dos distribuciones binomiales
Este resultado fue derivado por primera vez por Katz y coautores en 1978.
Sean independientes X ~ B(n, p 1) y Y ~ B(m, p 2). Sea T = (X / n)/(Y / m).
Entonces log(T) tiene una distribución aproximadamente normal con media log(p 1 / p 2) y varianza ((1/ p 1) − 1)/ n + ((1/ p 2) − 1)/ m.
Binomios condicionales
Si X ~ B(n, p) e Y | X ~ B(X, q) (la distribución condicional de Y, dada X), entonces Y es una variable aleatoria binomial simple con distribución Y ~ B(n, pq).
Por ejemplo, imagine lanzar n bolas a una canasta U X y tomar las bolas que golpean y lanzarlas a otra canasta U Y. Si p es la probabilidad de golpear U X entonces X ~ B(n, p) es el número de bolas que golpean U X. Si q es la probabilidad de golpear U Y entonces el número de bolas que golpean U Y es Y ~ B(X, q) y por lo tanto Y ~ B(n, pq).
Distribución de Bernoulli
La distribución de Bernoulli es un caso especial de la distribución binomial, donde n = 1. Simbólicamente, X ~ B(1, p) tiene el mismo significado que X ~ Bernoulli(p). Por el contrario, cualquier distribución binomial, B(n, p), es la distribución de la suma de n ensayos de Bernoulli independientes, Bernoulli(p), cada uno con la misma probabilidad p.
Aproximación normal
Si n es lo suficientemente grande, entonces el sesgo de la distribución no es demasiado grande. En este caso, una aproximación razonable a B(n, p) viene dada por la distribución normal
y esta aproximación básica se puede mejorar de forma sencilla utilizando una corrección de continuidad adecuada. La aproximación básica generalmente mejora a medida que n aumenta (al menos 20) y es mejor cuando p no está cerca de 0 o 1. Se pueden usar varias reglas generales para decidir si n es lo suficientemente grande y si p está lo suficientemente lejos de los extremos de cero o uno:
- Una regla es que para n > 5 la aproximación normal es adecuada si el valor absoluto de la asimetría es estrictamente menor que 1/3; es decir, si
<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/0b11c4995a7ecebeaf37eb6affc1405179cb9b18" alt="{displaystyle {frac {|1-2p|}{sqrt {np(1-p)}}}={frac {1}{sqrt {n}}}left|{sqrt {frac {1-p}{p}}}-{sqrt {frac {p}{1-p}}},right|
Esto se puede precisar utilizando el teorema de Berry-Esseen.
- Una regla más fuerte establece que la aproximación normal es apropiada solo si todo dentro de 3 desviaciones estándar de su media está dentro del rango de valores posibles; es decir, sólo si
Esta regla de 3 desviaciones estándar es equivalente a las siguientes condiciones, que también implican la primera regla anterior.
9left({frac {1-p}{p}}right)quad {text{y}}quad n>9left({frac {p}{1- p}}derecha).}">
- Otra regla comúnmente utilizada es que ambos valores
y
deben ser mayores o iguales a 5. Sin embargo, el número específico varía de una fuente a otra y depende de qué tan buena sea la aproximación que se desee. En particular, si se usa 9 en lugar de 5, la regla implica los resultados indicados en los párrafos anteriores.
El siguiente es un ejemplo de aplicación de una corrección de continuidad. Supongamos que se desea calcular Pr(X ≤ 8) para una variable aleatoria binomial X. Si Y tiene una distribución dada por la aproximación normal, entonces Pr(X ≤ 8) se aproxima por Pr(Y ≤ 8.5). La suma de 0,5 es la corrección de continuidad; la aproximación normal sin corregir da resultados considerablemente menos precisos.
Esta aproximación, conocida como teorema de Moivre-Laplace, ahorra mucho tiempo cuando se realizan cálculos a mano (los cálculos exactos con n grande son muy onerosos); históricamente, fue el primer uso de la distribución normal, introducida en el libro de Abraham de Moivre The Doctrine of Chances en 1738. Hoy en día, puede verse como una consecuencia del teorema del límite central ya que B(n, p) es una suma de n variables de Bernoulli independientes, idénticamente distribuidas con parámetro p. Este hecho es la base de una prueba de hipótesis, una "prueba z de proporción", para el valor de p usando x/n, la proporción muestral y el estimador de p, en un estadístico de prueba común.
Por ejemplo, supongamos que uno toma una muestra aleatoria de n personas de una gran población y les pregunta si están de acuerdo con una afirmación determinada. Por supuesto, la proporción de personas que estén de acuerdo dependerá de la muestra. Si se muestrearan grupos de n personas repetidamente y verdaderamente al azar, las proporciones seguirían una distribución normal aproximada con media igual a la verdadera proporción p de concordancia en la población y con desviación estándar
Aproximación de Poisson
La distribución binomial converge hacia la distribución de Poisson a medida que el número de intentos tiende a infinito mientras que el producto np permanece fijo o al menos p tiende a cero. Por lo tanto, la distribución de Poisson con parámetro λ = np puede usarse como una aproximación a B(n, p) de la distribución binomial si n es lo suficientemente grande y p lo suficientemente pequeño. Según dos reglas generales, esta aproximación es buena si n ≥ 20 y p ≤ 0,05, o si n ≥ 100 y np ≤ 10.
En cuanto a la precisión de la aproximación de Poisson, véase Novak, cap. 4, y referencias en el mismo.
Distribuciones limitantes
- Teorema del límite de Poisson: A medida que n se acerca a ∞ y p se acerca a 0 con el producto np fijo, la distribución binomial (n, p) se acerca a la distribución de Poisson con el valor esperado λ = np.
- Teorema de Moivre-Laplace: A medida que n se acerca a ∞ mientras p permanece fijo, la distribución de
se aproxima a la distribución normal con valor esperado 0 y varianza 1. Este resultado a veces se expresa vagamente diciendo que la distribución de X es asintóticamente normal con valor esperado 0 y varianza 1. Este resultado es un caso específico del teorema del límite central.
Distribución beta
La distribución binomial y la distribución beta son vistas diferentes del mismo modelo de ensayos de Bernoulli repetidos. La distribución binomial es el PMF de k éxitos dados n eventos independientes, cada uno con una probabilidad p de éxito. Matemáticamente, cuando α = k + 1 y β = n − k + 1, la distribución beta y la distribución binomial están relacionadas por un factor de n + 1:
Las distribuciones beta también proporcionan una familia de distribuciones de probabilidad previas para distribuciones binomiales en la inferencia bayesiana:
Dada una previa uniforme, la distribución posterior para la probabilidad de éxito p dados n eventos independientes con k éxitos observados es una distribución beta.
Generación de números aleatorios
Los métodos para la generación de números aleatorios donde la distribución marginal es una distribución binomial están bien establecidos. Una forma de generar muestras de variables aleatorias a partir de una distribución binomial es utilizar un algoritmo de inversión. Para hacerlo, se debe calcular la probabilidad de que Pr(X = k) para todos los valores k de 0 a n. (Estas probabilidades deben sumar un valor cercano a uno, para abarcar todo el espacio muestral). Luego, al usar un generador de números pseudoaleatorios para generar muestras uniformemente entre 0 y 1, uno puede transformar las muestras calculadas en números discretos usando el probabilidades calculadas en el primer paso.
Historia
Esta distribución fue derivada por Jacob Bernoulli. Consideró el caso donde p = r /(r + s) donde p es la probabilidad de éxito yr y s son números enteros positivos. Blaise Pascal había considerado anteriormente el caso donde p = 1/2.
Contenido relacionado
Esquema de estadísticas
Parámetro de ubicación
Distribución exponencial