Distribución geométrica

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En teoría de probabilidad y estadística, la distribución geométrica es una de dos distribuciones de probabilidad discretas:

Distribución de probabilidad del número X de los ensayos de Bernoulli necesarios para conseguir un éxito, apoyado en el conjunto ${displaystyle {1,2,3,ldots}}$ ;
Distribución de probabilidad del número Y=X− 1 de fracasos antes del primer éxito, apoyado en el conjunto ${displaystyle {0,1,2,ldots}}$ .

Cuál de estas se llama distribución geométrica es una cuestión de convención y conveniencia.

Estas dos distribuciones geométricas diferentes no deben confundirse entre sí. A menudo, se adopta el nombre de distribución geométrica desplazada para la anterior (distribución del número X); sin embargo, para evitar ambigüedades, se considera prudente indicar a qué se refiere, mencionando explícitamente el soporte.

La distribución geométrica da la probabilidad de que la primera ocurrencia de éxito requiera k ensayos independientes, cada uno con probabilidad de éxito p. Si la probabilidad de éxito en cada intento es p, entonces la probabilidad de que el késimo intento sea el primer éxito es

{displaystyle Pr(X=k)=(1-p)^{k-1}p}

para k = 1, 2, 3, 4,....

La forma anterior de la distribución geométrica se utiliza para modelar el número de intentos hasta el primer éxito inclusive. Por el contrario, la siguiente forma de distribución geométrica se utiliza para modelar el número de fallas hasta el primer éxito:

{displaystyle Pr(Y=k)=Pr(X=k+1)=(1-p)^{k}p}

para k = 0, 1, 2, 3,....

En cualquier caso, la secuencia de probabilidades es una secuencia geométrica.

Por ejemplo, supongamos que se lanza un dado ordinario repetidamente hasta que la primera vez se obtiene un "1" aparece La distribución de probabilidad del número de veces que se lanza se apoya en el conjunto infinito { 1, 2, 3,... } y es una distribución geométrica con p = 1/6.

La distribución geométrica se denota por Geo(p) donde 0 < p ≤ 1.

Definiciones

Considere una secuencia de pruebas, donde cada prueba tiene solo dos resultados posibles (designados como fracaso y éxito). Se supone que la probabilidad de éxito es la misma para cada prueba. En tal secuencia de intentos, la distribución geométrica es útil para modelar el número de fallas antes del primer éxito ya que el experimento puede tener un número indefinido de intentos hasta el éxito, a diferencia de la distribución binomial que tiene un número fijo de intentos. La distribución da la probabilidad de que haya cero fallas antes del primer éxito, una falla antes del primer éxito, dos fallas antes del primer éxito, y así sucesivamente.

Supuestos: ¿Cuándo es la distribución geométrica un modelo apropiado?

La distribución geométrica es un modelo apropiado si se cumplen las siguientes suposiciones.

El fenómeno que se está modelando es una secuencia de ensayos independientes.
Sólo hay dos posibles resultados para cada ensayo, a menudo designado éxito o fracaso.
La probabilidad de éxito, p, es lo mismo para cada juicio.

Si estas condiciones son verdaderas, entonces la variable aleatoria geométrica Y es el conteo del número de fallas antes del primer éxito. El número posible de fallas antes del primer éxito es 0, 1, 2, 3 y así sucesivamente. En los gráficos anteriores, esta formulación se muestra a la derecha.

Una formulación alternativa es que la variable aleatoria geométrica X es el número total de intentos hasta el primer éxito incluido, y el número de fracasos es X − 1 En los gráficos anteriores, esta formulación se muestra a la izquierda.

Ejemplos de resultados de probabilidad

La fórmula general para calcular la probabilidad de k fallas antes del primer éxito, donde la probabilidad de éxito es p y la probabilidad de falla es q = 1 − p, es

${displaystyle Pr(Y=k)=q^{k},p}$

para k = 0, 1, 2, 3,....

E1) Un médico busca un antidepresivo para un paciente recién diagnosticado. Suponga que, de los medicamentos antidepresivos disponibles, la probabilidad de que cualquier medicamento en particular sea efectivo para un paciente en particular es p = 0.6. ¿Cuál es la probabilidad de que el primer fármaco que resulte efectivo para este paciente sea el primer fármaco probado, el segundo fármaco probado, y así sucesivamente? ¿Cuál es el número esperado de medicamentos que se probarán para encontrar uno que sea efectivo?

La probabilidad de que el primer fármaco funcione. Hay cero fracasos antes del primer éxito. Y = 0 fallas. La probabilidad Pr (cero fallas antes del primer éxito) es simplemente la probabilidad de que la primera droga funcione.

${displaystyle Pr(Y=0)=q^{0},p =0.4^{0}times 0.6=1times 0.6=0.6}$

La probabilidad de que la primera droga falle, pero la segunda droga funciona. Hay un fracaso antes del primer éxito. Y = 1 fracaso. La probabilidad de esta secuencia de eventos es Pr(primera droga falla) ${displaystyle times }$ p(segundo fármaco tiene éxito), que es dado por

${displaystyle Pr(Y=1)=q^{1},p =0.4^{1}times 0.6=0.4times 0.6=0.24}$

La probabilidad de que la primera droga falle, la segunda droga falla, pero la tercera droga funciona. Hay dos fracasos antes del primer éxito. Y= 2 fallos. La probabilidad de esta secuencia de eventos es Pr(primera droga falla) ${displaystyle times }$ p(segundo medicamento falla) ${displaystyle times }$ Pr(tercer medicamento es éxito)

${displaystyle Pr(Y=2)=q^{2},p,=0.4^{2}times 0.6=0.096.}$

E2) Una pareja de recién casados planea tener hijos y continuará hasta la primera niña. ¿Cuál es la probabilidad de que haya cero niños antes de la primera niña, un niño antes de la primera niña, dos niños antes de la primera niña, y así sucesivamente?

La probabilidad de tener una niña (éxito) es p= 0,5 y la probabilidad de tener un niño (fracaso) es q = 1 − p = 0,5.

La probabilidad de que no haya niños antes de la primera niña es

${displaystyle Pr(Y=0)=q^{0},p =0.5^{0}times 0.5=1times 0.5=0.5}$

La probabilidad de que haya un niño antes que la primera niña es

${displaystyle Pr(Y=1)=q^{1},p =0.5^{1}times 0.5=0.5times 0.5=0.25}$

La probabilidad de que haya dos niños antes que la primera niña es

${displaystyle Pr(Y=2)=q^{2},p =0.5^{2}times 0.5=0.125}$

y así sucesivamente.

Propiedades

Momentos y cumulantes

El valor esperado para el número de intentos independientes para obtener el primer éxito y la varianza de una variable aleatoria distribuida geométricamente X es:

${displaystyle operatorname {E} (X)={frac {1}{p}},qquad operatorname {var} (X)={frac} {1-p}{2}}}$

Del mismo modo, el valor esperado y la varianza de la variable aleatoria geométricamente distribuida Y = X- 1 (Ver definición de la distribución ${displaystyle Pr(Y=k)}$ ) es:

${displaystyle operatorname {E} (Y)=operatorname [E] (X-1)=operatorname {E} (X)-1={frac {1-p}{p},qquad operatorname {var} (Y)={frac {1-p}{2}}}$

Prueba

Que el valor esperado es (1 − p)/p se puede mostrar de la siguiente manera. Sea Y como arriba. Después

${displaystyle {begin{aligned}mathrm {E} (Y) ¿Por qué? k\ {f}=psum ¿Por qué? {d} {dp}left(-sum) ¿Por qué? {d} {dp}left(-{frac} {1}{p}right)={frac {1-p} {fnMicrosoft}}$

El intercambio de suma y diferenciación se justifica por el hecho de que las series de potencias convergentes convergen uniformemente en subconjuntos compactos del conjunto de puntos donde convergen.

Vamos μ = 1 −p)/p ser el valor esperado Y. Luego los acumuladores ${displaystyle kappa _{n}$ de la distribución de probabilidad Y satisfacer la recursión

${displaystyle kappa _{n+1}=mu (mu +1){frac {dkappa _{n}{dmu }}$

Ejemplos de valores esperados

E3) Un paciente está esperando un donante de riñón compatible compatible para un trasplante. Si la probabilidad de que un donante seleccionado al azar sea compatible es p = 0,1, ¿cuál es el número esperado de donantes que se evaluarán antes de encontrar un donante compatible?

Con p = 0,1, el número medio de errores antes del primer éxito es E(Y) = (1 − p)/ p =(1 − 0,1)/0,1 = 9.

Para la formulación alternativa, donde X es el número de intentos hasta el primer éxito inclusive, el valor esperado es E(X) = 1/p = 1/0.1 = 10.

Para el ejemplo 1 anterior, con p = 0,6, el número medio de fallas antes del primer éxito es E(Y) = (1 − p)/p = (1 − 0,6)/0,6 = 0,67.

Momentos de orden superior

Los momentos para el número de fallas antes del primer éxito están dados por

${displaystyle {begin{aligned}mathrm {E} {fn} {fn} {fn}}} {fn}} {fn} {fn} {fn}} {fn}} {fn}}} {fn} {fn}}}}} {fn}}}} {fn}}}}}}}}}}}}}}}}} {s}}}}}}}}} {s}}}}}} {s}}}}}}}}} {s}}}}}}} {s}}}}}}}}}}}}}} {s}}}}}}}}}}}}}}}}} {s}}}}}}}}}}}}}}}}}}} {s}}}}}}}}}}}}}}}}}}}} {s}}}}}}}}}}}}}}}}}}}} {s}}}}}}} ¿Por qué? K^{n}\\\c}=poperatorname {fn} {fn} {fn} {fn}} {fn} {fn} {fn} {fn} {fn}} {fn}}} {fn}}}}} {fnfn}}} {fnfn}}} {fnfnfnfn}}}}}}}}fn}}}}}}}}}}}}}}}}}}}}}}} {fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfn}}}}}}}}}}}}}}}}}}fnfnfnfnfnfnfnfnfnfnfnfnfnfn}}}}}$

Donde ${displaystyle operatorname {Li} _{-n}(1-p)}$ es la función polilogaritmo.

Propiedades generales

Funciones de generación de probabilidad de X y Y son, respectivamente,

${fnMicrosoftware {fnMicrosoft Sans Serif} {fnMicroc {,p}{1-s,(1-p)}},[10pt]G_{Y}(s) {p}{1-s,(1-p)}},quad las vidas pasadas (101-p)^{-1}.end{aligned}}$

Como su analógico continuo (la distribución exponencial), la distribución geométrica es sin memoria. Eso significa que si usted tiene la intención de repetir un experimento hasta el primer éxito, entonces, dado que el primer éxito aún no ha ocurrido, la distribución condicional de probabilidad del número de ensayos adicionales no depende de cuántos fracasos se han observado. El die uno tira o la moneda uno tosses no tiene una "memoria" de estos fracasos. La distribución geométrica es la única distribución discreta sin memoria.

${displaystyle Pr{X otorgam+n WordPressX confían}=Pr{X otorgam}}$

Entre todas las distribuciones discretas de probabilidad apoyadas en {1, 2, 3,... } con valor esperado dadoμ, la distribución geométrica X con parámetro p1/μ es el que tiene la entropía más grande.
La distribución geométrica del número Y de fracasos antes del primer éxito es infinitamente divisible, es decir, para cualquier entero positivo n, existen variables aleatorias distribuidas idénticamente Y₁,...,Y_n cuya suma tiene la misma distribución Y Sí. Estos no serán distribuidos geométricamente a menos que n= 1; siguen una distribución binomial negativa.
Los dígitos decimales de la variable aleatoria distribuida geométricamente Y son una secuencia de independiente (y no idénticamente distribuidas) variables aleatorias. Por ejemplo, los cientos de dígitos D tiene esta distribución de probabilidad:

${displaystyle Pr(D=d)={q^{100d} over 1+q^{100}+q^{200}+cdots +q^{900}}}$

Donde q= 1 −p, y similarmente para los otros dígitos, y, más generalmente, similarmente para los sistemas numerales con otras bases que 10. Cuando la base es 2, esto muestra que una variable aleatoria distribuida geométricamente puede ser escrita como una suma de variables aleatorias independientes cuyas distribuciones de probabilidad son indecompuestas.

La codificación Golomb es el código prefijo óptimo para la distribución discreta geométrica.
La suma de dos independientes Geop) Las variables distribuidas al azar no son una distribución geométrica.

Distribuciones relacionadas

La distribución geométrica Y es un caso especial de la distribución binomial negativa, con r1. Más generalmente, si Y₁,...,Y_r son variables independientes geométricamente distribuidas con parámetrop, entonces la suma

${displaystyle Z=sum ¿Qué?$

sigue una distribución binomial negativa con parámetros ryp.

La distribución geométrica es un caso especial de distribución de compuesto discreto Poisson.
Si Y₁,...,Y_r son variables geométricamente distribuidas independientes (con parámetros de éxito posiblemente diferentes p_m), entonces su mínimo

${displaystyle ¿Por qué?$

también se distribuye geométricamente, con parámetro ${displaystyle p=1-prod _{m}(1-p_{m}). }$

Supongamos 0r1 y 1 k= 1, 2, 3,... la variable aleatoria X_k tiene una distribución Poisson con valor esperado r^k/k. Entonces...

${displaystyle sum _{k=1}{infty }k,X_{k}$

tiene una distribución geométrica tomando valores en el conjunto {0, 1, 2,...}, con valor esperado r/(1 −r).

La distribución exponencial es el analógico continuo de la distribución geométrica. Si X es una variable aleatoria distribuida exponencialmente con parámetro λ, entonces

${displaystyle Y=lfloor Xrfloor}$

Donde ${displaystyle lfloor quad rfloor }$ es la función del suelo (o mayor entero), es una variable aleatoria geométricamente distribuida con parámetro p= 1 −e^−λ (thus λ−ln(1 −p)) y tomar valores en el set {0, 1, 2,...}. Esto se puede utilizar para generar números de pseudorandom geométricamente distribuidos generando primero números de pseudorandom distribuidos exponencialmente de un generador de número uniforme de pseudorandom: entonces ${displaystyle lfloor ln(U)/ln(1-p)rfloor }$ se distribuye geométricamente con parámetro ${displaystyle p}$ , si ${displaystyle U}$ se distribuye uniformemente en [0,1].

Si p 1/n y X se distribuye geométricamente con parámetro p, entonces la distribución de X/n acerca de una distribución exponencial con el valor esperado 1 como n→ ∞, desde

${fnMicrosoft Sans Serif} {fn} {fn} {fn} {fn} {n}}n} {fn} {n}}}n}n}n}n}nn}nn}nnn}n}nnnn} {n}n}n}n}n}n}nn}n}n}n}n}n}n}n}n}n}n}n}nn}n}n}nn}n}n}n}n}n}n}n}n}n}n}n}n}}nnnnnn}n}n}n}n}n}n}n}n}n}n}n}n}n}n$

Más generalmente, si p = λ/n, donde λ es un parámetro, entonces como n→ ∞ la distribución de X/n se aproxima a una distribución exponencial con tasa λ:

${displaystyle Pr(X confíanx)=lim _{nto infty }(1-lambda /n)^{nx}=e^{-lambda x}}$

por lo tanto la función de distribución X/n convergencias a ${displaystyle 1-e^{-lambda x}$ , que es el de una variable aleatoria exponencial.

Inferencia estadística

Estimación de parámetros

Para ambas variantes de la distribución geométrica, el parámetro p se puede estimar igualando el valor esperado con la media de la muestra. Este es el método de los momentos, que en este caso produce estimaciones de máxima verosimilitud de p.

Específicamente, para la primera variante, sea k = k₁,..., k_n Sea una muestra donde k_i ≥ 1 para i = 1,..., n. Entonces p se puede estimar como

${displaystyle {widehat {p}=left({frac {1}{n}sum} ¿Por qué? {n}{sum} ¿Qué?$

En la inferencia bayesiana, la distribución Beta es la distribución previa conjugada para el parámetro p. Si a este parámetro se le asigna una Beta(α, β) antes, entonces la distribución posterior es

${displaystyle psim mathrm {Beta} left(alpha +n,beta +sum _{i=1} {n}(k_{i}-1)right).$

La media posterior E[p] se acerca a la estimación de probabilidad máxima ${displaystyle {widehat {p}}$ como α y β enfoque cero.

En el caso alternativo, sea k₁,..., k_{n sea una muestra donde k_i ≥ 0 para i = 1,..., n. Entonces p se puede estimar como}

${displaystyle {widehat {p}=left(1+{frac {1}{n}sum} ¿Por qué? {n}{sum} ¡No!$

La distribución posterior de p dada una Beta(α, β) previa es

${displaystyle psim mathrm {Beta} left(alpha +n,beta +sum ¿Qué?$

De nuevo la media posterior E[p] se acerca a la estimación de probabilidad máxima ${displaystyle {widehat {p}}$ como α y β enfoque cero.

Para cada estimación ${displaystyle {widehat {p}}$ usando Maximum Likelihood, el sesgo es igual a

${fnMicrosoft Sans Serif}= {fnMicrosoft Sans Serif}= {fnMicros} {fn}}} {fn}}}}= {fnMicroc {cH00} {fn}}}}}}}}}}}}}}}}} {fnfn}}}}}} {$

que produce el estimador de máxima verosimilitud corregido por sesgo

${fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMicrosoft Sans Serif} {b}}}$

Métodos computacionales

Distribución geométrica usando R

La función R dgeom(k, prob) calcula la probabilidad de que haya k errores antes del primer éxito, donde el argumento "prob" es la probabilidad de éxito en cada ensayo.

Por ejemplo,

dgeom(0,0.6) = 0.6

dgeom(1,0.6) = 0,24

R usa la convención de que k es el número de fallas, por lo que el número de intentos hasta el primer éxito incluido es k + 1.

El siguiente código R crea un gráfico de la distribución geométrica de Y = 0 a 10, con p = 0,6.

Y=0:10parcela()Y, Dgeom()Y,0.6), Tipo="h", Ylim=c()0,1), principal="Distribución geométrica para p=0.6", ylab="Pr(Y=Y)", xlab="Y=Número de fracasos antes del primer éxito")

`Distribución geométrica usando Excel`

La distribución geométrica, para el número de fallas antes del primer éxito, es un caso especial de la distribución binomial negativa, para la cantidad de fallas antes de s éxitos.

La función de Excel NEGBINOMDIST(número_f, número_s, probabilidad_s) calcula la probabilidad de k = número_f de fallas antes de s = número_s de éxitos donde p = probabilidad_s es la probabilidad de éxito en cada ensayo. Para la distribución geométrica, sea número_s = 1 éxito.

Por ejemplo,

=NEGBINOMDIST(0, 1, 0.6) = 0,6

=NEGBINOMDIST(1, 1, 0.6) = 0,24

Al igual que R, Excel usa la convención de que k es el número de fallas, de modo que el número de intentos hasta el primer éxito inclusive es k + 1.

`Contenido relacionado`

Número de Carmichael Problema de suma de subconjuntos Factorización de enteros Más resultados... Te puede interesar