Regresión de Poisson
En estadística, la regresión de Poisson es una forma de modelo lineal generalizado de análisis de regresión que se utiliza para modelar datos de recuento y tablas de contingencia. La regresión de Poisson supone que la variable de respuesta Y tiene una distribución de Poisson y supone que el logaritmo de su valor esperado puede modelarse mediante una combinación lineal de parámetros desconocidos. Un modelo de regresión de Poisson a veces se conoce como modelo log-lineal, especialmente cuando se utiliza para modelar tablas de contingencia.
Laregresión binomial negativa es una generalización popular de la regresión de Poisson porque afloja el supuesto altamente restrictivo de que la varianza es igual a la media realizada por el modelo de Poisson. El modelo tradicional de regresión binomial negativa se basa en la distribución de mezcla de Poisson-gamma. Este modelo es popular porque modela la heterogeneidad de Poisson con una distribución gamma.
Los modelos de regresión de Poisson son modelos lineales generalizados con el logaritmo como función de enlace (canónica) y la función de distribución de Poisson como distribución de probabilidad supuesta de la respuesta.
Modelos de regresión
Si x▪ ▪ Rn{displaystyle mathbf {x} in mathbb {R} {fn} es un vector de variables independientes, luego el modelo toma la forma
- log ()E ()Y▪ ▪ x))=α α +β β .x,{displaystyle log(operatorname {E} (Ymid mathbf {x})=alpha +mathbf {beta } 'Mathbf {x}
Donde α α ▪ ▪ R{displaystyle alpha in mathbb {R} y β β ▪ ▪ Rn{displaystyle mathbf {beta } in mathbb {R} ^{n}. A veces esto se escribe más compactamente como
- log ()E ()Y▪ ▪ x))=Silencio Silencio .x,{displaystyle log(operatorname {E} (Ymid mathbf {x})={boldsymbol {theta }'mathbf {x},}
Donde x{displaystyle mathbf {x} es ahora unn + 1) vector dimensional que consiste en n variables independientes concatenadas al número uno. Aquí. Silencio Silencio {displaystyle theta } es simplemente α α {displaystyle alpha } concatenado a β β {displaystyle beta }.
Así, cuando se le da un modelo de regresión Poisson Silencio Silencio {displaystyle theta } y un vector de entrada x{displaystyle mathbf {x}, la media predicha de la distribución Poisson asociada es dada por
- E ()Y▪ ▪ x)=eSilencio Silencio .x.{displaystyle operatorname {E} (Ymid mathbf {x})=e^{{boldsymbol {theta}'Mathbf {x} }.
Si Yi{displaystyle Y... son observaciones independientes con valores correspondientes xi{displaystyle mathbf {x} _{i} de las variables predictoras, entonces Silencio Silencio {displaystyle theta } se puede estimar por máxima probabilidad. Las estimaciones de probabilidad máxima carecen de una expresión de forma cerrada y deben ser encontradas por métodos numéricos. La superficie de probabilidad para la regresión Poisson de máxima probabilidad siempre es concave, haciendo Newton-Raphson u otros métodos basados en gradientes técnicas de estimación apropiadas.
Interpretación de coeficientes
Supongamos que tenemos un modelo con un único predictor, es decir, n=1{displaystyle n=1}:
- log ()E ()Y▪ ▪ x))=α α +β β x{displaystyle log(operatorname {E} (Ymid mathbf {x})=alpha +beta x}
Supongamos que computamos los valores predichos en punto ()Y2,x2){displaystyle (Y_{2},x_{2})} y ()Y1,x1){displaystyle (Y_{1},x_{1})}:
- log ()E ()Y2▪ ▪ x2))=α α +β β x2{displaystyle log(operatorname {E} (Y_{2}mid x_{2})=alpha +beta x_{2}
- log ()E ()Y1▪ ▪ x1))=α α +β β x1{displaystyle log(operatorname {E} (Y_{1}mid x_{1})=alpha +beta x_{1}}
Restando el primero del segundo:
- log ()E ()Y2▪ ▪ x2))− − log ()E ()Y1▪ ▪ x1))=β β ()x2− − x1){displaystyle log(operatorname {E} (Y_{2}mid x_{2})-log(operatorname {E} (Y_{1}mid x_{1})=beta (x_{2}-x_{1})}
Supongamos ahora que x2=x1+1{displaystyle x_{2}=x_{1}+1}. Obtenemos:
- log ()E ()Y2▪ ▪ x2))− − log ()E ()Y1▪ ▪ x1))=β β {displaystyle log(operatorname {E} (Y_{2}mid x_{2})-log(operatorname (Y_{1}mid x_{1})=beta }
Por lo tanto, el coeficiente del modelo debe interpretarse como el aumento en el logaritmo del recuento de la variable de resultado cuando la variable independiente aumenta en 1.
Aplicando las reglas de los logaritmos:
- log ()E ()Y2▪ ▪ x2)E ()Y1▪ ▪ x1))=β β {displaystyle log left({dfrac { {E} {fn} {fnK}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {E} (Y_{1}mid x_{1}}}right)=beta }
- E ()Y2▪ ▪ x2)E ()Y1▪ ▪ x1)=eβ β {displaystyle {dfrac {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\\\fnMicrosoft {\fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\\\\\\\\\\\\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\\\\fnMicrosoft {fnMicrosoft {E} {fn} {fnK}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {E} (Y_{1}mid x_{1}}}=e^{beta }
- E ()Y2▪ ▪ x2)=eβ β E ()Y1▪ ▪ x1){displaystyle operatorname (Y_{2}mid x_{2})=e^{beta ### Operatorname {E} (Y_{1}mid x_{1})}
Es decir, cuando la variable independiente aumenta en 1, la variable de resultado se multiplica por el coeficiente exponenciado.
El coeficiente exponencial también se llama índice de incidencia.
Estimación máxima del parámetro basado en la probabilidad
Dado un conjunto de parámetros θ y un vector de entrada x, la media de la distribución de Poisson predicha, como se indicó anteriormente, viene dada por
- λ λ :=E ()Y▪ ▪ x)=eSilencio Silencio .x,{displaystyle lambda:=operatorname {E} (Ymid x)=e^{theta 'x},,}
y por lo tanto, la función de masa de probabilidad de la distribución de Poisson está dada por
- p()Sí.▪ ▪ x;Silencio Silencio )=λ λ Sí.Sí.!e− − λ λ =eSí.Silencio Silencio .xe− − eSilencio Silencio .xSí.!{displaystyle p(ymid x;theta)={frac {lambda ¡Oh, Dios mío! }={frac {e^{ytheta 'x'e^{-e^{theta ¡Sí!
Ahora supongamos que se nos da un conjunto de datos consistente en m vectores xi▪ ▪ Rn+1,i=1,... ... ,m{displaystyle x_{i}in mathbb {R} {n+1},i=1,ldotsm}, junto con un conjunto de m valores Sí.1,... ... ,Sí.m▪ ▪ N{displaystyle y_{1},ldotsy_{m}in mathbb {N}. Entonces, para un determinado conjunto de parámetros Silencio, la probabilidad de alcanzar este conjunto particular de datos se da por
- p()Sí.1,... ... ,Sí.m▪ ▪ x1,... ... ,xm;Silencio Silencio )=∏ ∏ i=1meSí.iSilencio Silencio .xie− − eSilencio Silencio .xiSí.i!.{displaystyle p(y_{1},ldotsy_{m}mid x_{1},ldotsx_{m};theta)=prod ¿Qué? {fnMicrosoft Sans Serif} 'x_{i}e^{-e^{theta .
Mediante el método de máxima verosimilitud, deseamos encontrar el conjunto de parámetros θ que hace que esta probabilidad sea lo más grande posible. Para hacer esto, primero se reescribe la ecuación como una función de verosimilitud en términos de θ:
- L()Silencio Silencio ▪ ▪ X,Y)=∏ ∏ i=1meSí.iSilencio Silencio .xie− − eSilencio Silencio .xiSí.i!.{displaystyle L(theta mid X,Y)=prod ¿Qué? {fnMicrosoft Sans Serif} 'x_{i}e^{-e^{theta .
Tenga en cuenta que la expresión en el lado derecho no ha cambiado en realidad. Una fórmula en esta forma es típicamente difícil de trabajar con; en cambio, se utiliza la probabilidad de registro:
- l l ()Silencio Silencio ▪ ▪ X,Y)=log L()Silencio Silencio ▪ ▪ X,Y)=. . i=1m()Sí.iSilencio Silencio .xi− − eSilencio Silencio .xi− − log ()Sí.i!)).{displaystyle ell (theta mid X,Y)=log L(theta mid X,Y)=sum ¿Qué? 'x_{i}-e^{theta 'x_{i}-log(y_{i})right).}
Observe que los parámetros θ solo aparecen en los dos primeros términos de cada término en la suma. Por lo tanto, dado que solo estamos interesados en encontrar el mejor valor para θ, ¡podemos descartar el yi! y simplemente escribe
- l l ()Silencio Silencio ▪ ▪ X,Y)=. . i=1m()Sí.iSilencio Silencio .xi− − eSilencio Silencio .xi).{displaystyle ell (theta mid X,Y)=sum ¿Por qué? }
Para encontrar un máximo, necesitamos resolver una ecuación ∂ ∂ l l ()Silencio Silencio ▪ ▪ X,Y)∂ ∂ Silencio Silencio =0{displaystyle {frac {partial ell (theta mid X,Y)}{partial theta }=0} que no tiene solución de forma cerrada. Sin embargo, la probabilidad de registro negativa, − − l l ()Silencio Silencio ▪ ▪ X,Y){displaystyle -ell (theta mid X,Y)}, es una función convexa, y por lo tanto las técnicas de optimización convexa estándar como el descenso gradiente se pueden aplicar para encontrar el valor óptimo Silencio.
La regresión de Poisson en la práctica
La regresión de Poisson puede ser apropiada cuando la variable dependiente es un recuento, por ejemplo de eventos como la llegada de una llamada telefónica a un centro de llamadas. Los eventos deben ser independientes en el sentido de que la llegada de una llamada no hará que otra sea más o menos probable, pero la probabilidad por unidad de tiempo de los eventos se entiende relacionada con covariables como la hora del día.
"Exposición" y compensar
La regresión de Poisson también puede ser apropiada para datos de tasa, donde la tasa es un recuento de eventos dividido por alguna medida de la exposición de esa unidad (una unidad de observación particular). Por ejemplo, los biólogos pueden contar el número de especies de árboles en un bosque: los eventos serían observaciones de árboles, la exposición sería la unidad de área y la tasa sería el número de especies por unidad de área. Los demógrafos pueden modelar las tasas de mortalidad en áreas geográficas como el recuento de muertes dividido por años-persona. De manera más general, las tasas de eventos se pueden calcular como eventos por unidad de tiempo, lo que permite que la ventana de observación varíe para cada unidad. En estos ejemplos, la exposición es, respectivamente, unidad de área, persona-año y unidad de tiempo. En la regresión de Poisson esto se maneja como una compensación. Si la tasa es recuento/exposición, multiplicar ambos lados de la ecuación por la exposición la mueve al lado derecho de la ecuación. Cuando se registran ambos lados de la ecuación, el modelo final contiene log(exposición) como término que se suma a los coeficientes de regresión. Esta variable registrada, log(exposición), se denomina variable de compensación y se ubica en el lado derecho de la ecuación con una estimación de parámetro (para log(exposición)) restringida a 1.
- log ()E ()Y▪ ▪ x))=Silencio Silencio .x{displaystyle log(operatorname {E} (Ymid x)=theta 'x}
lo que implica
- log ()E ()Y▪ ▪ x)exposición)=log ()E ()Y▪ ▪ x))− − log ()exposición)=Silencio Silencio .x− − log ()exposición){displaystyle log left({frac {operatorname {E} (Ymid x)}{text{exposure}}}right)=log(operatorname {E} (Ymid x))-log({text{exposure}})=theta 'x-log({text{exposure}})}}
La compensación en el caso de un GLM en R se puede lograr usando la función offset()
:
glam()Sí. ~ offset()log()exposición) + x, familia=poisson()enlace=log) )
Excresión y cero inflación
Una característica de la distribución de Poisson es que su media es igual a su varianza. En determinadas circunstancias, se encontrará que la varianza observada es mayor que la media; esto se conoce como sobredispersión e indica que el modelo no es apropiado. Una razón común es la omisión de variables explicativas relevantes u observaciones dependientes. En algunas circunstancias, el problema de la sobredispersión puede resolverse utilizando en su lugar una estimación de cuasi verosimilitud o una distribución binomial negativa.
Ver Hoef y Boveng describieron la diferencia entre cuasi-Poisson (también llamado sobredispersión con cuasi-verosimilitud) y binomio negativo (equivalente a gamma-Poisson) de la siguiente manera: Si E(Y ) = μ, el modelo cuasi-Poisson supone var(Y) = θμ mientras que el modelo gamma-Poisson supone var(Y) = μ(1 + κμ), donde θ es el parámetro de sobredispersión cuasi-Poisson, y κ es el parámetro de forma de la distribución binomial negativa. Para ambos modelos, los parámetros se estiman utilizando mínimos cuadrados reponderados iterativamente. Para cuasi-Poisson, los pesos son μ/θ. Para binomios negativos, los pesos son μ/(1 + κμ). Con un μ grande y una variación extra-Poisson sustancial, los pesos binomiales negativos tienen un límite de 1/κ. Ver Hoef y Boveng analizaron un ejemplo en el que seleccionaron entre los dos trazando los residuos cuadráticos medios frente a la media.
Otro problema común con la regresión de Poisson es el exceso de ceros: si hay dos procesos en funcionamiento, uno que determina si hay cero eventos o cualquier evento, y un proceso de Poisson que determina cuántos eventos hay, habrá más ceros que uno. La regresión de Poisson lo predeciría. Un ejemplo sería la distribución de cigarrillos fumados en una hora por miembros de un grupo donde algunos individuos no son fumadores.
Otros modelos lineales generalizados, como el modelo binomial negativo o el modelo inflado a cero, pueden funcionar mejor en estos casos.
Por el contrario, la subdispersión puede plantear un problema para la estimación de parámetros.
Uso en análisis de supervivencia
La regresión de Poisson crea modelos de riesgos proporcionales, una clase de análisis de supervivencia: consulte los modelos de riesgos proporcionales para obtener descripciones de los modelos de Cox.
Extensiones
Regresión de Poisson regularizada
Al estimar los parámetros para la regresión de Poisson, normalmente se intenta encontrar valores para θ que maximicen la probabilidad de una expresión de la forma
- . . i=1mlog ()p()Sí.i;eSilencio Silencio .xi)),{displaystyle sum _{i=1}{m}log(p(y_{i};e^{theta 'x_{i})}}
Donde m es el número de ejemplos en el conjunto de datos y p()Sí.i;eSilencio Silencio .xi){displaystyle p(y_{i};e^{theta 'x_{i}}} es la función de masa de probabilidad de la distribución Poisson con el conjunto medio eSilencio Silencio .xi{displaystyle e^{theta 'x'{i}. La regularización se puede agregar a este problema de optimización al maximizar
- . . i=1mlog ()p()Sí.i;eSilencio Silencio .xi))− − λ λ .Silencio Silencio .22,{displaystyle sum _{i=1}{m}log(p(y_{i};e^{theta 'x_{i}))-lambda leftpretensióntheta rightprencipiente_{2}^{2}}}
para alguna constante positiva λ λ {displaystyle lambda }. Esta técnica, similar a la regresión de la cresta, puede reducir el exceso de ajuste.
Contenido relacionado
Ciencias formales
Estadística matemática
Teoría estadística
Distribución logarítmica normal
Historia de la medición