Modelo aditivo generalizado

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En estadística, un modelo aditivo generalizado (GAM) es un modelo lineal generalizado en el que la variable de respuesta lineal depende linealmente de funciones suaves desconocidas de algunas variables predictoras, y el interés se centra en la inferencia sobre estas funciones suaves. funciones.

Los GAM fueron desarrollados originalmente por Trevor Hastie y Robert Tibshirani para combinar propiedades de modelos lineales generalizados con modelos aditivos. Pueden interpretarse como la generalización discriminativa del ingenuo modelo generativo de Bayes.

El modelo relaciona una variable de respuesta univariada, Y, con algunas variables predictoras, xi. Se especifica una distribución familiar exponencial para Y (por ejemplo, distribuciones normal, binomial o de Poisson) junto con una función de enlace g (por ejemplo, las funciones de identidad o logarítmicas) que relaciona el valor esperado de Y a las variables predictoras a través de una estructura como

Las funciones fi pueden ser funciones con una forma paramétrica específica (por ejemplo, un polinomio o un spline de regresión no penalizado de una variable) o pueden especificarse de forma no paramétrica o semiparamétrica, simplemente como "funciones suaves", para ser estimadas por medios no paramétricos. Por lo tanto, un GAM típico podría utilizar una función de suavizado de diagrama de dispersión, como una media ponderada localmente, para f1(x1), y luego use un modelo factorial para f2(x2). Esta flexibilidad para permitir ajustes no paramétricos con suposiciones relajadas sobre la relación real entre la respuesta y el predictor ofrece la posibilidad de lograr mejores ajustes a los datos que los modelos puramente paramétricos, pero posiblemente con cierta pérdida de interpretabilidad.

Antecedentes teóricos

Desde la década de 1950 se sabía (a través del teorema de representación de Kolmogorov-Arnold) que cualquier función continua multivariada podía representarse como sumas y composiciones de funciones univariadas,

.

Desafortunadamente, aunque el teorema de representación de Kolmogorov-Arnold afirma la existencia de una función de esta forma, no proporciona ningún mecanismo mediante el cual se pueda construir una. Existen ciertas pruebas constructivas, pero tienden a requerir funciones muy complicadas (es decir, fractales) y, por tanto, no son adecuadas para enfoques de modelado. Por lo tanto, el modelo aditivo generalizado descarta la suma externa y exige, en cambio, que la función pertenezca a una clase más simple,

.

Donde es una función monotónica suave. Escritura para el inverso de , esto es tradicionalmente escrito como

.

Cuando esta función se aproxima a la expectativa de alguna cantidad observada, podría escribirse como

Que es la formulación estándar de un modelo aditivo generalizado. Luego se demostró que el algoritmo de retroadaptación siempre convergerá para estas funciones.

Generalidad

La clase modelo GAM es bastante amplia, dado que función lisa es una categoría bastante amplia. Por ejemplo, un covariado puede ser multivariable y el correspondiente una función lisa de varias variables, o podría ser la función mapeando el nivel de un factor al valor de un efecto aleatorio. Otro ejemplo es un término de coeficiente variable (regreso geográfico) como Donde y ambos son covariados. O si es en sí mismo una observación de una función, podríamos incluir un término como (a veces conocido como un término de regresión de señal). también podría ser una simple función paramétrica como se podría utilizar en cualquier modelo lineal generalizado. La clase modelo se ha generalizado en varias direcciones, sobre todo más allá de las distribuciones exponenciales de respuesta familiar, más allá del modelado de sólo los datos medios y más allá del univariado.

Métodos de ajuste GAM

El método original de fijación GAM estimó los componentes lisos del modelo usando lisas no paramétricas (por ejemplo, líneas de suavizado o batidos de regresión lineal local) a través del algoritmo de ajuste. Trabajos de backfitting por suavizado iterativo de residuos parciales y proporciona un método de estimación modular muy general capaz de utilizar una amplia variedad de métodos de suavizado para estimar el términos. Una desventaja del backfitting es que es difícil de integrar con la estimación del grado de suavidad de los términos del modelo, de modo que en la práctica el usuario debe establecer estos, o seleccionar entre un modesto conjunto de niveles de suavizado predefinidos.

Si están representados usando líneas de lijado, entonces el grado de suavidad se puede estimar como parte de la fijación mediante validación transversal generalizada, o por probabilidad máxima restringida (REML, a veces conocido como 'GML') que explota la dualidad entre lisas de esporas y efectos aleatorios gausianos. Este enfoque de la línea completa conlleva un costo computacional, donde es el número de observaciones para la variable de respuesta, lo que lo hace algo poco práctico para conjuntos de datos moderadamente grandes. Los métodos más recientes han abordado este costo computacional ya sea por la reducción frontal del tamaño de la base utilizada para suavizar (reducción de la barra) o por encontrar escasas representaciones de los lisos utilizando campos aleatorios de Markov, que son susceptibles al uso de métodos de matriz escasos para la computación. Estos métodos más eficientes computacionalmente utilizan GCV (o AIC o similar) o REML o adoptan un enfoque totalmente Bayesian para la inferencia sobre el grado de suavidad de los componentes modelo. Estimar el grado de suavidad mediante REML se puede ver como un método empírico Bayes.

Un enfoque alternativo con ventajas particulares en entornos de alta dimensión es utilizar el refuerzo, aunque esto normalmente requiere un arranque para la cuantificación de la incertidumbre. Se ha descubierto que los GAM que se ajustan mediante ensacado y refuerzo generalmente superan a los GAM que se ajustan mediante métodos spline.

El marco de rango reducido

Muchas implementaciones modernas de GAM y sus extensiones se basan en el enfoque de suavizado de rango reducido, porque permite una estimación bien fundamentada de la suavidad de los componentes a un costo computacional comparativamente modesto y también facilita la implementación de una serie de extensiones de modelo en una manera que es más difícil con otros métodos. En su forma más simple, la idea es reemplazar las funciones suaves desconocidas en el modelo con expansiones de bases.

Donde son funciones de base conocidas, generalmente elegidas para buenas propiedades teoréticas de aproximación (por ejemplo, líneas B o líneas reducidas de la placa delgada), y la son coeficientes que se estiman como parte del ajuste modelo. La dimensión de base es elegido para ser lo suficientemente grande que esperamos que supere los datos a mano (por lo tanto, evitando sesgo de la simplificación modelo), pero lo suficientemente pequeño para retener la eficiencia computacional. Si entonces el costo computacional de la estimación del modelo de esta manera será .

Note que son sólo identificables dentro de un término de interceptación (podríamos agregar cualquier constante a mientras lo resta de sin cambiar las predicciones modelo en absoluto), por lo que las restricciones de identificación tienen que ser impuestas a los términos suaves para eliminar esta ambigüedad. Inferencia más fuerte sobre la se obtiene generalmente utilizando las restricciones suma a cero

es decir, insistiendo en que la suma de cada evaluado en sus valores covariados observados debe ser cero. Tales limitaciones lineales pueden imponerse más fácilmente por la reparametrización en la etapa de configuración de la base, por lo que se supone que esto se ha hecho.

Habiendo reemplazado a todos en el modelo con tales expansiones de base hemos convertido el GAM en un modelo lineal generalizado (GLM), con una matriz modelo que simplemente contiene las funciones de base evaluadas en el valores. Sin embargo, debido a las dimensiones de base, , han sido elegidos para ser un poco más grande de lo que se cree necesario para los datos, el modelo está sobre-parametrizado y se duplicará los datos si se estima como un GLM regular. La solución a este problema es penalizar la salida de la suavidad en el proceso de ajuste modelo, controlando el peso dado a las penas de suavidad utilizando parámetros de suavizado. Por ejemplo, considere la situación en la que todos los lisos son funciones univariadas. Escribir todos los parámetros en un vector, Supongamos que es la desviación (mucho la diferencia entre la probabilidad de registro saturada y la probabilidad de registro modelo) para el modelo. Minimizar el desvío por los mínimos cuadrados usualmente re ponderados resultaría en exceso, por lo que buscamos para minimizar

donde las sanciones derivadas cuadradas integradas sirven para penalizar la vajilla (falta de suavidad) durante el ajuste, y los parámetros de suavizado controla el intercambio entre la bondad modelo de ajuste y la suavidad modelo. En el ejemplo se aseguraría de que la estimación sería una línea recta en .

Dada la ampliación de la base para cada las sanciones de la wiggliness se pueden expresar como formas cuadráticas en los coeficientes modelo. Es que podemos escribir

,

Donde es una matriz de coeficientes conocidos computables de la pena y la base, es el vector de los coeficientes para , y es sólo acolchado con ceros para que la segunda igualdad se mantenga y podemos escribir la pena en términos del vector de coeficiente completo . Muchas otras penas de suavidad se pueden escribir de la misma manera, y dado los parámetros de suavizado el problema de ajuste modelo ahora se convierte en

,

que se puede encontrar usando una versión penalizada del habitual algoritmo de mínimos cuadrados reponderados iterativamente (IRLS) para GLM: el algoritmo no cambia excepto que la suma de las penalizaciones cuadráticas se suma al objetivo de mínimos cuadrados de trabajo en cada iteración del algoritmo. .

La penalización tiene varios efectos sobre la inferencia, en relación con un GLM regular. Por una cosa, las estimaciones están sujetas a algún sesgo que suaviza, que es el precio que debe pagarse por limitar la varianza del estimador por penalización. Sin embargo, si se seleccionan los parámetros de suavidad apropiadamente, el sesgo de suavizado (cuadrado) introducido por la penalización debe ser inferior a la reducción de la varianza que produce, de modo que el efecto neto sea una reducción del error de estimación cuadrado promedio, en relación con la no penalización. Un efecto relacionado de penalización es que la noción de grados de libertad de un modelo tiene que ser modificada para dar cuenta de la acción de las sanciones en la reducción de la libertad de los coeficientes para variar. Por ejemplo, si es la matriz diagonal de pesos IRLS en convergencia, y es la matriz modelo GAM, entonces el modelo de grados efectivos de libertad es dado por Donde

,

es los grados efectivos de la matriz de la libertad. De hecho, resumiendo sólo los elementos diagonales correspondiente a los coeficientes de da los grados efectivos de libertad para la estimación .

Antes de suavizado bayesiano

El sesgo de suavizado complica la estimación de intervalos para estos modelos, y el enfoque más simple implica un enfoque bayesiano. Comprender esta visión bayesiana del suavizado también ayuda a comprender los enfoques REML y Bayes completos para suavizar la estimación de parámetros. En algún nivel, se imponen penalizaciones por suavizamiento porque creemos que las funciones suaves son más probables que las que se mueven, y si eso es cierto, entonces también podríamos formalizar esta noción dando prioridad a la oscilación del modelo. Un previo muy simple podría ser

(donde) es el parámetro de escala GLM introducido sólo para conveniencia posterior), pero podemos reconocer inmediatamente esto como un normal multivariable antes con media matriz de precisión . Puesto que la pena permite algunas funciones a través de líneas no penalizadas (líneas rectas, dadas las sanciones de ejemplo), es deficiente de rango, y el anterior es realmente impropio, con una matriz de covariancia dada por el seudoinverso de Moore-Penrose (la impropiedad corresponde a describir la varianza infinita a los componentes nopenalizados de un liso).

Ahora si este anterior se combina con la probabilidad GLM, encontramos que el modo posterior para es exactamente el encontrado arriba por penalizado IRLS. Además, tenemos el gran resultado de la muestra que

que se puede utilizar para producir intervalos de confianza/credibles para los componentes lisos, . Los antecedentes de suavidad gausiana son también la base para la inferencia totalmente bayesiana con GAMs, así como métodos para estimar GAMs como modelos mixtos que son esencialmente métodos empíricos de Bayes.

Estimación del parámetro de suavizado

Hasta ahora hemos tratado la estimación y la inferencia dadas los parámetros de suavizado, , pero estos también deben ser estimados. Un enfoque es tomar un enfoque totalmente bayesiano, definiendo los parámetros de suavizado (log) y utilizando simulación estocástica o métodos de aproximación de alto orden para obtener información sobre el posterior de los coeficientes modelo. Una alternativa es seleccionar los parámetros de suavizado para optimizar un criterio de error de predicción como la validación cruzada generalizada (GCV) o el Akaike information criterion (AIC). Finalmente podemos elegir maximizar la probabilidad marginal (REML) obtenida mediante la integración de los coeficientes modelo, fuera de la densidad de articulación ,

.

Desde es sólo la probabilidad de , podemos ver esto como elegir para maximizar la probabilidad promedio de sorteos aleatorios del anterior. La integral anterior suele ser analíticamente intráctil pero puede ser aproximada a una precisión bastante alta usando el método de Laplace.

La inferencia del parámetro Smoothing es la parte más fiscal de la estimación/inferencia modelo. Por ejemplo, para optimizar un GCV o probabilidad marginal normalmente requiere una optimización numérica a través de un método Newton o Quasi-Newton, con cada valor de prueba para el vector de parametrómetro (log) que requiere una iteración IRLS penalizada para evaluar el correspondiente junto con los otros ingredientes de la puntuación GCV o Laplace aproximada probabilidad marginal (LAML). Además, para obtener los derivados del GCV o LAML, requerido para la optimización, implica la diferenciación implícita para obtener los derivados de w.r.t. los parámetros de suavizado del registro, y esto requiere cierto cuidado es la eficiencia y la estabilidad numérica deben mantenerse.

Software

Los GAM Backfit fueron proporcionados originalmente por la función gam en S, ahora portado al lenguaje R como el paquete gam. El proceso SAS GAM también proporciona GAM retrofit. El paquete recomendado en R para GAM es mgcv, que significa vehículo computacional GAM mixto, que se basa en el enfoque de rango reducido con selección automática de parámetros de suavizado. El proceso SAS GAMPL es una implementación alternativa. En Python, existe el paquete InterpretML, que implementa un enfoque de embolsado e impulso. Hay muchos paquetes alternativos. Los ejemplos incluyen los paquetes R mboost, que implementa un enfoque de impulso; gss, que proporciona los métodos completos de suavizado de splines; VGAM que proporciona GAM vectoriales; y gamlss, que proporciona un modelo aditivo generalizado para ubicación, escala y forma. BayesX y su interfaz R proporciona GAM y extensiones a través de MCMC y métodos de probabilidad penalizados. El software INLA implementa un enfoque completamente bayesiano basado en representaciones de campos aleatorios de Markov que explotan métodos de matrices dispersas.

Como ejemplo de cómo se pueden estimar modelos en la práctica con software, considere el paquete R mgcv. Supongamos que nuestro espacio de trabajo R contiene los vectores y, x y z y queremos estimar el modelo.

Dentro de R podríamos emitir los comandos

biblioteca(mgcv) # cargar el paquete
b = gam(y ~ s(x) + s(z))

Al igual que la mayoría de las funciones de modelado de R, gam espera que se proporcione una fórmula del modelo, especificando la estructura del modelo que debe ajustarse. La variable de respuesta se proporciona a la izquierda de ~ mientras que la especificación del predictor lineal se proporciona a la derecha. gam establece bases y penalizaciones para los términos suavizados, estima el modelo incluyendo sus parámetros de suavizado y, en la forma estándar de R, devuelve un objeto de modelo ajustado, que luego puede ser interrogado. utilizando varias funciones auxiliares, como summary, plot, predict y AIC.

Este sencillo ejemplo ha utilizado varias configuraciones predeterminadas que es importante tener en cuenta. Por ejemplo, se asumió una distribución gaussiana y un vínculo de identidad, y el criterio de selección del parámetro de suavizado fue GCV. Además, los términos suaves se representaron utilizando "splines de regresión de placa delgada penalizados", y la dimensión base para cada uno se estableció en 10 (lo que implica un máximo de 9 grados de libertad después de imponer restricciones de identificabilidad). Un segundo ejemplo ilustra cómo podemos controlar estas cosas. Supongamos que queremos estimar el modelo.

usando la selección de parámetros de suavizado REML, y esperamos para ser una función relativamente complicada que nos gustaría modelar con una línea de regresión cúbica penalizada. Para también tenemos que decidir si y son naturalmente en la misma escala para que un liso isotrópico como la espalina de placa delgada sea apropiado (se especifica a través de `s(v,w)'), o si realmente están en diferentes escalas para que necesitemos multas separadas y parámetros de suavizado para y como proporcionado por un producto tensor más suave. Supongamos que optamos por este último en este caso, entonces el siguiente código R estimaría el modelo

b1 = gam(y ~ x + s(t,bs="cr",k=100) + te(v,w),family=poisson,method="REML")

que utiliza un tamaño base de 100 para el liso de . La especificación de la función de distribución y enlace utiliza los objetos 'familia' que son estándar cuando se ajustan GLMs en R o S. Tenga en cuenta que los efectos aleatorios de Gauss también se pueden añadir al predictor lineal.

Estos ejemplos solo pretenden brindar una idea muy básica de la forma en que se utiliza el software GAM; para obtener más detalles, consulte la documentación del software para los distintos paquetes y las referencias a continuación.

Comprobación del modelo

Como ocurre con cualquier modelo estadístico, es importante comprobar los supuestos del modelo de un GAM. Las parcelas residuales deben examinarse de la misma manera que para cualquier GLM. Es decir, los residuos de desviación (u otros residuos estandarizados) deben examinarse en busca de patrones que puedan sugerir una violación sustancial de los supuestos de independencia o media-varianza del modelo. Esto generalmente implicará trazar los residuos estandarizados contra valores ajustados y covariables para buscar problemas de media-varianza o patrones faltantes, y también puede implicar examinar correlogramas (ACF) y/o variogramas de los residuos para verificar si hay violaciones de independencia. Si la relación media-varianza del modelo es correcta, entonces los residuos escalados deberían tener una varianza aproximadamente constante. Tenga en cuenta que, dado que los GLM y GAM pueden estimarse utilizando la cuasiverosimilitud, se deduce que los detalles de la distribución de los residuos más allá de la relación media-varianza son de importancia relativamente menor.

Un problema que es más común con los GAM que con otros GLM es el peligro de concluir erróneamente que los datos están inflados en cero. La dificultad surge cuando los datos contienen muchos ceros que pueden modelarse mediante un Poisson o un binomio con un valor esperado muy bajo: la flexibilidad de la estructura GAM a menudo permitirá la representación de una media muy baja en alguna región del espacio covariable, pero la distribución de Los residuos estandarizados no se parecerán en nada a la normalidad aproximada que las clases introductorias de GLM nos enseñan a esperar, incluso si el modelo es perfectamente correcto.

El único cheque adicional que los GAM introducen es la necesidad de comprobar que los grados de libertad elegidos son apropiados. Esto es particularmente agudo cuando se utilizan métodos que no calculan automáticamente la suavidad de los componentes del modelo. Al utilizar métodos con la selección automática del parámetro de suavizado, es necesario comprobar que la elección de la dimensión de base no era restrictivamente pequeña, aunque si los grados efectivos de la libertad de una estimación del término están cómodamente por debajo de su dimensión de base entonces esto es poco probable. En cualquier caso, comprobando está basado en el patrón de examen en los residuos con respecto a . Esto se puede hacer utilizando residuos parciales superpuestos en la parcela de , o usando la permutación de los residuos para construir pruebas para el patrón residual.

Selección de modelo

Cuando los parámetros de suavizado se estiman como parte del ajuste del modelo, mucho de lo que tradicionalmente contaría como selección de modelo ha sido absorbido en el proceso de ajuste: la estimación de los parámetros de suavizado ya ha seleccionado entre una rica familia de modelos de diferente complejidad funcional. Sin embargo, la estimación de parámetros de suavizado no suele eliminar por completo un término suavizado del modelo, porque la mayoría de las penalizaciones dejan algunas funciones sin penalizar (por ejemplo, las líneas rectas no están penalizadas por la penalización de la derivada spline dada anteriormente). Por lo tanto, persiste la cuestión de si un término debería estar en el modelo. Un enfoque simple para este problema es agregar una penalización adicional a cada término suave en el GAM, lo que penaliza los componentes del suave que de otro modo no estarían penalizados (y solo esos). Cada penalización adicional tiene su propio parámetro de suavizado y la estimación continúa como antes, pero ahora con la posibilidad de que los términos sean penalizados completamente a cero. En entornos de alta dimensión, entonces puede tener más sentido intentar esta tarea utilizando el lazo o la regularización de red elástica. Boosting también realiza la selección de términos automáticamente como parte del ajuste.

Una alternativa es utilizar métodos tradicionales de regresión por pasos para la selección del modelo. Este también es el método predeterminado cuando los parámetros de suavizado no se estiman como parte del ajuste, en cuyo caso generalmente se permite que cada término de suavizado tome uno de un pequeño conjunto de niveles de suavizado predefinidos dentro del modelo, y estos se seleccionan en un manera gradual. Los métodos paso a paso operan comparando iterativamente modelos con o sin términos de modelo particulares (o posiblemente con diferentes niveles de complejidad de términos) y requieren medidas de ajuste del modelo o importancia de los términos para decidir qué modelo seleccionar en cada etapa. Por ejemplo, podríamos usar valores p para probar la igualdad de cada término a cero para decidir qué términos candidatos se eliminarán de un modelo, y podríamos comparar los valores del criterio de información de Akaike (AIC) para modelos alternativos.

El cálculo del valor P para suavizados no es sencillo debido a los efectos de la penalización, pero hay aproximaciones disponibles. El AIC se puede calcular de dos maneras para los GAM. El AIC marginal se basa en la probabilidad marginal (ver arriba) con los coeficientes del modelo integrados. En este caso, la penalización de AIC se basa en la cantidad de parámetros de suavizado (y cualquier parámetro de varianza) en el modelo. Sin embargo, debido al hecho bien conocido de que REML no es comparable entre modelos con diferentes estructuras de efectos fijos, normalmente no podemos usar un AIC de este tipo para comparar modelos con diferentes términos suaves (ya que sus componentes no penalizados actúan como efectos fijos). Es posible basar la AIC en la probabilidad marginal en la que sólo se integran los efectos penalizados (el número de coeficientes no penalizados ahora se suma al recuento de parámetros para la penalización de la AIC), pero esta versión de la probabilidad marginal adolece de la tendencia a oversmooth que proporcionó la motivación original para desarrollar REML. Dados estos problemas, los GAM a menudo se comparan utilizando el AIC condicional, en el que se utiliza la probabilidad del modelo (no la probabilidad marginal) en el AIC, y el recuento de parámetros se toma como los grados de libertad efectivos del modelo.

Se ha demostrado que es muy probable que las versiones ingenuas del AIC condicional seleccionen modelos más grandes en algunas circunstancias, una dificultad atribuible a la omisión de suavizar la incertidumbre de los parámetros al calcular los grados de libertad efectivos, sin embargo, se corrigen los grados de libertad efectivos para este problema restablece un rendimiento razonable.

Advertencias

El sobreajuste puede ser un problema con los GAM, especialmente si existe una autocorrelación residual no modelada o una sobredispersión no modelada. La validación cruzada se puede utilizar para detectar y/o reducir problemas de sobreajuste con GAM (u otros métodos estadísticos), y el software a menudo permite aumentar el nivel de penalización para forzar ajustes más suaves. Estimar un número muy grande de parámetros de suavizado también es probable que sea un desafío estadístico, y existen tendencias conocidas en los criterios de error de predicción (GCV, AIC, etc.) a ocasionalmente subsuavizar sustancialmente, particularmente en tamaños de muestra moderados, siendo REML algo menos problemático en este caso. respecto.

Cuando sea apropiado, los modelos más simples, como los GLM, pueden ser preferibles a los GAM, a menos que los GAM mejoren sustancialmente la capacidad predictiva (en conjuntos de validación) para la aplicación en cuestión.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save