Modelo mixto
Un modelo mixto, modelo de efectos mixtos o modelo de componentes de error mixto es un modelo estadístico que contiene tanto efectos fijos como efectos aleatorios. Estos modelos son útiles en una amplia variedad de disciplinas de las ciencias físicas, biológicas y sociales. Son particularmente útiles en entornos en los que se realizan mediciones repetidas en las mismas unidades estadísticas (véase también estudio longitudinal), o cuando las mediciones se realizan en grupos de unidades estadísticas relacionadas. Los modelos mixtos suelen preferirse a los modelos de regresión de análisis de varianza tradicionales porque no se basan en el supuesto de observaciones independientes. Además, tienen su flexibilidad para tratar los valores faltantes y el espaciado desigual de las mediciones repetidas. El análisis del modelo mixto permite que las mediciones se modelen explícitamente en una variedad más amplia de estructuras de correlación y varianza-covarianza, evitando estimaciones sesgadas.
En esta página se analizarán principalmente los modelos lineales de efectos mixtos, en lugar de los modelos lineales mixtos generalizados o los modelos no lineales de efectos mixtos.
Descripción cualitativa
Los modelos lineales mixtos (LMM) son modelos estadísticos que incorporan efectos fijos y aleatorios para representar con precisión estructuras de datos no independientes. Los LMM son una alternativa al análisis de varianza. A menudo, el ANOVA supone la independencia de las observaciones dentro de cada grupo; sin embargo, esta suposición puede no ser válida en datos no independientes, como conjuntos de datos multinivel/jerárquicos, longitudinales o correlacionados.
Los conjuntos no independientes son aquellos en los que la variabilidad entre los resultados se debe a correlaciones dentro de los grupos o entre grupos. Los modelos mixtos dan cuenta adecuadamente de las estructuras de datos anidadas/jerárquicas en las que las observaciones se ven influidas por sus asociaciones anidadas. Por ejemplo, al estudiar métodos educativos que involucran a varias escuelas, hay varios niveles de variables a considerar. El nivel individual/nivel inferior comprende estudiantes o profesores individuales dentro de la escuela. Las observaciones obtenidas de este estudiante/profesor están anidadas dentro de su escuela. Por ejemplo, el Estudiante A es una unidad dentro de la Escuela A. El siguiente nivel superior es la escuela. En el nivel superior, la escuela contiene varios estudiantes y profesores individuales. El nivel de la escuela influye en las observaciones obtenidas de los estudiantes y profesores. Por ejemplo, la Escuela A y la Escuela B son los niveles superiores, cada uno con su conjunto de Estudiante A y Estudiante B respectivamente. Esto representa un esquema de datos jerárquico. Una solución para modelar datos jerárquicos es utilizar modelos mixtos lineales.

Los LMM nos permiten comprender los efectos importantes entre niveles y dentro de ellos, al tiempo que incorporan las correcciones de los errores estándar por falta de independencia incorporadas en la estructura de datos.
El efecto fijo
Los efectos fijos encapsulan las tendencias que son consistentes en los niveles de interés primario. Estos efectos se consideran fijos porque no son aleatorios y se supone que son constantes para la población en estudio. Por ejemplo, al estudiar la educación, un efecto fijo podría representar efectos generales a nivel escolar que sean consistentes en todas las escuelas.
Si bien la jerarquía del conjunto de datos suele ser obvia, se deben especificar los efectos fijos específicos que afectan las respuestas promedio de todos los sujetos. Algunos coeficientes de efectos fijos son suficientes sin los efectos aleatorios correspondientes, mientras que otros coeficientes fijos solo representan un promedio en el que las unidades individuales son aleatorias. Estos se pueden determinar incorporando interceptos y pendientes aleatorios.
En la mayoría de las situaciones se consideran varios modelos relacionados y se adopta el modelo que mejor representa un modelo universal.
El efecto aleatorio, ε
Un componente clave del modelo mixto es la incorporación de efectos aleatorios con el efecto fijo. Los efectos fijos se ajustan a menudo para representar el modelo subyacente. En los modelos mixtos lineales, la verdadera regresión de la población es lineal, β. Los datos fijos se ajustan en el nivel más alto. Los efectos aleatorios introducen variabilidad estadística en diferentes niveles de la jerarquía de datos. Estos dan cuenta de las fuentes de varianza no medidas que afectan a ciertos grupos en los datos. Por ejemplo, las diferencias entre el estudiante 1 y el estudiante 2 en la misma clase, o las diferencias entre la clase 1 y la clase 2 en la misma escuela.
Historia y estado actual

Ronald Fisher introdujo los modelos de efectos aleatorios para estudiar las correlaciones de los valores de los rasgos entre parientes. En la década de 1950, Charles Roy Henderson proporcionó las mejores estimaciones lineales imparciales de los efectos fijos y las mejores predicciones lineales imparciales de los efectos aleatorios. Posteriormente, el modelado mixto se ha convertido en un área importante de la investigación estadística, que incluye el trabajo sobre el cálculo de estimaciones de máxima verosimilitud, modelos de efectos mixtos no lineales, datos faltantes en modelos de efectos mixtos y estimación bayesiana de modelos de efectos mixtos. Los modelos mixtos se aplican en muchas disciplinas en las que se realizan múltiples mediciones correlacionadas en cada unidad de interés. Se utilizan de forma destacada en la investigación que involucra sujetos humanos y animales en campos que van desde la genética hasta el marketing, y también se han utilizado en el béisbol y las estadísticas industriales. La asociación del modelo lineal mixto ha mejorado la prevención de asociaciones de falsos positivos. Las poblaciones están profundamente interconectadas y la estructura de parentesco de la dinámica de la población es extremadamente difícil de modelar sin el uso de modelos mixtos. Sin embargo, los modelos lineales mixtos pueden no ser la única solución. Los modelos LMM tienen un supuesto de varianza residual constante que a veces se viola cuando se contabilizan características continuas y binarias profundamente asociadas.
Definición
En notación matricial, un modelo lineal mixto se puede representar como
donde
- es un vector conocido de observaciones, con media ;
- es un vector desconocido de efectos fijos;
- es un vector desconocido de efectos aleatorios, con media y matriz de variabilidad y covariancia ;
- es un vector desconocido de errores aleatorios, con media y diferencia ;
- es la matriz de diseño conocida para los efectos fijos relacionados con las observaciones a , respectivamente
- es la matriz de diseño conocida para los efectos aleatorios relacionados con las observaciones a , respectivamente.
Por ejemplo, si cada observación puede pertenecer a cero o más de k categorías, entonces Z, que tiene una fila por observación, se puede elegir para que tenga k columnas, donde un valor de 1 para un elemento de matriz de Z indica que se sabe que una observación pertenece a una categoría y un valor de 0 indica que se sabe que una observación no pertenece a una categoría. El valor inferido de u para una categoría es entonces una intersección específica de la categoría. Si Z tiene columnas adicionales, donde los valores distintos de cero son en cambio el valor de una variable independiente para una observación, entonces el valor inferido correspondiente de u es una pendiente específica de la categoría para esa variable independiente. La distribución previa para las intersecciones y pendientes de la categoría se describe mediante la matriz de covarianza G.
Estimación
La densidad de articulación y puede ser escrito como: . Suponiendo normalidad, , y , y maximizar la densidad de articulación sobre y , da Henderson "ecuaciones de modelos mezclados" (MME) para modelos mixtos lineales:
donde, por ejemplo, X′ es la matriz transpuesta de X y R−1 es la matriz inversa de R.
Las soluciones al MME, y son las mejores estimaciones y predictores lineales sin prejuicios y , respectivamente. Esta es una consecuencia del teorema Gauss–Markov cuando la variabilidad condicional del resultado no es escalable a la matriz de identidad. Cuando se conoce la varianza condicional, entonces la varianza inversa ponderada estimación de los mínimos cuadrados es la mejor estimación lineal imparcial. Sin embargo, la varianza condicional es rara vez, si alguna vez, conocida. Por lo tanto, es conveniente estimar conjuntamente las estimaciones de variabilidad y parámetro ponderado al resolver MMEs.
Un método utilizado para ajustar estos modelos mixtos es el algoritmo de expectativa-maximización (EM), en el que los componentes de la varianza se tratan como parámetros de molestia no observados en la probabilidad conjunta. Actualmente, este es el método implementado en software estadístico como Python (paquete statsmodels) y SAS (proc mixed), y como paso inicial solo en el paquete nlme lme() de R. La solución a las ecuaciones del modelo mixto es una estimación de máxima verosimilitud cuando la distribución de los errores es normal.

Hay varios otros métodos para adaptarse a los modelos mixtos, incluyendo el uso de un MEM inicialmente, y luego Newton-Raphson (utilizado por R package lme()), penalizó los mínimos cuadrados para obtener una probabilidad de registro perfilado sólo dependiendo de los parámetros de varianza-covariancia (low-dimensional) , es decir, su matriz cov , y luego la optimización directa moderna para esa función objetiva reducida (utilizada por el paquete lme4 lmer() de R y el paquete Julia MixedModels.jl) y la optimización directa de la probabilidad (utilizada por e.g. R's glmmTMB). Notablemente, aunque la forma canónica propuesta por Henderson es útil para la teoría, muchos paquetes de software populares utilizan una formulación diferente para la computación numérica con el fin de aprovechar los métodos de matriz escasa (por ejemplo lme4 y MixedModels.jl).
Véase también
- Modelo de efectos mixtos no lineales
- Modelo de efectos fijos
- Modelo mixto lineal generalizado
- Regreso lineal
- Análisis de la varianza de diseño mixto
- Modelo multinivel
- Modelo de efectos aleatorios
- Diseño de medidas repetidas
- Método empírico Bayes
Referencias
- ^ Baltagi, Badi H. (2008). Econometric Analysis of Panel Data (Cuarta edición). Nueva York: Wiley. pp. 54–55. ISBN 978-0-470-51886-1.
- ^ a b Gomes, Dylan G.E. (20 de enero de 2022). "¿Debería usar efectos fijos o efectos aleatorios cuando tengo menos de cinco niveles de un factor de agrupación en un modelo de efectos mixtos?". PeerJ. 10: e12794. doi:10.7717/peerj.12794. PMC 8784019. PMID 35116198.
- ^ Yang, Jian; Zaitlen, NA; Goddard, ME; Visscher, PM; Prince, AL (29 de enero de 2014). "Advantages and pitfalls in the application of mixed-model association methods". Nat Genet. 46 (2): 100-106. doi:10.1038/ng.2876. PMC 3989144. PMID 24473328.
- ^ a b Seltman, Howard (2016). Diseño y análisis experimentales. Vol. 1. págs. 357 a 378.
- ^ a b "Introducción a modelos mixtos lineales". Advanced Research Computing Statistical Methods and Data Analytics. UCLA Statistical Consulting Group. 2021.
- ^ a b Kreft " de Leeuw, J. Introducción de modelos multinivel. London:Sage.
- ^ a b Raudenbush, Bryk, S.W, A.S (2002). Modelos lineales jerárquicos: Aplicaciones y análisis de datos Métodos. Mil robles, CA: Sage.
{{cite book}}
: CS1 maint: múltiples nombres: lista de autores (link) - ^ a b Snijders, Bosker, T.A.B, R.J (2012). Análisis multinivel: Introducción a modelos básicos y avanzados multinivel. Vol. 2a edición. London:Sage.
{{cite book}}
: CS1 maint: múltiples nombres: lista de autores (link) - ^ Fisher, RA (1918). "La correlación entre parientes en la suposición de la herencia mendeliana". Transacciones de la Sociedad Real de Edimburgo. 52 (2): 399–433. doi:10.1017/S0080456800012163. S2CID 181213898.
- ^ a b Robinson, G.K. (1991). "Ese BLUP es una buena cosa: La estimación de los efectos aleatorios". Statistical Science. 6 (1): 15–32. doi:10.1214/ss/1177011926. JSTOR 2245695.
- ^ C. R. Henderson; Oscar Kempthorne; S. R. Searle; C. M. von Krosigk (1959). "La Estimación de Tendencias Ambientales y Genéticas de Registros Sujetos a Culling". Biometrics. 15 2). International Biometric Society: 192–218. doi:10.2307/2527669. JSTOR 2527669.
- ^ a b L. Dale Van Vleck. "Charles Roy Henderson, 1 de abril de 1911 – 14 de marzo de 1989" (PDF). United States National Academy of Sciences.
- ^ McLean, Robert A.; Sanders, William L.; Stroup, Walter W. (1991). "Unified Approach to Mixed Linear Models". El Estadístico Americano. 45 (1). American Statistical Association: 54–64. doi:10.2307/2685241. JSTOR 2685241.
- ^ Anderson, R.J (2016). "El gurú analista de MLSB que podría ser el próximo Nate Silver tiene un nuevo estatus revolucionario".
- ^ Obenchain, Lilly, Bob, Eli (1993). "Data Analysis and Information Visualization" (PDF). MWSUG.
{{cite book}}
: CS1 maint: múltiples nombres: lista de autores (link) - ^ Chen, H; Wang, C; Conomos, MP; Stilp, AM; Li, Z; Sofer, T; Szpiro, AA; Chen, W; Brehm, JM; Celedon, JC; Redline, S; Papanicolaou, S; Thorton, GJ; Thorton, TA; Laurie, CC; Rice, K; Lin, X (7 de abril de 2016). "Control para la estructura poblacional y la relación para los comercios binarios en estudios de asociación genética a través de modelos mixtos logísticos". Am J Hum Genet. 98 (4): 653-666. doi:10.1016/j.ajhg.2016.02.012. PMC 4833218. PMID 27018471.
- ^ Henderson, C R (1973). "Evaluación simple y tendencias genéticas" (PDF). Journal of Animal Science. 1973. American Society of Animal Science: 10–41. doi:10.1093/ansci/1973.Symposium.10. Retrieved 17 de agosto 2014.
- ^ Lindstrom, ML; Bates, DM (1988). "Nuevo-Raphson y algoritmos EM para modelos de efectos mixtos lineales para datos de medición repetidas". Journal of the American Statistical Association. 83 (404): 1014-1021. doi:10.1080/01621459.1988.10478693.
- ^ Laird, Nan M.; Ware, James H. (1982). "Random-Effects Models for Longitudinal Data". Biometrics. 38 (4). International Biometric Society: 963–974. doi:10.2307/2529876. JSTOR 2529876. PMID 7168798.
- ^ Fitzmaurice, Garrett M.; Laird, Nan M.; Ware, James H. (2004). Análisis de longitud aplicado. John Wiley ' Sons. pp. 326–328.
- ^ Pinheiro, J; Bates, DM (2006). Modelos de efectos mixtos en S y S-PLUS. Estadísticas y computación. Nueva York: Springer Science & Business Media. doi:10.1007/b98882. ISBN 0-387-98957-9.
- ^ Bates, D.; Maechler, M.; Bolker, B.; Walker, S. (2015). "Fitting Linear Mixed-Effects Models Using lme4". Journal of Statistical Software. 67 1). doi:10.18637/jss.v067.i01. hdl:2027.42/146808.
Más lectura
- Gałecki, Andrzej; Burzykowski, Tomasz (2013). Modelos de Efectos mixtos lineales utilizando R: A Step-by-Step Approach. Nueva York: Springer. ISBN 978-1-4614-3900-4.
- Milliken, G. A.; Johnson, D. E. (1992). Análisis de Messy Datos: Vol. I. Experimentos diseñados. New York: Chapman & Hall.
- West, B. T.; Welch, K. B.; Galecki, A. T. (2007). Mezcla lineal Modelos: Una guía práctica que utiliza el software estadístico. Nueva York: Chapman " Hall/CRC.