Regresión lineal bayesiana
La regresión lineal bayesiana es un tipo de modelado condicional en el que la media de una variable se describe mediante una combinación lineal de otras variables, con el objetivo de obtener la probabilidad posterior de los coeficientes de regresión (así como otros parámetros que describen la distribución de la regresora).) y, en última instancia, permitir la predicción fuera de la muestra del regresor (a menudo etiquetado como ) condicional a los valores observados de los regresores (generalmente
). La versión más simple y más utilizada de este modelo es el modelo lineal normal, en el que
dado
se distribuye Gaussiana. En este modelo, y bajo una elección particular de probabilidades previas para los parámetros, los llamados anteriores conjugados, el posterior se puede encontrar analíticamente. Con priores elegidos más arbitrariamente, los posteriores generalmente tienen que ser aproximados.
Configuración del modelo
Considere un problema de regresión lineal estándar, en el que especificamos la media de la distribución condicional de
un
vector predictor dado
:
donde es un
vector, y
son variables aleatorias independientes e idénticamente distribuidas normalmente:
Esto corresponde a la siguiente función de verosimilitud:
La solución de mínimos cuadrados ordinarios se usa para estimar el vector de coeficientes usando el pseudoinverso de Moore-Penrose:
donde está la
matriz de diseño, cada fila de la cual es un vector predictor
; y
es el
vector- columna
.
Este es un enfoque frecuentista y asume que hay suficientes medidas para decir algo significativo acerca de . En el enfoque bayesiano, los datos se complementan con información adicional en forma de una distribución de probabilidad previa. La creencia previa sobre los parámetros se combina con la función de verosimilitud de los datos según el teorema de Bayes para producir la creencia posterior sobre los parámetros
y
. El previo puede tomar diferentes formas funcionales dependiendo del dominio y la información que está disponible a priori.
Dado que los datos comprenden tanto como
, el enfoque solo en la distribución de
condicional en la
justificación de necesidades. De hecho, un análisis bayesiano "completo" requeriría una probabilidad conjunta
junto con un anterior
, donde
simboliza los parámetros de la distribución para
. Solo bajo el supuesto de exogeneidad (débil) se puede factorizar la probabilidad conjunta en
. La última parte generalmente se ignora bajo el supuesto de conjuntos de parámetros disjuntos. Más aún, bajo los supuestos clásicos
se considera elegido (por ejemplo, en un experimento diseñado) y por lo tanto tiene una probabilidad conocida sin parámetros.
Con antecedentes conjugados
Distribución previa conjugada
Para una distribución previa arbitraria, puede que no haya una solución analítica para la distribución posterior. En esta sección, consideraremos un denominado conjugado anterior para el cual la distribución posterior se puede derivar analíticamente.
Un prior es conjugado a esta función de verosimilitud si tiene la misma forma funcional con respecto a
y
. Dado que el logaritmo de la verosimilitud es cuadrático en
, el logaritmo de la verosimilitud se vuelve a escribir de tal manera que la probabilidad se vuelve normal en
. Escribe
La probabilidad ahora se reescribe como
dónde
donde es el número de coeficientes de regresión.
Esto sugiere una forma para el anterior:
donde es una distribución gamma inversa
En la notación introducida en el artículo de distribución de gamma inversa, esta es la densidad de una distribución con
y
con
y
como los valores previos de
y
, respectivamente. De manera equivalente, también se puede describir como una distribución de chi-cuadrado inversa escalada,
Además, la densidad previa condicional es una distribución normal,
En la notación de la distribución normal, la distribución previa condicional es
Distribución posterior
Con el ahora anterior especificado, la distribución posterior se puede expresar como
Con alguna reorganización, el posterior se puede reescribir para que la media posterior del vector de parámetros
se pueda expresar en términos del estimador de mínimos cuadrados
y la media anterior
, con la fuerza de la anterior indicada por la matriz de precisión previa.
Para justificar que de hecho es la media posterior, los términos cuadráticos en la exponencial se pueden reorganizar como una forma cuadrática en
.
Ahora, el posterior se puede expresar como una distribución normal multiplicada por una distribución gamma inversa:
Por lo tanto, la distribución posterior se puede parametrizar de la siguiente manera.
donde los dos factores corresponden a las densidades y
distribuciones, con los parámetros de estos dados por
Esto se puede interpretar como un aprendizaje bayesiano donde los parámetros se actualizan de acuerdo con las siguientes ecuaciones.
Evidencia modelo
La evidencia del modelo es la probabilidad de los datos dado el modelo
. También se conoce como probabilidad marginal y como densidad predictiva previa. Aquí, el modelo está definido por la función de verosimilitud
y la distribución previa de los parámetros, es decir
. La evidencia del modelo captura en un solo número qué tan bien dicho modelo explica las observaciones. La evidencia del modelo de regresión lineal bayesiana presentada en esta sección se puede utilizar para comparar modelos lineales competidores mediante la comparación de modelos bayesianos. Estos modelos pueden diferir en el número y valores de las variables predictoras, así como en sus antecedentes sobre los parámetros del modelo. La evidencia del modelo ya tiene en cuenta la complejidad del modelo, porque margina los parámetros integrando
todos los valores posibles de
y
.
Esta integral se puede calcular analíticamente y la solución se da en la siguiente ecuación.
Aquí denota la función gamma. Debido a que hemos elegido un conjugado anterior, la probabilidad marginal también se puede calcular fácilmente evaluando la siguiente igualdad para valores arbitrarios de
y
.
Tenga en cuenta que esta ecuación no es más que una reorganización del teorema de Bayes. Insertando las fórmulas para la anterior, la verosimilitud y la posterior y simplificando la expresión resultante se obtiene la expresión analítica dada anteriormente.
Otros casos
En general, puede ser imposible o poco práctico derivar analíticamente la distribución posterior. Sin embargo, es posible aproximar el posterior mediante un método de inferencia bayesiano aproximado, como el muestreo de Monte Carlo o el Bayes variacional.
El caso especial se llama regresión de cresta.
Se puede realizar un análisis similar para el caso general de la regresión multivariante y parte de esto proporciona la estimación bayesiana de matrices de covarianza: consulte Regresión lineal multivariante bayesiana.
Contenido relacionado
Diagrama de árbol (probabilidades)
Área estadística metropolitana
Distribución predictiva posterior