Regresión de cresta

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

La regresión de cresta es un método para estimar los coeficientes de modelos de regresión múltiple en escenarios donde las variables independientes están altamente correlacionadas. Se ha utilizado en muchos campos, incluidos la econometría, la química y la ingeniería. También conocida como regularización de Tikhonov, en honor a Andrey Tikhonov, es un método de regularización de problemas mal planteados. Es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal, que ocurre comúnmente en modelos con una gran cantidad de parámetros. En general, el método proporciona una mayor eficiencia en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (ver compensación sesgo-varianza).

La teoría fue introducida por primera vez por Hoerl y Kennard en 1970 en sus artículos de Technometrics "Regresiones de crestas: estimación sesgada de problemas no ortogonales" y "Regresiones de crestas: aplicaciones en problemas no ortogonales". Este fue el resultado de diez años de investigación en el campo del análisis de crestas.

La regresión de cresta se desarrolló como una posible solución a la imprecisión de los estimadores de mínimos cuadrados cuando los modelos de regresión lineal tienen algunas variables independientes multicolineales (altamente correlacionadas), mediante la creación de un estimador de regresión de cresta (RR). Esto proporciona una estimación más precisa de los parámetros de la cresta, ya que su varianza y su estimador cuadrático medio son a menudo más pequeños que los estimadores de mínimos cuadrados derivados previamente.

Descripción general

En el caso más simple, el problema de una matriz de momento casi singular se alivia al añadir elementos positivos a las diagonales, disminuyendo así su número de condición. Analógico al estimador de mínimos cuadrados ordinario, el simple estimador de la cresta es entonces dado por

Historia

La regularización de Tikhonov se inventó de forma independiente en muchos contextos diferentes. Se hizo ampliamente conocido gracias a su aplicación a ecuaciones integrales en los trabajos de Andrey Tikhonov y David L. Phillips. Algunos autores utilizan el término regularización de Tikhonov-Phillips. El caso de dimensión finita fue expuesto por Arthur E. Hoerl, quien adoptó un enfoque estadístico, y por Manus Foster, quien interpretó este método como un filtro Wiener-Kolmogorov (Kriging). Siguiendo a Hoerl, se conoce en la literatura estadística como regresión de crestas, llamada así por el análisis de crestas ("cresta" se refiere a la ruta desde el máximo restringido).

Regularización de Tikhonov

Supongamos que para una matriz conocida vector , deseamos encontrar un vector tales que

El enfoque estándar es la regresión lineal de mínimos cuadrados. Sin embargo, si no satisfice la ecuación o más de uno es decir, la solución no es única, se dice que el problema está mal planteado. En tales casos, la estimación ordinaria de los mínimos cuadrados conduce a un sistema de ecuaciones excesivamente determinado, o más a menudo indeterminado. La mayoría de los fenómenos del mundo real tienen el efecto de filtros de baja velocidad en la dirección hacia adelante donde mapas a . Por lo tanto, al resolver el problema inverso, la cartografía inversa funciona como un filtro de alto paso que tiene la tendencia indeseable de amplificar el ruido (los valores de los genes / valores singulares son mayores en la cartografía inversa donde eran más pequeños en la cartografía de avance). Además, los mínimos cuadrados ordinarios anula implícitamente cada elemento de la versión reconstruida de que está en el espacio nulo , en lugar de permitir que un modelo sea utilizado como antes . Los mínimos cuadrados ordinarios buscan minimizar la suma de residuos cuadrados, que se puede escribir compactamente como

Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:

Matriz TikhonovL2 regularización
ATA−1

La

regularización L2 se usa en muchos contextos además de la regresión lineal, como la clasificación con regresión logística o soporte. máquinas vectoriales y factorización matricial.

Aplicación a resultados de ajuste existentes

Desde Tikhonov La regularización simplemente agrega un término cuadrático a la función objetiva en problemas de optimización, es posible hacerlo después de que la optimización no regularizada haya tenido lugar. Por ejemplo, si el problema anterior con cede la solución , la solución en presencia de puede expresarse como:

Si el parámetro apropiado viene con una matriz de covariancia de las incertidumbres estimadas del parámetro , entonces la matriz de regularización será

En el contexto de ajustes de probabilidad arbitrarios, esto es válido, siempre que la aproximación cuadrática de la función de probabilidad sea válida. Esto significa que, siempre que la perturbación del resultado no regularizado sea pequeña, se puede regularizar cualquier resultado que se presente como un punto de mejor ajuste con una matriz de covarianza. No se necesita ningún conocimiento detallado de la función de probabilidad subyacente.

Regularización generalizada de Tikhonov

Para las distribuciones normales multivariables generales y el error de datos, se puede aplicar una transformación de las variables para reducir al caso anterior. Equivalentemente, uno puede buscar un para minimizar

Este problema generalizado tiene una solución óptima que se puede escribir explícitamente utilizando la fórmula

Qno

Regularización de Laurentyev

En algunas situaciones, se puede evitar utilizar la transposición , como propuso Mikhail Lavrentyev. Por ejemplo, si es simétrico positivo definido, es decir. , así es su inverso , que se puede utilizar para establecer la norma ponderada cuadrada en la regularización generalizada de Tikhonov, que conduce a minimizar

Este problema de minimización tiene una solución óptima que se puede escribir explícitamente utilizando la fórmula

La regularización de Lavrentyev, si es aplicable, es ventajosa a la regularización original de Tikhonov, desde la matriz de Lavrentyev puede estar mejor condicionado, es decir, tener un número de condición más pequeño, en comparación con la matriz Tikhonov

Regularización en el espacio de Hilbert

Los problemas lineales generalmente discretos resultan de la discretización de ecuaciones integrales, y se puede formular una regularización Tikhonov en el contexto original de infinita dimensión. En lo anterior podemos interpretar como operador compacto en los espacios de Hilbert, y y como elementos en el dominio y rango de . El operador es entonces un operador invertible autoadjunto.

Relación con la descomposición en valores singulares y el filtro de Wiener

Con , esta solución de mínimo tamaño se puede analizar de manera especial utilizando la descomposición de valor singular. Dada la descomposición de valor singular

Finalmente, está relacionado con el filtro Wiener:

Determinación del factor Tikhonov

El parámetro de regularización óptima es generalmente desconocido y a menudo en problemas prácticos se determina por un ad hoc método. Un posible enfoque se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques incluyen el principio de discrepancia, la validación cruzada, el método L-curve, la probabilidad máxima restringida y el estimador de riesgo predictivo imparcial. Grace Wahba demostró que el parámetro óptimo, en el sentido de una salida de la validación cruzada minimiza

Utilizando la descomposición SVD anterior, podemos simplificar la expresión anterior:

Relación con la formulación probabilística

La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gausianas) una matriz de covariancia representando al a priori incertidumbres en los parámetros modelo, y una matriz de covariancia representando las incertidumbres en los parámetros observados. En el caso especial cuando estas dos matrices son diagonales e isotrópicos, y , y, en este caso, las ecuaciones de la teoría inversa reducen a las ecuaciones anteriores, con .

Interpretación bayesiana

Aunque al principio la elección de la solución a este problema regularizado puede parecer artificial, y de hecho la matriz parece bastante arbitrario, el proceso puede justificarse desde un punto de vista bayesiano. Tenga en cuenta que para un problema malpuesto uno debe introducir necesariamente algunas suposiciones adicionales para conseguir una solución única. Estadísticamente, la distribución previa de probabilidad a veces se toma como una distribución normal multivariada. Para la simplicidad aquí se hacen las siguientes suposiciones: los medios son cero; sus componentes son independientes; los componentes tienen la misma desviación estándar . Los datos también están sujetos a errores, y los errores en también se supone que son independientes con cero media y desviación estándar . Bajo estos supuestos la solución regularizada Tikhonov es la solución más probable dada los datos y la a priori distribución de Según el teorema de Bayes.

Si el supuesto de normalidad se reemplaza por supuestos de homocedasticidad y falta de correlación de los errores, y si todavía se supone una media cero, entonces el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save