Regresión por pasos

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En estadística, la regresión por pasos es un método de ajuste de modelos de regresión en el que la elección de las variables predictivas se lleva a cabo mediante un procedimiento automático. En cada paso, se considera la posibilidad de añadir o quitar una variable al conjunto de variables explicativas en función de un criterio preestablecido. Por lo general, esto adopta la forma de una secuencia de pruebas F o t hacia delante, hacia atrás o combinada.

La práctica frecuente de ajustar el modelo final seleccionado y luego informar las estimaciones y los intervalos de confianza sin ajustarlos para tener en cuenta el proceso de construcción del modelo ha llevado a que se deje de utilizar por completo la construcción de modelos por pasos o, al menos, se asegure de que la incertidumbre del modelo se refleje correctamente mediante el uso de criterios automáticos preestablecidos junto con estimaciones de error estándar más complejas que permanezcan imparciales.

En este ejemplo de ingeniería, necesidad y suficiencia se determinan generalmente por F-tests. Para mayor consideración, al planificar un experimento, simulación de ordenadores o encuesta científica para recopilar datos para este modelo, hay que tener en cuenta el número de parámetros, P, para estimar y ajustar el tamaño de la muestra en consecuencia. Para variables K, P = 1(Iniciar) + K(Stage I) +K2K)/2(Estadio II) + 3K(Estadio III) = 0,5K2 + 3.5K + 1. Para K ■ 17, existe un diseño eficiente de experimentos para este tipo de modelo, un diseño Box–Behnken, aumentado con puntos axiales positivos y negativos de longitud min(2, (int(1.5 + K/4))1/2), más punto(s) en el origen. Hay diseños más eficientes, que requieren menos carreras, incluso para K .

Principales enfoques

Los principales enfoques para la regresión escalonada son:

  • Selección futura, que implica comenzar sin variables en el modelo, probar la adición de cada variable utilizando un criterio de ajuste modelo elegido, añadiendo la variable (si existe) cuya inclusión da la mejora más estadísticamente significativa del ajuste, y repetir este proceso hasta que ninguno mejora el modelo en un grado estadísticamente significativo.
  • Eliminación ulterior, que implica comenzar con todas las variables candidatas, probar la eliminación de cada variable utilizando un criterio de ajuste modelo elegido, eliminando la variable (si existe) cuya pérdida da el deterioro más estadísticamente insignificante del ajuste del modelo, y repitiendo este proceso hasta que no se pueden eliminar otras variables sin una pérdida estadísticamente significativa de ajuste.
  • Eliminación bidireccional, una combinación de lo anterior, probando cada paso para incluir o excluir variables.

Alternativas

Un algoritmo ampliamente utilizado fue propuesto por primera vez por Efroymson (1960). Se trata de un procedimiento automático para la selección de modelos estadísticos en casos en los que existe una gran cantidad de variables explicativas potenciales y no existe una teoría subyacente en la que basar la selección del modelo. El procedimiento se utiliza principalmente en el análisis de regresión, aunque el enfoque básico es aplicable en muchas formas de selección de modelos. Se trata de una variación de la selección hacia adelante. En cada etapa del proceso, después de agregar una nueva variable, se realiza una prueba para verificar si se pueden eliminar algunas variables sin aumentar apreciablemente la suma de cuadrados residuales (RSS). El procedimiento finaliza cuando la medida se maximiza (localmente) o cuando la mejora disponible cae por debajo de un valor crítico.

Uno de los principales problemas con la regresión gradual es que busca un gran espacio de posibles modelos. Por lo tanto, es propenso a superar los datos. En otras palabras, la regresión gradual a menudo encaja mucho mejor en la muestra que en los nuevos datos fuera del muestreo. Se han observado casos extremos en los que los modelos han alcanzado importancia estadística trabajando en números aleatorios. Este problema puede ser mitigado si el criterio para añadir (o eliminar) una variable es suficientemente rígida. La línea clave en la arena es en lo que se puede pensar como el punto Bonferroni: es decir, lo significativo que la mejor variable espuriosa debe basarse en la oportunidad sola. En una t- escala estadística, esto ocurre en , donde p es el número de predictores. Desafortunadamente, esto significa que muchas variables que realmente llevan señal no serán incluidas. Esta valla resulta ser el intercambio correcto entre la señal de sobre-configuración y faltante. Si miramos el riesgo de diferentes cortes, entonces usar este límite estará dentro de un factor del mejor riesgo posible. Cualquier otro corte terminará teniendo una inflación de riesgo más grande.

Precisión del modelo

Una forma de comprobar si hay errores en los modelos creados mediante regresión por pasos es no basarse en la estadística F, la significancia o el R múltiple del modelo, sino evaluar el modelo en comparación con un conjunto de datos que no se utilizó para crearlo. Esto se hace a menudo construyendo un modelo basado en una muestra del conjunto de datos disponible (p. ej., 70%) –el “conjunto de entrenamiento”– y utilizando el resto del conjunto de datos (p. ej., 30%) como conjunto de validación para evaluar la precisión del modelo. La precisión se mide a menudo como el error estándar (SE) real, MAPE (error porcentual absoluto medio) o error medio entre el valor predicho y el valor real en la muestra de reserva. Este método es particularmente valioso cuando los datos se recopilan en diferentes entornos (p. ej., diferentes momentos, situaciones sociales frente a situaciones solitarias) o cuando se supone que los modelos son generalizables.

Crítica

Los procedimientos de regresión por pasos se utilizan en la minería de datos, pero son controvertidos. Se han planteado varias críticas.

  • Las pruebas son parciales, ya que se basan en los mismos datos. Wilkinson y Dallal (1981) computaron puntos porcentuales del coeficiente de correlación múltiple por simulación y demostraron que una regresión final obtenida por selección avanzada, dijo por la F-procedimiento para ser significativa en 0,1%, era de hecho sólo significativa en 5%.
  • Al estimar los grados de libertad, el número de variables independientes candidatas del mejor ajuste seleccionado puede ser menor que el número total de variables modelo finales, lo que hace que el ajuste aparezca mejor que cuando se ajusta el ajuste r2 valor para el número de grados de libertad. Es importante considerar cuántos grados de libertad se han utilizado en todo el modelo, no sólo contar el número de variables independientes en el ajuste resultante.
  • Los modelos que se crean pueden ser simplificaciones excesivas de los modelos reales de los datos.

Estas críticas, basadas en las limitaciones de la relación entre un modelo y un procedimiento y el conjunto de datos utilizados para ajustarlo, suelen abordarse verificando el modelo en un conjunto de datos independiente, como en el procedimiento PRESS.

Los críticos consideran que este procedimiento es un ejemplo paradigmático de dragado de datos, ya que los cálculos intensivos suelen ser un sustituto inadecuado de la experiencia en el área temática. Además, los resultados de la regresión por pasos se utilizan a menudo de forma incorrecta sin ajustarlos a la ocurrencia de la selección del modelo. En particular, la práctica de ajustar el modelo final seleccionado como si no se hubiera realizado ninguna selección de modelos y de informar sobre las estimaciones y los intervalos de confianza como si la teoría de los mínimos cuadrados fuera válida para ellos, se ha descrito como un escándalo. El uso incorrecto generalizado y la disponibilidad de alternativas como el aprendizaje conjunto, dejar todas las variables en el modelo o utilizar el juicio de expertos para identificar las variables relevantes han llevado a pedir que se evite por completo la selección del modelo por pasos.

Véase también

  • Paradoja de Freedman
  • Regresión logística
  • regresión del ángulo mínimo
  • La navaja de Occam
  • Validación de regresión
  • Lasso (estadística)

Referencias

  1. ^ Efroymson, M. A. (1960) "Análisis de regresión múltiple", Métodos matemáticos para ordenadores digitales, Ralston A. y Wilf, H. S., (eds.), Wiley, Nueva York.
  2. ^ Hocking, R. R. (1976) "El análisis y selección de variables en regresión lineal", Biometría, 32.
  3. ^ Draper, N. and Smith, H. (1981) Análisis de regresión aplicado, 2d Edition, Nueva York: John Wiley & Sons, Inc.
  4. ^ SAS Institute Inc. (1989) Guía del Usuario SAS/STAT, Versión 6, Cuarta Edición, Volumen 2, Cary, NC: SAS Institute Inc.
  5. ^ a b Flom, P. L. and Cassell, D. L. (2007) "Stopping stepwise: ¿Por qué los métodos de selección sencillos y similares son malos, y qué debe utilizar", NESUG 2007.
  6. ^ Harrell, F. E. (2001) Con aplicaciones a modelos lineales, regresión logística y análisis de supervivencia", Springer-Verlag, Nueva York.
  7. ^ a b Chatfield, C. (1995) "Incertidumbre moderna, minería de datos e inferencia estadística", J. R. Statist. Soc. A 158, Part 3, pp. 419-466.
  8. ^ Efron, B. and Tibshirani, R. J. (1998) "Una introducción al bootstrap", Chapman & Hall/CRC
  9. ^ Box–Behnken diseña de un manual sobre estadísticas de ingeniería en NIST
  10. ^ Efroymson, MA (1960) "Análisis de regresión múltiple". En Ralston, A. y Wilf, HS, editores, Métodos matemáticos para ordenadores digitales. Wiley.
  11. ^ Knecht, WR. (2005). La voluntad piloto de despegar en el clima marginal, Parte II: Sobreajuste de antecedentes con regresión logística gradual. (Informe técnico DOT/FAA/AM-O5/15). Federal Aviation Administration
  12. ^ Foster, Dean P., " George, Edward I. (1994). El Criterio de Inflación de Riesgo para la regresión Múltiple. Annals of Statistics, 22(4). 1947–1975. doi:10.1214/aos/1176325766
  13. ^ Donoho, David L., " Johnstone, Jain M. (1994). Adaptación espacial ideal por reducción de ondas. Biometrika, 81(3):425-455. doi:10.1093/biomet/81.3.425
  14. ^ Mark, Jonathan, " Goldberg, Michael A. (2001). Análisis de regresión múltiple y evaluación masiva: Una revisión de los problemas. El Diario de Evaluación, Jan., 89–109.
  15. ^ Mayers, J.H., " Forgy, E.W. (1963). Desarrollo de sistemas de evaluación de créditos numéricos. Journal of the American Statistical Association, 58(303; Sept), 799–806.
  16. ^ Rencher, A. C., " Pun, F. C. (1980). Inflación de R2 en Best Subset Regression. Technometrics, 22, 49-54.
  17. ^ Copas, J.B. (1983). Regresión, predicción y contracción. J. Roy, Statist. Serie B, 45, 311-354.
  18. ^ Wilkinson, L., " Dallal, G.E. (1981). Pruebas de importancia en la regresión de selección avanzada con una regla F-para entrar. Technometrics, 23, 377-380.
  19. ^ Hurvich, C. M. and C. L. Tsai. 1990. El impacto de la selección de modelos en la inferencia en la regresión lineal. American Statistician 44: 214–217.
  20. ^ Roecker, Ellen B. (1991). Error de predicción y su estimación para los modelos seleccionados por subconjuntos. Technometrics, 33, 459-468.
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save