Regresión lineal simple
En estadística, la regresión lineal simple es un modelo de regresión lineal con una sola variable explicativa. Es decir, se refiere a puntos de muestra bidimensionales con una variable independiente y una variable dependiente (convencionalmente, las coordenadas x e y en un sistema de coordenadas cartesianas) y encuentra una función lineal (una línea recta no vertical) que, con tanta precisión como posible, predice los valores de la variable dependiente en función de la variable independiente. El adjetivo simple se refiere al hecho de que la variable de resultado está relacionada con un solo predictor.
Es común hacer la estipulación adicional de que se debe usar el método de mínimos cuadrados ordinarios (MCO): la precisión de cada valor pronosticado se mide por su residual al cuadrado(distancia vertical entre el punto del conjunto de datos y la línea ajustada), y el objetivo es hacer que la suma de estas desviaciones al cuadrado sea lo más pequeña posible. Otros métodos de regresión que se pueden usar en lugar de los mínimos cuadrados ordinarios incluyen las desviaciones mínimas absolutas (que minimizan la suma de los valores absolutos de los residuos) y el estimador de Theil-Sen (que elige una línea cuya pendiente es la mediana de las pendientes determinadas por pares de puntos de muestra). La regresión de Deming (mínimos cuadrados totales) también encuentra una línea que se ajusta a un conjunto de puntos de muestra bidimensionales, pero (a diferencia de los mínimos cuadrados ordinarios, las desviaciones mínimas absolutas y la regresión de pendiente media) no es realmente una instancia de regresión lineal simple, porque no separa las coordenadas en una variable dependiente y otra independiente y podría devolver potencialmente una línea vertical como su ajuste.
El resto del artículo asume una regresión de mínimos cuadrados ordinarios. En este caso, la pendiente de la línea ajustada es igual a la correlación entre y y x corregida por el cociente de las desviaciones estándar de estas variables. La intersección de la línea ajustada es tal que la línea pasa por el centro de masa (x, y) de los puntos de datos.
Ajuste de la línea de regresión
Considere la función modelo
que describe una línea con pendiente β y intersección con el eje y α. En general, tal relación puede no ser válida exactamente para la población de valores de las variables independientes y dependientes, en gran parte no observada; llamamos errores a las desviaciones no observadas de la ecuación anterior. Supongamos que observamos n pares de datos y los llamamos {(x i, y i), i = 1,..., n }. Podemos describir la relación subyacente entre y i y x i que involucra este término de error ε i por
Esta relación entre los parámetros subyacentes verdaderos (pero no observados) α y β y los puntos de datos se denomina modelo de regresión lineal.
El objetivo es encontrar valores estimados y
para los parámetros α y β que proporcionen el "mejor" ajuste en algún sentido para los puntos de datos. Como se mencionó en la introducción, en este artículo el "mejor" ajuste se entenderá como en el enfoque de mínimos cuadrados: una línea que minimiza la suma de los cuadrados de los residuos (ver también Errores y residuos)
(diferencias entre los valores reales y predichos de la variable dependiente y), cada una de las cuales viene dada por, para cualquier valor de parámetro candidato
y
,
En otras palabras, y
resolver el siguiente problema de minimización:
Al expandir para obtener una expresión cuadrática en y
podemos derivar valores de
y
que minimizan la función objetivo Q (estos valores minimizadores se denotan
y
):
Aquí hemos presentado
y
como el promedio de x i y y i, respectivamente
- r xy como el coeficiente de correlación muestral entre x e y
- s x y s y como las desviaciones estándar muestrales no corregidas de x e y
y
como la varianza muestral y la covarianza muestral, respectivamente
Sustituyendo las expresiones anteriores por y
en
rendimientos
Esto muestra que r xy es la pendiente de la línea de regresión de los puntos de datos estandarizados (y que esta línea pasa por el origen). Desde entonces, obtenemos que si x es una medida e y es una medida de seguimiento del mismo elemento, entonces esperamos que y (en promedio) esté más cerca de la medida media que del valor original de x. Este fenómeno se conoce como regresiones hacia la media.
Generalizando la notación, podemos escribir una barra horizontal sobre una expresión para indicar el valor promedio de esa expresión sobre el conjunto de muestras. Por ejemplo:
Esta notación nos permite una fórmula concisa para r xy:
El coeficiente de determinación ("R cuadrado") es igual a cuando el modelo es lineal con una sola variable independiente. Consulte el coeficiente de correlación de muestra para obtener detalles adicionales.
Intuición sobre la pendiente
Multiplicando todos los miembros de la suma en el numerador por: (sin cambiarlo):
Podemos ver que la pendiente (tangente del ángulo) de la línea de regresión es el promedio ponderado de esa es la pendiente (tangente del ángulo) de la línea que conecta el i-ésimo punto con el promedio de todos los puntos, ponderada por
porque el cuanto más "importante" sea el punto, ya que pequeños errores en su posición afectarán más a la pendiente que lo conecta con el punto central.
Intuición sobre el intercepto
Dado el ángulo que forma la recta con
el eje x positivo, tenemos
Intuición sobre la correlación
En la formulación anterior, observe que cada uno es un valor constante ("conocido por adelantado"), mientras que
son variables aleatorias que dependen de la función lineal de
y del término aleatorio
. Esta suposición se usa cuando se deriva el error estándar de la pendiente y se muestra que no está sesgada.
En este marco, cuando en realidad no es una variable aleatoria, ¿qué tipo de parámetro
estima la correlación empírica? El tema es que para cada valor i tendremos:
y
. Una posible interpretación de
es imaginar que
define una variable aleatoria extraída de la distribución empírica de los valores de x en nuestra muestra. Por ejemplo, si x tuviera 10 valores de los números naturales: [1,2,3...,10], entonces podemos imaginar que x es una distribución uniforme discreta. Bajo esta interpretación todos
tienen la misma expectativa y alguna variación positiva. Con esta interpretación podemos pensar en
él como el estimador de la correlación de Pearson entre la variable aleatoria y y la variable aleatoria x (tal como la acabamos de definir).
Regresión lineal simple sin término de intersección (regresor único)
A veces es apropiado forzar que la línea de regresión pase por el origen, porque se supone que x e y son proporcionales. Para el modelo sin el término de intersección, y = βx, el estimador MCO para β se simplifica a
Sustituyendo (x − h, y − k) en lugar de (x, y) se obtiene la regresión a través de (h, k):
donde Cov y Var se refieren a la covarianza y la varianza de los datos de la muestra (sin corregir por sesgo).
El último formulario anterior demuestra cómo el hecho de alejar la línea del centro de masa de los puntos de datos afecta la pendiente.
Propiedades numéricas
- La línea de regresión pasa por el punto del centro de masa
, si el modelo incluye un término de intersección (es decir, no forzado por el origen).
- La suma de los residuos es cero si el modelo incluye un término de intersección:
- Los residuos y los valores de x no están correlacionados (ya sea que haya o no un término de intersección en el modelo), lo que significa que:
- La relación entre
(el coeficiente de correlación para la población) y las varianzas poblacionales de
(
) y el término de error de
(
) es:
Para los valores extremos de
esto es evidente. Desde cuando
entonces
. Y cuando
entonces
.
Propiedades basadas en modelos
La descripción de las propiedades estadísticas de los estimadores de las estimaciones de regresión lineal simple requiere el uso de un modelo estadístico. Lo siguiente se basa en asumir la validez de un modelo bajo el cual las estimaciones son óptimas. También es posible evaluar las propiedades bajo otros supuestos, como la falta de homogeneidad, pero esto se analiza en otra parte.
Imparcialidad
Los estimadores y
son insesgados.
Para formalizar esta afirmación debemos definir un marco en el que estos estimadores sean variables aleatorias. Consideramos los residuos ε i como variables aleatorias extraídas independientemente de alguna distribución con media cero. En otras palabras, para cada valor de x, el valor correspondiente de y se genera como una respuesta media α + βx más una variable aleatoria adicional ε llamada término de error, igual a cero en promedio. Bajo tal interpretación, los estimadores de mínimos cuadrados y
serán en sí mismos variables aleatorias cuyas medias serán iguales a los "valores verdaderos" α y β. Esta es la definición de un estimador insesgado.
Intervalos de confianza
Las fórmulas dadas en la sección anterior permiten calcular las estimaciones puntuales de α y β, es decir, los coeficientes de la línea de regresión para el conjunto de datos dado. Sin embargo, esas fórmulas no nos dicen cuán precisas son las estimaciones, es decir, cuánto varían los estimadores y
de muestra a muestra para el tamaño de muestra especificado. Se diseñaron intervalos de confianza para dar un conjunto plausible de valores a las estimaciones que uno podría tener si repitiera el experimento una gran cantidad de veces.
El método estándar para construir intervalos de confianza para los coeficientes de regresión lineal se basa en el supuesto de normalidad, que se justifica si:
- los errores en la regresión se distribuyen normalmente (el llamado supuesto de regresión clásica), o
- el número de observaciones n es suficientemente grande, en cuyo caso el estimador tiene una distribución aproximadamente normal.
El último caso está justificado por el teorema del límite central.
Suposición de normalidad
Bajo el primer supuesto anterior, el de la normalidad de los términos de error, el estimador del coeficiente de pendiente se distribuirá normalmente con media β y varianza donde σ es la varianza de los términos de error (ver Pruebas que involucran mínimos cuadrados ordinarios). Al mismo tiempo, la suma de los cuadrados de los residuos Q se distribuye proporcionalmente a χ con n − 2 grados de libertad, e independientemente de
. Esto nos permite construir un valor t
dónde
es el error estándar del estimador .
Este valor t tiene una distribución t de Student con n − 2 grados de libertad. Utilizándolo podemos construir un intervalo de confianza para β:
en el nivel de confianza (1 − γ), donde es el
cuantil de la distribución t n −2. Por ejemplo, si γ = 0,05, el nivel de confianza es del 95 %.
De manera similar, el intervalo de confianza para el coeficiente de intersección α está dado por
al nivel de confianza (1 − γ), donde
Los intervalos de confianza para α y β nos dan una idea general de dónde es más probable que estén estos coeficientes de regresión. Por ejemplo, en la regresión de la ley de Okun que se muestra aquí, las estimaciones puntuales son
Los intervalos de confianza del 95% para estas estimaciones son
Para representar esta información gráficamente, en forma de bandas de confianza alrededor de la línea de regresión, se debe proceder con cuidado y tener en cuenta la distribución conjunta de los estimadores. Se puede demostrar que al nivel de confianza (1 − γ) la banda de confianza tiene forma hiperbólica dada por la ecuación
Cuando el modelo asumió que la intersección es fija e igual a 0 (), el error estándar de la pendiente se convierte en:
Con:
Asunción asintótica
La segunda suposición alternativa establece que cuando el número de puntos en el conjunto de datos es "suficientemente grande", la ley de los grandes números y el teorema del límite central se vuelven aplicables, y luego la distribución de los estimadores es aproximadamente normal. Bajo este supuesto, todas las fórmulas derivadas en la sección anterior siguen siendo válidas, con la única excepción de que el cuantil t* n −2 de la distribución t de Student se reemplaza por el cuantil q* de la distribución normal estándar. De vez en cuando la fracción1/n -2se reemplaza con1/norte. Cuando n es grande, dicho cambio no altera apreciablemente los resultados.
Ejemplo numérico
Este conjunto de datos proporciona masas promedio para las mujeres en función de su altura en una muestra de mujeres estadounidenses de 30 a 39 años. Aunque el artículo de OLS argumenta que sería más apropiado ejecutar una regresión cuadrática para estos datos, aquí se aplica el modelo de regresión lineal simple.
Altura (m), x i | 1.47 | 1.50 | 1.52 | 1.55 | 1.57 | 1.60 | 1.63 | 1.65 | 1.68 | 1.70 | 1.73 | 1.75 | 1.78 | 1.80 | 1.83 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Masa (kg), y yo | 52.21 | 53.12 | 54.48 | 55.84 | 57.20 | 58.57 | 59.93 | 61.29 | 63.11 | 64.47 | 66.28 | 68.10 | 69.92 | 72.19 | 74.46 |
1 | 1.47 | 52.21 | 2.1609 | 76.7487 | 2725.8841 |
2 | 1.50 | 53.12 | 2.2500 | 79.6800 | 2821.7344 |
3 | 1.52 | 54.48 | 2.3104 | 82.8096 | 2968.0704 |
4 | 1.55 | 55.84 | 2.4025 | 86.5520 | 3118.1056 |
5 | 1.57 | 57.20 | 2.4649 | 89.8040 | 3271.8400 |
6 | 1.60 | 58.57 | 2.5600 | 93.7120 | 3430.4449 |
7 | 1.63 | 59.93 | 2.6569 | 97.6859 | 3591.6049 |
8 | 1.65 | 61.29 | 2.7225 | 101.1285 | 3756.4641 |
9 | 1.68 | 63.11 | 2.8224 | 106.0248 | 3982.8721 |
10 | 1.70 | 64.47 | 2.8900 | 109.5990 | 4156.3809 |
11 | 1.73 | 66.28 | 2.9929 | 114.6644 | 4393.0384 |
12 | 1.75 | 68.10 | 3.0625 | 119.1750 | 4637.6100 |
13 | 1.78 | 69.92 | 3.1684 | 124.4576 | 4888.8064 |
14 | 1.80 | 72.19 | 3.2400 | 129.9420 | 5211.3961 |
15 | 1.83 | 74.46 | 3.3489 | 136.2618 | 5544.2916 |
24.76 | 931.17 | 41.0532 | 1548.2453 | 58498.5439 |
Hay n = 15 puntos en este conjunto de datos. Los cálculos manuales se iniciarían encontrando las siguientes cinco sumas:
Estas cantidades se utilizarían para calcular las estimaciones de los coeficientes de regresión y sus errores estándar.
El cuantil 0,975 de la distribución t de Student con 13 grados de libertad es t 13 = 2,1604 y, por lo tanto, los intervalos de confianza del 95 % para α y β son
El coeficiente de correlación producto-momento también podría calcularse:
Contenido relacionado
Gilbertville, Iowa
348
Demografía del Sáhara Occidental