Regresión lineal simple

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En estadística, la regresión lineal simple es un modelo de regresión lineal con una sola variable explicativa. Es decir, se refiere a puntos de muestra bidimensionales con una variable independiente y una variable dependiente (convencionalmente, las coordenadas x e y en un sistema de coordenadas cartesianas) y encuentra una función lineal (una línea recta no vertical) que, con tanta precisión como posible, predice los valores de la variable dependiente en función de la variable independiente. El adjetivo simple se refiere al hecho de que la variable de resultado está relacionada con un solo predictor.

Es común hacer la estipulación adicional de que se debe usar el método de mínimos cuadrados ordinarios (MCO): la precisión de cada valor pronosticado se mide por su residual al cuadrado(distancia vertical entre el punto del conjunto de datos y la línea ajustada), y el objetivo es hacer que la suma de estas desviaciones al cuadrado sea lo más pequeña posible. Otros métodos de regresión que se pueden usar en lugar de los mínimos cuadrados ordinarios incluyen las desviaciones mínimas absolutas (que minimizan la suma de los valores absolutos de los residuos) y el estimador de Theil-Sen (que elige una línea cuya pendiente es la mediana de las pendientes determinadas por pares de puntos de muestra). La regresión de Deming (mínimos cuadrados totales) también encuentra una línea que se ajusta a un conjunto de puntos de muestra bidimensionales, pero (a diferencia de los mínimos cuadrados ordinarios, las desviaciones mínimas absolutas y la regresión de pendiente media) no es realmente una instancia de regresión lineal simple, porque no separa las coordenadas en una variable dependiente y otra independiente y podría devolver potencialmente una línea vertical como su ajuste.

El resto del artículo asume una regresión de mínimos cuadrados ordinarios. En este caso, la pendiente de la línea ajustada es igual a la correlación entre y y x corregida por el cociente de las desviaciones estándar de estas variables. La intersección de la línea ajustada es tal que la línea pasa por el centro de masa (x, y) de los puntos de datos.

Ajuste de la línea de regresión

Considere la función modelo $y=alfa +beta x,$

que describe una línea con pendiente β y intersección con el eje y α. En general, tal relación puede no ser válida exactamente para la población de valores de las variables independientes y dependientes, en gran parte no observada; llamamos errores a las desviaciones no observadas de la ecuación anterior. Supongamos que observamos n pares de datos y los llamamos {(x _i, y _i), i = 1,..., n }. Podemos describir la relación subyacente entre y _i y x _i que involucra este término de error ε _i por $y_i = alpha + beta x_i + varepsilon_i.$

Esta relación entre los parámetros subyacentes verdaderos (pero no observados) α y β y los puntos de datos se denomina modelo de regresión lineal.

El objetivo es encontrar valores estimados ${displaystyle {widehat {alfa}}}$ y ${displaystyle {widehat {beta}}}$ para los parámetros α y β que proporcionen el "mejor" ajuste en algún sentido para los puntos de datos. Como se mencionó en la introducción, en este artículo el "mejor" ajuste se entenderá como en el enfoque de mínimos cuadrados: una línea que minimiza la suma de los cuadrados de los residuos (ver también Errores y residuos) ${displaystyle {widehat {varepsilon}}_{i}}$ (diferencias entre los valores reales y predichos de la variable dependiente y), cada una de las cuales viene dada por, para cualquier valor de parámetro candidato $alfa$ y $beta$ , ${displaystyle {widehat {varepsilon}}_{i}=y_{i}-alpha -beta x_{i}.}$

En otras palabras, ${displaystyle {widehat {alfa}}}$ y ${displaystyle {widehat {beta}}}$ resolver el siguiente problema de minimización: ${displaystyle {text{Buscar}}min _{alpha,,beta }Q(alpha,beta),quad {text{for }}Q(alpha,beta)= sum_{i=1}^{n}{widehat {varepsilon}}_{i}^{,2}=sum_{i=1}^{n}(y_{i}-alpha -beta x_{i})^{2}.}$

Al expandir para obtener una expresión cuadrática en $alfa$ y $beta,$ podemos derivar valores de $alfa$ y $beta$ que minimizan la función objetivo Q (estos valores minimizadores se denotan ${displaystyle {widehat {alfa}}}$ y ${displaystyle {widehat {beta}}}$ ): ${textstyle {begin{alineado}{widehat {alpha }}&={bar {y}}-({widehat {beta }},{bar {x}}),\[ 5pt]{widehat {beta }}&={frac {sum _{i=1}^{n}(x_{i}-{bar {x}})(y_{i}-{ barra {y}})}{sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}}}\[6pt]&={frac {s_{x,y}}{s_{x}^{2}}}\[5pt]&=r_{xy}{frac {s_{y}}{s_{x}}}.\[ 6pt]end{alineado}}}$

Aquí hemos presentado

${ barra {x}}$ y ${bar {y}}$ como el promedio de x _i y y _i, respectivamente
r _xy como el coeficiente de correlación muestral entre x e y
s _x y s _y como las desviaciones estándar muestrales no corregidas de x e y
${displaystyle s_{x}^{2}}$ y ${ estilo de visualización s_ {x, y}}$ como la varianza muestral y la covarianza muestral, respectivamente

Sustituyendo las expresiones anteriores por ${displaystyle {widehat {alfa}}}$ y ${displaystyle {widehat {beta}}}$ en ${displaystyle f={widehat {alpha }}+{widehat {beta }}x,}$

rendimientos ${displaystyle {frac {f-{bar {y}}}{s_{y}}}=r_{xy}{frac {x-{bar {x}}}{s_{x}}}.}$

Esto muestra que r _xy es la pendiente de la línea de regresión de los puntos de datos estandarizados (y que esta línea pasa por el origen). Desde ${displaystyle -1leq r_{xy}leq 1}$ entonces, obtenemos que si x es una medida e y es una medida de seguimiento del mismo elemento, entonces esperamos que y (en promedio) esté más cerca de la medida media que del valor original de x. Este fenómeno se conoce como regresiones hacia la media.

Generalizando la ${ barra {x}}$ notación, podemos escribir una barra horizontal sobre una expresión para indicar el valor promedio de esa expresión sobre el conjunto de muestras. Por ejemplo: ${displaystyle {overline {xy}}={frac {1}{n}}sum _{i=1}^{n}x_{i}y_{i}.}$

Esta notación nos permite una fórmula concisa para r _xy: ${displaystyle r_{xy}={frac {{overline {xy}}-{bar {x}}{bar {y}}}{sqrt {left({overline {x^{2 }}}-{bar {x}}^{2}right)left({overline {y^{2}}}-{bar {y}}^{2}right)}}}.}$

El coeficiente de determinación ("R cuadrado") es igual a $r_{xy}^2$ cuando el modelo es lineal con una sola variable independiente. Consulte el coeficiente de correlación de muestra para obtener detalles adicionales.

Intuición sobre la pendiente

Multiplicando todos los miembros de la suma en el numerador por: ${displaystyle {begin{alineado}{frac {(x_{i}-{bar {x}})}{(x_{i}-{bar {x}})}}=1end{ alineado}}}$ (sin cambiarlo): ${displaystyle {begin{alineado}{widehat {beta }}&={frac {sum _{i=1}^{n}(x_{i}-{bar {x}})(y_{i}-{bar {y}})}{sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}}}={ fracción {sum_{i=1}^{n}(x_{i}-{bar {x}})^{2}{frac {(y_{i}-{bar {y}}) }{(x_{i}-{bar {x}})}}}{sum _{i=1}^{n}(x_{i}-{bar {x}})^{2} }}=sum_{i=1}^{n}{frac {(x_{i}-{bar {x}})^{2}}{sum_{i=1}^{n }(x_{i}-{bar {x}})^{2}}}{frac {(y_{i}-{bar {y}})}{(x_{i}-{bar {x}})}}\[6pt]end{alineado}}}$

Podemos ver que la pendiente (tangente del ángulo) de la línea de regresión es el promedio ponderado de ${displaystyle {frac {(y_{i}-{bar {y}})}{(x_{i}-{bar {x}})}}}$ esa es la pendiente (tangente del ángulo) de la línea que conecta el i-ésimo punto con el promedio de todos los puntos, ponderada por ${displaystyle (x_{i}-{bar{x}})^{2}}$ porque el cuanto más "importante" sea el punto, ya que pequeños errores en su posición afectarán más a la pendiente que lo conecta con el punto central.

Intuición sobre el intercepto

${displaystyle {begin{alineado}{widehat {alpha }}&={bar {y}}-{widehat {beta }},{bar {x}},\[5pt] end{alineado}}}$

Dado el ángulo que forma la recta ${displaystyle {widehat {beta }}=tan(theta)=dy/dxrightarrow dy=dx*{widehat {beta }}}$ con $theta$ el eje x positivo, tenemos ${displaystyle y_{rm {intersección}}={bar {y}}-dx*{widehat {beta }}={bar {y}}-dy}$

Intuición sobre la correlación

En la formulación anterior, observe que cada uno $x_{yo}$ es un valor constante ("conocido por adelantado"), mientras que $y_{yo}$ son variables aleatorias que dependen de la función lineal de $x_{yo}$ y del término aleatorio $varepsilon _{i}$ . Esta suposición se usa cuando se deriva el error estándar de la pendiente y se muestra que no está sesgada.

En este marco, cuando $x_{yo}$ en realidad no es una variable aleatoria, ¿qué tipo de parámetro $r_{xy}$ estima la correlación empírica? El tema es que para cada valor i tendremos: ${displaystyle E(x_{i})=x_{i}}$ y ${displaystyle Var(x_{i})=0}$ . Una posible interpretación de $r_{xy}$ es imaginar que $x_{yo}$ define una variable aleatoria extraída de la distribución empírica de los valores de x en nuestra muestra. Por ejemplo, si x tuviera 10 valores de los números naturales: [1,2,3...,10], entonces podemos imaginar que x es una distribución uniforme discreta. Bajo esta interpretación todos $x_{yo}$ tienen la misma expectativa y alguna variación positiva. Con esta interpretación podemos pensar en $r_{xy}$ él como el estimador de la correlación de Pearson entre la variable aleatoria y y la variable aleatoria x (tal como la acabamos de definir).

Regresión lineal simple sin término de intersección (regresor único)

A veces es apropiado forzar que la línea de regresión pase por el origen, porque se supone que x e y son proporcionales. Para el modelo sin el término de intersección, y = βx, el estimador MCO para β se simplifica a ${displaystyle {widehat {beta }}={frac {sum_{i=1}^{n}x_{i}y_{i}}{sum_{i=1}^{n} x_{i}^{2}}}={frac {overline {xy}}{overline {x^{2}}}}}$

Sustituyendo (x − h, y − k) en lugar de (x, y) se obtiene la regresión a través de (h, k): ${displaystyle {begin{alineado}{widehat {beta }}&={frac {sum _{i=1}^{n}(x_{i}-h)(y_{i}-k)}{sum _{i=1}^{n}(x_{i}-h)^{2}}}={frac {overline {(xh)(yk)}}{overline {(xh)^{2}}}}\[6pt]&={frac {{overline {xy}}-k{bar {x}}-h{bar {y}}+hk}{{ overline {x^{2}}}-2h{bar {x}}+h^{2}}}\[6pt]&={frac {{overline {xy}}-{bar { x}}{bar {y}}+({bar {x}}-h)({bar {y}}-k)}{{overline {x^{2}}}-{bar {x}}^{2}+({bar {x}}-h)^{2}}}\[6pt]&={frac {operatorname {Cov} (x,y)+({ bar {x}}-h)({bar {y}}-k)}{nombre del operador {Var} (x)+({bar {x}}-h)^{2}}}, fin{alineado}}}$

donde Cov y Var se refieren a la covarianza y la varianza de los datos de la muestra (sin corregir por sesgo).

El último formulario anterior demuestra cómo el hecho de alejar la línea del centro de masa de los puntos de datos afecta la pendiente.

Propiedades numéricas

La línea de regresión pasa por el punto del centro de masa ${ estilo de visualización ({ barra {x}}, , { barra {y}})}$ , si el modelo incluye un término de intersección (es decir, no forzado por el origen).
La suma de los residuos es cero si el modelo incluye un término de intersección: ${displaystyle sum_{i=1}^{n}{widehat {varepsilon}}_{i}=0.}$
Los residuos y los valores de x no están correlacionados (ya sea que haya o no un término de intersección en el modelo), lo que significa que: ${displaystyle sum _{i=1}^{n}x_{i}{widehat {varepsilon}}_{i};=;0}$
La relación entre ${ estilo de visualización rho _ {xy}}$ (el coeficiente de correlación para la población) y las varianzas poblacionales de $y$ ( $sigma _{y}^{2}$ ) y el término de error de $epsilon$ ( $sigma _{epsilon}^{2}$ ) es: ${displaystyle sigma_{epsilon}^{2}=(1-rho_{xy}^{2})sigma_{y}^{2}}$ Para los valores extremos de ${ estilo de visualización rho _ {xy}}$ esto es evidente. Desde cuando ${ estilo de visualización rho _ {xy} = 0}$ entonces ${displaystyle sigma_{epsilon}^{2}=sigma_{y}^{2}}$ . Y cuando ${ estilo de visualización rho _ {xy} = 1}$ entonces ${ estilo de visualización sigma _ { épsilon} ^ {2} = 0}$ .

Propiedades basadas en modelos

La descripción de las propiedades estadísticas de los estimadores de las estimaciones de regresión lineal simple requiere el uso de un modelo estadístico. Lo siguiente se basa en asumir la validez de un modelo bajo el cual las estimaciones son óptimas. También es posible evaluar las propiedades bajo otros supuestos, como la falta de homogeneidad, pero esto se analiza en otra parte.

Imparcialidad

Los estimadores ${displaystyle {widehat {alfa}}}$ y ${displaystyle {widehat {beta}}}$ son insesgados.

Para formalizar esta afirmación debemos definir un marco en el que estos estimadores sean variables aleatorias. Consideramos los residuos ε _i como variables aleatorias extraídas independientemente de alguna distribución con media cero. En otras palabras, para cada valor de x, el valor correspondiente de y se genera como una respuesta media α + βx más una variable aleatoria adicional ε llamada término de error, igual a cero en promedio. Bajo tal interpretación, los estimadores de mínimos cuadrados ${displaystyle {widehat {alfa}}}$ y ${displaystyle {widehat {beta}}}$ serán en sí mismos variables aleatorias cuyas medias serán iguales a los "valores verdaderos" α y β. Esta es la definición de un estimador insesgado.

Intervalos de confianza

Las fórmulas dadas en la sección anterior permiten calcular las estimaciones puntuales de α y β, es decir, los coeficientes de la línea de regresión para el conjunto de datos dado. Sin embargo, esas fórmulas no nos dicen cuán precisas son las estimaciones, es decir, cuánto varían los estimadores ${displaystyle {widehat {alfa}}}$ y ${displaystyle {widehat {beta}}}$ de muestra a muestra para el tamaño de muestra especificado. Se diseñaron intervalos de confianza para dar un conjunto plausible de valores a las estimaciones que uno podría tener si repitiera el experimento una gran cantidad de veces.

El método estándar para construir intervalos de confianza para los coeficientes de regresión lineal se basa en el supuesto de normalidad, que se justifica si:

los errores en la regresión se distribuyen normalmente (el llamado supuesto de regresión clásica), o
el número de observaciones n es suficientemente grande, en cuyo caso el estimador tiene una distribución aproximadamente normal.

El último caso está justificado por el teorema del límite central.

Suposición de normalidad

Bajo el primer supuesto anterior, el de la normalidad de los términos de error, el estimador del coeficiente de pendiente se distribuirá normalmente con media β y varianza ${displaystyle sigma ^{2}left/sum (x_{i}-{bar {x}})^{2}right.,}$ donde σ es la varianza de los términos de error (ver Pruebas que involucran mínimos cuadrados ordinarios). Al mismo tiempo, la suma de los cuadrados de los residuos Q se distribuye proporcionalmente a χ con n − 2 grados de libertad, e independientemente de ${displaystyle {widehat {beta}}}$ . Esto nos permite construir un valor t ${displaystyle t={frac {{widehat {beta }}-beta }{s_{widehat {beta }}}} sim t_{n-2},}$

dónde ${displaystyle s_{widehat {beta }}={sqrt {frac {{frac {1}{n-2}}sum _{i=1}^{n}{widehat {varepsilon }}_{i}^{,2}}{sum _{i=1}^{n}(x_{i}-{bar {x}})^{2}}}}}$

es el error estándar del estimador ${displaystyle {widehat {beta}}}$ .

Este valor t tiene una distribución t de Student con n − 2 grados de libertad. Utilizándolo podemos construir un intervalo de confianza para β: ${displaystyle beta in left[{widehat {beta }}-s_{widehat {beta }}t_{n-2}^{*}, {widehat {beta }}+s_ { sombrero ancho { beta }} t_ {n-2} ^ {*} derecho],}$

en el nivel de confianza (1 − γ), donde ${displaystyle t_{n-2}^{*}}$ es el ${displaystyle scriptstyle left(1;-;{frac {gamma }{2}}right){text{-th}}}$ cuantil de la distribución t _{n −2.}Por ejemplo, si γ = 0,05, el nivel de confianza es del 95 %.

De manera similar, el intervalo de confianza para el coeficiente de intersección α está dado por ${displaystyle alpha in left[{widehat {alpha }}-s_{widehat {alpha }}t_{n-2}^{*}, {widehat {alpha }}+s_ { sombrero ancho { alfa}} t_ {n-2}^{*} derecho],}$

al nivel de confianza (1 − γ), donde ${displaystyle s_{widehat {alpha }}=s_{widehat {beta }}{sqrt {{frac {1}{n}}sum _{i=1}^{n}x_{ i}^{2}}}={sqrt {{frac {1}{n(n-2)}}left(sum _{i=1}^{n}{widehat {varepsilon} }_{i}^{,2}right){frac {sum _{i=1}^{n}x_{i}^{2}}{sum _{i=1}^{ n}(x_{i}-{bar {x}})^{2}}}}}}$

Los intervalos de confianza para α y β nos dan una idea general de dónde es más probable que estén estos coeficientes de regresión. Por ejemplo, en la regresión de la ley de Okun que se muestra aquí, las estimaciones puntuales son ${displaystyle {widehat {alpha }}=0.859,qquad {widehat {beta }}=-1.817.}$

Los intervalos de confianza del 95% para estas estimaciones son ${displaystyle alpha in left[,0.76,0.96right],qquad beta in left[-2.06,-1.58,right]}$

Para representar esta información gráficamente, en forma de bandas de confianza alrededor de la línea de regresión, se debe proceder con cuidado y tener en cuenta la distribución conjunta de los estimadores. Se puede demostrar que al nivel de confianza (1 − γ) la banda de confianza tiene forma hiperbólica dada por la ecuación ${displaystyle (alpha +beta xi)in left[,{widehat {alpha }}+{widehat {beta }}xi pm t_{n-2}^{*} {sqrt {left({frac {1}{n-2}}sum {widehat {varepsilon}}_{i}^{,2}right)cdot left({frac {1}{n}}+{frac {(xi -{bar {x}})^{2}}{sum (x_{i}-{bar {x}})^{2} }}bien bien].}$

Cuando el modelo asumió que la intersección es fija e igual a 0 ( $alfa = 0$ ), el error estándar de la pendiente se convierte en: ${displaystyle s_{widehat {beta }}={sqrt {{frac {1}{n-1}}{frac {sum_{i=1}^{n}{widehat { varepsilon }}_{i}^{,2}}{sum _{i=1}^{n}x_{i}^{2}}}}}}$

Con: ${displaystyle {sombrero {varepsilon}}_{i}=y_{i}-{sombrero {y}}_{i}}$

Asunción asintótica

La segunda suposición alternativa establece que cuando el número de puntos en el conjunto de datos es "suficientemente grande", la ley de los grandes números y el teorema del límite central se vuelven aplicables, y luego la distribución de los estimadores es aproximadamente normal. Bajo este supuesto, todas las fórmulas derivadas en la sección anterior siguen siendo válidas, con la única excepción de que el cuantil t* _{n −2 de la distribución}t de Student se reemplaza por el cuantil q* de la distribución normal estándar. De vez en cuando la fracción1/n -2se reemplaza con1/norte. Cuando n es grande, dicho cambio no altera apreciablemente los resultados.

Ejemplo numérico

Este conjunto de datos proporciona masas promedio para las mujeres en función de su altura en una muestra de mujeres estadounidenses de 30 a 39 años. Aunque el artículo de OLS argumenta que sería más apropiado ejecutar una regresión cuadrática para estos datos, aquí se aplica el modelo de regresión lineal simple.

Altura (m), x _i	1.47	1.50	1.52	1.55	1.57	1.60	1.63	1.65	1.68	1.70	1.73	1.75	1.78	1.80	1.83
Masa (kg), y _yo	52.21	53.12	54.48	55.84	57.20	58.57	59.93	61.29	63.11	64.47	66.28	68.10	69.92	72.19	74.46

$i$	$x_{yo}$	$y_{yo}$	${displaystyle x_{i}^{2}}$	${ estilo de visualización x_ {i} y_ {i}}$	${displaystyle y_{i}^{2}}$
1	1.47	52.21	2.1609	76.7487	2725.8841
2	1.50	53.12	2.2500	79.6800	2821.7344
3	1.52	54.48	2.3104	82.8096	2968.0704
4	1.55	55.84	2.4025	86.5520	3118.1056
5	1.57	57.20	2.4649	89.8040	3271.8400
6	1.60	58.57	2.5600	93.7120	3430.4449
7	1.63	59.93	2.6569	97.6859	3591.6049
8	1.65	61.29	2.7225	101.1285	3756.4641
9	1.68	63.11	2.8224	106.0248	3982.8721
10	1.70	64.47	2.8900	109.5990	4156.3809
11	1.73	66.28	2.9929	114.6644	4393.0384
12	1.75	68.10	3.0625	119.1750	4637.6100
13	1.78	69.92	3.1684	124.4576	4888.8064
14	1.80	72.19	3.2400	129.9420	5211.3961
15	1.83	74.46	3.3489	136.2618	5544.2916
$Sigma$	24.76	931.17	41.0532	1548.2453	58498.5439

Hay n = 15 puntos en este conjunto de datos. Los cálculos manuales se iniciarían encontrando las siguientes cinco sumas: ${displaystyle {begin{alineado}S_{x}&=sum x_{i},=24,76,qquad S_{y}=sum y_{i},=931,17,\[5pt]S_ {xx}&=sum x_{i}^{2}=41,0532,;;,S_{yy}=sum y_{i}^{2}=58498,5439,\[5pt]S_{xy }&=sum x_{i}y_{i}=1548.2453end{alineado}}}$

Estas cantidades se utilizarían para calcular las estimaciones de los coeficientes de regresión y sus errores estándar. ${displaystyle {begin{alineado}{widehat {beta }}&={frac {nS_{xy}-S_{x}S_{y}}{nS_{xx}-S_{x}^{2 }}}=61.272\[8pt]{widehat {alpha }}&={frac {1}{n}}S_{y}-{widehat {beta }}{frac {1}{ n}}S_{x}=-39.062\[8pt]s_{varepsilon }^{2}&={frac {1}{n(n-2)}}left[nS_{yy}-S_ {y}^{2}-{widehat {beta }}^{2}(nS_{xx}-S_{x}^{2})right]=0.5762\[8pt]s_{widehat { beta }}^{2}&={frac {ns_{varepsilon }^{2}}{nS_{xx}-S_{x}^{2}}}=3,1539\[8pt]s_{ widehat {alpha }}^{2}&=s_{widehat {beta }}^{2}{frac {1}{n}}S_{xx}=8.63185end{aligned}}}$

El cuantil 0,975 de la distribución t de Student con 13 grados de libertad es t ₁₃ = 2,1604 y, por lo tanto, los intervalos de confianza del 95 % para α y β son ${displaystyle {begin{alineado}&alpha in [,{widehat {alpha }}mp t_{13}^{*}s_{alpha },]=[,{-45.4 }, {-32.7},]\[5pt]&beta in [,{widehat {beta }}mp t_{13}^{*}s_{beta },]= [,57.4, 65.1,]end{alineado}}}$

El coeficiente de correlación producto-momento también podría calcularse: ${displaystyle {widehat {r}}={frac {nS_{xy}-S_{x}S_{y}}{sqrt {(nS_{xx}-S_{x}^{2})(nS_ {yy}-S_{y}^{2})}}}=0,9946}$

Contenido relacionado

Más resultados...