Suma de cuadrados explicada
En estadística, la suma de cuadrados explicada (ESS), también conocida como suma de cuadrados modelo o suma de cuadrados debido a la regresión (SSR – no debe confundirse con la suma de cuadrados residual (RSS) o suma de cuadrados de errores), es una cantidad utilizada para describir qué tan bien funciona un modelo, A menudo un modelo de regresión, representa los datos que se están modelando. En particular, la suma de cuadrados explicada mide cuánta variación hay en los valores modelados y esto se compara con la suma total de cuadrados (TSS), que mide cuánta variación hay en los datos observados, y con la suma residual de cuadrados, que mide la variación en el error entre los datos observados y los valores modelados.
Definición
La suma de cuadrados explicada (ESS) es la suma de los cuadrados de las desviaciones de los valores predichos del valor medio de una variable de respuesta, en un modelo de regresión estándar, por ejemplo, yi = a + b1x1i + b2x2i +... + εi, donde yi es la i ésima observación de la variable de respuesta, xji es la i ésima observación del j La variable explicativa, a y bj son coeficientes, i indexa las observaciones de 1 a n, y εi es el i ésimo valor del término de error. En general, cuanto mayor es la ESS, mejor se comporta el modelo estimado.
Si a^ ^ {displaystyle {hat {a}}} y b^ ^ i{displaystyle {hat} {B}_{i} son los coeficientes estimados, entonces
- Sí.^ ^ i=a^ ^ +b^ ^ 1x1i+b^ ^ 2x2i+⋯ ⋯ {displaystyle {hat {fnh} {fnh} {fnh} {fnh}} {fnfn} {fnfn}fnfnfnfnfnfnfnfnfnh}fnfnfnfnh}fnfnfnh}}}fnfnfnfnfnfnfnfnfnfnfnfnfnfnh}}}}}}}}}}fnfnfnfn\fnfnfnfnfnfnfnfnfnfnfnfnfnfnfn}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {a}+{hat {b}_{1}x_{1i}+{hat {b}_{2}x_{2i}+cdots ,}
es el i ésimo valor predicho de la variable de respuesta. La ESS es entonces:
- ESS=. . i=1n()Sí.^ ^ i− − Sí.̄ ̄ )2.{displaystyle {text{ESS}=sum} ¿Qué? {y}_{i}-{} {y}}} {2}}
- Donde Sí.^ ^ i{displaystyle {hat {y}_{i}} es el valor estimado por la línea de regresión.
En algunos casos (ver más abajo): suma de cuadrados total (TSS) = suma de cuadrados explicada (ESS) + suma de cuadrados residual (RSS).
Partición en regresión lineal simple
La siguiente igualdad, que establece que la suma total de cuadrados (TSS) es igual a la suma de cuadrados residual (=SSE: la suma de los errores de predicción al cuadrado) más la suma de cuadrados explicada (SSR: la suma de cuadrados debida a regresión o suma de cuadrados explicada), generalmente es cierta en regresión lineal simple:
- . . i=1n()Sí.i− − Sí.̄ ̄ )2=. . i=1n()Sí.i− − Sí.^ ^ i)2+. . i=1n()Sí.^ ^ i− − Sí.̄ ̄ )2.{displaystyle sum ¿Qué? {y}right)}{2}=sum ¿Por qué? {y}_{i}right)}{2}+sum ¿Qué? {y}_{i}-{} {y}}} {2}}
Derivación simple
- ()Sí.i− − Sí.̄ ̄ )=()Sí.i− − Sí.^ ^ i)+()Sí.^ ^ i− − Sí.̄ ̄ ).{displaystyle {begin{aligned}(y_{i}-{bar {y})=(y_{i}-{hat {y}_{i})+({hat} {y}_{i}-{bar {y}}end{aligned}}
Eleva al cuadrado ambos lados y suma todo i:
- . . i=1n()Sí.i− − Sí.̄ ̄ )2=. . i=1n()Sí.i− − Sí.^ ^ i)2+. . i=1n()Sí.^ ^ i− − Sí.̄ ̄ )2+. . i=1n2()Sí.^ ^ i− − Sí.̄ ̄ )()Sí.i− − Sí.^ ^ i).{displaystyle sum _{i=1} {y_{i}-{y}}^{2}=sum ¿Qué? {y}_{i}}{2}+sum ¿Qué? {y}_{i}-{bar {y}}{2}+sum ¿Qué? {y}_{i}-{y}) (y_{i}-{y}_ {i}}}}}
Así es como el último término anterior es cero a partir de una regresión lineal simple
- Sí.i^ ^ =a^ ^ +b^ ^ xi{displaystyle {hat {fnh}}={hat} {fnK}}} {fnf}} {fn}}} {fnfnf}}}} {fnfnfnfnf}}}}} {fnfnfnfnKf}}}}}}}}}}}}}}} { {a}+{hat {b}x_{i}
- Sí.̄ ̄ =a^ ^ +b^ ^ x̄ ̄ {displaystyle {bar {}={hat {hat} {f} {f} {f}}} {f}}}} {f}}}} {f}}} {f}}}}} {f}}}}}}}} {f}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {
- b^ ^ =. . i=1n()xi− − x̄ ̄ )()Sí.i− − Sí.̄ ̄ ). . i=1n()xi− − x̄ ̄ )2{displaystyle {hat {fn}={frac {fnMicroc} {fnK} {f}}= {f}fnK}f}fnK} {fnK}f}}fnf} {fnf}f}}fnKfnKf}f}f}f}f}}f}}fnfnfnfnfnfnfnfnKfnfnfnfnKfnfnKfnKfnKf}}fnf}}fnfnKfnKfnKfnKf}fnKf}}fnfnfnfnfnKfnKfnfnKfnfnfnKfnfnh}}}}}}}} ¿Qué? {x})(y_{i}-{bar {y}} {sum}) {fnK}} {fnK}} {f}}}} {fn}} {fnK}}}}} {fnK}}} {f}}} {f}}}}} {f}}}}}}}} {f}}}}}} {f}}}} {f}}}}}}}}} {f}}}}}}}} {f}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f} {f} {f}}}}}}}}}}}} {f}}}} {f}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} { ¿Qué?
Entonces,
- Sí.i^ ^ − − Sí.̄ ̄ =b^ ^ ()xi− − x̄ ̄ ){displaystyle {hat {f}}-{bar} {y}={hat {b}(x_{i}-{bar} {x}}}
- Sí.i− − Sí.^ ^ i=()Sí.i− − Sí.̄ ̄ )− − ()Sí.^ ^ i− − Sí.̄ ̄ )=()Sí.i− − Sí.̄ ̄ )− − b^ ^ ()xi− − x̄ ̄ ){displaystyle Y... {y}_{i}=(y_{i}-{bar {y})-({hat {fn}- {f}- {fn}- {fn})- {fn}- {f}- {f} {f} {fn}- {fn}- {fn}- {fn} {x}}}
Por lo tanto,
- . . i=1n2()Sí.^ ^ i− − Sí.̄ ̄ )()Sí.i− − Sí.^ ^ i)=2b^ ^ . . i=1n()xi− − x̄ ̄ )()Sí.i− − Sí.^ ^ i)=2b^ ^ . . i=1n()xi− − x̄ ̄ )()()Sí.i− − Sí.̄ ̄ )− − b^ ^ ()xi− − x̄ ̄ ))=2b^ ^ (). . i=1n()xi− − x̄ ̄ )()Sí.i− − Sí.̄ ̄ )− − . . i=1n()xi− − x̄ ̄ )2. . j=1n()xj− − x̄ ̄ )()Sí.j− − Sí.̄ ̄ ). . j=1n()xj− − x̄ ̄ )2)=2b^ ^ ()0)=0{displaystyle {begin{aligned} ¿Qué? {y}_{i}-{i})(y_{i}-{hat {y}_{i}=2{hat {b}sum ¿Qué? {x})(y_{i}-{y}_ {i})[4pt]={} {b}}sum} ¿Por qué? ¿Qué? {x})(y_{i}-{bar {y}})-sum _{i=1}{n}(x_{i}-{bar {x}})}{2}{frac {sum _{j=1}{n} {c} {c} {b}-{b}} {b}} {b}}}} {b}}}}}}}} {b} {b} {b} {b} {b}}b}}}}}}}}}}b} {b} {b} {b}}}}b}}}}}}}}b}}}}}b}b} {b} {b} {b}b} {b}b}}b}}}}}}b}b}}ccb}cccccccccb}}}}}}}}}} {x})(y_{j}-{}} {sum _{j=1}{n}(x_{j}-{bar} {x})} {fnK}}}[4pt]={} {} {}=0end{aligned}}}
Partición en el modelo general de mínimos cuadrados ordinarios
El modelo de regresión general con n observaciones y k explicadores, el primero de los cuales es un vector unitario constante cuyo coeficiente es el intercepto de la regresión, es
- Sí.=Xβ β +e{displaystyle y=Xbeta #
Donde Sí. es un n × 1 vector de observaciones variables dependientes, cada columna de la n × k matriz X es un vector de observaciones sobre uno de los k explanadores, β β {displaystyle beta } es un k × 1 vector de verdaderos coeficientes, y e es un n × 1 vector de los verdaderos errores subyacentes. Estimador de los mínimos cuadrados ordinarios β β {displaystyle beta } es
- β β ^ ^ =()XTX)− − 1XTSí..{displaystyle {hat {beta Sí.
El vector residual e^ ^ {displaystyle {hat {e}}} es Sí.− − Xβ β ^ ^ =Sí.− − X()XTX)− − 1XTSí.{displaystyle Y-X{hat {beta Sí., por lo tanto la suma residual de cuadrados e^ ^ Te^ ^ {fnK} {fnK} {fnK}} {fnK}}} {fnK}}} {fn}}}} {fn} {fn}}}}} {fn}}} {fn}}}}}}} {f}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} { después de la simplificación,
- RSS=Sí.TSí.− − Sí.TX()XTX)− − 1XTSí..{displaystyle ¿Qué?
Denote as Sí.̄ ̄ {displaystyle {bar {y}}} el vector constante todos sus elementos son el medio de la muestra Sí.m{displaystyle Y... de los valores variables dependientes en el vector Sí.. Entonces la suma total de cuadrados es
- TSS=()Sí.− − Sí.̄ ̄ )T()Sí.− − Sí.̄ ̄ )=Sí.TSí.− − 2Sí.TSí.̄ ̄ +Sí.̄ ̄ TSí.̄ ̄ .{displaystyle TSS=(y-{y}} {y-{T})=y^{T}y-2y^{T}{T}{b} {b} {y}+{bar {y} {}} {bar {y}}} {fnMicrosoft Sans Serif}
La suma de cuadrados explicada, definida como la suma de las desviaciones al cuadrado de los valores predichos de la media observada de y, es
- ESS=()Sí.^ ^ − − Sí.̄ ̄ )T()Sí.^ ^ − − Sí.̄ ̄ )=Sí.^ ^ TSí.^ ^ − − 2Sí.^ ^ TSí.̄ ̄ +Sí.̄ ̄ TSí.̄ ̄ .{displaystyle ESS=({hat {}-{bar {y}} {f} {f} {f} {f}} {f}}} {f}} {f} {f}} {f}} {f}}} {f}}} {f}}}} {f}}} {f}}}} {f}}} {f}}}}}}}}}}}}}}} {f} {f}} {f} {f}}}}}}} {f}}}}}}}}}}} {f}}}}}}}}}}}}}}} {f}}} {f}}} {f}}}}}}}}}}}}}}}}}}}} {f}}}}}}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}} { {bar {}} {bar}} {bar}} {bar {}}} {fnMicrosoft Sans Serif}
Uso Sí.^ ^ =Xβ β ^ ^ {displaystyle {hat {y}= X{hat {beta } en esto, y simplificando para obtener Sí.^ ^ TSí.^ ^ =Sí.TX()XTX)− − 1XTSí.{displaystyle {hat {fn} {fnh}=y}X(X^{T}X)^{-1}X^{T}y}, da el resultado de que TSS = ESS + RSS si Sí.TSí.̄ ̄ =Sí.^ ^ TSí.̄ ̄ {displaystyle y} {f} {fnh}} {fnh}} {fnh} {fnh}}} {fn}}} {fn}}}} {fn}}} {fn}}}}} {f}}}} {f}}}}} {f}}}}}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}} {f} {f}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f}}} {f} { T} {bar {y}}. El lado izquierdo de esto es Sí.m{displaystyle Y... tiempos la suma de los elementos Sí., y el lado derecho es Sí.m{displaystyle Y... tiempos la suma de los elementos Sí.^ ^ {displaystyle {hat {y}}}, por lo que la condición es que la suma de los elementos Sí. iguala la suma de los elementos Sí.^ ^ {displaystyle {hat {y}}}, o equivalentemente que la suma de los errores de predicción (residuales) Sí.i− − Sí.^ ^ i{displaystyle Y... {y}_{i} es cero. Esto se puede ver como cierto notando la conocida propiedad OLS que k × 1 vector XTe^ ^ =XT[I− − X()XTX)− − 1XT]Sí.=0{displaystyle ¿Qué? ¿Qué?: desde la primera columna de X es un vector de uno, el primer elemento de este vector XTe^ ^ {displaystyle ¿Qué? es la suma de los residuos y es igual a cero. Esto demuestra que la condición tiene para el resultado que TSS = ESS + RSS.
En términos de álgebra lineal, tenemos RSS=. . Sí.− − Sí.^ ^ . . 2{displaystyle RSS=fncipiente-{hat {y}fnK}, TSS=. . Sí.− − Sí.̄ ̄ . . 2{displaystyle TSS=fncipe-{bar {y}fnse}}, ESS=. . Sí.^ ^ − − Sí.̄ ̄ . . 2{displaystyle ESS=fncipes {y}-{bar {y}fli}fncip}. La prueba se puede simplificar notando que Sí.^ ^ TSí.^ ^ =Sí.^ ^ TSí.{fnK} {f} {fnK}}} {fnh}} {f}} {f}} {f}}}}} {fn}}} {f}} {fn}}}}} {f}} {f}} {f}}} {f}}}}}} {f}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} { T}y. La prueba es la siguiente:
- Sí.^ ^ TSí.^ ^ =Sí.TX()XTX)− − 1XTX()XTX)− − 1XTSí.=Sí.TX()XTX)− − 1XTSí.=Sí.^ ^ TSí.,{fnMicrosoft Sans Serif}*
Así,
- TSS=. . Sí.− − Sí.̄ ̄ . . 2=. . Sí.− − Sí.^ ^ +Sí.^ ^ − − Sí.̄ ̄ . . 2=. . Sí.− − Sí.^ ^ . . 2+. . Sí.^ ^ − − Sí.̄ ̄ . . 2+2. . Sí.− − Sí.^ ^ ,Sí.^ ^ − − Sí.̄ ̄ . . =RSS+ESS+2Sí.TSí.^ ^ − − 2Sí.^ ^ TSí.^ ^ − − 2Sí.TSí.̄ ̄ +2Sí.^ ^ TSí.̄ ̄ =RSS+ESS− − 2Sí.TSí.̄ ̄ +2Sí.^ ^ TSí.̄ ̄ {displaystyle {begin{aligned}TSS sensible= impermey-{bar {y}flido {2}=fnMientras {y}+{hat {y}-{bar} {y}flido {2}\\fnK}fnunciofnH00}fnuncio\fn\cH00}\\\fnK}fn\\fn\\fn\\fnH00\\fnK\\fnK\\\\\fnhnH00\\\\\\\\\\fnH00fnHH00\\fnH00\\\\\fnH00\\\\\\\\\\\fnK\\\\fnK\\\\fnH00\\fnH00\\fnH00\\\fn\\fn\\\fnKh {y}fnK}fnh}fnh}- {fnh}- {fnh} {fn}f} {f} {f} {f}f} {f}}rangle \\fn}m}cH} {f} {f} {f}} {f} {f}} {f} {f}} {f}} {f} {f}}}} {f}}}}} {f}}}}}}}}}}}}}}} {f}}}}}}}}}}} {f}}}}}}}}}}}}}} {f}}}}}}}}}}}}}}}} {f}}}}}} {f} {}}}}}}}}}}} {}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {y}\\\fn}\\fn}\\fn}\\\\\cH00}\fn}\\\\\\\fn}\\\\\\cH}\\\\cH}\\\\\\\\cH}\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\cH}\\\\\\\\\\\\\\cH {y}+2{hat {y} {y} {y}} {f}} {f}} {f}}} {f}} {f}}}} {f}}}} {f}}}}}}}} {f}}}} {f}}}}}} {f}}}}}}}}}}}}}}} { T} {bar {y}end{aligned}}
que de nuevo da el resultado TSS = ESS + RSS, desde ()Sí.− − Sí.^ ^ )TSí.̄ ̄ =0{displaystyle (y-{hat {}} {f} {f}}=0}.