Coeficiente de determinación

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Indicador para qué puntos de datos encajan bien en una línea o curva
La regresión ordinaria de la ley de Okun. Puesto que la línea de regresión no pierde ninguno de los puntos por mucho, la R2 de la regresión es relativamente alta.
Comparación del estimador Theil-Sen (negro) y simple regresión lineal (azul) para un conjunto de puntos con puntos más destacados. Debido a los muchos outliers, ninguna de las líneas de regresión encaja bien con los datos, como se mide por el hecho de que ninguno da un muy alto R2.

En estadística, el coeficiente de determinación, denotado R2 o r2 y pronunciado "R cuadrado", es la proporción de la variación en la variable dependiente que es predecible a partir de la(s) variable(s) independiente(s).

Es una estadística utilizada en el contexto de modelos estadísticos cuyo objetivo principal es la predicción de resultados futuros o la prueba de hipótesis, sobre la base de otra información relacionada. Proporciona una medida de qué tan bien el modelo replica los resultados observados, en función de la proporción de la variación total de los resultados explicada por el modelo.

Hay varias definiciones de R2 que sólo a veces son equivalentes. Una clase de tales casos incluye la de regresión lineal simple donde se usa r2 en lugar de R2. Cuando solo se incluye una intersección, entonces r2 es simplemente el cuadrado del coeficiente de correlación muestral (es decir, r) entre los resultados observados y los valores predictores observados. Si se incluyen regresores adicionales, R2 es el cuadrado del coeficiente de correlación múltiple. En ambos casos, el coeficiente de determinación normalmente oscila entre 0 y 1.

Hay casos en los que R2 puede producir valores negativos. Esto puede surgir cuando las predicciones que se comparan con los resultados correspondientes no se han derivado de un procedimiento de ajuste de modelos utilizando esos datos. Incluso si se ha utilizado un procedimiento de ajuste del modelo, R2 puede seguir siendo negativo, por ejemplo, cuando se realiza una regresión lineal sin incluir una intercepción, o cuando se realiza una regresión no lineal. La función se utiliza para ajustar los datos. En los casos en que surgen valores negativos, la media de los datos proporciona un mejor ajuste a los resultados que los valores de la función ajustada, de acuerdo con este criterio particular.

El coeficiente de determinación puede ser más (intuitivamente) informativo que MAE, MAPE, MSE y RMSE en la evaluación del análisis de regresión, ya que el primero se puede expresar como un porcentaje, mientras que las últimas medidas tienen rangos arbitrarios. También demostró ser más sólido para ajustes deficientes en comparación con SMAPE en los conjuntos de datos de prueba del artículo.

Al evaluar la bondad de ajuste de los objetos simulados (Ypred) frente a los medidos (Yobs) valores, no es apropiado basar esto en el R2 de la regresión lineal (es decir, Yobs= m·Ypred + b). El R2 cuantifica el grado de cualquier correlación lineal entre Yobs y Y pred, mientras que para la evaluación de bondad de ajuste sólo se debe tener en cuenta una correlación lineal específica: Yobs = 1·Ypred + 0 (es decir, la línea 1:1).

Definiciones

R2=1− − SSresSSTot{displaystyle ¿Qué? {} {fn}} {fnK}}} {fn}}}} {f}}}}} {f}}}}} {f}}}}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}} {f} {f}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}
Cuanto mejor sea la regresión lineal (a la derecha) se ajuste a los datos en comparación con el promedio simple (en el gráfico izquierdo), más cerca el valor de R2{displaystyle R^{2} es a 1. Las áreas de los cuadrados azules representan los residuos cuadrados con respecto a la regresión lineal. Las áreas de los cuadrados rojos representan los residuos cuadrados con respecto al valor promedio.

Un conjunto de datos n valores marcados Sí.1,...Sí.n (conocida colectivamente como Sí.i o como vector Sí. =Sí.1,...Sí.n]T), cada uno asociado con un valor ajustado (o modelado, o predicho) f1,...fn (conocido como fi, o a veces .i, como vector f).

Defina los residuos como ei = yi fi (formando un vector e).

Si Sí.̄ ̄ {displaystyle {bar {y}}} es la media de los datos observados:

Sí.̄ ̄ =1n. . i=1nSí.i{displaystyle {bar {}={frac}{n}sum} {fn}} {fn} {fn}} {fn}} {fn}}} {fn} {fn}}} {fn}}}} {fn}}}}}}}} {fn}}} {fn}}}}}}}}}}}}}}}}}}}} {f}} {f}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {f} {f}}}} {f}}}} {f}}}}} {f}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} ¿Qué?

  • La suma de cuadrados de residuos, también llamada la suma residual de cuadrados:
    SSres=. . i()Sí.i− − fi)2=. . iei2{displaystyle SS_{text{res}=sum ¿Por qué? ¿Qué?
  • La suma total de plazas (proporcional a la diferencia de datos):
    SSTot=. . i()Sí.i− − Sí.̄ ̄ )2{displaystyle SS_{text{tot}=sum - Sí.

La definición más general del coeficiente de determinación es

R2=1− − SSresSStot{displaystyle R^{2}=1-{SS_{rm {res} over SS_{rm {tot}}}

En el mejor caso, los valores modelados coinciden exactamente con los valores observados, que resulta en SSres=0{displaystyle SS. y R2=1{displaystyle R^{2}=1}. Un modelo de referencia, que siempre predice Sí.̄ ̄ {displaystyle {bar {y}}}, habrá R2=0{displaystyle ¿Qué?. Modelos que tienen peores predicciones que esta base de referencia tendrá un negativo R2{displaystyle R^{2}.

Relación con la variación inexplicable

En forma general, R2 se puede ver relacionado con la fracción de varianza no explicada (FVU), ya que el segundo término compara la varianza no explicada (variancia de los errores del modelo) con la varianza total (de los datos):

R2=1− − FVU{displaystyle R^{2}=1-{text{FVU}

Como se explica la variación

Cuanto mayor sea el valor de R2 implica un modelo de regresión más exitoso. Supongamos que R2 = 0,49. Esto implica que se ha contabilizado el 49% de la variabilidad de la variable dependiente en el conjunto de datos y el 51% restante de la variabilidad aún no se ha contabilizado. Para los modelos de regresión, la suma de cuadrados de la regresión, también llamada suma de cuadrados explicada, se define como

SSreg=. . i()fi− − Sí.̄ ̄ )2{displaystyle SS_{text{reg}=sum ¿Qué?

En algunos casos, como en simple regresión lineal, la suma total de plazas equivale a la suma de las otras dos sumas de cuadrados definidas anteriormente:

SSres+SSreg=SSTot{displaystyle SS_{text{res}+SS_{text{reg}=SS_{text{tot}}

Consulte Partición en el modelo OLS general para obtener una derivación de este resultado para un caso en el que se cumple la relación. Cuando esta relación se cumple, la definición anterior de R2 es equivalente a

R2=SSregSSTot=SSreg/nSSTot/n{displaystyle R^{2}={frac {fnK} {fnK}} {fnK}}}= {fnK}} {f}} {f}} {f}}}}} {f}}}}}} {fnK}}} {f}}}} {f}} {f}}}}} {f}}}}} {f}}}}}}}}}}}}}}}}}}}}}}} {f} {f}}}}}} {f} {f}}}}}} {f} {f} {f}}}}}}}}}} {f}}}}}}}} {f} {f} {f}} {f}}}} {f}}}} {f}}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {fn} {fn} {fn} {fn}}/n}}} {fn}} {fn}}} {fn}}} {fn}} {fn} {fn}} {fn}}}} {fn}}} {\fn} {fn}}}}}} {\\\f}}}}}}}}}}}}}} {\\\\\\\\\\\\\\\\\\\\\\\\\\\f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

donde n es el número de observaciones (casos) de las variables.

De esta forma, R2 se expresa como la relación de la varianza explicada (varianza de las predicciones del modelo, que es SSreg / n) a la varianza total (varianza muestral de la variable dependiente, que es SStot / n).

Esta partición de la suma de cuadrados se cumple, por ejemplo, cuando los valores del modelo ƒi se han obtenido mediante regresión lineal. Una condición suficiente más leve dice lo siguiente: El modelo tiene la forma

fi=α α ^ ^ +β β ^ ^ qi{displaystyle F_{i}={widehat {fnK}+ {fnMicrosoft {beta} }q_{i},}

Donde qi son valores arbitrarios que pueden o no depender i o en otros parámetros libres (la elección común qi = xi es sólo un caso especial), y las estimaciones del coeficiente α α ^ ^ {displaystyle {widehat {alpha } y β β ^ ^ {displaystyle {widehat {beta } se obtiene minimizando la suma residual de los cuadrados.

Este conjunto de condiciones es importante y tiene varias implicaciones para las propiedades de los residuos ajustados y los valores modelados. En particular, bajo estas condiciones:

f̄ ̄ =Sí.̄ ̄ .{displaystyle {bar {f}={bar {y}},}

Como coeficiente de correlación al cuadrado

En los cuadrados menos lineales múltiples regresión con un término de interceptación estimado, R2 iguala el cuadrado del coeficiente de correlación Pearson entre el observado Sí.{displaystyle y} y modelados (predecidos) f{displaystyle f} valores de datos de la variable dependiente.

En una regresión lineal de mínimos cuadrados con un único explanador pero sin un término de interceptación, esto también es igual al coeficiente de correlación de Pearson cuadrado de la variable dependiente Sí.{displaystyle y} y variables explicativas x.{displaystyle x.}

No debe confundirse con el coeficiente de correlación entre dos variables explicativas, definido como

*** *** α α ^ ^ ,β β ^ ^ =cov⁡ ⁡ ()α α ^ ^ ,β β ^ ^ )σ σ α α ^ ^ σ σ β β ^ ^ ,{displaystyle rho _{widehat {alpha } {beta} }={operatorname {cov}left({widehat {alpha }},{widehat {beta }}right) over sigma _{widehat {alpha }}sigma ¿Por qué?

donde la covariancia entre dos estimaciones de coeficiente, así como sus desviaciones estándar, se obtienen de la matriz de covariancia de las estimaciones de coeficiente, ()XTX)− − 1{displaystyle (X^{T}X)}{-1}.

En condiciones más generales de modelado, donde los valores predichos podrían generarse a partir de un modelo diferente de la regresión lineal de los mínimos cuadrados, una R2 valor se puede calcular como el cuadrado del coeficiente de correlación entre el original Sí.{displaystyle y} y modelado f{displaystyle f} valores de datos. En este caso, el valor no es directamente una medida de lo bueno que son los valores modelados, sino más bien una medida de lo bueno que un predictor puede ser construido a partir de los valores modelados (creando un predictor revisado de la forma α + βi). Según Everitt, este uso es específicamente la definición del término "coeficiente de determinación": el cuadrado de la correlación entre dos variables (general).

Interpretación

R2 es una medida de la bondad de ajuste de un modelo. En regresión, el coeficiente de determinación R2 es una medida estadística de qué tan bien las predicciones de regresión se aproximan a los puntos de datos reales. Un R2 de 1 indica que las predicciones de regresión se ajustan perfectamente a los datos.

Los valores de R2 fuera del rango de 0 a 1 ocurren cuando el modelo se ajusta a los datos peor que el peor predictor de mínimos cuadrados posible (equivalente a un hiperplano horizontal en una altura igual a la media de los datos observados). Esto ocurre cuando se eligió un modelo incorrecto o se aplicaron por error restricciones sin sentido. Si se usa la ecuación 1 de Kvålseth (esta es la ecuación que se usa con más frecuencia), R2 puede ser menor que cero. Si se utiliza la ecuación 2 de Kvålseth, R2 puede ser mayor que uno.

En todos los casos en los que se utiliza R2, los predictores se calculan mediante regresión de mínimos cuadrados ordinaria: es decir, minimizando SS res. En este caso, R2 aumenta a medida que aumenta el número de variables en el modelo (R2 es monótono aumenta con el número de variables incluidas (nunca disminuirá). Esto ilustra un inconveniente de un posible uso de R2, donde se podrían seguir agregando variables (regresión del fregadero de la cocina) para aumentar el R2. Por ejemplo, si uno está tratando de predecir las ventas de un modelo de automóvil a partir del consumo de gasolina, el precio y la potencia del motor, se pueden incluir factores tan irrelevantes como la primera letra del nombre del modelo. o la altura del ingeniero principal que diseña el automóvil porque la R2 nunca disminuirá a medida que se agreguen variables y probablemente experimentará un aumento debido únicamente al azar.

Esto lleva al enfoque alternativo de observar el R2 ajustado. La explicación de esta estadística es casi la misma que R2 pero penaliza la estadística ya que se incluyen variables adicionales en el modelo. Para casos distintos del ajuste por mínimos cuadrados ordinarios, el estadístico R2 se puede calcular como se indicó anteriormente y aún así puede ser una medida útil. Si el ajuste se realiza mediante mínimos cuadrados ponderados o mínimos cuadrados generalizados, se pueden calcular versiones alternativas de R2 apropiadas para esos marcos estadísticos, mientras que el ajuste "bruto" R2 puede seguir siendo útil si se interpreta más fácilmente. Los valores de R2 se pueden calcular para cualquier tipo de modelo predictivo, que no necesita tener una base estadística.

En un modelo lineal múltiple

Considere un modelo lineal con más de una variable explicativa, de la forma

Yi=β β 0+. . j=1pβ β jXi,j+ε ε i,{displaystyle Y_{i}=beta ¿Qué? ##{j=1} {p}beta ¿Qué? _{i}

donde, para el iT caso, Yi{displaystyle {Y_{i}} es la variable de respuesta, Xi,1,... ... ,Xi,p{displaystyle X_{i,1},dots X_{i,p} son p rebeldes, y ε ε i{displaystyle varepsilon _{i} es un término de error medio cero. Las cantidades β β 0,... ... ,β β p{displaystyle beta _{0},dotsbeta ¿Qué? son coeficientes desconocidos, cuyos valores son estimados por mínimos cuadrados. El coeficiente de determinación R2 es una medida del ajuste global del modelo. Específicamente, R2 es un elemento [0, 1] y representa la proporción de variabilidad en Yi que puede atribuirse a alguna combinación lineal de los regredores (variables explicativas) en X.

R2 a menudo se interpreta como la proporción de la variación de respuesta "explicada" por los regresores en el modelo. Así, R2 = 1 indica que el modelo ajustado explica toda variabilidad en Sí.{displaystyle y}, mientras R2 = 0 no indica ninguna relación lineal (para la regresión recta, esto significa que el modelo de línea recta es una línea constante (slope = 0, intercept = Sí.̄ ̄ {displaystyle {bar {y}}}) entre la variable de respuesta y los regresores). Un valor interior como R2 = 0.7 se puede interpretar como sigue: "El setenta por ciento de la varianza en la variable de respuesta puede explicarse por las variables explicativas. El treinta por ciento restante se puede atribuir a variables desconocidas, acechadoras o variabilidad inherente."

Una precaución que se aplica a R2, así como a otras descripciones estadísticas de correlación y asociación, es que "la correlación no implica causalidad". En otras palabras, si bien las correlaciones a veces pueden proporcionar pistas valiosas para descubrir relaciones causales entre variables, una correlación estimada distinta de cero entre dos variables no es, por sí sola, evidencia de que cambiar el valor de una variable resultaría en cambios en los valores de otras variables. Por ejemplo, la práctica de llevar cerillas (o un encendedor) se correlaciona con la incidencia de cáncer de pulmón, pero llevar cerillas no causa cáncer (en el sentido estándar de "causa").

En el caso de un solo regresor, ajustado por mínimos cuadrados, R2 es el cuadrado del coeficiente de correlación producto-momento de Pearson que relaciona el regresor y la variable de respuesta. De manera más general, R2 es el cuadrado de la correlación entre el predictor construido y la variable de respuesta. Con más de un regresor, el R2 puede denominarse coeficiente de determinación múltiple.

Inflación del R2

En la regresión de mínimos cuadrados utilizando datos típicos, R2 aumenta al menos débilmente con un aumento en el número de regresores en el modelo. Debido a que los aumentos en el número de regresores aumentan el valor de R2, R2 por sí solo no se puede utilizar como comparación significativa de modelos con números muy diferentes de variables independientes. Para una comparación significativa entre dos modelos, se puede realizar una prueba F sobre la suma residual de cuadrados, similar a las pruebas F en la causalidad de Granger, aunque esto no siempre es apropiado. Como recordatorio de esto, algunos autores denotan R2 por Rq2, donde q es el número de columnas en X (el número de explicadores incluida la constante).

Para demostrar esta propiedad, primero recuerde que el objetivo de la regresión lineal de mínimos cuadrados es

minbSSres()b)⇒ ⇒ minb. . i()Sí.i− − Xib)2{displaystyle min _{b}SS_{text{res}(b) Rightarrow min _{b}sum ¿Qué?

donde Xi es un vector de fila de valores de variables explicativas para el caso i y b es un vector columna de coeficientes de los respectivos elementos de Xi.

El valor óptimo del objetivo es débilmente menor a medida que se agregan más variables explicativas y, por consiguiente, columnas adicionales de X{displaystyle X} (la matriz de datos explicativos ila fila Xi) se añaden, por el hecho de que la minimización menos limitada conduce a un coste óptimo que es débilmente menor que la minimización más limitada. Teniendo en cuenta la conclusión anterior y observando que SStot{displaystyle SS_{tot} depende sólo de Sí., la propiedad que no disminuye R2 sigue directamente de la definición anterior.

La razón intuitiva que utiliza una variable explicativa adicional no puede bajar R2 es esto: Minimización SSres{displaystyle SS_{text{res}} es equivalente a maximizar R2. Cuando se incluye la variable adicional, los datos siempre tienen la opción de darle un coeficiente estimado de cero, dejando los valores predichos y los R2 sin cambios. La única manera de que el problema de optimización dé un coeficiente no cero es si lo hace mejora el R2.

Lo anterior da una explicación analítica de la inflación de R2. A continuación se muestra un ejemplo basado en mínimos cuadrados ordinarios desde una perspectiva geométrica.

Este es un ejemplo de residuos de modelos de regresión en espacios más pequeños y grandes basados en la regresión mínima cuadrada ordinaria.

Un caso simple a considerar primero:

Y=β β 0+β β 1⋅ ⋅ X1+ε ε {displaystyle Y=beta ¿Qué? X_{1}+epsilon ,}

Esta ecuación describe el modelo ordinario de regresión menos cuadrados con un regresión. La predicción se muestra como el vector rojo en la figura de la derecha. Geométricamente, es la proyección de valor verdadero sobre un espacio modelo en R{displaystyle mathbb {R} (sin interceptar). El residual se muestra como la línea roja.

Y=β β 0+β β 1⋅ ⋅ X1+β β 2⋅ ⋅ X2+ε ε {displaystyle Y=beta ¿Qué? ¿Por qué? X_{2}+epsilon ,}

Esta ecuación corresponde al modelo ordinario de regresión de mínimos cuadrados con dos regresión. La predicción se muestra como el vector azul en la figura de la derecha. Geométricamente, es la proyección de valor verdadero en un espacio modelo más grande en R2{displaystyle mathbb {R} {2}} (sin interceptar). Notablemente, los valores β β 0{displaystyle beta ¿Qué? y β β 0{displaystyle beta ¿Qué? no son los mismos que en la ecuación para el espacio modelo más pequeño mientras X1{displaystyle X_{1} y X2{displaystyle X_{2} no son vectores cero. Por lo tanto, se espera que las ecuaciones produzcan diferentes predicciones (es decir, se espera que el vector azul sea diferente del vector rojo). El criterio de regresión menos cuadrado asegura que el residual sea minimizado. En la figura, la línea azul que representa el residual es ortogonal al espacio modelo en R2{displaystyle mathbb {R} {2}}, dando la distancia mínima del espacio.

El espacio modelo más pequeño es un subespacio del más grande, y por lo tanto el residual del modelo más pequeño está garantizado para ser más grande. Comparando las líneas rojas y azules en la figura, la línea azul es ortogonal al espacio, y cualquier otra línea sería más grande que la azul. Considerando el cálculo para R2, un valor menor SStot{displaystyle SS_{tot} conducirá a un valor mayor R2, lo que significa que la adición de regredores dará lugar a la inflación R2.

Advertencias

R2 no indica si:

  • las variables independientes son una causa de los cambios en la variable dependiente;
  • existe un sesgo omitido-variable;
  • se utilizó la regresión correcta;
  • se ha elegido el conjunto más adecuado de variables independientes;
  • hay collinearidad presente en los datos sobre las variables explicativas;
  • el modelo podría mejorarse utilizando versiones transformadas del conjunto existente de variables independientes;
  • hay suficientes puntos de datos para hacer una conclusión sólida.

Extensiones

R2 ajustado

El uso de un ajuste R2 (una notación común es R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}, pronunciado "R bar cuadrado"; otro es Ra2{displaystyle R_{text{a}} {2}} o Radj2{displaystyle R_{text{adj}} {2}}) es un intento de explicar el fenómeno del R2 aumenta automáticamente cuando se agregan variables explicativas adicionales al modelo. Hay muchas maneras diferentes de ajustarse. Por lejos el más utilizado, hasta el punto de que es típicamente referido como ajustado R, es la corrección propuesta por Mardoqueo Ezequiel. El ajuste R2 se define como

R̄ ̄ 2=1− − SSres/dfresSSTot/dfTot{displaystyle {bar {R}{2}={1-{SS_{res}/{text{df}}_{text{res}}}} {f}}} {f}}} {f}}} {f} {f}}}}}} {f}}}} {f}}

donde dfres son los grados de libertad de la estimación de la varianza poblacional alrededor del modelo, y dftot son los grados de libertad de la estimación de la varianza poblacional alrededor de la media. dfres se da en términos del tamaño de la muestra n y el número de variables p en el modelo, df res =np. dftot se da de la misma manera, pero siendo p la unidad de la media, es decir, dftot = n − 1.

Insertando los grados de libertad y usando la definición de R2, se puede reescribir como:

R̄ ̄ 2=1− − ()1− − R2)n− − 1n− − p− − 1{displaystyle {bar {R}{2}=1-(1-R^{2}{n-1 over n-p-1}

donde p es el número total de variables explicativas en el modelo y n es el tamaño de la muestra.

El R2 ajustado puede ser negativo, y su valor siempre será menor o igual al de R2 . A diferencia de R2, el R2 ajustado aumenta sólo cuando el aumento de R 2 (debido a la inclusión de una nueva variable explicativa) es más de lo que uno esperaría ver por casualidad. Si un conjunto de variables explicativas con una jerarquía de importancia predeterminada se introduce en una regresión de una en una, calculando cada vez el R2 ajustado, el nivel en el que se ajusta R2 alcanza un máximo y luego disminuye, sería la regresión con la combinación ideal de tener el mejor ajuste sin términos excesivos/innecesarios.

Esquema del parcial y la contribución de la varianza al error total

El R2 ajustado puede interpretarse como un ejemplo del equilibrio entre sesgo y varianza. Cuando consideramos el rendimiento de un modelo, un error menor representa un mejor rendimiento. Cuando el modelo se vuelve más complejo, la varianza aumentará mientras que el cuadrado del sesgo disminuirá, y estas dos métricas suman el error total. Combinando estas dos tendencias, la compensación sesgo-varianza describe una relación entre el rendimiento del modelo y su complejidad, que se muestra como una curva en forma de U a la derecha. Para el R2 ajustado específicamente, la complejidad del modelo (es decir, el número de parámetros) afecta el R2 y el term / frac y, por lo tanto, captura sus atributos en el rendimiento general del modelo.

R2 se puede interpretar como la varianza del modelo, que está influenciada por la complejidad del modelo. Un alto R2 indica un error de sesgo más bajo porque el modelo puede explicar mejor el cambio de Y con predictores. Por esta razón, hacemos menos (erróneos) suposiciones, y esto resulta en un error de sesgo más bajo. Mientras tanto, para acomodar menos supuestos, el modelo tiende a ser más complejo. Sobre la base de la compensación de bias-variancia, una mayor complejidad conducirá a una disminución del sesgo y un mejor rendimiento (bajo la línea óptima). In R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}, el término (1-R2) será menor con alta complejidad y resulta en un mayor R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}, indicando constantemente un mejor rendimiento.

Por otro lado, el término término/fracción se ve afectado inversamente por la complejidad del modelo. El término/frac aumentará al agregar regresores (es decir, mayor complejidad del modelo) y conducirá a un peor rendimiento. Basado en el equilibrio entre sesgo y varianza, una mayor complejidad del modelo (más allá de la línea óptima) conduce a errores crecientes y a un peor rendimiento.

Considerando el cálculo R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}, más parámetros aumentarán R2 y conducir a un aumento de R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}. Sin embargo, añadir más parámetros aumentarán el término/frac y así disminuirán R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}. Estas dos tendencias construyen una relación de u-forma inversa entre la complejidad del modelo y R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}, que está en consonancia con la tendencia de forma u de complejidad modelo vs. rendimiento general. Diferente R2, que siempre aumentará cuando la complejidad del modelo aumenta, R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}} aumentará sólo cuando el sesgo que el regresor añadido elimina es mayor que la varianza introducida simultáneamente. Uso R̄ ̄ 2{displaystyle {bar {R}} {2}}} {fnK}} {fnK}}}}} {fn}}}} {fn}}} {fnK}}}}}}} {fnK}}}}}}}} {f}}}}}}}}}}}}}}}}}}}} en lugar de R2 por lo tanto, podría prevenir el exceso de adaptación.

Siguiendo la misma lógica, el R2 ajustado puede interpretarse como un estimador menos sesgado de la población R2, mientras que la muestra observada R2 es una estimación con sesgo positivo del valor de la población. El R2 ajustado es más apropiado al evaluar el ajuste del modelo (la varianza en la variable dependiente explicada por las variables independientes) y al comparar modelos alternativos en la etapa de selección de características del modelo. edificio.

El principio detrás del estadístico R2 ajustado se puede ver reescribiendo el R2 ordinario como

R2=1− − VARresVARTot{displaystyle ¿Qué?

Donde VARres=SSres/n{displaystyle {text{VAR}_{text{res}=SS_{res}/n} y VARTot=SSTot/n{displaystyle {text{VAR}_{text{tot}=SS_{tot}/n} son las diferencias de muestra de los residuos estimados y la variable dependiente respectivamente, que se pueden considerar como estimaciones parciales de las diferencias de población de los errores y de la variable dependiente. Estas estimaciones se sustituyen por versiones estadísticamente imparciales: VARres=SSres/()n− − p){displaystyle {text{VAR}_{text{res}=SS_{res}/(n-p)} y VARTot=SSTot/()n− − 1){displaystyle {text{VAR}_{text{tot}=SS_{text{tot}/(n-1)}.

A pesar de utilizar estimadores insesgados para las varianzas poblacionales del error y la variable dependiente, el R2 ajustado no es un estimador insesgado de la población R i>2, que resulta de utilizar las varianzas poblacionales de los errores y la variable dependiente en lugar de estimarlas. Ingram Olkin y John W. Pratt derivaron el estimador insesgado de varianza mínima para la población R2, que se conoce como estimador de Olkin-Pratt. Las comparaciones de diferentes enfoques para ajustar R2 concluyeron que en la mayoría de las situaciones se debería preferir una versión aproximada del estimador de Olkin-Pratt o el estimador exacto de Olkin-Pratt (Ezekiel ) ajustado R2.

Coeficiente de determinación parcial

El coeficiente de determinación parcial se puede definir como la proporción de variación que no se puede explicar en un modelo reducido, pero que puede explicarse mediante los predictores especificados en un modelo (más) completo. Este coeficiente se utiliza para proporcionar información sobre si uno o más predictores adicionales pueden ser útiles en un modelo de regresión más completamente especificado.

El cálculo del R2 parcial es relativamente sencillo después de estimar dos modelos y generar las tablas ANOVA para ellos. El cálculo para el R2 parcial es

SS res, reducción− − SS res, llenoSS res, reducción,{displaystyle {frac {text{ res, reduced}}-SS_{text{ res, full}} {SS_{text{ res, reduced}}}}} }

que es análogo al coeficiente de determinación habitual:

SSTot− − SSresSSTot.{displaystyle {frac {text{tot}-SS_{text{res}{SS_{text{tot}}}}}}}

Generalizando y descomponiendo R2

Como se ha explicado anteriormente, heurística de selección modelo como el Ajustado R2{displaystyle R^{2} criterio y la prueba F examinan si el total R2{displaystyle R^{2} aumenta suficientemente para determinar si un nuevo regresión debe ser añadido al modelo. Si un regresor se añade al modelo que está muy correlacionado con otros regredores que ya han sido incluidos, entonces el total R2{displaystyle R^{2} difícilmente aumentará, incluso si el nuevo regresión es de relevancia. Como resultado, las heurísticas antes mencionadas ignorarán a los regresores pertinentes cuando las cruzadas son altas.

Representación geométrica r2{displaystyle r^{2}.

Alternativamente, se puede descomponer una versión generalizada de R2{displaystyle R^{2} para cuantificar la relevancia de desviarse de una hipótesis. Como muestra Hoornweg (2018), varios estimadores de encogimiento – como la regresión lineal de Bayesian, la regresión de la cresta y el lasso (adaptivo) – hacen uso de esta descomposición de R2{displaystyle R^{2} cuando se reducen gradualmente los parámetros de las soluciones OLS sin restricciones hacia los valores hipotetizados. Definimos primero el modelo de regresión lineal como

Sí.=Xβ β +ε ε .{displaystyle y=Xbeta +varepsilon.}

Se supone que la matriz X{displaystyle X} está estandarizado con Z-scores y que el vector de columna Sí.{displaystyle y} está centrado en tener una media de cero. Dejar el vector de la columna β β 0{displaystyle beta ¿Qué? referencia a los parámetros hipotetizados de regresión y dejar la columna vector b{displaystyle b} denota los parámetros estimados. Entonces podemos definir

R2=1− − ()Sí.− − Xb).()Sí.− − Xb)()Sí.− − Xβ β 0).()Sí.− − Xβ β 0).{displaystyle R^{2}=1-{frac {(y-Xb)'(y-Xb)}{(y-Xbeta _{0})'(y-Xbeta) - Sí.

An R2{displaystyle R^{2} de 75% significa que la precisión en el muestreo mejora un 75% si los datos optimizados b{displaystyle b} soluciones se utilizan en lugar de la hipótesis β β 0{displaystyle beta ¿Qué? valores. En el caso especial β β 0{displaystyle beta ¿Qué? es un vector de ceros, obtenemos lo tradicional R2{displaystyle R^{2} otra vez.

El efecto individual en R2{displaystyle R^{2} de la desviación de una hipótesis se puede calcular con R⊗ ⊗ {displaystyle R^{otimes } ('R-outer'). Esto p{displaystyle p} veces p{displaystyle p} matriz se da por

R⊗ ⊗ =()X.Sí.~ ~ 0)()X.Sí.~ ~ 0).()X.X)− − 1()Sí.~ ~ 0.Sí.~ ~ 0)− − 1,{displaystyle ¿Qué?

Donde Sí.~ ~ 0=Sí.− − Xβ β 0{displaystyle {tilde {y}_{0}=y-Xbeta ¿Qué?. Los elementos diagonales de R⊗ ⊗ {displaystyle R^{otimes } exactamente añadir R2{displaystyle R^{2}. Si los regresores no están relacionados y β β 0{displaystyle beta ¿Qué? es un vector de ceros, entonces el jT{displaystyle j^{text{th}}} elemento diagonal de R⊗ ⊗ {displaystyle R^{otimes } simplemente corresponde a r2{displaystyle r^{2} valor entre xj{displaystyle x_{j} y Sí.{displaystyle y}. Cuando los rebeldes xi{displaystyle x_{i}} y xj{displaystyle x_{j} están correlacionados, Rii⊗ ⊗ {displaystyle R_{ii} {otimes} podría aumentar al costo de una disminución Rjj⊗ ⊗ {displaystyle ¿Qué pasa?. Como resultado, los elementos diagonales de R⊗ ⊗ {displaystyle R^{otimes } puede ser más pequeño que 0 y, en casos más excepcionales, más de 1. Para hacer frente a tales incertidumbres, varios estimadores de reducción toman implícitamente un promedio ponderado de los elementos diagonales de R⊗ ⊗ {displaystyle R^{otimes } para cuantificar la relevancia de la desviación de un valor hipotetizado. Haga clic en el láser por ejemplo.

R2 en regresión logística

En el caso de la regresión logística, generalmente ajustada por máxima verosimilitud, existen varias opciones de pseudo-R2.

Uno es el R2 generalizado propuesto originalmente por Cox & Snell, e independientemente por Magee:

R2=1− − ()L()0)L()Silencio Silencio ^ ^ ))2/n{displaystyle ¿Qué?

Donde L()0){displaystyle {mathcal}(0)} es la probabilidad del modelo con sólo la interceptación, L()Silencio Silencio ^ ^ ){displaystyle {} {fnMithcal} {fncipal {theta}}}}}} es la probabilidad del modelo estimado (es decir, el modelo con un determinado conjunto de estimaciones del parámetro) y n es el tamaño de la muestra. Es fácilmente reescrito a:

R2=1− − e2n()In⁡ ⁡ ()L()0))− − In⁡ ⁡ ()L()Silencio Silencio ^ ^ ))=1− − e− − D/n{displaystyle ¿Qué?

donde D es el estadístico de prueba de la prueba de razón de verosimilitud.

Nico Nagelkerke señaló que tenía las siguientes propiedades:

  1. Es consistente con el coeficiente clásico de determinación cuando ambos pueden ser calculados;
  2. Su valor se maximiza por la estimación de probabilidad máxima de un modelo;
  3. Es asintóticamente independiente del tamaño de la muestra;
  4. La interpretación es la proporción de la variación explicada por el modelo;
  5. Los valores están entre 0 y 1, con 0 denotando ese modelo no explica ninguna variación y 1 denotando que explica perfectamente la variación observada;
  6. No tiene ninguna unidad.

Sin embargo, en el caso de un modelo logístico, donde L()Silencio Silencio ^ ^ ){displaystyle {mathcal {} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} no puede ser mayor que 1, R2 es entre 0 y Rmax2=1− − ()L()0))2/n{displaystyle R_{max }{2}=1-({mathcal {L}(0)^{2/n}: por lo tanto, Nagelkerke sugirió la posibilidad de definir una escalada R2 como R2/R2max.

Comparación con norma de residuos

Ocasionalmente, la norma de los residuos se utiliza para indicar la bondad del ajuste. Este término se calcula como la raíz cuadrada de la suma de los cuadrados de los residuos:

norma de los residuos=SSres=. . e. . .{displaystyle {text{norm of residuals}}={sqrt {fnMicrosoft Sans Serif}=fnMicrosoft Sans Serif}

Ambos R2 y la norma de los residuos tienen sus méritos relativos. Para el análisis de mínimos cuadrados R2 varía entre 0 y 1, con números más grandes indicando mejores ajustes y 1 representando un ajuste perfecto. La norma de los residuos varía de 0 a infinito con números más pequeños indicando mejores ajustes y cero indicando un ajuste perfecto. Una ventaja y desventaja R2 es SSTot{displaystyle SS. término actúa para normalizar el valor. Si Sí.i todos los valores son multiplicados por una constante, la norma de los residuos también cambiará por esa constante pero R2 permanecerá igual. Como ejemplo básico, para los mínimos cuadrados lineales caben al conjunto de datos:

x 12345
Sí. 1.93.75.88.09.6

R2 = 0,998 y norma de residuos = 0,302.

Si todos los valores de y se multiplican por 1000 (por ejemplo, en un cambio de prefijo SI), entonces R2 sigue siendo el mismo , pero norma de residuos = 302.

Otro indicador de ajuste de un solo parámetro es el RMSE de los residuos, o desviación estándar de los residuos. Esto tendría un valor de 0,135 para el ejemplo anterior dado que el ajuste fue lineal con una intersección no forzada.

Historia

La creación del coeficiente de determinación se ha atribuido al genetista Sewall Wright y se publicó por primera vez en 1921.

Contenido relacionado

Conjunto vacío

En matemáticas, el conjunto vacío es el conjunto único que no tiene elementos; su tamaño o cardinalidad es cero. Algunas teorías axiomáticas de...

Precisión y exactitud

En un conjunto de medidas, la exactitud es la cercanía de las medidas a un valor específico, mientras que la precisión es la cercanía de las medidas entre...

Historia de la lógica

La historia de la lógica se ocupa del estudio del desarrollo de la ciencia de la inferencia válida tal como se encuentran en el Organon, encontraron una...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save