Coeficiente de correlación múltiple
En estadística, el coeficiente de correlación múltiple es una medida de qué tan bien se puede predecir una variable determinada utilizando una función lineal de un conjunto de otras variables. Es la correlación entre los valores de la variable y las mejores predicciones que se pueden calcular linealmente a partir de las variables predictivas.
El coeficiente de correlación múltiple toma valores entre 0 y 1. Los valores más altos indican una mayor previsibilidad de la variable dependiente respecto de las variables independientes, con un valor de 1 indica que las predicciones son exactamente correctas y un valor de 0 indica que no hay linealidad. La combinación de las variables independientes es un mejor predictor que la media fija de la variable dependiente.
El coeficiente de correlación múltiple se conoce como la raíz cuadrada del coeficiente de determinación, pero bajo los supuestos particulares de que se incluye una intersección y que se utilizan los mejores predictores lineales posibles, mientras que el coeficiente de determinación se define para fines más generales. casos, incluidos aquellos de predicción no lineal y aquellos en los que los valores predichos no se han derivado de un procedimiento de ajuste de modelos.
Definición
El coeficiente de correlación múltiple, denominado R, es un escalar que se define como el coeficiente de correlación de Pearson entre los valores previstos y reales de la variable dependiente en un modelo de regresión lineal que incluye una intersección..
Cálculo
El cuadrado del coeficiente de correlación múltiple se puede calcular utilizando el vector c=()rx1Sí.,rx2Sí.,......,rxNSí.)⊤ ⊤ {displaystyle mathbf {c} {fnMicrosoft Sans Serif} de correlaciones rxnSí.{displaystyle ¿Qué? entre las variables predictoras xn{displaystyle x_{n} (variables independientes) y la variable de destino Sí.{displaystyle y} (variable dependiente), y la matriz de correlación Rxx{displaystyle R_{xx} de correlaciones entre variables predictoras. Es dado por
- R2=c⊤ ⊤ Rxx− − 1c,{displaystyle ¿Qué?
Donde c⊤ ⊤ {displaystyle mathbf {c} es la transposición de c{displaystyle mathbf {c}, y Rxx− − 1{displaystyle R_{xx} {-1} es el inverso de la matriz
- Rxx=()rx1x1rx1x2...... rx1xNrx2x1⋱ ⋱ ⋮ ⋮ ⋮ ⋮ ⋱ ⋱ rxNx1...... rxNxN).{displaystyle R_{xx}=left({begin{cc}r_{x_{1}x_{1} {x_{x_{1}x_{1}x_{2} # {x_{1}x_{N}r_{x_{2}x_{1}} {ddots < > > > ¿Qué?
Si todas las variables predictoras no están relacionadas, la matriz Rxx{displaystyle R_{xx} es la matriz de identidad y R2{displaystyle R^{2} simplemente iguales c⊤ ⊤ c{displaystyle mathbf {c} {fnMitbf {c}, la suma de las correlaciones cuadradas con la variable dependiente. Si las variables predictoras están correlacionadas entre sí, el inverso de la matriz de correlación Rxx{displaystyle R_{xx} cuenta para esto.
El coeficiente de correlación múltiple al cuadrado también se puede calcular como la fracción de varianza de la variable dependiente que se explica por las variables independientes, que a su vez es 1 menos la fracción no explicada. La fracción inexplicada se puede calcular como la suma de los cuadrados de los residuos (es decir, la suma de los cuadrados de los errores de predicción) dividida por la suma de los cuadrados de las desviaciones de los valores de la variable dependiente de su valor esperado.
Propiedades
Con más de dos variables relacionadas entre sí, el valor del coeficiente de correlación múltiple depende de la elección de la variable dependiente: una regresión Sí.{displaystyle y} on x{displaystyle x} y z{displaystyle z} en general tener un diferente R{displaystyle R. que una regresión de z{displaystyle z} on x{displaystyle x} y Sí.{displaystyle y}. Por ejemplo, suponga que en una muestra particular la variable z{displaystyle z} no está relacionado con ambos x{displaystyle x} y Sí.{displaystyle y}, mientras x{displaystyle x} y Sí.{displaystyle y} están linealmente relacionados entre sí. Entonces una regresión de z{displaystyle z} on Sí.{displaystyle y} y x{displaystyle x} cederá un R{displaystyle R. de cero, mientras una regresión Sí.{displaystyle y} on x{displaystyle x} y z{displaystyle z} dará un resultado estrictamente positivo R{displaystyle R.. Esto sigue desde la correlación Sí.{displaystyle y} con su mejor predictor basado en x{displaystyle x} y z{displaystyle z} es en todos los casos al menos tan grande como la correlación Sí.{displaystyle y} con su mejor predictor basado en x{displaystyle x} solo, y en este caso con z{displaystyle z} no proporcionar energía explicativa será exactamente tan grande.
Contenido relacionado
Conjunto vacío
Historia de la lógica
Ley de los grandes números