Gráfico de correlación

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En el análisis de datos, un correlograma o gráfico de correlación es una comparación gráfica. Por ejemplo, en el análisis de series de tiempo, una gráfica de las autocorrelaciones de la muestra $Rh},$ versus $h,$ (los retrasos de tiempo) es un autocorrelograma. Si se grafica la correlación cruzada, el resultado se denomina correlograma cruzado.

El correlograma es una herramienta de uso común para verificar la aleatoriedad en un conjunto de datos. Si son aleatorias, las autocorrelaciones deben estar cerca de cero para todas y cada una de las separaciones de retardo de tiempo. Si no es aleatoria, entonces una o más de las autocorrelaciones serán significativamente distintas de cero.

Además, los correlogramas se utilizan en la etapa de identificación del modelo para los modelos de series de tiempo de promedio móvil autorregresivos de Box-Jenkins. Las autocorrelaciones deben ser cercanas a cero para la aleatoriedad; si el analista no verifica la aleatoriedad, la validez de muchas de las conclusiones estadísticas se vuelve sospechosa. El correlograma es una forma excelente de verificar tal aleatoriedad.

A veces, los correlogramas, matrices mapeadas en color de las intensidades de correlación en el análisis multivariado, también se denominan correlogramas.

Aplicaciones

El correlograma puede ayudar a proporcionar respuestas a las siguientes preguntas:

¿Los datos son aleatorios?
¿Está una observación relacionada con una observación adyacente?
¿Se elimina dos veces una observación relacionada con una observación? (etc.)
¿La serie de tiempo observada es ruido blanco?
¿La serie de tiempo observada es sinusoidal?
¿La serie temporal observada es autorregresiva?
¿Cuál es un modelo apropiado para la serie de tiempo observada?
es el modelo

${displaystyle Y={text{constante}}+{text{error}}}$ válido y suficiente?

$s_{{{bar {Y}}}}=s/{sqrt {N}}$ ¿Es válida la fórmula ?

Importancia

La aleatoriedad (junto con el modelo fijo, la variación fija y la distribución fija) es uno de los cuatro supuestos que suelen subyacer en todos los procesos de medición. La suposición de aleatoriedad es críticamente importante por las siguientes tres razones:

La mayoría de las pruebas estadísticas estándar dependen de la aleatoriedad. La validez de las conclusiones de la prueba está directamente relacionada con la validez del supuesto de aleatoriedad.
Muchas fórmulas estadísticas de uso común dependen de la suposición de aleatoriedad, siendo la fórmula más común la fórmula para determinar el error estándar de la media muestral:

$s_{{{bar {Y}}}}=s/{sqrt {N}}$

donde s es la desviación estándar de los datos. Aunque se usa mucho, los resultados del uso de esta fórmula no tienen valor a menos que se cumpla la suposición de aleatoriedad.

Para datos univariados, el modelo predeterminado es

${displaystyle Y={text{constante}}+{text{error}}}$

Si los datos no son aleatorios, este modelo es incorrecto e inválido, y las estimaciones de los parámetros (como la constante) se vuelven absurdas e inválidas.

Estimación de autocorrelaciones

El coeficiente de autocorrelación en el desfase h viene dado por $r_{h}=c_{h}/c_{0},$

donde c _h es la función de autocovarianza ${displaystyle c_{h}={frac {1}{N}}sum _{t=1}^{Nh}left(Y_{t}-{bar {Y}}right)left (Y_{t+h}-{bar {Y}}right)}$

y c ₀ es la función de varianza ${displaystyle c_{0}={frac {1}{N}}sum _{t=1}^{N}left(Y_{t}-{bar {Y}}right)^{ 2}}$

El valor resultante de r _h oscilará entre −1 y +1.

Presupuesto alternativo

Algunas fuentes pueden usar la siguiente fórmula para la función de autocovarianza: ${displaystyle c_{h}={frac {1}{Nh}}sum _{t=1}^{Nh}left(Y_{t}-{bar {Y}}right)left (Y_{t+h}-{bar {Y}}right)}$

Aunque esta definición tiene menos sesgo, la formulación (1/ N) tiene algunas propiedades estadísticas deseables y es la forma más utilizada en la literatura estadística. Consulte las páginas 20 y 49–50 en Chatfield para obtener más detalles.

Inferencia estadística con correlogramas

En el mismo gráfico, se pueden dibujar límites superior e inferior para la autocorrelación con el nivel de significancia $alfa ,$ : $B=pm z_{{1-alpha /2}}SE(r_{h}),$ con $Rh},$ como la autocorrelación estimada en el desfase $h,$ .

Si la autocorrelación es más alta (más baja) que este límite superior (más bajo), la hipótesis nula de que no hay autocorrelación en y más allá de un retraso dado se rechaza a un nivel de significancia de $alfa ,$ . Esta prueba es aproximada y supone que la serie temporal es gaussiana.

En lo anterior, z _{1− α /2} es el cuantil de la distribución normal; SE es el error estándar, que se puede calcular mediante la fórmula de Bartlett para procesos MA(ℓ): ${displaystyle SE(r_{1})={frac {1}{sqrt {N}}}}$ $SE(r_{h})={sqrt {frac {1+2sum_{{i=1}}^{{h-1}}r_{i}^{2}}{N}}}$ por1.,">

En el ejemplo trazado, podemos rechazar la hipótesis nula de que no hay autocorrelación entre los puntos de tiempo que están separados por retrasos de hasta 4. Para la mayoría de los períodos más largos, no se puede rechazar la hipótesis nula de que no hay autocorrelación.

Tenga en cuenta que hay dos fórmulas distintas para generar las bandas de confianza:

1. Si el correlograma se usa para probar la aleatoriedad (es decir, no hay dependencia del tiempo en los datos), se recomienda la siguiente fórmula: $pm {frac{z_{{1-alpha /2}}}{{sqrt {N}}}}$

donde N es el tamaño de la muestra, z es la función cuantil de la distribución normal estándar y α es el nivel de significancia. En este caso, las bandas de confianza tienen un ancho fijo que depende del tamaño de la muestra.

2. Los correlogramas también se utilizan en la etapa de identificación del modelo para ajustar los modelos ARIMA. En este caso, se asume un modelo de promedio móvil para los datos y se deben generar las siguientes bandas de confianza: ${displaystyle pm z_{1-alpha /2}{sqrt {{frac {1}{N}}left(1+2sum _{i=1}^{k}r_{i} ^{2}derecho)}}}$

donde k es el retraso. En este caso, las bandas de confianza aumentan a medida que aumenta el rezago.

Software

Los correlogramas están disponibles en la mayoría de las bibliotecas estadísticas de propósito general.

Correlogramas:

pandas pitón:pandas.plotting.autocorrelation_plot
R: funciones acfypacf

Corregramas:

pitón marino: heatmap,pairplot
R:corrgram

Contenido relacionado

Más resultados...