Serie de tiempo
En matemáticas, una serie de tiempo es una serie de puntos de datos indexados (o enumerados o graficados) en orden de tiempo. Más comúnmente, una serie de tiempo es una secuencia tomada en puntos sucesivos igualmente espaciados en el tiempo. Por lo tanto, es una secuencia de datos en tiempo discreto. Ejemplos de series de tiempo son las alturas de las mareas oceánicas, el conteo de manchas solares y el valor de cierre diario del promedio industrial Dow Jones.
Una serie de tiempo se traza con mucha frecuencia a través de un gráfico de ejecución (que es un gráfico de líneas temporales). Las series de tiempo se utilizan en estadísticas, procesamiento de señales, reconocimiento de patrones, econometría, finanzas matemáticas, pronóstico del tiempo, predicción de terremotos, electroencefalografía, ingeniería de control, astronomía, ingeniería de comunicaciones y, en gran medida, en cualquier dominio de la ciencia aplicada y la ingeniería que involucre mediciones temporales.
El análisis de series temporales comprende métodos para analizar datos de series temporales con el fin de extraer estadísticas significativas y otras características de los datos. El pronóstico de series de tiempo es el uso de un modelo para predecir valores futuros basados en valores observados previamente. Si bien el análisis de regresión se emplea a menudo para probar las relaciones entre una o más series de tiempo diferentes, este tipo de análisis no suele denominarse "análisis de series de tiempo", que se refiere en particular a las relaciones entre diferentes puntos en el tiempo dentro de un solo serie. El análisis de series temporales interrumpidas se utiliza para detectar cambios en la evolución de una serie temporal desde antes hasta después de alguna intervención que pueda afectar a la variable subyacente.
Los datos de series de tiempo tienen un ordenamiento temporal natural. Esto hace que el análisis de series de tiempo sea distinto de los estudios transversales, en los que no existe un orden natural de las observaciones (p. ej., explicar los salarios de las personas por referencia a sus respectivos niveles de educación, donde los datos de las personas pueden ingresarse en cualquier orden). El análisis de series de tiempo también es distinto del análisis de datos espaciales donde las observaciones generalmente se relacionan con ubicaciones geográficas (p. ej., contabilizar los precios de la vivienda por ubicación, así como las características intrínsecas de las casas). Un modelo estocástico para una serie de tiempo generalmente reflejará el hecho de que las observaciones cercanas en el tiempo estarán más estrechamente relacionadas que las observaciones más alejadas. Además,
El análisis de series de tiempo se puede aplicar a datos continuos de valor real, datos numéricos discretos o datos simbólicos discretos (es decir, secuencias de caracteres, como letras y palabras en el idioma inglés).
Métodos de análisis
Los métodos para el análisis de series temporales se pueden dividir en dos clases: métodos en el dominio de la frecuencia y métodos en el dominio del tiempo. Los primeros incluyen análisis espectral y análisis wavelet; los últimos incluyen análisis de autocorrelación y correlación cruzada. En el dominio del tiempo, la correlación y el análisis se pueden realizar de manera similar a un filtro utilizando la correlación escalada, mitigando así la necesidad de operar en el dominio de la frecuencia.
Además, las técnicas de análisis de series temporales se pueden dividir en métodos paramétricos y no paramétricos. Los enfoques paramétricos asumen que el proceso estocástico estacionario subyacente tiene una cierta estructura que se puede describir usando una pequeña cantidad de parámetros (por ejemplo, usando un modelo autorregresivo o de promedio móvil). En estos enfoques, la tarea es estimar los parámetros del modelo que describe el proceso estocástico. Por el contrario, los enfoques no paramétricos estiman explícitamente la covarianza o el espectro del proceso sin asumir que el proceso tiene una estructura particular.
Los métodos de análisis de series de tiempo también se pueden dividir en lineales y no lineales, y univariados y multivariados.
Panel de datos
Una serie temporal es un tipo de datos de panel. Los datos de panel son la clase general, un conjunto de datos multidimensional, mientras que un conjunto de datos de series temporales es un panel unidimensional (al igual que un conjunto de datos transversales). Un conjunto de datos puede exhibir características tanto de datos de panel como de datos de series temporales. Una forma de saberlo es preguntar qué hace que un registro de datos sea único de los demás registros. Si la respuesta es el campo de datos de tiempo, entonces este es un candidato de conjunto de datos de serie de tiempo. Si la determinación de un registro único requiere un campo de datos de tiempo y un identificador adicional que no está relacionado con el tiempo (por ejemplo, ID de estudiante, símbolo bursátil, código de país), entonces es un candidato de datos de panel. Si la diferenciación se encuentra en el identificador que no es de tiempo, entonces el conjunto de datos es un candidato a conjunto de datos transversales.
Análisis
Hay varios tipos de motivación y análisis de datos disponibles para series de tiempo que son apropiados para diferentes propósitos.
Motivación
En el contexto de la estadística, la econometría, las finanzas cuantitativas, la sismología, la meteorología y la geofísica, el objetivo principal del análisis de series temporales es la previsión. En el contexto del procesamiento de señales, la ingeniería de control y la ingeniería de comunicaciones, se utiliza para la detección de señales. Otras aplicaciones son la minería de datos, el reconocimiento de patrones y el aprendizaje automático, donde el análisis de series temporales se puede utilizar para agrupar, clasificar, consultar por contenido, detectar anomalías y realizar pronósticos.
Análisis exploratorio
Una forma sencilla de examinar una serie temporal regular es manualmente con un gráfico de líneas. A la derecha se muestra un gráfico de ejemplo para la incidencia de tuberculosis en los Estados Unidos, elaborado con un programa de hoja de cálculo. El número de casos se estandarizó a una tasa por 100.000 y se calculó el cambio porcentual por año en esta tasa. La línea descendente casi constante muestra que la incidencia de TB estaba disminuyendo en la mayoría de los años, pero el cambio porcentual en esta tasa varió hasta +/- 10%, con "aumentos" en 1975 y alrededor de principios de la década de 1990. El uso de ambos ejes verticales permite la comparación de dos series temporales en un gráfico.
Un estudio de analistas de datos corporativos encontró dos desafíos para el análisis exploratorio de series de tiempo: descubrir la forma de patrones interesantes y encontrar una explicación para estos patrones. Las herramientas visuales que representan datos de series temporales como matrices de mapas de calor pueden ayudar a superar estos desafíos.
Otras técnicas incluyen:
- Análisis de autocorrelación para examinar la dependencia serial
- Análisis espectral para examinar el comportamiento cíclico que no necesita estar relacionado con la estacionalidad. Por ejemplo, la actividad de las manchas solares varía en ciclos de 11 años. Otros ejemplos comunes incluyen fenómenos celestes, patrones climáticos, actividad neuronal, precios de productos básicos y actividad económica.
- Separación en componentes que representan tendencia, estacionalidad, variación lenta y rápida e irregularidad cíclica: ver estimación de tendencia y descomposición de series temporales
Ajuste de curvas
El ajuste de curvas es el proceso de construcción de una curva, o función matemática, que se ajuste mejor a una serie de puntos de datos, posiblemente sujeta a restricciones. El ajuste de curvas puede implicar interpolación, donde se requiere un ajuste exacto a los datos, o suavizado, en el que se construye una función "suave" que se ajusta aproximadamente a los datos. Un tema relacionado es el análisis de regresión, que se enfoca más en cuestiones de inferencia estadística, como cuánta incertidumbre está presente en una curva que se ajusta a los datos observados con errores aleatorios. Las curvas ajustadas se pueden utilizar como ayuda para la visualización de datos, para inferir valores de una función cuando no hay datos disponibles y para resumir las relaciones entre dos o más variables.La extrapolación se refiere al uso de una curva ajustada más allá del rango de los datos observados y está sujeta a un grado de incertidumbre ya que puede reflejar el método utilizado para construir la curva tanto como refleja los datos observados.
La construcción de series de tiempo económicas involucra la estimación de algunos componentes para algunas fechas por interpolación entre valores ("puntos de referencia") para fechas anteriores y posteriores. La interpolación es la estimación de una cantidad desconocida entre dos cantidades conocidas (datos históricos), o sacar conclusiones sobre la información que falta a partir de la información disponible ("leer entre líneas"). La interpolación es útil cuando los datos que rodean a los datos faltantes están disponibles y se conocen su tendencia, estacionalidad y ciclos a más largo plazo. Esto se hace a menudo mediante el uso de una serie relacionada conocida para todas las fechas relevantes.Alternativamente, se utiliza la interpolación polinomial o la interpolación spline donde las funciones polinómicas por partes se ajustan a intervalos de tiempo de manera que encajen sin problemas. Un problema diferente que está estrechamente relacionado con la interpolación es la aproximación de una función complicada por una función simple (también llamada regresión). La principal diferencia entre la regresión y la interpolación es que la regresión polinomial proporciona un único polinomio que modela todo el conjunto de datos. Sin embargo, la interpolación spline produce una función continua por partes compuesta de muchos polinomios para modelar el conjunto de datos.
La extrapolación es el proceso de estimar, más allá del rango de observación original, el valor de una variable sobre la base de su relación con otra variable. Es similar a la interpolación, que produce estimaciones entre observaciones conocidas, pero la extrapolación está sujeta a una mayor incertidumbre y un mayor riesgo de producir resultados sin sentido.
Aproximación de funciones
En general, un problema de aproximación de funciones nos pide que seleccionemos una función entre una clase bien definida que coincida ("se aproxime") a una función objetivo de una manera específica de la tarea. Se pueden distinguir dos clases principales de problemas de aproximación de funciones: Primero, para funciones objetivo conocidas, la teoría de la aproximación es la rama del análisis numérico que investiga cómo ciertas funciones conocidas (por ejemplo, funciones especiales) pueden aproximarse mediante una clase específica de funciones (por ejemplo, funciones especiales). ejemplo, polinomios o funciones racionales) que a menudo tienen propiedades deseables (cómputo económico, continuidad, integral y valores límite, etc.).
En segundo lugar, la función objetivo, llámela g, puede ser desconocida; en lugar de una fórmula explícita, solo se proporciona un conjunto de puntos (una serie temporal) de la forma (x, g (x)). Dependiendo de la estructura del dominio y codominio de g, pueden ser aplicables varias técnicas para aproximar g. Por ejemplo, si g es una operación sobre números reales, se pueden utilizar técnicas de interpolación, extrapolación, análisis de regresión y ajuste de curvas. Si el codominio (rango o conjunto objetivo) de g es un conjunto finito, en su lugar se está tratando con un problema de clasificación. Un problema relacionado con la aproximación de series de tiempo en líneaes resumir los datos en un solo paso y construir una representación aproximada que pueda admitir una variedad de consultas de series de tiempo con límites en el peor de los casos.
Hasta cierto punto, los diferentes problemas (regresión, clasificación, aproximación de aptitud) han recibido un tratamiento unificado en la teoría del aprendizaje estadístico, donde se los considera como problemas de aprendizaje supervisado.
Predicción y pronóstico
En estadística, la predicción es una parte de la inferencia estadística. Un enfoque particular de dicha inferencia se conoce como inferencia predictiva, pero la predicción se puede realizar dentro de cualquiera de los varios enfoques de la inferencia estadística. De hecho, una descripción de la estadística es que proporciona un medio para transferir conocimientos sobre una muestra de una población a toda la población y a otras poblaciones relacionadas, lo que no es necesariamente lo mismo que la predicción a lo largo del tiempo. Cuando la información se transfiere a lo largo del tiempo, a menudo a puntos específicos en el tiempo, el proceso se conoce como pronóstico.
- Modelos estadísticos completamente formados para fines de simulación estocástica, a fin de generar versiones alternativas de la serie temporal, que representan lo que podría suceder en períodos de tiempo no específicos en el futuro.
- Modelos estadísticos simples o completamente formados para describir el resultado probable de la serie temporal en el futuro inmediato, dado el conocimiento de los resultados más recientes (pronóstico).
- El pronóstico de series de tiempo generalmente se realiza utilizando paquetes de software estadístico automatizado y lenguajes de programación, como Julia, Python, R, SAS, SPSS y muchos otros.
- La previsión de datos a gran escala se puede realizar con Apache Spark utilizando la biblioteca Spark-TS, un paquete de terceros.
Clasificación
Asignar un patrón de serie temporal a una categoría específica, por ejemplo, identificar una palabra basada en una serie de movimientos de la mano en lenguaje de señas.
Estimación de señal
Este enfoque se basa en el análisis armónico y el filtrado de señales en el dominio de la frecuencia utilizando la transformada de Fourier y la estimación de la densidad espectral, cuyo desarrollo fue significativamente acelerado durante la Segunda Guerra Mundial por el matemático Norbert Wiener, los ingenieros eléctricos Rudolf E. Kálmán, Dennis Gabor y otros para filtrar señales de ruido y predecir valores de señal en un momento determinado. Consulte el filtro de Kalman, la teoría de la estimación y el procesamiento de señales digitales.
Segmentación
Dividir una serie de tiempo en una secuencia de segmentos. Suele ocurrir que una serie temporal se puede representar como una secuencia de segmentos individuales, cada uno con sus propias propiedades características. Por ejemplo, la señal de audio de una llamada de conferencia se puede dividir en partes correspondientes a los tiempos durante los cuales cada persona estuvo hablando. En la segmentación de series de tiempo, el objetivo es identificar los puntos límite del segmento en la serie de tiempo y caracterizar las propiedades dinámicas asociadas con cada segmento. Se puede abordar este problema utilizando la detección de puntos de cambio o modelando la serie temporal como un sistema más sofisticado, como un sistema lineal de salto de Markov.
Modelos
Los modelos para datos de series de tiempo pueden tener muchas formas y representar diferentes procesos estocásticos. Cuando se modelan variaciones en el nivel de un proceso, tres amplias clases de importancia práctica son los modelos autorregresivos (AR), los modelos integrados (I) y los modelos de promedio móvil (MA). Estas tres clases dependen linealmente de los puntos de datos anteriores.Las combinaciones de estas ideas producen modelos de promedio móvil autorregresivo (ARMA) y promedio móvil integrado autorregresivo (ARIMA). El modelo de promedio móvil autorregresivo integrado fraccionalmente (ARFIMA) generaliza los tres anteriores. Las extensiones de estas clases para tratar con datos con valores vectoriales están disponibles bajo el título de modelos de series de tiempo multivariados y, a veces, los acrónimos anteriores se amplían al incluir una "V" inicial para "vector", como en VAR para autorregresión vectorial. Un conjunto adicional de extensiones de estos modelos está disponible para su uso cuando la serie temporal observada está impulsada por alguna serie temporal "forzada" (que puede no tener un efecto causal en la serie observada): la distinción del caso multivariado es que la serie forzada puede ser determinista o estar bajo el control del experimentador.
La dependencia no lineal del nivel de una serie en puntos de datos anteriores es de interés, en parte debido a la posibilidad de producir una serie de tiempo caótica. Sin embargo, lo que es más importante, las investigaciones empíricas pueden indicar la ventaja de usar predicciones derivadas de modelos no lineales, sobre aquellas de modelos lineales, como por ejemplo en modelos exógenos autorregresivos no lineales. Referencias adicionales sobre el análisis de series temporales no lineales: (Kantz y Schreiber) y (Abarbanel)
Entre otros tipos de modelos de series temporales no lineales, existen modelos para representar los cambios de varianza en el tiempo (heteroscedasticidad). Estos modelos representan heteroscedasticidad condicional autorregresiva (ARCH) y la colección comprende una amplia variedad de representaciones (GARCH, TARCH, EGARCH, FIGARCH, CGARCH, etc.). Aquí, los cambios en la variabilidad están relacionados con, o son predichos por, valores pasados recientes de la serie observada. Esto contrasta con otras posibles representaciones de la variabilidad que varía localmente, donde la variabilidad podría modelarse como impulsada por un proceso independiente que varía en el tiempo, como en un modelo doblemente estocástico.
En trabajos recientes sobre análisis sin modelo, los métodos basados en la transformada de ondículas (por ejemplo, ondículas localmente estacionarias y redes neuronales descompuestas de ondículas) han ganado popularidad. Las técnicas multiescala (a menudo denominadas multiresolución) descomponen una serie de tiempo dada, intentando ilustrar la dependencia del tiempo en múltiples escalas. Consulte también las técnicas multifractales de conmutación de Markov (MSMF) para modelar la evolución de la volatilidad.
Un modelo oculto de Markov (HMM) es un modelo estadístico de Markov en el que se supone que el sistema que se modela es un proceso de Markov con estados no observados (ocultos). Un HMM puede considerarse como la red bayesiana dinámica más simple. Los modelos HMM se utilizan ampliamente en el reconocimiento de voz, para traducir una serie temporal de palabras habladas en texto.
Notación
Se utilizan varias notaciones diferentes para el análisis de series de tiempo. Una notación común que especifica una serie de tiempo X indexada por los números naturales se escribeX = (X 1, X 2,...).
Otra notación común esY = (Y t: t ∈ T),
donde T es el [y[conjunto de índices]].
Condiciones
Hay dos conjuntos de condiciones bajo las cuales se construye gran parte de la teoría:
- Proceso estacionario
- proceso ergódico
Sin embargo, las ideas de estacionariedad deben ampliarse para considerar dos ideas importantes: estacionariedad estricta y estacionariedad de segundo orden. Tanto los modelos como las aplicaciones pueden desarrollarse bajo cada una de estas condiciones, aunque los modelos en el último caso pueden considerarse como especificados solo parcialmente.
Además, el análisis de series de tiempo se puede aplicar cuando las series son estacionalmente estacionarias o no estacionarias. Las situaciones en las que las amplitudes de los componentes de frecuencia cambian con el tiempo se pueden tratar en el análisis de frecuencia de tiempo que utiliza una representación de frecuencia de tiempo de una serie de tiempo o señal.
Instrumentos
Las herramientas para investigar datos de series temporales incluyen:
- Consideración de la función de autocorrelación y la función de densidad espectral (también funciones de correlación cruzada y funciones de densidad espectral cruzada)
- Funciones de correlación cruzada y automática escaladas para eliminar las contribuciones de los componentes lentos
- Realizar una transformada de Fourier para investigar la serie en el dominio de la frecuencia
- Uso de un filtro para eliminar el ruido no deseado
- Análisis de componentes principales (o análisis empírico de funciones ortogonales)
- Análisis de espectro singular
- Modelos "estructurales":
- Modelos generales de espacio de estado
- Modelos de componentes no observados
- Aprendizaje automático
- Redes neuronales artificiales
- Máquinas de vectores soporte
- Lógica difusa
- proceso gaussiano
- Programación genética
- Programación de expresión génica
- Modelo oculto de Markov
- Programación de expresiones múltiples
- Análisis de la teoría de colas
- Tabla de control
- Gráfico de control de individuos de Shewhart
- gráfico CUSUM
- gráfico EWMA
- Análisis de fluctuación sin tendencia
- Modelado no lineal de efectos mixtos
- Deformación dinámica del tiempo
- Correlación cruzada
- Red bayesiana dinámica
- Técnicas de análisis de tiempo-frecuencia:
- Transformada rápida de Fourier
- Transformada wavelet continua
- Transformada de Fourier de tiempo corto
- Transformación de chirplet
- Transformada fraccionaria de Fourier
- Análisis caótico
- Dimensión de correlación
- Gráficas de recurrencia
- Análisis de cuantificación de recurrencia
- Exponentes de Lyapunov
- Codificación de entropía
Medidas
Métricas o características de series temporales que se pueden utilizar para la clasificación de series temporales o el análisis de regresión:
- Medidas lineales univariadas
- Momento (matemáticas)
- Potencia de la banda espectral
- Frecuencia de borde espectral
- Energía acumulada (procesamiento de señales)
- Características de la función de autocorrelación
- Parámetros de Hjorth
- Parámetros de FFT
- Parámetros del modelo autorregresivo
- Prueba de Mann-Kendall
- Medidas no lineales univariadas
- Medidas basadas en la suma de correlación
- Dimensión de correlación
- Integral de correlación
- Densidad de correlación
- entropía de correlación
- Entropía aproximada
- Muestra de entropía
- Entropía de Fourier Reino Unido
- entropía wavelet
- Entropía de dispersión
- Entropía de dispersión de fluctuación
- entropía de Renyi
- Métodos de orden superior
- Previsibilidad marginal
- Índice de similitud dinámica
- Medidas de disimilitud del espacio de estados
- Exponente de Lyapunov
- métodos de permutación
- Flujo local
- Otras medidas univariadas
- Complejidad algorítmica
- Estimaciones de complejidad de Kolmogorov
- Estados ocultos del modelo de Markov
- Firma de ruta áspera
- Serie temporal sustituta y corrección sustituta
- Pérdida de recurrencia (grado de no estacionariedad)
- Medidas lineales bivariadas
- Correlación cruzada lineal máxima
- Coherencia lineal (procesamiento de señales)
- Medidas no lineales bivariadas
- Interdependencia no lineal
- Arrastre dinámico (física)
- Medidas para la sincronización de fase
- Medidas para el bloqueo de fase
- Medidas de similitud:
- Correlación cruzada
- Deformación dinámica del tiempo
- Modelos ocultos de Markov
- Editar distancia
- Correlación total
- Estimador de Newey-West
- Transformación de Prais-Winsten
- Datos como vectores en un espacio metrizable
- distancia minkowski
- distancia de Mahalanobis
- Datos como series temporales con sobres
- Desviación estándar mundial
- Desviación estándar local
- Desviación estándar en ventana
- Datos interpretados como series estocásticas
- Coeficiente de correlación producto-momento de Pearson
- Coeficiente de correlación de rango de Spearman
- Datos interpretados como una función de distribución de probabilidad
- Prueba de Kolmogorov-Smirnov
- Criterio de Cramér-von Mises
Visualización
Las series temporales se pueden visualizar con dos categorías de gráficos: gráficos superpuestos y gráficos separados. Los gráficos superpuestos muestran series de todos los tiempos en el mismo diseño, mientras que los gráficos separados los presentan en diferentes diseños (pero alineados para fines de comparación)
Gráficos superpuestos
- Gráficos trenzados
- gráficos de líneas
- Gráficos de pendiente
- GapChart es
Gráficos separados
- Gráficos de horizonte
- Gráfico de líneas reducido (múltiplos pequeños)
- Gráfico de silueta
- Gráfico de silueta circular
Contenido relacionado
Muestreo multietapa
Exclusividad mutua
Distribución t de Student