Panel de datos
En estadística y econometría, los datos de panel y los datos longitudinales son datos multidimensionales que implican mediciones a lo largo del tiempo. Los datos de panel son un subconjunto de datos longitudinales donde las observaciones son para los mismos sujetos cada vez.
Las series temporales y los datos transversales pueden considerarse casos especiales de datos de panel que se encuentran en una sola dimensión (un miembro del panel o individuo para los primeros, un punto temporal para los segundos). Una búsqueda bibliográfica suele incluir datos de series temporales, transversales o de panel. Los datos de panel cruzado (CPD) son una fuente de información innovadora pero subestimada en las ciencias matemáticas y estadísticas. El DPC se destaca de otros métodos de investigación porque ilustra vívidamente cómo las variables independientes y dependientes pueden cambiar entre países. Esta recopilación de datos de panel permite a los investigadores examinar la conexión entre variables en varias secciones transversales y períodos de tiempo y analizar los resultados de acciones políticas en otras naciones.
Un estudio que utiliza datos de panel se denomina estudio longitudinal o estudio de panel.
Ejemplo
| persona | año | ingresos | Edad | sexo |
|---|---|---|---|---|
| 1 | 2016 | 1300 | 27 | 1 |
| 1 | 2017 | 1600 | 28 | 1 |
| 1 | 2018 | 2000 | 29 | 1 |
| 2 | 2016 | 2000 | 38 | 2 |
| 2 | 2017 | 2300 | 39 | 2 |
| 2 | 2018 | 2400 | 40 | 2 |
| persona | año | ingresos | Edad | sexo |
|---|---|---|---|---|
| 1 | 2016 | 1600 | 23 | 1 |
| 1 | 2017 | 1500 | 24 | 1 |
| 2 | 2016 | 1900 | 41 | 2 |
| 2 | 2017 | 2000 | 42 | 2 |
| 2 | 2018 | 2100 | 43 | 2 |
| 3 | 2017 | 3300 | 34 | 1 |
En el ejemplo anterior del procedimiento de permutación de respuestas múltiples (MRPP), se muestran dos conjuntos de datos con una estructura de panel y el objetivo es probar si existe una variación significativa. diferencia entre las personas en los datos de la muestra. Se recopilan características individuales (ingresos, edad, sexo) para diferentes personas y diferentes años. En el primer conjunto de datos, se observa a dos personas (1, 2) cada año durante tres años (2016, 2017, 2018). En el segundo conjunto de datos, se observa a tres personas (1, 2, 3) dos veces (persona 1), tres veces (persona 2) y una vez (persona 3), respectivamente, durante tres años (2016, 2017, 2018). ; en particular, la persona 1 no se observa en el año 2018 y la persona 3 no se observa en 2016 o 2018.
A panel equilibrado (por ejemplo, el primer conjunto de datos anterior) es un conjunto de datos en el que cada uno miembro del panel (es decir, persona) se observa cada uno año. En consecuencia, si un panel equilibrado contiene N{displaystyle N} panel members and T{displaystyle T} y el número de observacionesn{displaystyle n}) en el conjunto de datos es necesariamente n=N⋅ ⋅ T{displaystyle N=Ncdot T}.
An panel desequilibrado (por ejemplo, el segundo conjunto de datos anterior) es un conjunto de datos en el que al menos uno miembro del panel no se observa cada período. Por lo tanto, si un panel desequilibrado contiene N{displaystyle N} panel members and T{displaystyle T} periodos, entonces la siguiente desigualdad estricta sostiene para el número de observaciones (n{displaystyle n}) en el conjunto de datos: <math alttext="{displaystyle nnc)N⋅ ⋅ T{displaystyle No se trata de nada.<img alt="{displaystyle n.
Ambos conjuntos de datos anteriores están estructurados en el formato largo, que es donde una fila contiene una observación por vez. Otra forma de estructurar los datos de panel sería el formato ancho donde una fila representa una unidad de observación para todos los puntos en el tiempo (por ejemplo, el formato ancho tendría solo dos ( primer ejemplo) o tres (segundo ejemplo) filas de datos con columnas adicionales para cada variable que varía en el tiempo (ingresos, edad).
Análisis
Un panel tiene la forma
- Xit,i=1,... ... ,N,t=1,... ... ,T,{displaystyle X_{it},quad i=1,dotsN,quad t=1,dotsT,}
Donde i{displaystyle i} es la dimensión individual y t{displaystyle t} es la dimensión del tiempo. Un modelo de regresión de datos de panel general está escrito como Sí.it=α α +β β .Xit+uit{displaystyle Y.... Pueden hacerse diferentes supuestos sobre la estructura precisa de este modelo general. Dos modelos importantes son el modelo de efectos fijos y el modelo de efectos aleatorios.
Considere un modelo de datos de panel genérico:
- Sí.it=α α +β β .Xit+uit,{displaystyle Y... #
- uit=μ μ i+vit.{displaystyle u_{it}=mu} - ¿Qué?
μ μ i{displaystyle mu _{i}} son efectos individuales e invariantes (por ejemplo, en un grupo de países que podrían incluir la geografía, el clima, etc.) que se fijan con el tiempo, mientras que vit{displaystyle v_{it} es un componente aleatorio que varia tiempo.
Si μ μ i{displaystyle mu _{i}} no se conserva, y correlacionado con al menos una de las variables independientes, entonces causará sesgo variable omitido en una regresión estándar OLS. Sin embargo, los métodos de datos de panel, como el calculador de efectos fijos o alternativamente, el estimador de primera diferencia se puede utilizar para controlarlo.
Si μ μ i{displaystyle mu _{i}} no está correlacionado con ninguna de las variables independientes, los métodos ordinarios de regresión lineal mínimos cuadrados pueden utilizarse para producir estimaciones imparciales y consistentes de los parámetros de regresión. Sin embargo, porque μ μ i{displaystyle mu _{i}} se fija con el tiempo, inducirá correlación en serie en el término de error de la regresión. Esto significa que existen técnicas de estimación más eficientes. Efectos aleatorios es uno de estos métodos: es un caso especial de cuadrados mínimos generalizados factibles que controlan la estructura de la correlación serial inducida por μ μ i{displaystyle mu _{i}}.
Datos del panel dinámico
Los datos del panel dinámico describen el caso en el que se utiliza un rezago de la variable dependiente como regresor:
- Sí.it=α α +β β .Xit+γ γ Sí.it− − 1+uit.{displaystyle Y... +beta 'X_{it}+gamma Sí.
La presencia de la variable dependiente rezagada viola la exogeneidad estricta, es decir, la endogeneidad puede ocurrir. El estimador de efecto fijo y el primer estimador de diferencias dependen de la asunción de una exogeneidad estricta. Por lo tanto, si ui{displaystyle U_{i} se cree que está correlacionado con una de las variables independientes, se debe utilizar una técnica de estimación alternativa. Las variables instrumentales o técnicas GMM se utilizan comúnmente en esta situación, como el estimador Arellano-Bond. Estimando esto debemos tener la información adecuada sobre las variables instrumentales.
Conjuntos de datos que tienen un diseño de panel
- Russia Longitudinal Monitoring Survey (RLMS)
- Alemán Grupo Socioeconómico (SOEP)
- Household, Income and Labour Dynamics in Australia Survey (HILDA)
- British Household Panel Survey (BHPS)
- Survey of Family Income and Employment (SoFIE)
- Survey of Income and Program Participation (SIPP)
- Base de datos del mercado laboral permanente (LLMDB)
- Estudios de Internet longitudinales para las ciencias sociales (LISS)
- Panel Study of Income Dynamics (PSID)
- Korean Labor and Income Panel Study (KLIPS)
- China Family Panel Studies (CFPS)
- German Family Panel (pairfam)
- National Longitudinal Surveys (NLSY)
- Labour Force Survey (LFS)
- Korean Youth Panel (YP)
- Korean Longitudinal Study of Aging (KLoSA)