Teorema de Gauss-Markov

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En estadística, el teorema de Gauss-Markov (o simplemente teorema de Gauss para algunos autores) establece que el estimador de mínimos cuadrados ordinarios (OLS) tiene la varianza de muestreo más baja dentro de la clase de estimadores lineales insesgados, si los errores en el modelo de regresión lineal no están correlacionados, tienen varianzas iguales y un valor esperado de cero. No es necesario que los errores sean normales, ni que sean independientes e idénticamente distribuidos (solo no correlacionados con media cero y homocedásticos con varianza finita). El requisito de que el estimador sea insesgado no puede eliminarse, ya que existen estimadores sesgados con una varianza más baja. Consulte, por ejemplo, el estimador de James-Stein (que también elimina la linealidad), la regresión de cresta o simplemente cualquier estimador degenerado.

El teorema lleva el nombre de Carl Friedrich Gauss y Andrey Markov, aunque Gauss' el trabajo es significativamente anterior al de Markov. Pero mientras Gauss derivó el resultado bajo el supuesto de independencia y normalidad, Markov redujo los supuestos a la forma establecida anteriormente. Alexander Aitken dio una generalización adicional a los errores no esféricos.

Declaración

Supongamos que tenemos, en notación matricial, la relación lineal

{displaystyle y=Xbeta +varepsilonquad (y,varepsilon in mathbb {R} ^{n},beta in mathbb {R} {K}{K}text{ and }Xin mathbb {R} ^{ntimes K}}

expandiéndose a,

{displaystyle Y... ################################################################################################################################################################################################################################################################ _{j}X_{ij}+varepsilon ################################################################################################################################################################################################################################################################

Donde ${displaystyle beta _{j}}$ no son de costumbre pero UNAParámetros observables, ${displaystyle X_{ij}$ no son aleatorios y observables (llamados " variables explicativas"), ${displaystyle varepsilon _{i}$ son al azar, y así ${displaystyle Y...$ son al azar. Las variables aleatorias ${displaystyle varepsilon _{i}$ son llamados "disturbance", "noise" o simplemente "error" (se contrastará con "residual" más adelante en el artículo; ver errores y residuos en estadísticas). Tenga en cuenta que para incluir una constante en el modelo anterior, se puede optar por introducir la constante como variable ${displaystyle beta ¿Qué?$ con una última columna recientemente introducida de X siendo unidad, es decir, ${displaystyle X_{i(K+1)}=1}$ para todos ${displaystyle i}$ . Tenga en cuenta que ${displaystyle Y...$ como respuestas de muestra, son observables, las siguientes declaraciones y argumentos, incluyendo supuestos, pruebas y los demás asumen bajo los sólo condición de saber ${displaystyle X_{ij},}$ pero no ${displaystyle Sí.$

El Gauss – Markov suposiciones se refieren al conjunto de variables aleatorias de error, ${displaystyle varepsilon _{i}$ :

Tienen cero. ${displaystyle operatorname {E} [varepsilon _{i}]=0.}$
Son homoscedastic, es decir, todos tienen la misma varianza finita: ${displaystyle operatorname [Var] (varepsilon _{i})=sigma ^{2}traducidoinfty$ para todos ${displaystyle i}$ y
Los términos de error distintos no están relacionados con: ${displaystyle {text{Cov} {varepsilon} _{i},varepsilon _{j})=0,forall ineq j.}$

A estimador lineal de ${displaystyle beta _{j}}$ es una combinación lineal

{displaystyle {widehat {beta }_{j}=c_{1j}y_{1}+cdots - Sí.

en que los coeficientes ${displaystyle c_{ij}$ no se permite depender de los coeficientes subyacentes ${displaystyle beta _{j}}$ , ya que no son observables, pero se les permite depender de los valores ${displaystyle X_{ij}$ , ya que estos datos son observables. (La dependencia de los coeficientes de cada uno ${displaystyle X_{ij}$ es típicamente no lineal; el estimador es lineal en cada ${displaystyle Y...$ y por lo tanto en cada azar ${displaystyle varepsilon}$ por eso es la regresión "lineal". Se dice que el estimador imparciales si

{displaystyle operatorname {E} left[{widehat {beta - Sí.

independientemente de los valores de ${displaystyle X_{ij}$ . Ahora, vamos. ${textstyle sum _{j=1}lambda _{j}beta _{j}}$ ser una combinación lineal de los coeficientes. Entonces el error cuadrado de la estimación correspondiente

{displaystyle operatorname {E} left[sum _{j=1}lambda _{j}left {beta} ¿Qué?

en otras palabras, es la expectativa del cuadrado de la suma ponderada (a través de parámetros) de las diferencias entre los estimadores y los parámetros correspondientes a ser estimados. (Ya que estamos considerando el caso en que todas las estimaciones del parámetro son imparciales, este error medio cuadrado es el mismo que la varianza de la combinación lineal.) El best linear unbiased estimator (BLUE) del vector ${displaystyle beta }$ de parámetros ${displaystyle beta _{j}}$ es uno con el más pequeño error medio cuadrado para cada vector ${displaystyle lambda }$ de parámetros de combinación lineal. Esto equivale a la condición de que

{displaystyle operatorname {Var} left({widetilde {beta }right)-operatorname {Var} left {beta}derecha)}

es una matriz semi-definida positiva para cada otro estimador lineal imparcial ${displaystyle {widetilde {beta }$ .

El estimador de mínimos cuadrados ordinarios (MCO) es la función

{displaystyle {widehat {beta - Sí.

de ${displaystyle y}$ y ${displaystyle X}$ (donde) ${displaystyle X.$ denota la transposición de ${displaystyle X}$ ) que minimiza el suma de cuadrados de residuos (cifras de predicción):

{displaystyle sum ¿Por qué? {y}_{i}right)}{2}=sum ¿Por qué? {fnK} {fnMicrosoft Sans Serif} - Sí.

El teorema ahora declara que el estimador OLS es un BLUE. La idea principal de la prueba es que el estimador de mínimos cuartos no está relacionado con cada calculador lineal de cero, es decir, con cada combinación lineal ${displaystyle a_{1}y_{1}+cdots - Sí.$ cuyos coeficientes no dependen de los inservibles ${displaystyle beta }$ pero cuyo valor esperado es siempre cero.

Observación

La prueba de que MCO efectivamente MINIMIZA la suma de los cuadrados de los residuos puede proceder de la siguiente manera con un cálculo de la matriz hessiana y mostrando que es definida positiva.

La función MSE que queremos minimizar es

{displaystyle f(beta _{0},beta _{1},dotsbeta _{p})=sum ¿Qué? ¿Qué? ¿Qué?

{displaystyle {begin{aligned}{frac} {d}{d{boldsymbol {beta }} {sf} {sf}sf}sf {fnh} {fnMitbf} -X{boldsymbol {beta - Sí. ¿Por qué? - 'beta ¿Por qué? ¿Por qué? -beta _{p}x_{ip})\\vdots \sum ¿Por qué? - 'beta {cHFF}\cHFF}\cH00}\cH00\cH00}p+1}end{aligned}}

{displaystyle X={begin{bmatrix}1 implicax_{11} ################################################################################################################################################################################################################################################################ ################################################################################################################################################################################################################################################################ \11n1}in mathbb {R} ^{ntimes (p+1)};qquad ngeq p+1}

La matriz hessiana de segundas derivadas es

{displaystyle {Mathcal {H}=2{begin{bmatrix}n limitsum ################################################################################################################################################################################################################################################################. ¿Por qué? ################################################################################################################################################################################################################################################################ ##{i=1} {n}x_{i1} {2} âTMa âTMa. ##{i=1} {n}x_{i1}x_{ip}\\vdots 'vdots ' 'ddots &vdots \sum ################################################################################################################################################################################################################################################################ ##{i=1} {n}x_{ip}x_{i1}. ¿Por qué?

Asumiendo las columnas de ${displaystyle X}$ son linealmente independientes para que ${displaystyle X^{T}X}$ es invertible, vamos ${displaystyle X={begin{bmatrix}mathbf {v_{1} &mathbf {v_{2} &cdots &mathbf {v} _{p+1}end{bmatrix}}$ , entonces

{displaystyle k_{1}mathbf {v_{1} +dots +k_{p+1}mathbf {v} - ¿Qué? {0} iff k_{1}=dots =k_{p+1}=0}

Ahora ${displaystyle mathbf {k} =(k_{1},dotsk_{p+1})^{T}in mathbb {R} ^{(p+1)times 1}$ ser un eigenvector de ${displaystyle {fnMithcal}}$ .

{displaystyle mathbf {k} neq mathbf {0} implies left(k_{1}mathbf {v_{1} +dots +k_{p+1}mathbf {v} _{p+1}right)^{2} {0}}

En términos de multiplicación de vectores, esto significa

{displaystyle {begin{bmatrix}k_{1} {begin{bmatrix}mathbf Oh, Dios mío. {fnMicrosoft Sans Serif} {begin{bmatrix}mathbf Oh, Dios mío. {fnMicrosoft Sans Serif} \k_{p+1}end{bmatrix}=mathbf Mathbf {k} =lambda mathbf {k} }

{displaystyle lambda }

{displaystyle mathbf {k}

{displaystyle mathbf {k}mathsf {T}mathbf {k} =sum ##{i=1} {p+1}k_{i}{2} {0implies lambda }

Finalmente, como eigenvector ${displaystyle mathbf {k}$ era arbitrario, significa todos los eigenvalues de ${displaystyle {fnMithcal}}$ son positivos, por lo tanto ${displaystyle {fnMithcal}}$ es positivo. Así,

{displaystyle {boldsymbol {beta }=left(X^{mathsf {T}Xright)^{-1}X^{mathsf {T}Y}

O, sólo mira eso para todos los vectores ${displaystyle mathbf {v}mathbf {v} ^{T}X^{T}Xmathbf {v} 0}$ . Así que el Hessian es positivo definitivo si es de rango completo.

Prueba

Vamos ${displaystyle {fnMicrosoft {beta {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}beta {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {f}\\\\fnMicrosoft {\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\\\\\\\fn\\\\\\\\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {fnMicro }=Cy)$ ser otro estimador lineal de ${displaystyle beta }$ con ${displaystyle C=(X'X)^{-1}X'+D}$ Donde ${displaystyle D}$ es un ${displaystyle Ktimes n}$ matriz no cero. Como estamos restringiendo a imparciales estimadores, error mínimo medio cuadrado implica mínima varianza. Por lo tanto, el objetivo es demostrar que tal calculador tiene una diferencia no menor que la de ${displaystyle {widehat {beta}}}$ el estimador OLS. Calculamos:

{displaystyle {begin{aligned}operatorname {E} left[{tilde {beta] ################################################################################################################################################################################################################################################################ {E} [Cy]\\\fnMicrosoft] {E} left[left(X'X)^{-1}X'+Dright)(Xbeta +varepsilon)right]\\cH00=left(X'X)^{-1}X'+Dright)Xbeta +left(X'X)^{-1}X'+Dright)operatorname {E} [varepsilon]\\left(X'X)^{-1}X'+Dright)Xbeta " Pulse " {E} [varepsilon]=0\\fnMicrosoft Sans Serif]beta +DXbeta\\beta\\\fnMicrosoft Sans Serif}

Por lo tanto, desde ${displaystyle beta }$ es UNAobservable, ${displaystyle {fnMicrosoft {beta {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}beta {\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {f}\\\\fnMicrosoft {\fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {\\fnMicrosoft {fnMicrosoft {\\\\\\\fn\\\\\\\\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\\fnMicrosoft {\\\\fnMicrosoft {fnMicro }$ es imparcial si y sólo si ${displaystyle DX=0}$ . Entonces:

{displaystyle {begin{aligned}operatorname {beta}left({tilde {beta} ################################################################################################################################################################################################################################################################ {Var} (Cy)\cH00=C{text{ Var}(y)C'\] ################################################################################################################################################################################################################################################################ ^{2}DD'\=sigma ^{2}(X'X)^{-1}+sigma ################################################################################################################################################################################################################################################################ {Var} left({widehat {beta}derecha)+sigma ^{2}DD' limitarsigma ^{2}(X'X)^{-1}=operatorname {Var} left {beta}end{aligned}}

Desde DD ' es una matriz semidefinida positiva, ${displaystyle operatorname {Var} left({tilde {beta }right)}$ excedentes ${displaystyle operatorname {Var} left({widehat {beta }right)}$ por una matriz semidefinida positiva.

Observaciones sobre la prueba

Como se ha dicho antes, la condición ${displaystyle operatorname {Var} left({tilde {beta }right)-operatorname {Var} left {beta}derecha)}$ es una matriz semidefinida positiva equivale a la propiedad que el mejor estimador lineal sinbias ${displaystyle ell ^{t}beta }$ es ${displaystyle ell ^{t}{widehat {beta }$ (mejor en el sentido de que tiene una varianza mínima). Para ver esto, vamos ${displaystyle ell ^{t}{tilde {beta }$ otro estimador lineal sin prejuicios ${displaystyle ell ^{t}beta }$ .

{displaystyle {begin{aligned}operatorname {fnMicrosoft} {fnMicrosoft} {beta} ################################################################################################################################################################################################################################################################ ^{t}operatorname {Var} left({tilde {beta}right)ell\\\sigma ^{2}ell ^{t}(X'X)^{-1}ell +ell }DD^{t}ell ################################################################################################################################################################################################################################################################ {Var} left(ell ^{t}{widehat {beta }right)+(D^{t}ell)^{t} {t}(D^{t}ell) Sentido 'sigma ^{2}ell {fnMicrosoft} {fnMicrosoft {fnMicrosoft} {beta} {fnMicrosoft} {f} {fnMicrosoft} {f}fnK} {f}fnK}f}f}f}f}f}fnfnKf}fnKf}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}fnKf}f}f}f}\f}f}fn\\\\\\fnfn\\\\fnKfnKfnK\fnfnKfn}fnK\\\\\\fnK\fnfn ########## {fnMicrosoft Sans Serif}correcto\\fnMicrosoft Sans Serif}\fnMicrosoft Sans Serif}fnMicrosoft Sans Ser)\\\\\\\fnMicrosoft Sans Serif]\ [Var] left(ell ^{t}{widehat {beta }right)+ ################################################################################################################################################################################################################################################################ {fnMicrosoft Sans Serif}

Además, la igualdad tiene si y sólo si ${displaystyle D^{t}ell =0}$ . Calculamos

{displaystyle {begin{aligned}ell ^{t}{tilde {beta} ################################################################################################################################################################################################################################################################ Y+ell ^{t}DY\\fnMicrosoft } {beta} ¿Qué? Y\\\ell ^{t} {beta } {fn}}cccccc}ccc}ccH}}}}

Esto demuestra que la igualdad tiene si y sólo si ${displaystyle ell ^{t}{tilde {beta }=ell ^{t}{acucho {beta }$ que da la singularidad del estimador OLS como BLUE.

Estimador de mínimos cuadrados generalizados

Los mínimos cuadrados generalizados (GLS), desarrollados por Aitken, extienden el teorema de Gauss-Markov al caso donde el vector de error tiene una matriz de covarianza no escalar. El estimador de Aitken también es AZUL.

Teorema de Gauss-Markov tal como se establece en la econometría

En la mayoría de los tratamientos de la OLS, los regredores (parameters of interest) en la matriz de diseño ${displaystyle mathbf {X}$ se supone que se fijan en muestras repetidas. Esta suposición se considera inapropiada para una ciencia predominantemente no experiencial como la econometría. En cambio, las suposiciones del teorema Gauss–Markov están condicionadas a ${displaystyle mathbf {X}$ .

Linealidad

Se supone que la variable dependiente es una función lineal de las variables especificadas en el modelo. La especificación debe ser lineal en sus parámetros. Esto no significa que haya una relación lineal entre las variables independientes y dependientes. Las variables independientes pueden tomar formas no lineales mientras los parámetros sean lineales. La ecuación ${displaystyle y=beta _{0}+beta _{1}x^{2}$ califica como linear mientras ${displaystyle y=beta ¿Qué?$ se puede transformar para ser lineal reemplazando ${displaystyle beta _{1} {2}}$ por otro parámetro, decir ${displaystyle gamma }$ . Una ecuación con un parámetro dependiente de una variable independiente no califica como lineal, por ejemplo ${displaystyle y=beta _{0}+beta _{1}(x)cdot x}$ , donde ${displaystyle beta _{1}(x)}$ es una función ${displaystyle x}$ .

Las transformaciones de datos se utilizan a menudo para convertir una ecuación en una forma lineal. Por ejemplo, la función Cobb-Douglas, a menudo utilizada en economía, no es lineal:

{displaystyle Y=AL^{alpha }K^{1-alpha }e^{varepsilon }

Pero se puede expresar en forma lineal tomando el logaritmo natural de ambos lados:

{displaystyle ln Y=ln A+alpha ln L+(1-alpha)ln K+varepsilon =beta _{0}+beta _{1}ln L+beta _{2}ln K+varepsilon }

Esta suposición también cubre problemas de especificación: suponiendo que se ha seleccionado la forma funcional adecuada y que no hay variables omitidas.

Se debe tener en cuenta, sin embargo, que los parámetros que minimizan los residuos de la ecuación transformada no necesariamente minimizan los residuos de la ecuación original.

Exogeneidad estricta

Para todos ${displaystyle n}$ observaciones, la expectativa —condicional sobre los regresores— del término de error es cero:

{displaystyle operatorname {E} [,varepsilon _{i}mid mathbf ################################################################################################################################################################################################################################################################ {E} [,varepsilon _{i}mid mathbf {x} _{1},dotsmathbf {x} _{n}]=0.}

Donde ${displaystyle mathbf {x} {i}={begin{bmatrix}x_{i1} limitx_{i2} ¿Qué? {T}}$ es el vector de datos de los regresores para el iy, en consecuencia, ${displaystyle mathbf {X}={begin{bmatrix}mathbf {x} _{1}mathsf {T}} {x}} {Mathbf}} {x} ¿Por qué?$ es la matriz de datos o matriz de diseño.

Geométricamente, esta suposición implica que ${displaystyle mathbf {x} _{i}$ y ${displaystyle varepsilon _{i}$ son ortogonales entre sí, por lo que su producto interno (es decir, su momento de la cruz) es cero.

{displaystyle operatorname {E} [,mathbf {x} _{j}cdot varepsilon ################################################################################################################################################################################################################################################################ {E} [,{x}_{j1}cdot varepsilon #### ## ## Operatorname {E} [,{x}_{j2}cdot varepsilon _{i},\\vdots\\\\\\\fnMicrosoft Sans Serif {E} [,{x}_{jk}cdot varepsilon _{i}end{bmatrix}=mathbf {0} quad {text{for all }i,jin n}

Este supuesto se viola si las variables explicativas se miden con error o son endógenas. La endogeneidad puede ser el resultado de la simultaneidad, donde la causalidad fluye de un lado a otro entre la variable dependiente y la independiente. Las técnicas de variables instrumentales se utilizan comúnmente para abordar este problema.

Rango completo

La matriz de datos de muestra ${displaystyle mathbf {X}$ Debe tener rango de columna completa.

{displaystyle operatorname {rank} (mathbf {X})=k}

De lo contrario ${displaystyle mathbf {X} 'Mathbf {X}$ no es invertible y el estimador OLS no puede ser calculado.

Una violación de esta suposición es la multicolinealidad perfecta, es decir, algunas variables explicativas son linealmente dependientes. Un escenario en el que esto ocurrirá se denomina "trampa de variable ficticia" cuando no se omite una variable ficticia base, lo que da como resultado una correlación perfecta entre las variables ficticias y el término constante.

La multicolinealidad (siempre que no sea "perfecta") puede estar presente, lo que da como resultado una estimación menos eficiente, pero igualmente imparcial. Las estimaciones serán menos precisas y muy sensibles a determinados conjuntos de datos. La multicolinealidad se puede detectar a partir del número de condición o el factor de inflación de la varianza, entre otras pruebas.

Errores esféricos

El producto exterior del vector de error debe ser esférico.

{displaystyle operatorname {E} [,{boldsymbol {varepsilon } {boldsymbol {varepsilon ################################################################################################################################################################################################################################################################ {Var} [,{boldsymbol {varepsilon }mid mathbf {X}={begin{bmatrix}sigma ################################################################################################################################################################################################################################################################ {I} quad {text{with }sigma ^{2} {0}

Esto implica que el término de error tiene varianza uniforme (homoscedasticidad) y ninguna correlación serial. Si se viola esta suposición, la OLS sigue siendo imparcial, pero es ineficiente. El término "errores esféricos" describirá la distribución normal multivariada: si ${displaystyle operatorname {Var} [,{boldsymbol {varepsilon }mid mathbf {X}=sigma {I}$ en la densidad normal multivariada, entonces la ecuación ${displaystyle f(varepsilon)=c}$ es la fórmula para una bola centrada en μ con radio σ en espacio ndimensional.

La heteroscedasticidad ocurre cuando la cantidad de error se correlaciona con una variable independiente. Por ejemplo, en una regresión sobre el gasto en alimentos y el ingreso, el error se correlaciona con el ingreso. Las personas de bajos ingresos generalmente gastan una cantidad similar en alimentos, mientras que las personas de altos ingresos pueden gastar una cantidad muy grande o tan pequeña como la que gastan las personas de bajos ingresos. La heterocedástica también puede ser causada por cambios en las prácticas de medición. Por ejemplo, a medida que las oficinas de estadística mejoran sus datos, el error de medición disminuye, por lo que el término de error disminuye con el tiempo.

Esta suposición se viola cuando hay autocorrelación. La autocorrelación se puede visualizar en un gráfico de datos cuando es más probable que una observación determinada se encuentre por encima de una línea ajustada si las observaciones adyacentes también se encuentran por encima de la línea de regresión ajustada. La autocorrelación es común en los datos de series de tiempo donde una serie de datos puede experimentar "inercia". Si una variable dependiente tarda un tiempo en absorber completamente un choque. La autocorrelación espacial también puede ocurrir. Es probable que las áreas geográficas tengan errores similares. La autocorrelación puede ser el resultado de una especificación incorrecta, como elegir la forma funcional incorrecta. En estos casos, corregir la especificación es una forma posible de lidiar con la autocorrelación.

En presencia de errores esféricos, se puede demostrar que el estimador de mínimos cuadrados generalizados es AZUL.

Contenido relacionado

Más resultados...