Método delta
En estadística, el método delta es un método para derivar la distribución asintótica de una variable aleatoria. Es aplicable cuando la variable aleatoria considerada puede definirse como una función diferenciable de una variable aleatoria que es asintóticamente gaussiana.
Historia
El método delta se derivó de la propagación del error, y la idea detrás se conocía a principios del siglo XX. Su aplicación estadística se remonta a 1928 por T. L. Kelley. J. L. Doob presentó una descripción formal del método en 1935. Robert Dorfman también describió una versión del mismo en 1938.
Método delta univariante
Si bien el método delta se generaliza fácilmente a un entorno multivariado, la motivación cuidadosa de la técnica se demuestra más fácilmente en términos univariados. Aproximadamente, si hay una secuencia de variables aleatorias Xn satisfactoria
- n[Xn− − Silencio Silencio ]→DN()0,σ σ 2),{displaystyle {{sqrt {n}[X_{n}-theta ###,{xrightarrow {D},{mathcal {N}(0,sigma ^{2}}}}
Donde Silencio y σ2 son constantes de valor finito y →D{displaystyle {xrightarrow {}}} denota convergencia en distribución, entonces
- n[g()Xn)− − g()Silencio Silencio )]→DN()0,σ σ 2⋅ ⋅ [g.()Silencio Silencio )]2){fn} [g(X_{n})-g(theta),{xrightarrow {}fnMithcal {}(0,sigma ^{2}cdot [g'(theta)}}}}}
para cualquier función g satisfacción de la propiedad que su primer derivado, evaluado en Silencio Silencio {displaystyle theta }, g.()Silencio Silencio ){displaystyle g'(theta)} existe y no tiene valor cero.
Prueba en el caso univariado
La demostración de este resultado es bastante sencilla bajo el supuesto de que g′(θ) es continua. Para comenzar, usamos el teorema del valor medio (es decir, la aproximación de primer orden de una serie de Taylor usando el teorema de Taylor):
- g()Xn)=g()Silencio Silencio )+g.()Silencio Silencio ~ ~ )()Xn− − Silencio Silencio ),{displaystyle g(X_{n})=g(theta)+g'({tilde {theta })(X_{n}-theta),}
Donde Silencio Silencio ~ ~ {displaystyle {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\\fnMicrosoft}fnMicrosoft {\fnMicrosoft {fnMicrosoft {\\fnMicrosoft}\\\\\\\\\\\\\\\\\\\\\\\\\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\\\\\fnMicrosoft {\fnMicro } mentiras entre Xn y Silencio. Note que desde entonces Xn→PSilencio Silencio {displaystyle X_{n},{xrightarrow {P},theta } y <math alttext="{displaystyle |{tilde {theta }}-theta |SilencioSilencio Silencio ~ ~ − − Silencio Silencio Silencioc)SilencioXn− − Silencio Silencio Silencio{fnMicrosoft Sans Serif} ♪♪ "Antes"<img alt="{displaystyle |{tilde {theta }}-theta |Debe ser que Silencio Silencio ~ ~ →PSilencio Silencio {displaystyle {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\\fnMicrosoft}fnMicrosoft {\fnMicrosoft {fnMicrosoft {\\fnMicrosoft}\\\\\\\\\\\\\\\\\\\\\\\\\\fnMicrosoft {fnMicrosoft {fnMicrosoft {\\\\\\\\\\fnMicrosoft {\fnMicro },{xrightarrow {P},theta } y desde g()Silencio) es continuo, aplicando los rendimientos continuos de teorema de cartografía
- g.()Silencio Silencio ~ ~ )→Pg.()Silencio Silencio ),{displaystyle g'({tilde {theta }),{xrightarrow {P},g'(theta),}
Donde →P{displaystyle {xrightarrow {}}} denota convergencia en probabilidad.
Reordenando los términos y multiplicando por n{displaystyle {sqrt {n}} da
- n[g()Xn)− − g()Silencio Silencio )]=g.()Silencio Silencio ~ ~ )n[Xn− − Silencio Silencio ].{displaystyle {sqrt {n}[g(X_{n})-g(theta)]=g'left({tilde {theta }right){sqrt {n}[X_{n}-theta ].}
Desde
- n[Xn− − Silencio Silencio ]→DN()0,σ σ 2){displaystyle {{sqrt {n}[X_{n}-theta # {xrightarrow {D} {fn} {0,sigma ^{2}}}
por suposición, se sigue inmediatamente de apelar al teorema de Slutsky que
- n[g()Xn)− − g()Silencio Silencio )]→DN()0,σ σ 2[g.()Silencio Silencio )]2).{fn} {fn} [g(X_{n})-g(theta)}{xrightarrow {} {fn}(0,sigma ^{2} [g'(theta)]}}}}
Esto concluye la prueba.
Demostración con un orden explícito de aproximación
Alternativamente, se puede agregar un paso más al final, para obtener el orden de aproximación:
- n[g()Xn)− − g()Silencio Silencio )]=g.()Silencio Silencio ~ ~ )n[Xn− − Silencio Silencio ]=n[Xn− − Silencio Silencio ][g.()Silencio Silencio ~ ~ )+g.()Silencio Silencio )− − g.()Silencio Silencio )]=n[Xn− − Silencio Silencio ][g.()Silencio Silencio )]+n[Xn− − Silencio Silencio ][g.()Silencio Silencio ~ ~ )− − g.()Silencio Silencio )]=n[Xn− − Silencio Silencio ][g.()Silencio Silencio )]+Op()1)⋅ ⋅ op()1)=n[Xn− − Silencio Silencio ][g.()Silencio Silencio )]+op()1){fn} {fn} {fn} {fn} {fn} {fn}} {gn} {gn} {fn} {fn}}} {gn} {gn} {fn} {gn} {fn}}gn}} {cH00} {fn}}}}}} {gfnfn}}}fn}}}}}nnnnnncH00cH00cH00}cH00cH00cH00}cH00cH00}}}}}}}}}}}cH00} {cH00}}}}}}}}}}}cH00}cH00cH00cH00}}}}}}}}cH00cH00cH00}}cH00cH00cH00}}}}}} [X_{n}-theta]left[g'(theta)right]+{sqrt {n}[X_{n}-theta]left[g'({tilde {theta })-g'(theta)right][5pt] limit={sqrt] {n}[X_{n}-theta ]left[g'(theta)right]+O_{p}(1)cdot o_{p}(1)[5pt] {n} [X_{n}-theta]left[g'(theta)right]+o_{p}(1)end{aligned}
Esto sugiere que el error en la aproximación converge a 0 en probabilidad.
Método delta multivariante
Por definición, un estimador consistente B converge en probabilidad a su valor verdadero β y, a menudo, se puede aplicar un teorema del límite central para obtener normalidad asintótica:
- n()B− − β β )→DN()0,. . ),{displaystyle {sqrt {n}left(B-betaright),{xrightarrow {D},Nleft(0,Sigma right),}
donde n es el número de observaciones y Σ es una matriz de covarianza (semidefinida positiva simétrica). Supongamos que queremos estimar la varianza de una función escalar h del estimador B. Manteniendo sólo los dos primeros términos de la serie de Taylor y usando notación vectorial para el gradiente, podemos estimar h(B) como
- h()B). . h()β β )+Silencio Silencio h()β β )T⋅ ⋅ ()B− − β β ){betadstyle h(B)approx h(beta)+nabla h(beta)^{T}cdot (B-beta)}
lo que implica que la varianza de h(B) es aproximadamente
- Var ()h()B)). . Var ()h()β β )+Silencio Silencio h()β β )T⋅ ⋅ ()B− − β β ))=Var ()h()β β )+Silencio Silencio h()β β )T⋅ ⋅ B− − Silencio Silencio h()β β )T⋅ ⋅ β β )=Var ()Silencio Silencio h()β β )T⋅ ⋅ B)=Silencio Silencio h()β β )T⋅ ⋅ Cov ()B)⋅ ⋅ Silencio Silencio h()β β )=Silencio Silencio h()β β )T⋅ ⋅ . . n⋅ ⋅ Silencio Silencio h()β β ){displaystyle {begin{aligned}operatorname {Var} left(h(B)right) {Var} left(h(beta)+nabla h(beta)^{T}cdot (B-beta)right)\[5pt] limit=operatorname {Var} left(h(beta)+nabla h(beta)^{T}cdot B-nabla h(beta)}{0}{T}i)}i)}i}i}i)}i)}i}i)}i)}i)}i)}i)}i)}i)}i)}i)}i)}i)}i)}i)}i)}i}i)}i}c]c]c]cdoti)}i}i)}i}i)}c]i)c]cdotc]cdoti}i}cdot {Var} left(nabla h(beta)^{T}cdot Bright)[5pt] limit=nabla h(beta)^{T}cdot operatorname {Cov} (B)cdot nabla h(beta)[5pt] sentimiento=nabla h(beta)^{T}cdot {frac {beta}cdot nabla h(beta)end{aligned}}
Se puede utilizar el teorema del valor medio (para funciones con valores reales de muchas variables) para ver que esto no depende de tomar una aproximación de primer orden.
Por lo tanto, el método delta implica que
- n()h()B)− − h()β β ))→DN()0,Silencio Silencio h()β β )T⋅ ⋅ . . ⋅ ⋅ Silencio Silencio h()β β )){betadstyle {sqrt {n}left(h(B)-h(beta)right),{xrightarrow {D},Nleft(0,nabla h(beta)}cdotcdot cdot nabla h(beta)right)}
o en términos univariados,
- n()h()B)− − h()β β ))→DN()0,σ σ 2⋅ ⋅ ()h. . ()β β ))2).{betadstyle {sqrt {}left(h(B)-h(beta)right),{xrightarrow {D},Nleft(0,sigma ^{2}cdot left(h^{prime }(beta)right)}{2}right). }
Ejemplo: la proporción binomial
Suppose Xn es binomial con parámetros p▪ ▪ ()0,1]{displaystyle pin (0,1]} y n. Desde
- n[Xnn− − p]→DN()0,p()1− − p)),{displaystyle {sqrt {fn}left[{frac} {X_{n} {} {fn}},{xright {},N(0,p(1-p)}},}
podemos aplicar el método Delta con g(θ) = log(θ) para ver
- n[log ()Xnn)− − log ()p)]→DN()0,p()1− − p)[1/p]2){displaystyle {{sqrt {}}left[log left({frac {X_{n}{n}}}right)-log(p)right],{xrightarrow {D},N(0,p(1-p)[1/p]}}}}}}}}
Por lo tanto, aunque para cualquier finito n, la diferencia de log ()Xnn){displaystyle log left({frac {X_{n}{n}right)} no existe realmente (ya Xn puede ser cero), la varianza asintotica de log ()Xnn){displaystyle log left({frac {X_{n}{n}right)} existe y es igual a
- 1− − pp.{fnMicroc} {1-p}{p}.}
Note que desde entonces p√0, 0right)rightarrow 1}" xmlns="http://www.w3.org/1998/Math/MathML">Pr()Xnn■0)→ → 1{displaystyle Pr left({frac {X_{n} {n} {n} {n} {right)rightarrow 1}0right)rightarrow 1}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/de81398b0fcd1bde8a8160f7da10901b513fe314" style="vertical-align: -2.505ex; width:19.319ex; height:6.176ex;"/> como n→ → JUEGO JUEGO {displaystyle nrightarrow infty}, así que con probabilidad convergiendo a uno, log ()Xnn){displaystyle log left({frac {X_{n}{n}right)} es finito para grande n.
Además, si p^ ^ {displaystyle {hat {}}} y q^ ^ {displaystyle {hat {}}} son estimaciones de diferentes tipos de grupos de muestras independientes de tamaño n y m respectivamente, entonces el logaritmo del riesgo relativo estimado p^ ^ q^ ^ {displaystyle {frac {f} {f}} {f}}} {f}} {f}} {f}}}} {f}}} {f}}}} {f}}}}}}}}}} {f} {f}}}}} {f}}}}}}}}}}}}}} tiene varianza asintotica igual a
- 1− − ppn+1− − qqm.{fnMicroc} {1-p}{p,n}+{frac} {1-q}{q,m}}
Esto es útil para construir una prueba de hipótesis o para hacer un intervalo de confianza para el riesgo relativo.
Forma alternativa
El método delta se utiliza a menudo en una forma que es esencialmente idéntica a la anterior, pero sin la suposición de que Xn o B es asintóticamente normal. A menudo, el único contexto es que la variación es "pequeña". Entonces, los resultados simplemente dan aproximaciones a las medias y covarianzas de las cantidades transformadas. Por ejemplo, las fórmulas presentadas en Klein (1953, p. 258) son:
- Var ()hr)=. . i()∂ ∂ hr∂ ∂ Bi)2Var ()Bi)+. . i. . jل ل i()∂ ∂ hr∂ ∂ Bi)()∂ ∂ hr∂ ∂ Bj)Cov ()Bi,Bj)Cov ()hr,hs)=. . i()∂ ∂ hr∂ ∂ Bi)()∂ ∂ hs∂ ∂ Bi)Var ()Bi)+. . i. . jل ل i()∂ ∂ hr∂ ∂ Bi)()∂ ∂ hs∂ ∂ Bj)Cov ()Bi,Bj){displaystyle {begin{aligned}operatorname {Var} left(h_{r}right)= limitsum _{i}left({frac {partial h_{r}{partial h_}{} { ¿Por qué? {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {f}}} {fn}} {fnMicrosoft}}}}} {fnMicrosoft}}}} {fnMicrosoft}}} {fnMicrosoft}} {f}}}}}}}} {f}}}}}}}}}}}}}} {b}}}}} {b}}}}}}}}}}}} {b}}}}} {b}}}}}}b}}}}}}}}}}}}}}}}}}}}}}}}}}} {b} {b}}}}}} {b}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} B_{i}}right)left({frac {partial {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {f}}} {fn}} {fnMicrosoft}}}}} {fnMicrosoft}}}} {fnMicrosoft}}} {fnMicrosoft}} {f}}}}}}}} {f}}}}}}}}}}}}}} {b}}}}} {b}}}}}}}}}}}} {b}}}}} {b}}}}}}b}}}}}}}}}}}}}}}}}}}}}}}}}}} {b} {b}}}}}} {b}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} ¿Qué? {Cov} left(B_{i},B_{j}right)\\\\fnMiembro de operador {Cov} left(h_{r},h_{s}right)= ventajasum _{i}left({frac {partial h_{r}}{partial B_{i}}right)left({frac {partial {fnMicrosoft Sans} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}} {f}}} {fnMicrosoft Sans}} {fnMicrosoft Sans}}} {fnMicrosoft Sans}}} {fnMicrosoft Sans Serif} ¿Por qué? {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {f}}} {fn}} {fnMicrosoft}}}}} {fnMicrosoft}}}} {fnMicrosoft}}} {fnMicrosoft}} {f}}}}}}}} {f}}}}}}}}}}}}}} {b}}}}} {b}}}}}}}}}}}} {b}}}}} {b}}}}}}b}}}}}}}}}}}}}}}}}}}}}}}}}}} {b} {b}}}}}} {b}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} B_{i}}right)left({frac {partial {fnMicrosoft Sans} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}} {f}}} {fnMicrosoft Sans}} {fnMicrosoft Sans}}} {fnMicrosoft Sans}}} {fnMicrosoft Sans Serif} ¿Qué? {Cov} left(B_{i},B_{j}right)end{aligned}}
donde hr es el elemento résimo de h(B) y Bi es el iésimo elemento de B.
Método delta de segundo orden
Cuando g()Silencio) = 0 el método delta no se puede aplicar. Sin embargo, si g.()Silencio) existe y no es cero, el método delta de segundo orden se puede aplicar. Por la expansión de Taylor, n[g()Xn)− − g()Silencio Silencio )]=12n[Xn− − Silencio Silencio ]2[g.()Silencio Silencio )]+op()1){displaystyle n[g(X_{n})-g(theta)]={frac {1}{2}n[X_{n}-theta #### {2}left [g'(theta)right]+o_{p}(1)}, de modo que la diferencia g()Xn){displaystyle gleft(X_{n}right)} depende del cuarto momento Xn{displaystyle X_{n}.
El método delta de segundo orden también es útil para realizar una aproximación más precisa de g()Xn){displaystyle gleft(X_{n}right)}'s distribución cuando el tamaño de la muestra es pequeño. n[g()Xn)− − g()Silencio Silencio )]=n[Xn− − Silencio Silencio ]g.()Silencio Silencio )+12n[Xn− − Silencio Silencio ]2g.()Silencio Silencio )+op()1){fn} {fn} {fn} {fn}]={sqrt {n} [X_{n}-theta ]g'(theta)+frac {1}{2} {sqrt {} {n} {n} {fn} {fn} {fn} {fn} {fn}}} {fn}}}}}}}}} {f}} {f}}}}}}}}}} {f} {f} {f} {f}}} {f}}}}} {f}}} {f}}}}}}}}}} {f}} {f}}}} {f}}}} {f}}}}} {f} {f} {f}} {f}}}} {f}}}}}}}}}}}}}}} {f} {f}}}}}}}}. Por ejemplo, cuando Xn{displaystyle X_{n} sigue la distribución normal estándar, g()Xn){displaystyle gleft(X_{n}right)} se puede aproximar como la suma ponderada de una normalidad estándar y un chi-cuatro con grado de libertad de 1.
Método delta no paramétrico
Existe una versión del método del delta en estadísticas no paramétricas. Vamos. Xi♪ ♪ F{displaystyle X_{i}sim F} ser una variable aleatoria independiente y distribuida idénticamente con una muestra de tamaño n{displaystyle n} con una función de distribución empírica F^ ^ n{displaystyle {hat {f}_{n}}, y dejar T{displaystyle T} ser funcional. Si T{displaystyle T} es Hadamard diferente con respecto a la métrica Chebyshev, entonces
- T()F^ ^ n)− − T()F)se^ ^ →DN()0,1){displaystyle {frac {fn} {fn}} {fn} {fn}}}xrightarrow {}}} {fn0,1)}}
Donde se^ ^ =τ τ ^ ^ n{displaystyle {widehat {text{se}}={frac} {fnh} {fn}} {fn}} {fn}} {fn}} {fn}} {fn}}}}} {fn}}}} {fn}}}}}} {fn}}}}} {fn}}}}}} {fn}}}}}}}}}}}} { y τ τ ^ ^ 2=1n. . i=1nL^ ^ 2()Xi){fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}} {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}f}f}f}f}\fnfnfnfnfnMicrosoft {fnfnfnfnfnfnfn\fnfnfnfnfnfnfn\fnfnfn\fn\\fnfnfnfnfnfn\fnfn\fnfnfn\\\\\fn\\fnfn }{2}={frac {1}{n}sum - ¿Qué? {L}} {2}(X_{i}}Con L^ ^ ()x)=LF^ ^ n()δ δ x){displaystyle {hat {}(x)=L_{hat {f}_{n}(delta _{x})} la función de la influencia empírica para T{displaystyle T}. A nonparametric ()1− − α α ){displaystyle (1-alpha)} intervalo de confianza asintotica de punta para T()F){displaystyle T(F)} por lo tanto,
- T()F^ ^ n)± ± zα α /2se^ ^ {displaystyle T({hat {n}_{n})pm z_{alpha {fnK}
Donde zq{displaystyle z_{q} denota los q{displaystyle q}-cuántil de lo normal. Véase Wasserman (2006) p. 19f. para más detalles y ejemplos.
Contenido relacionado
Ciencias formales
Estadística matemática
Teoría estadística
Distribución logarítmica normal
Historia de la medición