Teorema de Rao-Blackwell
En estadística, el teorema de Rao-Blackwell, a veces denominado teorema de Rao-Blackwell-Kolmogorov, es un resultado que caracteriza la transformación de un estimador arbitrariamente burdo. en un estimador que sea óptimo según el criterio del error cuadrático medio o cualquiera de una variedad de criterios similares.
El teorema de Rao-Blackwell establece que si g(X) es cualquier tipo de estimador de un parámetro θ, entonces la expectativa condicional de g(X) dado T(X), donde T es una estadística suficiente, suele ser una mejor estimador de θ, y nunca es peor. A veces uno puede construir muy fácilmente un estimador muy crudo g(X) y luego evaluar ese valor esperado condicional para obtener un estimador que sea óptimo en varios sentidos.
El teorema lleva el nombre de C.R. Rao y David Blackwell. El proceso de transformación de un estimador utilizando el teorema de Rao-Blackwell puede denominarse Rao-Blackwellización. El estimador transformado se llama estimador de Rao-Blackwell.
Definiciones
- Un estimador δ(X) es una variable aleatoria observable (es decir, una estadística) utilizada para estimar algunos no visible cantidad. Por ejemplo, uno puede ser incapaz de observar la altura media de Todos estudiantes masculinos en la Universidad de X, pero uno puede observar las alturas de una muestra aleatoria de 40 de ellos. La altura media de esos 40 —la "promedio del muestreo"— puede ser utilizada como estimador del "promedio de población" inservible.
- Una estadística suficiente T()X) es una estadística calculada a partir de datos X para estimar algún parámetro θ para el cual ninguna otra estadística que pueda calcularse a partir de los datos X proporciona cualquier información adicional acerca de θ. Se define como un observable variable aleatoria tal que la distribución de probabilidad condicional de todos los datos observables X dado T()X) no depende de la no visible parámetro θ, tales como la desviación media o estándar de toda la población de la que los datos X fue tomada. En los ejemplos más citados, las cantidades "unobservable" son parámetros que parametrizan a una familia conocida de distribuciones de probabilidad según los cuales se distribuyen los datos.
- En otras palabras, una estadística suficiente T(X) para un parámetro θ es una estadística tal que la probabilidad condicional de los datos X, dado T()X), no depende del parámetro θ.
- A Rao-Blackwell estimador δ1()X) de una cantidad inservible θ es el valor esperado condicional E(δ(δ(XSilencio T()X) de un estimador δ(X) dada una estadística suficiente T()X). Llame a δ(X) "Estimador original" y δ1()X) "Estimador mejorado". Es importante que el estimador mejorado sea observableEs decir, que no depende de θ. Generalmente, el valor esperado condicional de una función de estos datos dio otra función de estos datos ¿Sí? depende de θ, pero la definición misma de suficiencia dada anteriormente implica que ésta no lo hace.
- El error cuadrado de un estimador es el valor esperado de la plaza de su desviación de la cantidad inmejorable que se estima de θ.
El teorema
Versión de error cuadrático medio
Un caso del teorema de Rao-Blackwell establece:
- El error medio cuadrado del estimador Rao-Blackwell no excede el del estimador original.
En otras palabras,
- E ()()δ δ 1()X)− − Silencio Silencio )2)≤ ≤ E ()()δ δ ()X)− − Silencio Silencio )2).{displaystyle operatorname {E} (delta _{1}(X)-theta)^{2})leq operatorname {E} ((delta (X)-theta)^{2}). }
Las herramientas esenciales de la prueba además de la definición anterior son la ley de expectativa total y el hecho de que para cualquier variable aleatoria Y, E(Y2 ) no puede ser menor que [E(Y)]2. Esa desigualdad es un caso de la desigualdad de Jensen, aunque también se puede demostrar que se deriva instantáneamente del hecho frecuentemente mencionado de que
- 0≤ ≤ Var ()Y)=E ()()Y− − E ()Y))2)=E ()Y2)− − ()E ()Y))2.{displaystyle 0leq operatorname [Var] (Y)=operatorname [E} (Y-operatorname {E} (Y)^{2})=operatorname [E} (Y^{2})-(operatorname {E} (Y))} {2}.}
Más precisamente, el error cuadrático medio del estimador de Rao-Blackwell tiene la siguiente descomposición
- E [()δ δ 1()X)− − Silencio Silencio )2]=E [()δ δ ()X)− − Silencio Silencio )2]− − E [Var ()δ δ ()X)▪ ▪ T()X))]{displaystyle operatorname [E} [delta _{1}(X)-theta)^{2}]=operatorname {E} [(delta (X)-theta)^{2}] {E} [operatorname {Var} (delta (X)mid T(X)]}
Desde E [Var ()δ δ ()X)▪ ▪ T()X))]≥ ≥ 0{displaystyle operatorname {E} [operatorname {Var} (delta (X)mid T(X))]geq 0}El teorema Rao-Blackwell sigue inmediatamente.
Generalización de pérdida convexa
Did you mean:The more general version of the Rao–Blackwell theorem speaks of the "expected loss in#34; or risk function:
- E ()L()δ δ 1()X)))≤ ≤ E ()L()δ δ ()X))){displaystyle operatorname {E} (L(delta _{1}(X))))leq operatorname {E} (L(delta (X))}}
where the "loss function " L may be any convex function. If the loss function is twice-differentiable, as in the case for mean-squared-error, then we have the sharper inequality
- E ()L()δ δ ()X)))− − E ()L()δ δ 1()X)))≥ ≥ 12ET [infxL.()x)Var ()δ δ ()X)▪ ▪ T)].{displaystyle operatorname [E} (L(delta (X)))-operatorname {E} (L(delta _{1}(X)))geq {frac {1}{2}operatorname ¿Qué? {Var} (delta (X)mid T)right].}
Propiedades
El estimador mejorado es insesgado si y sólo si el estimador original es insesgado, como puede verse inmediatamente al utilizar la ley de la expectativa total. El teorema se cumple independientemente de si se utilizan estimadores sesgados o insesgados.
El teorema parece muy débil: sólo dice que el estimador de Rao-Blackwell no es peor que el estimador original. Sin embargo, en la práctica la mejora suele ser enorme.
Ejemplo
Las llamadas telefónicas llegan a una centralita según un proceso de Poisson a una velocidad media de λ por minuto. Esta tasa no es observable, pero los números X1,..., Xn de llamadas telefónicas que llegaron durante n períodos sucesivos de un minuto. Se desea estimar la probabilidad e−λ de que el siguiente período de un minuto transcurra sin llamadas telefónicas.
Did you mean:An extremely crude estimate of the desired probability is
- δ δ 0={}1siX1=0,0de lo contrario,{displaystyle delta {0}=left{begin{matrix}1 {text{if} Bien.
es decir, estima que esta probabilidad es 1 si no llegó ninguna llamada telefónica en el primer minuto y cero en caso contrario. A pesar de las aparentes limitaciones de este estimador, el resultado obtenido por su Rao-Blackwellización es un muy buen estimador.
La suma
- Sn=.. i=1nXi=X1+⋯ ⋯ +Xn{displaystyle S_{n}=sum ################################################################################################################################################################################################################################################################ #
es un estadístico suficiente para λ, es decir, la distribución condicional de los datos X1,..., Xn, depende de λ sólo a través de esta suma. Por tanto, encontramos el estimador de Rao-Blackwell
- δ δ 1=E ()δ δ 0▪ ▪ Sn=sn).{displaystyle delta ################################################################################################################################################################################################################################################################ (delta) S_{n}=s_{n}
Después de hacer algo de álgebra tenemos
- δ δ 1=E ()1{}X1=0}Silencio.. i=1nXi=sn)=P()X1=0Silencio.. i=1nXi=sn)=P()X1=0,.. i=2nXi=sn)× × P().. i=1nXi=sn)− − 1=e− − λ λ ()()n− − 1)λ λ )sne− − ()n− − 1)λ λ sn!× × ()()nλ λ )sne− − nλ λ sn!)− − 1=()()n− − 1)λ λ )sne− − nλ λ sn!× × sn!()nλ λ )sne− − nλ λ =()1− − 1n)sn{displaystyle {begin{aligned}delta ################################################################################################################################################################################################################################################################ {E} left(mathbf {1} {cHFF} {cHFF} {cHFF} {cHFF} {cHFF} {cHFF}} {cHFF}}} {cHFF} {cHFF} {cHFF} {cH}}} {cH}} {\cH00}} {\cH00}}}}}}} {\\\\\\\\\\\\\\\cH00}}}}}\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\cH00}}}}}}}\\\\\\\\cH00}}}}}}}} Bigg. ¿Por qué? ################################################################################################################################################################################################################################################################ ################################################################################################################################################################################################################################################################ ¿Por qué? {fnfn}}times left({frac {(nlambda)^{s_{n}e^{-nlambda {fnfn}}}derecha)}{-1}\fnfnfncncn1ccn1cH009cH00cH009cH009cH009cH009cH009cH009cH009} {fn} {fn} {fn} {fn} {fnfnfnfn} {fnfn} {fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfn}}}fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnhn}}fnfnfnfnfnfnh009}fnfnn}}}fnfnfnfnfnfn}}}}fnnn {fn} {fn} {fn} {fn}}fn}fn}fn}}}}}}}}}}
Dado que el número promedio de llamadas que llegan durante los primeros n minutos es nλ, no nos sorprendería que este estimador tuviera una probabilidad bastante alta (si n es grande) de estar cerca de
- ()1− − 1n)nλ λ .. e− − λ λ .{displaystyle left(1-{1over n}right)^{nlambda }approx e^{-lambda }
Así que δ1 es claramente un estimador muy mejorado de esa última cantidad. De hecho, dado que Sn es completo y δ0 es imparcial, δ1 > es el estimador insesgado de varianza mínima única según el teorema de Lehmann-Scheffé.
Idempotencia
Rao-Blackwellization es una operación idempotente. Usarlo para mejorar el estimador ya mejorado no obtiene una mejora adicional, sino que simplemente devuelve como resultado el mismo estimador mejorado.
Integridad y varianza mínima de Lehmann-Scheffé
Si el estadístico condicionante es completo y suficiente, y el estimador inicial es insesgado, entonces el estimador de Rao-Blackwell es el único "mejor estimador insesgado": consulte el teorema de Lehmann-Scheffé.
Un ejemplo de una mejora de Rao-Blackwell imprable, al utilizar una estadística mínima suficiente que es no completo, fue proporcionado por Galili y Meilijson en 2016. Vamos X1,...... ,Xn{displaystyle X_{1},ldots X_{n} ser una muestra aleatoria de una distribución uniforme de escala X♪ ♪ U()()1− − k)Silencio Silencio ,()1+k)Silencio Silencio ),{displaystyle Xsim Uleft(1-k)theta(1+k)theta right),} con medios desconocidos E[X]=Silencio Silencio {displaystyle E[X]=theta } y parámetro de diseño conocido k▪ ▪ ()0,1){displaystyle kin (0,1)}. En la búsqueda de "mejores" posibles estimadores imparciales Silencio Silencio ,{displaystyle theta} es natural considerar X1{displaystyle X_{1} como estimación inicial (crude) imparcial para Silencio Silencio {displaystyle theta } y luego trata de mejorarlo. Desde X1{displaystyle X_{1} no es una función T=()X()1),X()n)){displaystyle T=left(X_{(1)},X_{(n)}right)}, la estadística mínima suficiente para Silencio Silencio {displaystyle theta } (donde) X()1)=min()Xi){displaystyle X_{(1)}=min(X_{i}} y X()n)=max()Xi){displaystyle X_{(n)}=max(X_{i}}), se puede mejorar utilizando el teorema Rao-Blackwell como sigue:
- Silencio Silencio ^ ^ RB=ESilencio Silencio [X1SilencioX()1),X()n)]=X()1)+X()n)2.{displaystyle {hat {theta }_{RB}=E_{theta }left[X_{1}SobrevivX_{(1)},X_{(n)}right]={frac {X_{(1)}+X_{(n)}{2}}}}}
Sin embargo, se puede demostrar que el siguiente estimador insesgado tiene una varianza más baja:
- Silencio Silencio ^ ^ LV=12()k2n− − 1n+1+1)[()1− − k)X()1)+()1+k)X()n)].{displaystyle {hat {theta }_{LV}={frac {1}{2left(k^{2}{frac {n-1}{n+1}+1right)}}left[(1-k){X}_{(1)}+(1+k){X}_{(n)}derecha].}}}}}
Y de hecho, podría mejorarse aún más si se utiliza el siguiente estimador:
- Silencio Silencio ^ ^ BAYES=n+1n[1− − ()X()1)1− − k)()X()n)1+k)− − 1[()X()1)1− − k)()X()n)1+k)]n+1− − 1]X()n)1+k{displaystyle {hat {theta {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fn}}fn}}fn}fnfnfn} {fnfnfn}fnfnfnfnfn}}fn}fn}}}\\fn}\fn}fnfnfn}fn}fn}\\\fn}\\fn}fn}fn}\\\\fn}\\\\fn}fn}\fn}\\\\\fnfn}fn}\fnfn}\fn}fn}\\\\\\fn}}}\\\ {fnMicroc {fnMicroc} {fnMicroc} {fnMicroc}} {fnMicroc} {fnMicroc}} {fnMicroc}}} {fnMicroc}}}} {fnMicroc}} {fnMicroc} {f}}}}}}}}}}} {m}}}}}}}}}} {m} {m}}}}} {m}}}}} {m}}}}}}}}}}}}}}}}}}}}}}}}}} {m} {m}}}}}}}{m}}} {m}}}}}}}}}}}}}m}{mmmmmm} {m}}}}}}}}}}}m}}}}}m}}}}}}}}}}}m}m} {X}_{(n) {fnMicrosoft Sans Serif} {fnMicroc {fnMicroc} {fnMicroc}} {f}}}} {fn} {fnMicroc} {fnK}} {fnK}}}}}}}}} {f}}}}}} {f}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}{{{{{{ {ppm}{m}{ppppppppppppppppppppppppppppppppppm}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicroc} {fnMicrosoft Sans Serif} {f} {fnMicroc} {fnK} {fnMicroc}} {fnMicroc}}} {fnMicroc} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {dereh} {dereh} {dereh} {f}}}}}}}}}} {dere} {dereh} {dereh} {f} {dereh} {dereh} {dereh} {dereh}} {f}}}}}}}}}}}}}}}}}}}}} {dereh}} {dereh}} {X}_{(n) {fnK}} {fn}}} {fn0}}}} {fnK}}}}}} {fn}}} {fn}}}}}} {fn}}}}}}} {fn0}}}}}}}}}} {f}}}}}}}}}}}} {n}}}}}}}}}}}}}}}}}}}}}} {n}}}}} {n}}}}}} {n}}}}}}}}}}}} {n}}}}}}}}}}}}}}}}}}}}}}}}} {n}}}}}}}}}}}}}}}}}}}}}}} {n}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}
El modelo es un modelo a escala. Luego se pueden derivar estimadores equivariantes óptimos para funciones de pérdida que son invariantes.
Contenido relacionado
Conjetura de Hsiang-Lawson
Tono
Triple