Ilustración del límite Cramer-Rao: no hay un estimador imparcial que pueda estimar el parámetro (2-dimensional) con menos varianza que el límite Cramer-Rao, ilustrado como elipse de desviación estándar.
En teoría de la estimación y estadística, el límite de Cramér-Rao (CRB) se relaciona con la estimación de un parámetro determinista (fijo, aunque desconocido). El resultado lleva el nombre de Harald Cramér y C. R. Rao, pero también lo han obtenido de forma independiente Maurice Fréchet, Georges Darmois y Alexander Aitken y Harold Silverstone. Afirma que la precisión de cualquier estimador insesgado es como máximo la información de Fisher; o (de manera equivalente) el recíproco de la información de Fisher es un límite inferior de su varianza.
Un estimador insesgado que logra este límite se dice que es (totalmente) eficiente. Esta solución logra el error cuadrático medio más bajo posible entre todos los métodos insesgados y, por lo tanto, es el estimador insesgado de varianza mínima (MVU). Sin embargo, en algunos casos, no existe una técnica imparcial que logre el límite. Esto puede ocurrir si para cualquier estimador insesgado existe otro con una varianza estrictamente menor, o si existe un estimador MVU, pero su varianza es estrictamente mayor que la inversa de la información de Fisher.
El límite de Cramér-Rao también se puede utilizar para limitar la varianza de estimadores sesgados de un sesgo dado. En algunos casos, un enfoque sesgado puede dar como resultado una varianza y un error cuadrático medio que están por debajo del límite inferior insesgado de Cramér-Rao; ver sesgo del estimador.
Declaración
En esta sección se establece la cota de Cramér-Rao para varios casos cada vez más generales, comenzando con el caso en el que el parámetro es un escalar y su estimador es insesgado. Todas las versiones del límite requieren ciertas condiciones de regularidad, que son válidas para la mayoría de las distribuciones con buen comportamiento. Estas condiciones se enumeran más adelante en esta sección.
Caso escalar imparcial
Suppose es un parámetro determinístico desconocido que se estima observaciones independientes (medidas) de , cada una de una distribución según una función de densidad de probabilidad . La diferencia de cualquiera imparciales estimador de entonces está obligado por el recíproco de la información Fisher :
donde la información Fisher se define por
y es el logaritmo natural de la función de probabilidad para una sola muestra y denota el valor esperado con respecto a la densidad de . If not indicated, in what follows, the expectation is taken with respect to .
Si es dos veces diferenciable y ciertas condiciones de regularidad mantienen, entonces la información Fisher también se puede definir de la siguiente manera:
La eficiencia de un estimador imparcial mide lo cerca que la varianza de este estimador llega a este límite inferior; la eficiencia del estimador se define como
o la diferencia mínima posible para un estimador imparcial dividido por su diferencia real.
El límite inferior Cramér-Rao da así
.
Caso escalar general
Una forma más general del límite se puede obtener considerando un estimador parcial , cuya expectativa no pero una función de este parámetro, digamos, . Por lo tanto no es generalmente igual a 0. En este caso, el límite es dado por
Donde es el derivado de (por ), y es la información Fisher definida anteriormente.
Acotado a la varianza de estimadores sesgados
Aparte de estar vinculado a los estimadores de funciones del parámetro, este enfoque se puede utilizar para derivar en la variabilidad de los estimadores parciales con un sesgo dado, como sigue. Considere un estimador con sesgo , y dejar . Por el resultado anterior, cualquier estimador imparcial cuya expectativa es tiene diferencias mayores o iguales . Por lo tanto, cualquier calculador cuyo sesgo es dado por una función satisfizo
La versión imparcial del límite es un caso especial de este resultado, con .
Es trivial tener una varianza pequeña: un "estimador" que es constante tiene una varianza de cero. Pero de la ecuación anterior encontramos que el error cuadrático medio de un estimador sesgado está limitado por
usando la descomposición estándar del MSE. Note, however, that if este límite podría ser menos que el irrestricto Cramér-Rao . Por ejemplo, en el ejemplo de estimación de la diferencia que figura a continuación, .
Caso multivariado
Extendiendo el enlace de Cramér-Rao a múltiples parámetros, defina un vector de columna de parámetros
con función de densidad de probabilidad que satisface las dos condiciones de regularidad a continuación.
La matriz de información Fisher es una matriz con elemento definidas
Vamos. ser un estimador de cualquier función vectorial de parámetros, , y denota su vector de expectativa por . El límite Cramér-Rao establece entonces que la matriz de covariancia satisfizo
,
dónde
La desigualdad matriz se entiende que significa que la matriz es semidefinido positivo, y
es la matriz jacobiana elemento dado por .
Si es un estimador imparcial de (es decir, ), entonces el límite Cramér-Rao se reduce a
Si resulta inconveniente calcular la inversa de la matriz de información de Fisher,
entonces uno puede simplemente tomar el recíproco del elemento diagonal correspondiente
para encontrar un límite inferior (posiblemente flojo).
Condiciones de regularidad
El límite se basa en dos condiciones de regularidad débiles en la función de densidad de probabilidad, , y el estimador :
La información Fisher siempre se define; equivalentemente, para todos tales que ,
existe, y es finito.
Las operaciones de integración con respecto a y diferenciación con respecto a puede ser intercambiado en la expectativa de ; es decir,
cuando el lado derecho es finito. Esta condición a menudo se puede confirmar utilizando el hecho de que la integración y la diferenciación se pueden cambiar cuando cualquiera de los casos siguientes sostienen:
La función ha consolidado el apoyo , y los límites no dependen de ;
La función tiene soporte infinito, es continuamente diferente, y la integral converge uniformemente para todos .
Prueba
Prueba para el caso general basada en la vinculación de Chapman-Robbins
Prueba basada en.
Prueba
Primera ecuación:
Vamos. ser un infinitesimal, entonces para cualquier , enchufe en, tenemos
Enchufar esto en el límite multivariado de Chapman–Robbins .
Segunda ecuación:
Basta probar esto para el caso de escalar, con tomar valores en . Porque para general podemos tomar cualquier , después de definir , el caso escalar da
Esto es para todos , para que podamos concluir
El caso escalar afirma que con .
Vamos. ser un infinitesimal, entonces para cualquier , tomar en el límite de Chapman-Robbins único
.
Por álgebra lineal, para cualquier matriz definida positiva , así obtenemos
Una prueba independiente para el caso escalar general
Para el caso escalar general:
Supongamos que es un estimador con expectativa (sobre la base de las observaciones ), es decir, eso . El objetivo es demostrar que, para todos ,
Vamos. ser una variable aleatoria con función de densidad de probabilidad .
Aquí. es una estadística, que se utiliza como estimador para . Define como la puntuación:
donde la regla de cadena se utiliza en la igualdad final anterior. Entonces la expectativa de , escrito , es cero. Esto es porque:
donde se han intercambiado la integral y la derivada parcial (justificado por la segunda condición de regularidad).
Si consideramos la covariancia de y , tenemos , porque . Ampliando esta expresión tenemos
nuevamente porque las operaciones de integración y diferenciación conmutan (segunda condición).
La desigualdad de Cauchy-Schwarz muestra que
por lo tanto
lo que prueba la proposición.
Ejemplos
Distribución normal multivariada
Para el caso de una distribución normal de variable d
la matriz de información de Fisher tiene elementos
donde "tr" es la huella.
Por ejemplo, vamos ser una muestra de observaciones independientes con medios desconocidos y diferencia conocida .
Entonces la información de Fisher es un escalar dado por
y por eso el límite Cramér-Rao es
Varianza normal con media conocida
Suppose X es una variable aleatoria distribuida normalmente con medios conocidos y diferencias desconocidas . Considere las siguientes estadísticas:
Entonces... T es imparcial para , como . ¿Cuál es la diferencia de T?
(la segunda igualdad se debe directamente a la definición de diferencia). El primer término es el cuarto momento sobre el medio y tiene valor ; el segundo es el cuadrado de la varianza, o .
Así
¿Cuál es la información de Fisher en la muestra? Recuerda que la puntuación se define como
Donde es la función de probabilidad. Así, en este caso,
donde la segunda igualdad es del cálculo elemental. Así, la información en una sola observación es apenas menos la expectativa del derivado de o
Así la información en una muestra de observaciones independientes es sólo veces esto, o
El límite Cramér-Rao establece que
En este caso, la desigualdad está saturada (se logra la igualdad), lo que demuestra que el estimador es eficiente.
Sin embargo, podemos lograr un error cuadrático medio más bajo utilizando un estimador sesgado. el estimador
obviamente tiene una variación menor, que de hecho es
Su sesgo es
entonces su error cuadrático medio es
que es claramente menor de lo que los estimadores insesgados pueden lograr según el límite de Cramér-Rao.
Cuando la media no se conoce, la estimación mínima media de error cuadrado de la varianza de una muestra de la distribución gausiana se logra dividiendo por , en lugar de o .
Referencias y notas
^Cramér, Harald (1946). Métodos matemáticos de estadística. Princeton, NJ: Princeton Univ. ISBN 0-691-08004-6 OCLC 185436716.
^Rao, Calyampudi Radakrishna (1945). "Información y exactitud alcanzable en la estimación de parámetros estadísticos". Boletín de la Sociedad Matemática Calcuta. Sociedad Matemática Calcutta. 37: 81–89. MR 0015748.
^Rao, Calyampudi Radakrishna (1994). S. Das Gupta (ed.). Documentos seleccionados de C. R. Rao. Wiley. ISBN 978-0-470-22091-7 OCLC 174244259.
^Fréchet, Maurice (1943). "Sur l'extension de certaines évaluations statistiques au cas de petits échantillons". Rev. Inst. Int. Statist. 11 (3/4): 182–205. doi:10.2307/1401114. JSTOR 1401114.
^Darmois, Georges (1945). "Sur les limites de la dispersion de certaines estimations". Rev. Int. Inst. Statist. 13 (1/4): 9–15. doi:10.2307/1400974. JSTOR 1400974.
^Aitken, A. C.; Silverstone, H. (1942). "XV.—Sobre la estimación de los parámetros estadísticos". Proceedings of the Royal Society of Edinburgh Section A: Mathematics. 61 (2): 186–194. doi:10.1017/S008045410000618X. ISSN 2053-5902. S2CID 124029876.
^Shenton, L. R. (1970). "La llamada desigualdad Cramer-Rao". El Estadístico Americano. 24 2) 36. JSTOR 2681931.
^Nielsen, Frank (2013). "Cramér-Rao Bajo Libra y Geometría de Información". Conectado en el Infinito II. Textos y lecturas en matemáticas. Vol. 67. Indianstan Book Agency, Gurgaon. p. 18-37. arXiv:1301.3578. doi:10.1007/978-93-86279-56-9_2. ISBN 978-93-80250-51-9. S2CID 16759683.
^Suba Rao. "Las lecciones sobre la inferencia estadística" (PDF).
^"Cramér Rao Bajo Libra - Navipedia". gssc.esa.int.
^"Cramér-Rao Bound".
^Para el caso Bayesiano, véase eqn. (11) de Bobrovsky; Mayer-Wolf; Zakai (1987). "Algunas clases de límites globales de Cramer-Rao". Ann.. 15 (4): 1421–38. doi:10.1214/aos/1176350602.
^Polyanskiy, Yury (2017). "Observaciones puntuales sobre la teoría de la información, capítulo 29, ECE563 (UIUC)" (PDF). Notas de conferencias sobre la teoría de la información. Archivado (PDF) del original el 2022-05-24. Retrieved 2022-05-24.
^Kay, S. M. (1993). Fundamentos del procesamiento estadístico de señales: Teoría de estimación. Prentice Hall. p. 47. ISBN 0-13-042268-1.