Estimador consistente

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Estimador estadístico que converge en probabilidad a un parámetro verdadero a medida que aumenta el tamaño de la muestra

En estadística, un estimador consistente o un estimador asintóticamente consistente es un estimador: una regla para calcular estimaciones de un parámetro θ₀: tiene la propiedad de que a medida que el número de puntos de datos utilizados aumenta indefinidamente, la secuencia resultante de estimaciones converge en probabilidad a θ₀. Esto significa que las distribuciones de las estimaciones se concentran cada vez más cerca del valor real del parámetro que se estima, de modo que la probabilidad de que el estimador esté arbitrariamente cerca de θ₀ converge a uno.

En la práctica, uno construye un estimador en función de una muestra disponible de tamaño n, y luego imagina que puede seguir recopilando datos y expandir la muestra ad infinitum. De esta manera se obtendría una secuencia de estimaciones indexadas por n, y la consistencia es una propiedad de lo que ocurre cuando el tamaño de la muestra “crece hasta el infinito”. Si se puede demostrar matemáticamente que la secuencia de estimaciones converge en probabilidad al valor verdadero θ₀, se denomina estimador consistente; de lo contrario se dice que el estimador es inconsistente.

La coherencia, tal como se define aquí, a veces se denomina consistencia débil. Cuando reemplazamos la convergencia en probabilidad con una convergencia casi segura, entonces se dice que el estimador es fuertemente consistente. La coherencia está relacionada con el sesgo; ver sesgo versus consistencia.

Definición

Hablando formalmente, se dice que un estimador T_n del parámetro θ es débilmente consistente, si converge en probabilidad al valor verdadero del parámetro:

{displaystyle {underset {nto infty }{operatorname {plim} }};T_{n}=theta.}

es decir si, para todos ε > 0

varepsilon {big)}=0.}" xmlns="http://www.w3.org/1998/Math/MathML">limn→ → JUEGO JUEGO Pr()SilencioTn− − Silencio Silencio Silencio■ε ε )=0.{displaystyle lim _{nto infty }Pr {big (}PrinceT_{n}-theta ANTEvarepsilon {big)}=0.}varepsilon {big)}=0.}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/48701705bb84b4272165a0ff433b3e7392019dca" style="vertical-align: -1.838ex; width:26.561ex; height:4.009ex;"/>

Un estimador T_n del parámetro Silencio se dice que firmemente coherente, si es converge casi seguramente al verdadero valor del parámetro:

{displaystyle Pr {big (}lim _{nto infty }T_{n}=theta {big)}=1.}

Una definición más rigurosa tiene en cuenta el hecho de que θ es en realidad desconocido y, por tanto, la convergencia en probabilidad debe tener lugar para cada valor posible de este parámetro. Supongamos que {p_θ: θ ∈ Θ} es una familia de distribuciones (la distribución paramétrica modelo), y X^θ = {X₁, X₂, …: X_i ~ p_θ} es una muestra infinita de la distribución p_θ. Sea { T_n(X^θ) } una secuencia de estimadores para algún parámetro g(θ). Normalmente, T_n se basará en las primeras n observaciones de una muestra. Entonces se dice que esta secuencia {T_n} es (débilmente) consistente si

{displaystyle {underset {nto infty }{operatorname {plim} }};T_{n}(X^{theta })=g(theta), {text{for all}} theta in Theta.}

Esta definición utiliza g(θ) en lugar de simplemente θ, porque a menudo uno está interesado en estimar una determinada función o una sub- vector del parámetro subyacente. En el siguiente ejemplo, estimamos el parámetro de ubicación del modelo, pero no la escala:

Ejemplos

Media muestral de una variable aleatoria normal

Supongamos que tenemos una secuencia de observaciones estadísticamente independientes {X₁, X₂,... } de una distribución normal N(μ, σ2). Para estimar μ basándose en las primeras n observaciones, se puede utilizar la media muestral: T_n = (X₁ +... + X_n)/n. Esto define una secuencia de estimadores, indexados por el tamaño de muestra n.

De las propiedades de la distribución normal, conocemos la distribución de muestreo de esta estadística: T_n se distribuye normalmente, con media μ y diferencia σ²/n. Equivalentemente, ${displaystyle scriptstyle (T_{n}-mu)/(sigma /{sqrt {n}})}$ tiene una distribución normal estándar:

{displaystyle Pr !left[,|T_{n}-mu |geq varepsilon ,right]=Pr !left[{frac {{sqrt {n}},{big |}T_{n}-mu {big |}}{sigma }}geq {sqrt {n}}varepsilon /sigma right]=2left(1-Phi left({frac {{sqrt {n}},varepsilon }{sigma }}right)right)to 0}

como n tiende a infinito, para cualquier fijo ε ■ 0. Por lo tanto, la secuencia T_n de los medios de muestra es consistente para el medio de población μ (recalcando que ${displaystyle Phi }$ es la distribución acumulativa de la distribución normal).

Establecer la coherencia

La noción de consistencia asintotica es muy cercana, casi sinónimo de la noción de convergencia en probabilidad. Como tal, cualquier teorema, lema o propiedad que establezca convergencia en probabilidad puede ser utilizado para probar la consistencia. Existen muchas de esas herramientas:

Para demostrar la coherencia directamente desde la definición se puede utilizar la desigualdad

{displaystyle Pr !{big [}h(T_{n}-theta)geq varepsilon {big ]}leq {frac {operatorname {E} {big [}h(T_{n}-theta){big ]}}{h(varepsilon)}},}

la elección más común para la función h es el valor absoluto (en cuyo caso se conoce como desigualdad de Markov) o la función cuadrática (respectivamente, la desigualdad de Chebyshev).

Otro resultado útil es el teorema de mapeo continuo: si T_n es consistente para Silencio y g(·) es una función de valor real continua en el punto SilencioEntonces g()T_n) será consistente para g()Silencio):

{displaystyle T_{n} {xrightarrow {p}} theta quad Rightarrow quad g(T_{n}) {xrightarrow {p}} g(theta)}

El teorema de Slutsky se puede utilizar para combinar varios estimadores diferentes, o un estimador con una secuencia convergente no raramente. Si T_n →^dα, y S_n →^pβEntonces

{displaystyle {begin{aligned}&T_{n}+S_{n} {xrightarrow {d}} alpha +beta\&T_{n}S_{n} {xrightarrow {d}} alpha beta\&T_{n}/S_{n} {xrightarrow {d}} alpha /beta{text{ provided that }}beta neq 0end{aligned}}}

Si estimador T_n es dado por una fórmula explícita, entonces más probable que la fórmula empleará sumas de variables aleatorias, y luego la ley de números grandes se puede utilizar: para una secuencia {X_n} de variables aleatorias y en condiciones adecuadas,

{displaystyle {frac {1}{n}}sum _{i=1}^{n}g(X_{i}) {xrightarrow {p}} operatorname {E} [,g(X),]}

Si estimador T_n se define implícitamente, por ejemplo como un valor que maximiza cierta función objetiva (véase el estimador de extremum), entonces un argumento más complicado que implica equicontinuidad estocástica tiene que ser utilizado.

Sesgo versus coherencia

imparciales pero no consistentes

Un estimador puede ser imparcial pero no consistente. Por ejemplo, para una muestra de iid {x
₁,..., x
_n} se puede usar T
_n(X) = x
_n como estimador de la media E[X]. Tenga en cuenta que aquí la distribución de muestreo de T
_n es la misma que la distribución subyacente (para cualquier n, ya que ignora todos los puntos menos el último), por lo que E[T
_n(X)] = E[X] y es imparcial, pero no converge a ningún valor.

Sin embargo, si una secuencia de estimadores es insesgada y converge a un valor, entonces es consistente, ya que debe converger al valor correcto.

Sesgada pero consistente

(feminine)

Alternativamente, un estimador puede ser parcial pero consistente. Por ejemplo, si el medio es estimado por ${displaystyle {1 over n}sum x_{i}+{1 over n}}$ es parcial, pero como ${displaystyle nrightarrow infty }$ , se acerca al valor correcto, y por lo tanto es consistente.

Ejemplos importantes incluyen la variación de muestra y la desviación estándar de muestra. Sin la corrección de Bessel (es decir, al utilizar el tamaño de la muestra ${displaystyle n}$ en lugar de los grados de libertad ${displaystyle n-1}$ ), estos son ambos factores negativomente sesgados pero consistentes estimadores. Con la corrección, la varianza de muestra corregida es imparcial, mientras que la desviación estándar de la muestra corregida sigue siendo parcial, pero menos así, y ambos siguen siendo consistentes: el factor de corrección converge a 1 a medida que crece el tamaño de la muestra.

Aquí hay otro ejemplo. Vamos. ${displaystyle T_{n}}$ ser una secuencia de estimadores para ${displaystyle theta }$ .

{displaystyle Pr(T_{n})={begin{cases}1-1/n,&{mbox{if }},T_{n}=theta \1/n,&{mbox{if }},T_{n}=ndelta +theta end{cases}}}

Podemos ver que ${displaystyle T_{n}{xrightarrow {p}}theta }$ , ${displaystyle operatorname {E} [T_{n}]=theta +delta }$ , y el sesgo no converge a cero.

Contenido relacionado

Más resultados...