Estimación puntual
En estadística, la estimación puntual implica el uso de datos de muestra para calcular un valor único (conocido como estimación puntual ya que identifica un punto en algún espacio de parámetros) que es servir como una "mejor suposición" o "mejor estimación" de un parámetro poblacional desconocido (por ejemplo, la media poblacional). Más formalmente, es la aplicación de un estimador puntual a los datos para obtener una estimación puntual.
La estimación puntual se puede contrastar con la estimación por intervalos: tales estimaciones por intervalos suelen ser intervalos de confianza, en el caso de la inferencia frecuentista, o intervalos creíbles, en el caso de la inferencia bayesiana. De manera más general, un estimador puntual se puede contrastar con un estimador conjunto. Se dan ejemplos mediante conjuntos de confianza o conjuntos creíbles. Un estimador puntual también se puede contrastar con un estimador de distribución. Se dan ejemplos mediante distribuciones de confianza, estimadores aleatorios y posteriores bayesianos.
Propiedades de las estimaciones puntuales
Sesgo
“Sesgo” se define como la diferencia entre el valor esperado del estimador y el valor real del parámetro de población que se estima. También se puede describir que cuanto más cerca está el valor esperado de un parámetro del parámetro medido, menor es el sesgo. Cuando el número estimado y el valor real son iguales, el estimador se considera imparcial. Esto se denomina estimador insesgado. El estimador se convertirá en el mejor estimador insesgado si tiene una varianza mínima. Sin embargo, un estimador sesgado con una varianza pequeña puede ser más útil que un estimador insesgado con una varianza grande. Lo que es más importante, preferimos estimadores puntuales que tengan los errores cuadráticos medios más pequeños.
Si dejamos que T = h(X1,X2,... Xn) sea un estimador basado en un muestra X1,X2,... Xn, el estimador T se llama estimador insesgado para el parámetro θ si E[T ] = θ, independientemente del valor de θ. Por ejemplo, de la misma muestra aleatoria tenemos E(x̄) = µ(media) y E(s2) = σ2 (varianza), entonces x̄ y s 2 serían estimadores imparciales para µ y σ2. La diferencia E[T ] − θ se denomina sesgo de T; si esta diferencia es distinta de cero, entonces T se llama sesgada.
Coherencia
La consistencia se trata de si la estimación puntual se mantiene cerca del valor cuando el parámetro aumenta su tamaño. Cuanto mayor sea el tamaño de la muestra, más precisa será la estimación. Si un estimador puntual es consistente, su valor esperado y su varianza deben estar cerca del valor real del parámetro. Un estimador insesgado es consistente si el límite de la varianza del estimador T es igual a cero.
Eficiencia
Sean T1 y T2 dos estimadores insesgados para el mismo parámetro θ. El estimador T2 sería llamado más eficiente que el estimador T1 si Var (T2) < Var(T1), independientemente de la valor de θ. También podemos decir que los estimadores más eficientes son aquellos con menor variabilidad de resultados. Por lo tanto, si el estimador tiene la varianza más pequeña entre una muestra y otra, es más eficiente e insesgado. Extendemos la noción de eficiencia diciendo que el estimador T2 es más eficiente que el estimador T1 (para el mismo parámetro de interés), si el MSE (error cuadrático medio) de T2 es menor que el MSE de T1.
En general, debemos considerar la distribución de la población al determinar la eficiencia de los estimadores. Por ejemplo, en una distribución normal, la media se considera más eficiente que la mediana, pero no ocurre lo mismo en las distribuciones asimétricas o sesgadas.
Suficiencia
En estadística, el trabajo de un estadístico es interpretar los datos que ha recopilado y sacar conclusiones estadísticamente válidas sobre la población que se investiga. Pero en muchos casos, los datos en bruto, que son demasiado numerosos y costosos de almacenar, no son adecuados para este propósito. Por lo tanto, al estadístico le gustaría condensar los datos calculando algunas estadísticas y basar su análisis en estas estadísticas para que no haya pérdida de información relevante al hacerlo, es decir, al estadístico le gustaría elegir aquellas estadísticas que agotan toda la información sobre el parámetro, que está contenido en la muestra. Definimos estadísticas suficientes de la siguiente manera: Sea X =(X1, X2,...Xn) una muestra aleatoria. Se dice que un estadístico T(X) es suficiente para θ (o para la familia de distribuciones) si la distribución condicional de X dada T está libre de θ.
Tipos de estimación puntual
Estimación puntual bayesiana
La inferencia bayesiana generalmente se basa en la distribución posterior. Muchos estimadores puntuales bayesianos son estadísticos de distribución posterior de tendencia central, por ejemplo, su media, mediana o moda:
- Significado posterior, que minimiza el riesgo (posterior) (pérdida prevista) para una función de pérdida de terror cuadrada; en estimación bayesiana, el riesgo se define en términos de la distribución posterior, como observa Gauss.
- Mediano Posterior, que minimiza el riesgo posterior de la función de pérdida de valor absoluto, como observó Laplace.
- máximo a posteriori ()MAP), que encuentra un máximo de la distribución posterior; para una probabilidad uniforme anterior, el estimador MAP coincide con el estimador de probabilidad máxima;
El estimador MAP tiene buenas propiedades asintóticas, incluso para muchos problemas difíciles, en los que el estimador de máxima verosimilitud tiene dificultades. Para problemas regulares, donde el estimador de máxima verosimilitud es consistente, el estimador de máxima verosimilitud finalmente concuerda con el estimador MAP. Los estimadores bayesianos son admisibles, por el teorema de Wald.
El estimador puntual de longitud mínima de mensaje (MML) se basa en la teoría de la información bayesiana y no está tan directamente relacionado con la distribución posterior.
Los casos especiales de filtros bayesianos son importantes:
- Filtro Kalman
- Filtro de Wiener
Varios métodos de estadística computacional tienen estrechas conexiones con el análisis bayesiano:
- filtro de partículas
- Markov chain Monte Carlo (MCMC)
Métodos para encontrar estimaciones puntuales
A continuación, se muestran algunos métodos comúnmente utilizados para estimar parámetros desconocidos que se espera que proporcionen estimadores que tengan algunas de estas propiedades importantes. En general, dependiendo de la situación y el propósito de nuestro estudio, aplicamos cualquiera de los métodos que pueden ser adecuados entre los métodos de estimación puntual.
Método de máxima verosimilitud (MLE)
El método de máxima verosimilitud, debido a R.A. Fisher, es el método general de estimación más importante. Este método de estimación intenta adquirir parámetros desconocidos que maximicen la función de verosimilitud. Utiliza un modelo conocido (p. ej., la distribución normal) y utiliza los valores de los parámetros del modelo que maximizan una función de probabilidad para encontrar la coincidencia más adecuada para los datos.
Sea X = (X1, X2,...Xn) una muestra aleatoria con p.d.f o p.m.f. f(x, θ) (θ puede ser un vector). La función f(x, θ), considerada como una función de θ, se denomina función de verosimilitud. En este caso, se denota por L(θ). El principio de máxima verosimilitud consiste en elegir una estimación dentro del rango admisible de θ, que maximice la verosimilitud. Este estimador se denomina estimación de máxima verosimilitud (MLE) de θ. Para obtener el MLE de θ, usamos la ecuación
dlogL(θ)/dθi=0, i = 1, 2, …, k. Si θ es un vector, entonces se consideran derivadas parciales para obtener las ecuaciones de verosimilitud.
Método de los momentos (MOM)
El método de los momentos fue introducido por K. Pearson y P. Chebyshev en 1887 y es uno de los métodos de estimación más antiguos. Este método se basa en la ley de los grandes números, que utiliza todos los hechos conocidos sobre una población y los aplica a una muestra de la población al derivar ecuaciones que relacionan los momentos de la población con los parámetros desconocidos. Entonces podemos resolver con la media muestral de los momentos de la población. Sin embargo, debido a la simplicidad, este método no siempre es preciso y puede sesgarse fácilmente.
Sea (X1, X2,…Xn) una muestra aleatoria de una población con p.d.f. (o pmf) f(x,θ), θ = (θ1, θ2, …, θk). El objetivo es estimar los parámetros θ1, θ2,..., θk. Además, deje que los primeros k momentos de población alrededor de cero existan como una función explícita de θ, es decir, μr = μr(θ1, θ2,…, θk), r = 1, 2, …, k. En el método de los momentos, igualamos k momentos muestrales con los correspondientes momentos poblacionales. Generalmente se toman los primeros k momentos porque los errores por muestreo aumentan con el orden del momento. Así, obtenemos k ecuaciones μr(θ1, θ2,…, θk) = m r, r = 1, 2, …, k. Resolviendo estas ecuaciones obtenemos el método de los estimadores (o estimaciones) de momento como
mr = 1/n ΣXir. Véase también método generalizado de momentos.
Método de mínimos cuadrados
En el método de mínimos cuadrados, consideramos la estimación de parámetros usando alguna forma específica de la expectativa y segundo momento de las observaciones. Para
ajustando una curva de la forma y = f(x, β0, β1,,,, βp) a la data (xi, yi), i = 1, 2,…n, podemos usar el método de mínimos cuadrados. Este método consiste en minimizar el
suma de cuadrados.
Cuando f(x, β0, β1,,,, βp) es una función lineal de los parámetros y la Se conocen los valores de x, los estimadores de mínimos cuadrados serán el mejor estimador lineal insesgado (AZUL). Nuevamente, si asumimos que las estimaciones de mínimos cuadrados tienen una distribución normal independiente e idéntica, entonces un estimador lineal será un estimador insesgado de varianza mínima (MVUE) para toda la clase de estimadores insesgados. Véase también error cuadrático medio mínimo (MMSE).
Estimador imparcial de media de varianza mínima (MVUE)
El método del estimador insesgado de varianza mínima minimiza el riesgo (pérdida esperada) de la función de pérdida de error cuadrático.
Estimador imparcial de la mediana
El estimador imparcial de la mediana minimiza el riesgo de la función de pérdida de error absoluto.
Mejor estimador lineal imparcial (AZUL)
El mejor estimador lineal insesgado, también conocido como el teorema de Gauss-Markov, establece que el estimador de mínimos cuadrados ordinarios (OLS) tiene la varianza de muestreo más baja dentro de la clase de estimadores lineales insesgados, si los errores en el modelo de regresión lineal no están correlacionados, tienen varianzas iguales y valor esperado de cero.
Estimación puntual vs. estimación del intervalo de confianza
Hay dos tipos principales de estimaciones: estimación puntual y estimación de intervalo de confianza. En la estimación puntual, tratamos de elegir un punto único en el espacio de parámetros que pueda considerarse razonablemente como el valor real del parámetro. Por otro lado, en lugar de una estimación única del parámetro, estamos interesados en construir una familia de conjuntos que contengan el valor del parámetro verdadero (desconocido) con una probabilidad específica. En muchos problemas de inferencia estadística, no estamos interesados solo en estimar el parámetro o probar alguna hipótesis sobre el parámetro, también queremos obtener un límite inferior o superior, o ambos, para el parámetro de valor real. Para hacer esto, necesitamos construir un intervalo de confianza.
El intervalo de confianza describe qué tan confiable es una estimación. Podemos calcular los límites de confianza superior e inferior de los intervalos a partir de los datos observados. Supongamos que se proporciona un conjunto de datos x1,... xn, modelado como realización de variables aleatorias X1,... Xn. Sea θ el parámetro de interés y γ un número entre 0 y 1. Si existen estadísticos muestrales Ln = g(X1,... Xn) y Un = h(X1,... Xn) tales que P(Ln < θ < Un) = γ para cada valor de θ, entonces (ln, un), donde ln = g(x1,... xn) y un = h (x1,... xn), se denomina intervalo de confianza de 100γ% para θ. El número γ se llama nivel de confianza. En general, con una media muestral normalmente distribuida, Ẋ, y con un valor conocido para la desviación estándar, σ, se forma un intervalo de confianza de 100(1-α)% para el verdadero μ tomando Ẋ ± e, con e = z1-α/2(σ/n1/2), donde z1-α/2 es el 100(1-α /2)% valor acumulativo de la curva normal estándar, y n es el número de valores de datos en esa columna. Por ejemplo, z1-α/2 es igual a 1,96 para un 95 % de confianza.
Aquí se calculan dos límites a partir del conjunto de observaciones, digamos ln y un y se afirma con un cierto grado de confianza (medido en términos probabilísticos) que el verdadero valor de γ se encuentra entre ln y un. Así obtenemos un intervalo (ln y un) que esperamos incluya el verdadero valor de γ(θ). Entonces, este tipo de estimación se llama estimación del intervalo de confianza. Esta estimación proporciona un rango de valores en los que se espera que se encuentre el parámetro. Por lo general, brinda más información que las estimaciones puntuales y se prefieren al hacer inferencias. De alguna manera, podemos decir que la estimación puntual es lo opuesto a la estimación por intervalos.
Contenido relacionado
Estimación de máxima verosimilitud
348
Demografía del Sáhara Occidental