Método de momentos (estadísticas)
En estadística, el método de los momentos es un método de estimación de parámetros poblacionales. El mismo principio se utiliza para derivar momentos superiores como asimetría y curtosis.
Comienza expresando los momentos poblacionales (es decir, los valores esperados de las potencias de la variable aleatoria bajo consideración) como funciones de los parámetros de interés. Luego, esas expresiones se igualan a los momentos muestrales. El número de tales ecuaciones es el mismo que el número de parámetros a estimar. Luego, esas ecuaciones se resuelven para los parámetros de interés. Las soluciones son estimaciones de esos parámetros.
El método de los momentos fue introducido por Pafnuty Chebyshev en 1887 en la demostración del teorema del límite central. La idea de hacer coincidir los momentos empíricos de una distribución con los momentos poblacionales se remonta al menos a Pearson.
Método
Supongamos que el parámetro Silencio Silencio {displaystyle theta } =Silencio Silencio 1,Silencio Silencio 2,... ... ,Silencio Silencio k{displaystyle theta _{1},theta _{2},dotstheta ¿Qué?) caracteriza la distribución fW()w;Silencio Silencio ){displaystyle f_{W}(w;theta)} de la variable aleatoria W{displaystyle W.. Supongamos que el primero k{displaystyle k} momentos de la verdadera distribución (los "tiempos de la población") se pueden expresar como funciones de Silencio Silencio {displaystyle theta }s:
- μ μ 1↑ ↑ E [W]=g1()Silencio Silencio 1,Silencio Silencio 2,... ... ,Silencio Silencio k),μ μ 2↑ ↑ E [W2]=g2()Silencio Silencio 1,Silencio Silencio 2,... ... ,Silencio Silencio k),⋮ ⋮ μ μ k↑ ↑ E [Wk]=gk()Silencio Silencio 1,Silencio Silencio 2,... ... ,Silencio Silencio k).{displaystyle {begin{aligned}mu} ################################################################################################################################################################################################################################################################ {E} [W]=g_{1}(theta _{1},theta _{2},ldotstheta _{k}),\[4pt]mu _{2} limitequiv operatorname {E} [W^{2}]=g_{2}(theta _{1},theta _{2},ldotstheta _{k}),\;,,,vdots \\mu _{k} simultáneamenteequiv operatorname {E} [W^{k}=g_{k}(theta _{1},theta _{2},ldotstheta _{k}).end{aligned}}
Suponga una muestra de tamaño n{displaystyle n} se dibuja, dando lugar a los valores w1,... ... ,wn{displaystyle ¿Qué?. Para j=1,... ... ,k{displaystyle j=1,dotsk}, vamos
- μ μ ^ ^ j=1n. . i=1nwij{displaystyle {widehat {fnMicrosoft} {fn}}} {fn}}} {fn} {fn}}} {fn} {fn} {fn} {fn}} {fn}}}} {fn} {fn} {fn}} {fn}}} {fn} {fn}fn}}}}} {f}}}}}}}}} {fn}}}}}}}}fn}}}}}} {f}}}}}}}}}}}}} {f} {f}}} {f} {f} {f} {f} {f} {f} {f} {fn} {fn}fn}fn} {f}fn}fn}f}}}fn}}fn}}}}fn}}}}fn}f}fn}}}}}}}}} ¿Qué?
ser el j- el momento de la muestra, una estimación μ μ j{displaystyle mu _{j}}. El método de tiempo estimador para Silencio Silencio 1,Silencio Silencio 2,... ... ,Silencio Silencio k{displaystyle theta _{1},theta _{2},ldotstheta ¿Qué? denotado por Silencio Silencio ^ ^ 1,Silencio Silencio ^ ^ 2,... ... ,Silencio Silencio ^ ^ k{displaystyle {widehat {theta }_{1},{widehat {theta }_{2},dots{widehat {theta }_{k} se define como la solución (si existe) a las ecuaciones:
- μ μ ^ ^ 1=g1()Silencio Silencio ^ ^ 1,Silencio Silencio ^ ^ 2,... ... ,Silencio Silencio ^ ^ k),μ μ ^ ^ 2=g2()Silencio Silencio ^ ^ 1,Silencio Silencio ^ ^ 2,... ... ,Silencio Silencio ^ ^ k),⋮ ⋮ μ μ ^ ^ k=gk()Silencio Silencio ^ ^ 1,Silencio Silencio ^ ^ 2,... ... ,Silencio Silencio ^ ^ k).{displaystyle {begin{aligned}{widehat {mu} {fnMicrosoft Sans {fnMicrosoft Sans Serif} }_{1},{widehat {theta }_{2},ldots{widehat {theta }_{k}),[4pt]{widehat {mu] {fnMicrosoft Sans Serif} {fnMicrosoft {fnMicrosoft Sans Serif} }_{1},{widehat {theta }_{2},ldots{widehat {theta {fnMicrosoft Sans Serif}fnMicrosoft Sans {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} }_{1},{widehat {theta }_{2},ldots{widehat {theta {fnMicrosoft Sans}
El método descrito aquí para variables aleatorias únicas se generaliza de manera obvia a múltiples variables aleatorias, lo que lleva a múltiples opciones de momentos a utilizar. Diferentes opciones generalmente conducen a diferentes soluciones [5], [6].
Ventajas y desventajas
El método de los momentos es bastante simple y produce estimadores consistentes (bajo supuestos muy débiles), aunque estos estimadores a menudo están sesgados.
Es una alternativa al método de máxima verosimilitud.
Sin embargo, en algunos casos las ecuaciones de probabilidad pueden ser difíciles de resolver sin computadoras, mientras que los estimadores del método de los momentos pueden calcularse mucho más rápida y fácilmente. Debido a su fácil computabilidad, las estimaciones del método de los momentos se pueden utilizar como primera aproximación a las soluciones de las ecuaciones de probabilidad, y luego se pueden encontrar sucesivas aproximaciones mejoradas mediante el método de Newton-Raphson. De esta manera, el método de los momentos puede ayudar a encontrar estimaciones de máxima verosimilitud.
En algunos casos, poco frecuentes con muestras grandes pero menos frecuentes con muestras pequeñas, las estimaciones dadas por el método de momentos están fuera del espacio de parámetros (como se muestra en el ejemplo siguiente); Entonces no tiene sentido confiar en ellos. Ese problema nunca surge en el método de máxima verosimilitud. Además, las estimaciones por el método de los momentos no son necesariamente estadísticas suficientes, es decir, a veces no tienen en cuenta toda la información relevante de la muestra.
Al estimar otros parámetros estructurales (por ejemplo, parámetros de una función de utilidad, en lugar de parámetros de una distribución de probabilidad conocida), es posible que no se conozcan las distribuciones de probabilidad apropiadas y que se prefieran las estimaciones basadas en momentos a las estimaciones de máxima verosimilitud.
Método alternativo de momentos
Las ecuaciones a resolver en el método de los momentos (MoM) son en general no lineales y no existen garantías generalmente aplicables que existen soluciones tratables. Pero hay un enfoque alternativo para usar momentos de muestra para estimar los parámetros del modelo de datos en términos de dependencia conocida de los momentos del modelo en estos parámetros, y esta alternativa requiere la solución de sólo ecuaciones lineales o, más generalmente, ecuaciones de tensor. Esta alternativa se conoce como el MoM Bayesian-Like (BL-MoM), y difiere del MoM clásico en que utiliza momentos de muestra de peso óptimo. Considerando que el MoM suele estar motivado por la falta de conocimientos suficientes sobre el modelo de datos para determinar funciones de probabilidad y asociados a posteriori probabilidades de parámetros desconocidos o aleatorios, es extraño que exista un tipo de MoM que es Bayesian-Like. Pero el significado particular Bayesian-Like conduce a una formulación de problemas en la que se requiere conocimiento a posteriori Las probabilidades se sustituyen por el conocimiento requerido de la dependencia de los momentos modelo en parámetros de modelo desconocidos, que es exactamente el conocimiento requerido por el MoM tradicional [1],[2],[5]–[9]. El BL-MoM también utiliza conocimiento de a priori probabilidades de los parámetros a estimar, cuando estén disponibles, pero de otro modo utilizan antecedentes uniformes.
El BL-MoM ha sido reportado únicamente en la literatura de estadística aplicada en relación con la estimación de parámetros y la prueba de hipótesis utilizando observaciones de procesos estocásticos para problemas en la Teoría de la Información y las Comunicaciones y, en particular, el diseño de receptores de comunicaciones en ausencia de conocimiento. de funciones de verosimilitud o probabilidades a posteriori asociadas [10] y referencias en ellas. Además, la reformulación de este enfoque de diseño de receptores para modelos de procesos estocásticos como una alternativa al MoM clásico para cualquier tipo de datos multivariados está disponible en forma de tutorial en el sitio web de la universidad [11, página 11.4]. Las aplicaciones en [10] y las referencias demuestran algunas características importantes de esta alternativa al MoM clásico, y en [11, página 11.4] se proporciona una lista detallada de las ventajas y desventajas relativas, pero en la literatura faltan comparaciones directas en aplicaciones específicas de el MoM clásico y el BL-MoM.
Ejemplos
Una aplicación de ejemplo del método de los momentos es estimar las distribuciones de densidad de probabilidad polinomio. En este caso, un polinomio de orden aproximado N{displaystyle N} se define en un intervalo [a,b]{displaystyle [a,b]}. El método de los momentos entonces produce un sistema de ecuaciones, cuya solución implica la inversión de una matriz Hankel.
Demostración del teorema del límite central
Vamos. X1,X2,⋯ ⋯ {displaystyle X_{1},X_{2},cdots ser variables aleatorias independientes con media 0 y varianza 1, luego dejar Sn:=1n. . i=1nXi{displaystyle S_{n}:={frac {1}{sqrt {n}}sum} ¿Qué?. Podemos calcular los momentos Sn{displaystyle S_{n} como
Básicamente, este argumento fue publicado por Chebyshev en 1887.
Distribución uniforme
Considere la distribución uniforme en el intervalo [a,b]{displaystyle [a,b]}, U()a,b){displaystyle U(a,b)}. Si W♪ ♪ U()a,b){displaystyle Wsim U(a,b)} entonces tenemos
- μ μ 1=E [W]=12()a+b){displaystyle mu ################################################################################################################################################################################################################################################################ [W]={frac {2}(a+b)}
- μ μ 2=E [W2]=13()a2+ab+b2){displaystyle mu ################################################################################################################################################################################################################################################################ [W^{2]={frac] {1}{3}(a^{2}+ab+b^{2}}
Resolver estas ecuaciones da
- a^ ^ =μ μ 1− − 3()μ μ 2− − μ μ 12){displaystyle {widehat {a}=mu} ¿Por qué? - Sí.
- b^ ^ =μ μ 1+3()μ μ 2− − μ μ 12){displaystyle {widehat {b}=mu} _{1}+{sqrt {3left(mu _{2}-mu - Sí.
Dado un conjunto de muestras {}wi}{displaystyle {f}} podemos usar los momentos de la muestra μ μ ^ ^ 1{displaystyle {widehat {fnMicrosoft} }_{1} y μ μ ^ ^ 2{displaystyle {widehat {fnMicrosoft} }_{2} en estas fórmulas para estimar a{displaystyle a} y b{displaystyle b}.
Note, however, that this method can produce inconsistent results in some cases. Por ejemplo, el conjunto de muestras {}0,0,0,0,1}{displaystyle {0,0,0,0,1} resultados en la estimación a^ ^ =15− − 235,b^ ^ =15+235{displaystyle {widehat {a}={frac} {1}{5}-{frac {2{sqrt {3}} {5} {fnMicrosoft Sans Serif} {b}={frac} {1}{5}+{frac} {2{sqrt {3}} {5}}} {}}} {}}} {}}}}} {}}} {}}} {}}} {}}} {}}}}} {}}}}} {}}}} {}}}}} {}}}}}} {}}}} {}}}}}}} {}}}}}}} {}}}}} {}}}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}}}} {}}}}}}}}} {}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}}}}} {}}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}}}} {}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}} Aunque <math alttext="{displaystyle {widehat {b}}b^ ^ c)1{displaystyle {widehat {b}traducido1}<img alt="{displaystyle {widehat {b}} y así es imposible para el conjunto {}0,0,0,0,1}{displaystyle {0,0,0,0,1} por haber sido extraído U()a^ ^ ,b^ ^ ){displaystyle U({widehat {a},{widehat {b}}} en este caso.
Contenido relacionado
Conjunto vacío
Historia de la lógica
Ley de los grandes números