Estimación de máxima verosimilitud

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Método de estimación de los parámetros de un modelo estadístico, observaciones dadas

En estadística, la estimación de máxima verosimilitud (MLE) es un método para estimar los parámetros de una distribución de probabilidad supuesta, dados algunos datos observados. Esto se logra maximizando una función de verosimilitud para que, bajo el modelo estadístico asumido, los datos observados sean los más probables. El punto en el espacio de parámetros que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. La lógica de máxima verosimilitud es tanto intuitiva como flexible y, como tal, el método se ha convertido en un medio dominante de inferencia estadística.

Si la función de verosimilitud es diferenciable, se puede aplicar la prueba de la derivada para encontrar máximos. En algunos casos, las condiciones de primer orden de la función de verosimilitud pueden resolverse analíticamente; por ejemplo, el estimador de mínimos cuadrados ordinarios para un modelo de regresión lineal maximiza la probabilidad cuando se supone que todos los resultados observados tienen distribuciones normales con la misma varianza.

Desde la perspectiva de la inferencia bayesiana, MLE es generalmente equivalente a la estimación máxima a posteriori (MAP) con distribuciones previas uniformes (o una distribución previa normal con una desviación estándar de infinito). En la inferencia frecuentista, MLE es un caso especial de un estimador extremo, siendo la función objetivo la verosimilitud.

Principios

Modelamos un conjunto de observaciones como muestra aleatoria de una distribución de probabilidad articular desconocida que se expresa en términos de un conjunto de parámetros. El objetivo de la estimación de probabilidad máxima es determinar los parámetros para los cuales los datos observados tienen la mayor probabilidad conjunta. Escribimos los parámetros que rigen la distribución conjunta como vector Silencio Silencio =[Silencio Silencio 1,Silencio Silencio 2,...... ,Silencio Silencio k]T{displaystyle ;theta =left[theta],theta _{2},,ldots,theta _{k}right]mathsf {T};} para que esta distribución se encuentre dentro de una familia paramétrica {}f()⋅ ⋅ ;Silencio Silencio )▪ ▪ Silencio Silencio ▪ ▪ .. },{displaystyle ;{f(cdot ,theta)mid theta in Theta };,} Donde .. {displaystyle ,Theta ,} se llama parameter space, un subconjunto finito-dimensional del espacio Euclideano. Evaluar la densidad articular en la muestra de datos observada Sí.=()Sí.1,Sí.2,...... ,Sí.n){displaystyle ;mathbf {y} =(y_{1},y_{2},ldotsy_{n});} da una función de valor real,

Ln()Silencio Silencio )=Ln()Silencio Silencio ;Sí.)=fn()Sí.;Silencio Silencio ),{displaystyle {mathcal {}_{n}(theta)={mathcal {L}_{n}(theta;mathbf {y})=f_{n}(mathbf {y};theta);}

que se llama la función de probabilidad. Para variables aleatorias independientes y distribuidas idénticamente, fn()Sí.;Silencio Silencio ){displaystyle f_{n}(mathbf {y};theta)} será el producto de las funciones de densidad univariada:

fn()Sí.;Silencio Silencio )=∏ ∏ k=1nfkunivar()Sí.k;Silencio Silencio ).{displaystyle f_{n}(mathbf {y};theta)=prod ¿Qué?

El objetivo de la estimación de máxima verosimilitud es encontrar los valores de los parámetros del modelo que maximizan la función de verosimilitud en el espacio de parámetros, es decir

Silencio Silencio ^ ^ =argmaxSilencio Silencio ▪ ▪ .. Ln()Silencio Silencio ;Sí.).{displaystyle {hat {theta }={underset {theta in Theta }{operatorname {arg;max}},{mathcal {L}}_{n} {theta ,;mathbf {y}~.}

Intuitivamente, esto selecciona los valores del parámetro que hacen los datos observados más probables. El valor específico Silencio Silencio ^ ^ =Silencio Silencio ^ ^ n()Sí.)▪ ▪ .. {displaystyle ~{hat {theta }={hat {theta En Theta ~ que maximiza la función de probabilidad Ln{fnMicrosoft Sans Serif} se llama la estimación de probabilidad máxima. Además, si la función Silencio Silencio ^ ^ n:Rn→ → .. {displaystyle ;{hat {theta Mathbb {R} Theta ;} así definido es mensurable, entonces se llama el estimador de probabilidad máxima. Es generalmente una función definida sobre el espacio de muestra, es decir, tomar una muestra dada como su argumento. Una condición suficiente pero no necesaria para su existencia es que la función de probabilidad sea continua sobre un espacio de parámetro .. {displaystyle ,Theta ,} Eso es compacto. Para abrir .. {displaystyle ,Theta ,} la función de probabilidad puede aumentar sin alcanzar nunca un valor supremum.

En la práctica, a menudo es conveniente trabajar con el logaritmo natural de la función de probabilidad, llamada log-verosimilitud:

l l ()Silencio Silencio ;Sí.)=In⁡ ⁡ Ln()Silencio Silencio ;Sí.).{displaystyle ell (theta ,mathbf {y})=ln {mathcal {}_{n}(theta ,mathbf {y})~.}

Puesto que el logaritmo es una función monotónica, el máximo l l ()Silencio Silencio ;Sí.){displaystyle ;ell (theta ,mathbf {y});} ocurre al mismo valor Silencio Silencio {displaystyle theta } como lo hace el máximo Ln.{displaystyle ,{mathcal {}_{n}~} Si l l ()Silencio Silencio ;Sí.){displaystyle ell (theta ,mathbf {y})} es diferente en .. ,{displaystyle ,Theta ,} las condiciones necesarias para la ocurrencia de un máximo (o un mínimo)

∂ ∂ l l ∂ ∂ Silencio Silencio 1=0,∂ ∂ l l ∂ ∂ Silencio Silencio 2=0,...... ,∂ ∂ l l ∂ ∂ Silencio Silencio k=0,{displaystyle {frac {partial ell }{partial theta {fnMicrosoft }{partial ell }{partial theta {fnK}=0,quad ldotsquad {frac {partial ell }{partial theta - Sí.

conocida como las ecuaciones de probabilidad. Para algunos modelos, estas ecuaciones se pueden resolver explícitamente para Silencio Silencio ^ ^ ,{displaystyle ,{widehat {theta ¿Qué? pero en general no hay solución de forma cerrada al problema de la maximización es conocido o disponible, y un MLE sólo se puede encontrar a través de la optimización numérica. Otro problema es que en muestras finitas pueden existir múltiples raíces para las ecuaciones de probabilidad. Ya sea la raíz identificada Silencio Silencio ^ ^ {displaystyle ,{widehat {theta # de las ecuaciones de probabilidad es un máximo (local) depende de si la matriz de derivados parciales y transversales de segundo orden, la llamada matriz hesiana

H()Silencio Silencio ^ ^ )=[∂ ∂ 2l l ∂ ∂ Silencio Silencio 12SilencioSilencio Silencio =Silencio Silencio ^ ^ ∂ ∂ 2l l ∂ ∂ Silencio Silencio 1∂ ∂ Silencio Silencio 2SilencioSilencio Silencio =Silencio Silencio ^ ^ ...... ∂ ∂ 2l l ∂ ∂ Silencio Silencio 1∂ ∂ Silencio Silencio kSilencioSilencio Silencio =Silencio Silencio ^ ^ ∂ ∂ 2l l ∂ ∂ Silencio Silencio 2∂ ∂ Silencio Silencio 1SilencioSilencio Silencio =Silencio Silencio ^ ^ ∂ ∂ 2l l ∂ ∂ Silencio Silencio 22SilencioSilencio Silencio =Silencio Silencio ^ ^ ...... ∂ ∂ 2l l ∂ ∂ Silencio Silencio 2∂ ∂ Silencio Silencio kSilencioSilencio Silencio =Silencio Silencio ^ ^ ⋮ ⋮ ⋮ ⋮ ⋱ ⋱ ⋮ ⋮ ∂ ∂ 2l l ∂ ∂ Silencio Silencio k∂ ∂ Silencio Silencio 1SilencioSilencio Silencio =Silencio Silencio ^ ^ ∂ ∂ 2l l ∂ ∂ Silencio Silencio k∂ ∂ Silencio Silencio 2SilencioSilencio Silencio =Silencio Silencio ^ ^ ...... ∂ ∂ 2l l ∂ ∂ Silencio Silencio k2SilencioSilencio Silencio =Silencio Silencio ^ ^ ],{displaystyle mathbf {H} left({widehat {theta,}right)={begin{bmatrix}left.{frac {partial ^{2}ell }{partial theta Está bien. {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} Está bien. ={widehat {theta,}}} {dots &left.{frac {partial ^{2}ell }{partial theta _{1},partial theta Está bien. {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} Está bien. {fnMicrosoft Sans Serif} }{partial theta Está bien. ={widehat {theta,}}} {dots &left.{frac {partial ^{2}ell }{partial theta _{2},partial theta Está bien. ={widehat {theta,}}\vdots &vdots &ddots &vdots \left.{frac {partial ^{2}ell }{partial theta #####,partial theta Está bien. {fnMicrosoft Sans Serif} }{partial theta #####,partial theta Está bien. {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} Está bien. {fnMicrosoft Sans Serif} ¿Qué?

es negativo semi-definido en Silencio Silencio ^ ^ {displaystyle {widehat {theta}}}, como esto indica la concavidad local. Convenientemente, las distribuciones de probabilidad más comunes, en particular la familia exponencial, son concave logarítmicamente.

Espacio de parámetros restringido

Si bien el dominio de la función de probabilidad, el espacio de parámetros, es generalmente un subconjunto de dimensión finita del espacio euclidiano, a veces es necesario incorporar restricciones adicionales en el proceso de estimación. El espacio de parámetros se puede expresar como

.. ={}Silencio Silencio :Silencio Silencio ▪ ▪ Rk,h()Silencio Silencio )=0},{displaystyle Theta =left{theta:theta in mathbb {R} ^{k},;h(theta)=0right}~}

Donde h()Silencio Silencio )=[h1()Silencio Silencio ),h2()Silencio Silencio ),...... ,hr()Silencio Silencio )]{displaystyle ;h(theta)=left[h_{1}(theta),h_{2}(theta),ldotsh_{r}(theta)right];} es un mapeo de funciones de valor vectorial Rk{fnMicrosoft Sans Serif} en Rr.{displaystyle ;mathbb {R} {r}~} Estimando el verdadero parámetro Silencio Silencio {displaystyle theta } pertenecientes a .. {displaystyle Theta } entonces, como cuestión práctica, significa encontrar el máximo de la función de probabilidad sujeto a la limitación h()Silencio Silencio )=0.{displaystyle ~h(theta)=0~.}

Teóricamente, el enfoque más natural de este problema de optimización limitada es el método de sustitución, que está "llenando" las restricciones h1,h2,...... ,hr{displaystyle ;h_{1},h_{2},ldotsh_{r};} a un conjunto h1,h2,...... ,hr,hr+1,...... ,hk{displaystyle ;h_{1},h_{2},ldotsh_{r},h_{r+1},ldotsh_{k};} de tal manera que hAlternativa Alternativa =[h1,h2,...... ,hk]{displaystyle ;h^{ast}=left[h_{1},h_{2},ldotsh_{k}right];} es una función de uno a uno desde Rk{displaystyle mathbb {R} {cH00} a sí mismo, y reparameter la función de probabilidad estableciendo φ φ i=hi()Silencio Silencio 1,Silencio Silencio 2,...... ,Silencio Silencio k).{displaystyle ;phi _{i}=h_{i}(theta _{1},theta _{2},ldotstheta _{k})~.} Debido a la equivariancia del estimador de probabilidad máxima, las propiedades del MLE se aplican a las estimaciones restringidas también. Por ejemplo, en una distribución normal multivariada la matriz de covariancia .. {displaystyle ,Sigma ,} debe ser positivo-definido; esta restricción puede imponerse reemplazando .. =.. T.. ,{displaystyle ;Sigma =Gamma ^{mathsf {T}Gamma;,} Donde .. {displaystyle "Gamma" es una matriz triangular superior real y .. T{displaystyle Gamma ^{mathsf {T}} es su transpose.

En la práctica, las restricciones suelen imponerse utilizando el método de Lagrange que, dadas las restricciones definidas anteriormente, conduce a las ecuaciones de verosimilitud restringida

∂ ∂ l l ∂ ∂ Silencio Silencio − − ∂ ∂ h()Silencio Silencio )T∂ ∂ Silencio Silencio λ λ =0{displaystyle {frac {partial ell }{partial theta ¿Qué? }lambda =0} y h()Silencio Silencio )=0,{displaystyle h(theta)=0;,}

Donde λ λ =[λ λ 1,λ λ 2,...... ,λ λ r]T{displaystyle ~lambda =left[lambda] _{1},lambda ¿Qué? es una columna-vector de multiplicadores de Lagrange y ∂ ∂ h()Silencio Silencio )T∂ ∂ Silencio Silencio {displaystyle;{fracpartial h(theta)}{mathsf {T}{partial theta}};} es k × Matriz jacobalí de derivados parciales. Naturalmente, si las limitaciones no son vinculantes al máximo, los multiplicadores Lagrange deben ser cero. Esto a su vez permite una prueba estadística de la "validez" de la restricción, conocida como la prueba de multiplicador Lagrange.

Propiedades

Un estimador de probabilidad máxima es un estimador de extremum obtenido maximizando, como función Silencio, la función objetiva l l ^ ^ ()Silencio Silencio ;x){displaystyle {widehat {ellell}}(theta ,x)}. Si los datos son independientes e idénticos distribuidos, entonces tenemos

l l ^ ^ ()Silencio Silencio ;x)=1n.. i=1nIn⁡ ⁡ f()xi▪ ▪ Silencio Silencio ),{displaystyle {widehat {ell,}} {theta ,x)={frac {1}{n}sum _{i=1}}n}n f(x_{i}mid theta),}}

esta es la muestra analógica de la probabilidad de registro esperada l l ()Silencio Silencio )=E⁡ ⁡ [In⁡ ⁡ f()xi▪ ▪ Silencio Silencio )]{displaystyle ell (theta)=fnMithbb {} [,ln f(x_{i}mid theta),]}, donde se toma esta expectativa con respecto a la verdadera densidad.

Los estimadores de máxima verosimilitud no tienen propiedades óptimas para muestras finitas, en el sentido de que (cuando se evalúan en muestras finitas) otros estimadores pueden tener una mayor concentración alrededor del verdadero valor del parámetro. Sin embargo, al igual que otros métodos de estimación, la estimación de máxima verosimilitud posee una serie de atractivas propiedades limitantes: a medida que el tamaño de la muestra aumenta hasta el infinito, las secuencias de estimadores de máxima verosimilitud tienen estas propiedades:

  • Consistencia: la secuencia de MLE converge en probabilidad al valor estimado.
  • Equivariancia funcional: Si Silencio Silencio ^ ^ {displaystyle {hat {theta } es el estimador de probabilidad máxima para Silencio Silencio {displaystyle theta }, y si g()Silencio Silencio ){displaystyle g(theta)} es cualquier transformación Silencio Silencio {displaystyle theta }, entonces el estimador de probabilidad máxima para α α =g()Silencio Silencio ){displaystyle alpha =g(theta)} es α α ^ ^ =g()Silencio Silencio ^ ^ ){displaystyle {hat {alpha}=g({hat {theta }}}}}.
  • Eficiencia, es decir, alcanza el límite inferior Cramér-Rao cuando el tamaño de la muestra tiende a infinito. Esto significa que ningún estimador consistente tiene un error cuadrado inferior a la MLE (o otros estimadores que alcanzan este límite), lo que también significa que MLE tiene normalidad asintotica.
  • Eficiencia de segundo orden después de la corrección para el sesgo.

Coherencia

En las condiciones que se describen a continuación, el estimador de probabilidad máxima es consistente. La consistencia significa que si los datos fueron generados por f()⋅ ⋅ ;Silencio Silencio 0){displaystyle f(cdot ,theta _{0}} y tenemos un número suficientemente grande de observaciones n, entonces es posible encontrar el valor de Silencio0 con precisión arbitraria. En términos matemáticos esto significa que n va a infinito el estimador Silencio Silencio ^ ^ {displaystyle {widehat {theta}}} converge en probabilidad a su verdadero valor:

Silencio Silencio ^ ^ mle→pSilencio Silencio 0.{displaystyle {widehat {theta ¿Qué? {xrightarrow {text{p}} theta _{0}.}

Bajo condiciones ligeramente más fuertes, el estimador converge casi con seguridad (o fuertemente):

Silencio Silencio ^ ^ mle→a.s.Silencio Silencio 0.{displaystyle {widehat {theta ¿Qué? {xrightarrow {text{a.s}} theta _{0}.}

En aplicaciones prácticas, los datos nunca se generan por f()⋅ ⋅ ;Silencio Silencio 0){displaystyle f(cdot ,theta _{0}}. Más bien, Failed to parse (SVG (MathML se puede activar a través del plugin del navegador): Respuesta inválida ("la extensión máxima no puede conectarse a Restbase".) de servidor "/mathoid/local/v1/": {displaystyle f(cdot,theta_0)}es un modelo, a menudo en forma idealizada, del proceso generado por los datos. Es un aforismo común en las estadísticas todos los modelos están equivocados. Así, la verdadera consistencia no ocurre en aplicaciones prácticas. Sin embargo, a menudo se considera que la consistencia es una propiedad deseable para que un estimador tenga.

Para establecer la consistencia, las siguientes condiciones son suficientes.

  1. Identificación del modelo:
    Silencio Silencio ل ل Silencio Silencio 0.. f()⋅ ⋅ ▪ ▪ Silencio Silencio )ل ل f()⋅ ⋅ ▪ ▪ Silencio Silencio 0).{displaystyle theta neq theta ¿Qué? Leftrightarrow quad f(cdot mid theta)neq f(cdot mid theta _{0}). }

    En otras palabras, diferentes valores de parámetro Silencio corresponde a diferentes distribuciones dentro del modelo. Si esta condición no se mantiene, habría algún valor Silencio1 tales que Silencio0 y Silencio1 generar una distribución idéntica de los datos observables. Entonces no podríamos distinguir entre estos dos parámetros incluso con una cantidad infinita de datos, estos parámetros habrían sido observadamente equivalentes.

    La condición de identificación es absolutamente necesaria para que el estimador ML sea consistente. Cuando esta condición sostiene, la función de probabilidad límite l()Silencio←) tiene un máximo global único Silencio0.
  2. Compactidad: el espacio del parámetro Θ del modelo es compacto.
    Ee noncompactness.svg

    La condición de identificación establece que la probabilidad de registro tiene un máximo global único. La compactidad implica que la probabilidad no puede acercarse al valor máximo arbitrariamente en algún otro punto (como se demuestra por ejemplo en la imagen de la derecha).

    La compactidad es sólo una condición suficiente y no una condición necesaria. La compactidad puede sustituirse por otras condiciones, como:

    • tanto la concavidad de la función de probabilidad de registro y la compactidad de algunos (no vacío) conjuntos de nivel superior de la función de probabilidad de registro, o
    • existencia de un barrio compacto N de Silencio0 tal que fuera de N la función de probabilidad de registro es menos que el máximo por al menos algunos ε ■ 0.
  3. Continuidad: la función In f()xSilencioSilencio) es continuo Silencio para casi todos los valores de x:
    P⁡ ⁡ [In⁡ ⁡ f()x▪ ▪ Silencio Silencio )▪ ▪ C0().. )]=1.{displaystyle operatorname {Mathbb {P} {Bigl [};ln f(xmid theta);in ;C^{0}(Theta);{Bigr]}=1.}
    La continuidad aquí puede ser reemplazada con una condición ligeramente más débil de semi-continuidad superior.
  4. Dominance: existe D()x) integrado con respecto a la distribución f()xSilencioSilencio0) tales que
    <math alttext="{displaystyle {Bigl |}ln f(xmid theta){Bigr |}SilencioIn⁡ ⁡ f()x▪ ▪ Silencio Silencio )Silencio.D()x)para todosSilencio Silencio ▪ ▪ .. .{displaystyle {Bigl TENIDO}ln f(xmid theta){Bigr ANTERITO = 0}quad {text{ for all }theta in Theta.}<img alt="{displaystyle {Bigl |}ln f(xmid theta){Bigr |}
    Por la ley uniforme de grandes números, la condición de dominio junto con la continuidad establecen la convergencia uniforme en probabilidad de la probabilidad de tronco:
    SupSilencio Silencio ▪ ▪ .. Silenciol l ^ ^ ()Silencio Silencio ▪ ▪ x)− − l l ()Silencio Silencio )Silencio→p0.{displaystyle sup _{theta in Theta }left forever{widehat {ell ,}}(theta mid x)-ell (theta),right sobre la vida {xrightarrow {text{p}} 0.}

La condición de dominio se puede emplear en el caso de observaciones i.i.d.. En el caso no i.i.d., la convergencia uniforme en probabilidad se puede comprobar mostrando que la secuencia l l ^ ^ ()Silencio Silencio ▪ ▪ x){displaystyle {widehat {ell} {theta mid x)} es estocásticamente equicontínua. Si uno quiere demostrar que el estimador ML Silencio Silencio ^ ^ {displaystyle {widehat {theta}}} convergencias a Silencio0 casi seguro, entonces una condición más fuerte de convergencia uniforme casi seguramente debe ser impuesta:

SupSilencio Silencio ▪ ▪ .. .l l ^ ^ ()Silencio Silencio ▪ ▪ x)− − l l ()Silencio Silencio ).→a.s.0.{displaystyle sup _{theta in Theta }left;{widehat {ell,}}(theta mid x)-ell (theta);right eterna\xrightarrow {text{a.s}} 0.}}

Además, si (como se asumió anteriormente) los datos fueron generados por f()⋅ ⋅ ;Silencio Silencio 0){displaystyle f(cdot ,theta _{0}}, entonces en ciertas condiciones, también se puede demostrar que el estimador de probabilidad máxima converge en distribución a una distribución normal. Específicamente,

n()Silencio Silencio ^ ^ mle− − Silencio Silencio 0)→dN()0,I− − 1){displaystyle {sqrt {}left({widehat {theta] {fnK}Theta _{0}right)\xrightarrow {d} {mthcal {N}left(0,,I^{-1}right)}

donde I es la matriz de información de Fisher.

Equivarianza funcional

El estimador de probabilidad máxima selecciona el valor del parámetro que da a los datos observados la mayor probabilidad posible (o densidad de probabilidad, en el caso continuo). Si el parámetro consta de varios componentes, entonces definimos sus estimadores de máxima probabilidad separados, como el componente correspondiente del MLE del parámetro completo. Consistente con esto, si Silencio Silencio ^ ^ {displaystyle {widehat {theta}}} es el MLE para Silencio Silencio {displaystyle theta }, y si g()Silencio Silencio ){displaystyle g(theta)} es cualquier transformación Silencio Silencio {displaystyle theta }, entonces el MLE para α α =g()Silencio Silencio ){displaystyle alpha =g(theta)} por definición

α α ^ ^ =g()Silencio Silencio ^ ^ ).{displaystyle {widehat {alpha }=g(,{widehat {theta,}},},}

Maximiza la llamada probabilidad de perfil:

L̄ ̄ ()α α )=SupSilencio Silencio :α α =g()Silencio Silencio )L()Silencio Silencio ).{displaystyle {bar {L}(alpha)=sup _{theta:alpha =g(theta)}L(theta).,}

El MLE también es equivariante con respecto a ciertas transformaciones de los datos. Si Sí.=g()x){displaystyle y=g(x)} Donde g{displaystyle g} es uno a uno y no depende de los parámetros a calcular, entonces las funciones de densidad satisfacen

fY()Sí.)=fX()x)Silenciog.()x)Silencio{displaystyle ¿Qué?

y por lo tanto las funciones de probabilidad X{displaystyle X} y Y{displaystyle Sí. difiere sólo por un factor que no depende de los parámetros del modelo.

Por ejemplo, los parámetros MLE de la distribución logarítmica normal son los mismos que los de la distribución normal ajustados al logaritmo de los datos.

Eficiencia

As assumed above, if the data were generated by f()⋅ ⋅ ;Silencio Silencio 0),{displaystyle ~f(cdot ,;theta _{0}~,} entonces bajo ciertas condiciones, también se puede demostrar que el estimador de probabilidad máxima converge en distribución a una distribución normal. Es n- consistente y asintomáticamente eficiente, lo que significa que alcanza el límite Cramér-Rao. Específicamente,

n()Silencio Silencio ^ ^ mle− − Silencio Silencio 0)→dN()0,I− − 1),{displaystyle {sqrt {,},left({widehat {theta,}}_{text{mle}}}-theta _{0}right)\xrightarrow {d} {mathcal {N}left(0, {mthcal {}}} {i}derecha)} {i} {i} {i}}}i}}}}}}}m}}m}m} {m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}m}}m}m}

Donde I{displaystyle ~ {fnMitcal {}}}} {fnMitcal}}} {fnK}}}} {f}}}}} es la matriz de información Fisher:

Ijk=E[− − ∂ ∂ 2In⁡ ⁡ fSilencio Silencio 0()Xt)∂ ∂ Silencio Silencio j∂ ∂ Silencio Silencio k].{displaystyle {mathcal {}_{jk}=operatorname {mathbb {E} ,{biggl [};-{frac {partial ^{2}ln f_{thetat {fnMicrosoft Sans Serif} {fnMicrosoft Sans _{j},partial theta - Sí.

En particular, significa que el sesgo del estimador de máxima verosimilitud es igual a cero hasta el orden 1/n .

Eficiencia de segundo orden después de la corrección por sesgo

Sin embargo, cuando consideramos los términos de orden superior en la expansión de la distribución de este estimador, resulta que θmle tiene un sesgo de orden 1n. Este sesgo es igual a (por componentes)

bh↑ ↑ E⁡ ⁡ [()Silencio Silencio ^ ^ mle− − Silencio Silencio 0)h]=1n.. i,j,k=1mIhiIjk()12Kijk+Jj,ik){displaystyle b_{h};equiv ;operatorname {mathbb {} {biggl [};left({widehat {thetat }_{mathrm {mle} ¿Qué? ###;=;{frac}{,n,}sum {fnMicrosoft Sans Serif} {I}} {hi};{fnMithcal {} {fnK}fnMicroc {1}{,2,},K_{ijk};+;J_{j,ik}right)}

Donde Ijk{displaystyle {fnMithcal} {fnK}} {fnMicrosoft Sans Serif} (con superscriptos) denota el (j,k)-t componente del inverso Matriz de información de pesca I− − 1{displaystyle {fnMithcal} {fn}} {fnMicrosoft}} {fnMicrosoft}}}} {fn}}} {fnK}}}}} {fnK}, y

12Kijk+Jj,ik=E[12∂ ∂ 3In⁡ ⁡ fSilencio Silencio 0()Xt)∂ ∂ Silencio Silencio i∂ ∂ Silencio Silencio j∂ ∂ Silencio Silencio k+∂ ∂ In⁡ ⁡ fSilencio Silencio 0()Xt)∂ ∂ Silencio Silencio j∂ ∂ 2In⁡ ⁡ fSilencio Silencio 0()Xt)∂ ∂ Silencio Silencio i∂ ∂ Silencio Silencio k].{fnMicroc} {1}{,2,},K_{ijk};+;J_{j,ik};=; {fnMicroc} {fnMicroc} {f} {fnMicroc {f} {f} {f} {fnf}f}f}fnfn}fnfnfnf}fnfnf}\fnfnfnfnfnfnh}}fnfnh}}fnfnfnfnh}fnfnfnfnfn\\fnh}\\\\\fn}}}}}}}}}}}}}}\\\\\\\\\\\\\\\\\\fnh}}}}}}}}}}}}}}}}}}}}}}}}}}}}}\\\\\\ {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} ################################################################################################################################################################################################################################################################ theta _{j};partial theta {fnMicroc {fnMicrosoft Sans Serif}Theta {fnMicrosoft Sans Serif} {fnMicroc} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} theta _{i},partial theta - Sí.

Usando estas fórmulas es posible estimar el sesgo de segundo orden del estimador de máxima verosimilitud y corregir ese sesgo restándolo:

Silencio Silencio ^ ^ mleAlternativa Alternativa =Silencio Silencio ^ ^ mle− − b^ ^ .{displaystyle {widehat {theta {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {theta,} {text{mle}}-{widehat {b,}}~}

Este estimador es imparcial hasta los términos del pedido 1 //span>n, y se denomina estimador de máxima verosimilitud corregido por sesgo.

Este estimador corregido por sesgo es eficiente de segundo orden (al menos dentro de la familia exponencial curva), lo que significa que tiene un error cuadrático medio mínimo entre todos los estimadores corregidos por sesgo de segundo orden, hasta los términos de la orden 1/n2. Es posible continuar con este proceso, es decir, derivar el término de corrección de sesgo de tercer orden, y así sucesivamente. Sin embargo, el estimador de máxima verosimilitud no es eficiente en el tercer orden.

Relación con la inferencia bayesiana

Un estimador de máxima verosimilitud coincide con el estimador bayesiano más probable dada una distribución previa uniforme en los parámetros. De hecho, la estimación máxima a posteriori es el parámetro θ que maximiza la probabilidad de θ dados los datos, proporcionados por Bayes' teorema:

P⁡ ⁡ ()Silencio Silencio ▪ ▪ x1,x2,...... ,xn)=f()x1,x2,...... ,xn▪ ▪ Silencio Silencio )P⁡ ⁡ ()Silencio Silencio )P⁡ ⁡ ()x1,x2,...... ,xn){fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}

Donde P⁡ ⁡ ()Silencio Silencio ){displaystyle operatorname {mathbb {} (theta)} es la distribución previa para el parámetro Silencio y dónde P⁡ ⁡ ()x1,x2,...... ,xn){displaystyle operatorname {Mathbb (x_{1},x_{2},ldotsx_{n} es la probabilidad de los datos promedio sobre todos los parámetros. Puesto que el denominador es independiente de Silencio, el estimador bayesiano se obtiene maximizando f()x1,x2,...... ,xn▪ ▪ Silencio Silencio )P⁡ ⁡ ()Silencio Silencio ){displaystyle f(x_{1},x_{2},ldotsx_{n}mid theta)operatorname {mathbb {} } (theta)} con respecto a Silencio. Si además asumimos que el anterior P⁡ ⁡ ()Silencio Silencio ){displaystyle operatorname {mathbb {} (theta)} es una distribución uniforme, el estimador bayesiano se obtiene maximizando la función de probabilidad f()x1,x2,...... ,xn▪ ▪ Silencio Silencio ){displaystyle f(x_{1},x_{2},ldotsx_{n}mid theta)}. Así el estimador Bayesiano coincide con el estimador de probabilidad máxima para una distribución previa uniforme P⁡ ⁡ ()Silencio Silencio ){displaystyle operatorname {mathbb {} (theta)}.

Aplicación de la estimación de máxima verosimilitud en la teoría de decisión de Bayes

En muchas aplicaciones prácticas de aprendizaje automático, la estimación de máxima verosimilitud se utiliza como modelo para la estimación de parámetros.

La teoría de la decisión bayesiana se trata de diseñar un clasificador que minimice el riesgo esperado total, especialmente, cuando los costos (la función de pérdida) asociados con diferentes decisiones son iguales, el clasificador minimiza el error en toda la distribución.

Por lo tanto, la regla de decisión de Bayes se establece como

"decide" w1{displaystyle {cHFF} si ;operatorname {mathbb {P} } (w_{2}|x)~;~}" xmlns="http://www.w3.org/1998/Math/MathML">P⁡ ⁡ ()w1Silenciox)■P⁡ ⁡ ()w2Silenciox);{displaystyle ~operatorname {mathbb {P} (w_{1} eternax); titulado;operatorname {mathbb {} } (w_{2} perpetuax)~;~};operatorname {mathbb {P} } (w_{2}|x)~;~}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/efa06a173896d7791a83dffb2726b21eec60e2e0" style="vertical-align: -0.838ex; width:23.401ex; height:2.843ex;"/> de otra manera w2{displaystyle - ¿Qué?"

Donde w1,w2{displaystyle ¿Qué? son predicciones de diferentes clases. Desde una perspectiva de minimizar el error, también se puede decir como

w=argmaxw∫ ∫ − − JUEGO JUEGO JUEGO JUEGO P⁡ ⁡ ()error▪ ▪ x)P⁡ ⁡ ()x)d⁡ ⁡ x[displaystyle w={underset {f} {fnuncio {;max};int _{-infty }infty }operatorname {mathbb {} } ({text{ error}mid x)operatorname {mathbb {} } } } {fnf}fnKf}f}f}f}f}f}f}fnMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMincip]fnMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMinMincipi)fn

dónde

P⁡ ⁡ ()error▪ ▪ x)=P⁡ ⁡ ()w1▪ ▪ x){displaystyle operatorname {mathbb {} ({text{ error}mid x)=operatorname {mathbb {} (w_{1}mid x)~}

si decidimos w2{displaystyle - ¿Qué? y P⁡ ⁡ ()error▪ ▪ x)=P⁡ ⁡ ()w2▪ ▪ x){displaystyle ;operatorname {mathbb {P} ({text{ error}mid x)=operatorname {mathbb {} } (w_{2}mid x);} si decidimos w1.{displaystyle ;w_{1};.}

Al aplicar Bayes' teorema

P⁡ ⁡ ()wi▪ ▪ x)=P⁡ ⁡ ()x▪ ▪ wi)P⁡ ⁡ ()wi)P⁡ ⁡ ()x)[displaystyle operatorname {mathbb {} (w_{i}mid x)={frac {operatorname {mathbb {} } (xmid w_{i})operatorname {mathbb {i} (w_{i})} {f} {fnMitb} {f},

y si además asumimos la función de pérdida cero o uno, que es la misma pérdida para todos los errores, la regla de decisión de Bayes se puede reformular como:

hBayes=argmaxw[P⁡ ⁡ ()x▪ ▪ w)P⁡ ⁡ ()w)],{displaystyle h_{text{Bayes}={underset {w}{operatorname {arg;max}},{bigl [},operatorname {mathbb {} } } (xmid w),operatorname {mathbb {} } (w),{bigr]};};

Donde hBayes{displaystyle h_{text{Bayes}} es la predicción y P⁡ ⁡ ()w){displaystyle;fnMithbb {} (w);} es la probabilidad previa.

Relación con la minimización de la divergencia Kullback-Leibler y la entropía cruzada

Encontrar Silencio Silencio ^ ^ {displaystyle {hat {theta } que maximiza la probabilidad es asintoticamente equivalente a encontrar el Silencio Silencio ^ ^ {displaystyle {hat {theta } que define una distribución de probabilidad (QSilencio Silencio ^ ^ {displaystyle Q_{hat {theta }) que tiene una distancia mínima, en términos de divergencia de Kullback-Leibler, a la distribución de probabilidad real de la que se generaron nuestros datos (es decir, generados por PSilencio Silencio 0{displaystyle P_{theta - Sí.). En un mundo ideal, P y Q son lo mismo (y lo único desconocido es Silencio Silencio {displaystyle theta } que define P), pero incluso si no lo son y el modelo que utilizamos es mal especificado, todavía el MLE nos dará la distribución "cerca" (dentro de la restricción de un modelo Q que depende de Silencio Silencio ^ ^ {displaystyle {hat {theta }) a la distribución real PSilencio Silencio 0{displaystyle P_{theta - Sí..

Ya que la entropía cruzada es sólo la entropía de Shannon más la divergencia KL, y desde la entropía de PSilencio Silencio 0{displaystyle P_{theta - Sí. es constante, entonces el MLE también minimiza asintoticamente la entropía cruzada.

Ejemplos

Distribución uniforme discreta

Considerar un caso n billetes de 1 a 1 n se coloca en una caja y se selecciona al azar (ver distribución uniforme); por lo tanto, el tamaño de la muestra es 1. Si n es desconocido, entonces el estimador de probabilidad máxima n^ ^ {displaystyle {widehat {n}} de n es el número m en la entrada dibujada. (La probabilidad es 0 para n.m, 1.n para nm, y esto es más grande cuando n=m. Tenga en cuenta que la estimación de probabilidad máxima n ocurre en el extremo inferior de los posibles valores {m,m+ 1,...}, en lugar de en algún lugar en el "medio" de la gama de valores posibles, que resultaría en menos parcialidad.) El valor esperado del número m en el billete sorteado, y por lo tanto el valor esperado n^ ^ {displaystyle {widehat {n}}, es (n+ 1)/2. Como resultado, con un tamaño de muestra de 1, el estimador de probabilidad máxima para n se subestimará sistemáticamente n por:n−1)/2.

Distribución discreta, espacio de parámetros finito

Supongamos que uno desea determinar qué tan sesgada es una moneda injusta. Llame a la probabilidad de sacar una "cara" p. El objetivo entonces se convierte en determinar p.

Suponga que la moneda se lanza 80 veces: es decir, la muestra podría ser algo así como x1 = H, x2 = T,..., x80 = T, y el recuento del número de cabezas "H" es observado.

La probabilidad de sacar cruz es 1 − p (así que aquí p es θ arriba). Suponga que el resultado es 49 caras y 31 cruces, y suponga que la moneda se sacó de una caja que contiene tres monedas: una que da cara con probabilidad p = 13, uno que da cara con probabilidad p = 12 y otra que da cara con probabilidad p = 23. Las monedas han perdido sus etiquetas, por lo que se desconoce cuál era. Usando la estimación de máxima verosimilitud, se puede encontrar la moneda que tiene la mayor probabilidad, dados los datos que se observaron. Usando la función de masa de probabilidad de la distribución binomial con un tamaño de muestra igual a 80, número de éxitos igual a 49 pero para diferentes valores de p (la "probabilidad de éxito"), la La función de probabilidad (definida a continuación) toma uno de tres valores:

P⁡ ⁡ [H=49▪ ▪ p=13]=()8049)()13)49()1− − 13)31.. 0,000,P⁡ ⁡ [H=49▪ ▪ p=12]=()8049)()12)49()1− − 12)31.. 0,012,P⁡ ⁡ [H=49▪ ▪ p=23]=()8049)()23)49()1− − 23)31.. 0,054.{displaystyle {begin{aligned}operatorname {fnMicroc} {fnMicroc} {fnMicroc} {fnMicroc} {fnMicroc} {fnMicroc} {1}{3};{bigr}} {binom {80} {} {} {tfrac {1}{3}}}}}}} {49}(1-{tfrac} {c}} {c}}} {cc}}}}} {cc}}}}}} {cc}}}}}}}}} {c}}}}} {cccccccccccccc}}}}}} {ccccccccc}}}}}}}}}}}}}}}}}}}}}}}}}} {ccccccccccccc}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {1}{31}approx 0.000,[6pt]operatorname {mathbb {P} {bigl} [];mathrm {H} =49mid p={tfrac {1}{2};{bigr}}} {binom {} {4} {} {tfrac {1}{2}}}}})} {49}(1-{tfrac {1}{2}})} {31}approx 0.012,[6pt]operatorname {mathbbbbbbbbbbbb}}} {ccccccH0}cccH00}ccH00}ccH00}cH00}ccccH00cH00cH00cH00cH00cH00cH00cH00cH00}cH00}cH00cH00}cH00}cH00cH00cH00}cH00cH00}cH00}cH00}cH004cH00cH00}cH00cH {P} {bigl} [];mathrm {H} =49mid p={tfrac {2}{3};{bigr}}} {binom {80}{} {} {tfrac {2}{3}}}}}}} {49}(1-{tfrac} {2}{31}approx 0.054~.end{aligned}}

La probabilidad se maximiza cuando p = 23, por lo que esta es la estimación de máxima verosimilitud para p.

Distribución discreta, espacio de parámetros continuo

Ahora supongamos que solo había una moneda pero su p podría haber sido cualquier valor theta≤ p ≤ 1. La función de probabilidad a maximizar es

L()p)=fD()H=49▪ ▪ p)=()8049)p49()1− − p)31,{displaystyle L(p)=f_{D}(mathrm {H} =49mid p)={binom {80}{49}}p^{49}(1-p)}{31}~}

y la maximización es sobre todos los valores posibles 0 ≤ p ≤ 1.

Función de probabilidad de un valor proporcional de un proceso binomio (n= 10)

Una forma de maximizar esta función es diferenciar con respecto a p y poner a cero:

0=∂ ∂ ∂ ∂ p()()8049)p49()1− − p)31),0=49p48()1− − p)31− − 31p49()1− − p)30=p48()1− − p)30[49()1− − p)− − 31p]=p48()1− − p)30[49− − 80p].{displaystyle {begin{aligned}0 ventaja={frac {partial }{partial p}left({binom {80}{49}p^{49}(1-p)^{31}right)~,[8pt]0 limit=49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}[8pt]}{30}{30}p}{30}{30}{30} {p}{0}{0}}}}}} {}}}}}}}}{30}}}}}}}}}}{30}}}}}}}}}}}}}} {} {}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {} {} {} {}}} {} {} {}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}

Este es un producto de tres términos. El primer término es 0 cuando p = 0. El segundo es 0 cuando p = 1. El tercero es cero cuando p = 4980. La solución que maximiza la probabilidad es claramente p = 4980 (ya que p = 0 y p = 1 dan como resultado una probabilidad de 0). Por lo tanto, el estimador de máxima verosimilitud para p es 4980.

Este resultado se generaliza fácilmente sustituyendo una letra como s en lugar de 49 para representar el número observado de & #39;éxitos' de nuestros ensayos de Bernoulli y una letra como n en lugar de 80 para representar el número de ensayos de Bernoulli. Exactamente el mismo cálculo produce s n cuál es la probabilidad máxima estimador para cualquier secuencia de n ensayos de Bernoulli que den como resultado s 'éxitos'.

Distribución continua, espacio de parámetros continuo

Para la distribución normal N()μ μ ,σ σ 2){displaystyle {mathcal {N}(musigma ^{2}} que tiene función de densidad de probabilidad

f()x▪ ▪ μ μ ,σ σ 2)=12π π σ σ 2exp⁡ ⁡ ()− − ()x− − μ μ )22σ σ 2),{displaystyle f(xmid musigma ^{2}={frac {1}{sqrt {2pisigma ^{2}}} }exp left(-{frac {(x-mu)}{2}{2sigma ^{2}}}right),}

la función de densidad de probabilidad correspondiente para una muestra de n variables aleatorias normales independientes idénticamente distribuidas (la probabilidad) es

f()x1,...... ,xn▪ ▪ μ μ ,σ σ 2)=∏ ∏ i=1nf()xi▪ ▪ μ μ ,σ σ 2)=()12π π σ σ 2)n/2exp⁡ ⁡ ()− − .. i=1n()xi− − μ μ )22σ σ 2).{displaystyle f(x_{1},ldotsx_{n}mid musigma ^{2}=prod ################################################################################################################################################################################################################################################################ sigma ^{2}}right)^{n/2}exp left(-{frac {sum ¿Qué? }

Esta familia de distribuciones tiene dos parámetros: Silencio=μ,σ); así que maximizamos la probabilidad, L()μ μ ,σ σ 2)=f()x1,...... ,xn▪ ▪ μ μ ,σ σ 2){displaystyle {mathcal {L}(musigma ^{2}=f(x_{1},ldotsx_{n}mid musigma ^{2}}}, sobre ambos parámetros simultáneamente, o si es posible, individualmente.

Dado que la función logarítmica en sí misma es una función continua estrictamente creciente en el rango de la probabilidad, los valores que maximizan la probabilidad también maximizarán su logaritmo (el logaritmo de la probabilidad en sí no es necesariamente estrictamente creciente). El log-verosimilitud se puede escribir de la siguiente manera:

log⁡ ⁡ ()L()μ μ ,σ σ 2))=− − n2log⁡ ⁡ ()2π π σ σ 2)− − 12σ σ 2.. i=1n()xi− − μ μ )2{displaystyle log {Bigl (}{mathcal {L} {musigma ^{2}{Bigr)}=-{frac {,n,}{2}log(2pi sigma ^{2}-{2sigma ¿Qué?

(Nota: el log-verosimilitud está estrechamente relacionado con la entropía de la información y la información de Fisher).

Ahora calculamos las derivadas de este log-verosimilitud de la siguiente manera.

0=∂ ∂ ∂ ∂ μ μ log⁡ ⁡ ()L()μ μ ,σ σ 2))=0− − − − 2n()x̄ ̄ − − μ μ )2σ σ 2.{displaystyle {begin{aligned}0 ventaja={frac {partial} {fnMitcal {}(musigma ^{2}){Bigr)}=0-{frac} {;-2fn}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}} {fnMicrosoft Sans Serif}} {f}}} {fn}}}}}}}}}}}}}\\\\\\\fn\\\\\\\\\\fn\\\\\\\\\\\\\\\\fn\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\fn

Donde x̄ ̄ {displaystyle {bar {x}} es la muestra media. Esto es resuelto por

μ μ ^ ^ =x̄ ̄ =.. i=1nxin.{displaystyle {widehat {fnMicrosoft} }={bar {x}=sum - ¿Qué? {fnMicrosoft Sans Serif}

Este es de hecho el máximo de la función, ya que es el único punto de inflexión en μ y la segunda derivada es estrictamente menos que cero. Su valor esperado es igual al parámetro μ de la distribución dada,

E⁡ ⁡ [μ μ ^ ^ ]=μ μ ,{displaystyle operatorname {Mathbb {E} {bigl [};{mu };{bigr]}=mu,}

que significa que el estimador de probabilidad máxima μ μ ^ ^ {displaystyle {widehat {mu}}} es imparcial.

Del mismo modo, diferenciamos el log-verosimilitud con respecto a σ y lo igualamos a cero:

0=∂ ∂ ∂ ∂ σ σ log⁡ ⁡ ()L()μ μ ,σ σ 2))=− − nσ σ +1σ σ 3.. i=1n()xi− − μ μ )2.{displaystyle {begin{aligned}0 ventaja={frac {partial} }{partial sigma {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnfnMicroc {,n,}{sigma }+{frac {1} {sigma ^{3}}sum} ¿Por qué?

que se resuelve con

σ σ ^ ^ 2=1n.. i=1n()xi− − μ μ )2.{displaystyle {widehat {sigma }{2}={frac {1}{n}sum ¿Qué?

Inserción de la estimación μ μ =μ μ ^ ^ {displaystyle mu = {mu}} obtenemos

σ σ ^ ^ 2=1n.. i=1n()xi− − x̄ ̄ )2=1n.. i=1nxi2− − 1n2.. i=1n.. j=1nxixj.{displaystyle {widehat {sigma }{2}={frac {1} {n}}} {fn} {fn} {fn} {fn} {fn} {fn}} {fn}}} {fn} {fn}} {fn}} {fn}}}}} {fn}}}} {fn}}}} {f}}}}}}} {f}}}}} {fn}fn}}}}} {fn}}}}}}}} {f} {f} {f} {fn} {fn}}}}}}f}}}}}}}}}}} {fn}}} {fn}}}}}fn}} {fn}f}}fn}}}fn}fn} {fn}} {fn}}}}}}}}}fn}}}}}}}}} ¿Qué? {x}}} {2}={frac {1}{n}}} {fn} {fn} {fn} {fn}}} {fn} {fn}}} {fn}} {fn}}}} {fn}}} {fn}}}}}}}}}} {fn}}}}}}}}}}}} {f}}}}} {f}}}}}}}}}}}} {f}} {f}}}}} {f}}}}}}}}}}}}}}}}}}}}}} {f} {f}} {f} {f}}}} {f}}}}} {f}}}} {f} {f}}f}}}}}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} ¿Qué? {1}{n^{2}}sum - ¿Qué? ¿Qué?

Para calcular su valor esperado, es conveniente reescribir la expresión en términos de variables aleatorias de cero media (error estadístico) δ δ i↑ ↑ μ μ − − xi{displaystyle delta _{i}equiv mu -x_{i}. Expresando la estimación en estas variables rendimientos

σ σ ^ ^ 2=1n.. i=1n()μ μ − − δ δ i)2− − 1n2.. i=1n.. j=1n()μ μ − − δ δ i)()μ μ − − δ δ j).{displaystyle {widehat {sigma }{2}={frac {1}{n}sum ¿Por qué? {1}{n^{2}}sum ¿Por qué?

Simplificar la expresión anterior, utilizando los hechos que E⁡ ⁡ [δ δ i]=0{displaystyle operatorname {Mathbb {E} {bigl [fnMicrosoft] ¿Qué? y E⁡ ⁡ [δ δ i2]=σ σ 2{displaystyle operatorname {E} {bigl [fnMicrosoft] ¿Por qué?, nos permite obtener

E⁡ ⁡ [σ σ ^ ^ 2]=n− − 1nσ σ 2.{displaystyle operatorname {Mathbb {E} {bigl {fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {f} {f}} {fn}} {fnMicrosoft}} {f}}} {fnMicrosoft} {f}}} {f}}}}} {f}}}}} {f}}}}}}}}}}}}} {f}f}}}}}f}f}f}\f}}\f}f}f}f}\fn\fnfnfnf}f}fnfnfnfnfnfnfnfnfn\fn\\fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfn\fn {sigma {fnMicrosoft Sans Serif} {fnMicroc} {,n-1,}sigma ^{2}

Esto significa que el estimador σ σ ^ ^ 2{displaystyle {widehat {sigma } {2} es parcial para σ σ 2{displaystyle sigma ^{2}. También se puede demostrar que σ σ ^ ^ {displaystyle {widehat {sigma } es parcial para σ σ {displaystyle sigma }, pero ambos σ σ ^ ^ 2{displaystyle {widehat {sigma } {2} y σ σ ^ ^ {displaystyle {widehat {sigma } son consistentes.

Formally decimos que estimación máxima de probabilidad para Silencio Silencio =()μ μ ,σ σ 2){displaystyle theta =(musigma ^{2}} es

Silencio Silencio ^ ^ =()μ μ ^ ^ ,σ σ ^ ^ 2).{displaystyle {widehat {theta,}=left({widehat {mu }},{widehat {sigma} - Sí. }

En este caso, los MLE podrían obtenerse individualmente. En general, este puede no ser el caso, y los MLE tendrían que obtenerse simultáneamente.

El logaritmo de verosimilitud normal en su máximo tiene una forma particularmente simple:

log⁡ ⁡ ()L()μ μ ^ ^ ,σ σ ^ ^ ))=− − n2()log⁡ ⁡ ()2π π σ σ ^ ^ 2)+1){displaystyle log {Bigl (}{mathcal {}} {mu }},{widehat {sigma}}}){Bigr)}={frac {fnfn;}{bigl},log(2pi {fnfnfnfnsigma {cH00FF} {fnfnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {f}f}f}f}f}f}f}fnfnfnfnf}fnf}fnfnfnfnfnfnfnfnfnf}fnfnfnfn\fnfnfnfnfn\\fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfn\fn ¿Qué?

Se puede demostrar que esta verosimilitud logarítmica máxima es la misma para mínimos cuadrados más generales, incluso para mínimos cuadrados no lineales. Esto se usa a menudo para determinar los intervalos de confianza aproximados basados en la probabilidad y las regiones de confianza, que generalmente son más precisos que los que usan la normalidad asintótica discutida anteriormente.

Variables no independientes

Puede ser el caso de que las variables estén correlacionadas, es decir, no independientes. Dos variables aleatorias Sí.1{displaystyle Y... y Sí.2{displaystyle y_{2} son independientes sólo si su función de densidad de probabilidad articular es el producto de las funciones de densidad de probabilidad individual, es decir.

f()Sí.1,Sí.2)=f()Sí.1)f()Sí.2){displaystyle f(y_{1},y_{2})=f(y_{1})f(y_{2},}

Supongamos que uno construye un orden...n vector gaisiano fuera de variables aleatorias ()Sí.1,...... ,Sí.n){displaystyle (y_{1},ldotsy_{n}}, donde cada variable tiene medios dados por ()μ μ 1,...... ,μ μ n){displaystyle (mu _{1},ldotsmu _{n}}. Además, permita que la matriz de covariancia sea denotada por .. {displaystyle {Matit {Sigma }. La función de densidad de probabilidad conjunta de estos n variables aleatorias luego sigue una distribución normal multivariada dada por:

f()Sí.1,...... ,Sí.n)=1()2π π )n/2Det().. )exp⁡ ⁡ ()− − 12[Sí.1− − μ μ 1,...... ,Sí.n− − μ μ n].. − − 1[Sí.1− − μ μ 1,...... ,Sí.n− − μ μ n]T){fn} {fn} {fn} {fn}{fn}{fn} {fn}{n/2}{sqrt {det({mthit {Sigma}}}}}exp left(-{frac {1}{2}}left[y_{1}-mu _{1},ldotsy_{n}-mu _{n}right]{mathit {Sigma }}left[y_{1}-mu _{1}ldotsy_{n}-m}{n} {m} {} {} {} {} {}{}}}}}}}}} {}}}}} {m} {} {}}}}}} {}}}}} {}}}}} {m}} {}}}}}}}}}}}}}}}}}}}}}}}}}m} {m} {m} {m} {m}m} {m} {m}m}}}}}}}}}}}}}}}}}}}}m}}m}}}}}}}}}}m}}}}}}}}}}

En el caso bivariado, la función de densidad de probabilidad conjunta viene dada por:

f()Sí.1,Sí.2)=12π π σ σ 1σ σ 21− − *** *** 2exp⁡ ⁡ [− − 12()1− − *** *** 2)()()Sí.1− − μ μ 1)2σ σ 12− − 2*** *** ()Sí.1− − μ μ 1)()Sí.2− − μ μ 2)σ σ 1σ σ 2+()Sí.2− − μ μ 2)2σ σ 22)]{displaystyle f(y_{1},y_{2})={frac {1}{2pi sigma _{1}sigma ¿Qué? {1-rho ^{2}}}}exp left[-{frac {1}{2(1-rho ^{2}}}}}left({frac {(y_{1}-mu _{1}}{2}}{sigma}}{sigma}}}{sigma}}}{sigma}}}}{sigma}}}}}}}{sigma}}}}{sigma}}}}}{sigma}}}}}{sigma}}}}}}}{sigma}}}}}}}{sigma}}}}{sigma}}}}{sigma}}}}}}}}}}}}{sigma}}}}}}}}}}}}}{sigma}}}}}}}}}}}}}{sigma}{sigma}}}{ - ¿Por qué? ¿Por qué? - Sí.

En este y otros casos donde existe una función de densidad conjunta, la función de verosimilitud se define como se indicó anteriormente, en la sección "principios" utilizando esta densidad.

Ejemplo

X1,X2,...... ,Xm{displaystyle X_{1}, X_{2},ldots X_{m} son contados en celdas / cajas 1 hasta m; cada caja tiene una probabilidad diferente (pensar que las cajas son más grandes o más pequeñas) y fijamos el número de bolas que caen para ser n{displaystyle n}:x1+x2+⋯ ⋯ +xm=n{displaystyle x_{1}+x_{2}+cdots +x_{m}=n}. La probabilidad de cada caja es pi{displaystyle P_{i}, con una limitación: p1+p2+⋯ ⋯ +pm=1{displaystyle p_{1}+p_{2}+cdots +p_{m}=1}. Este es un caso en el que Xi{displaystyle X_{i} s no son independientes, la probabilidad conjunta de un vector x1,x2,...... ,xm{displaystyle x_{1}, x_{2},ldotsx_{m} se llama el multinomio y tiene la forma:

f()x1,x2,...... ,xm▪ ▪ p1,p2,...... ,pm)=n!∏ ∏ xi!∏ ∏ pixi=()nx1,x2,...... ,xm)p1x1p2x2⋯ ⋯ pmxm{displaystyle f(x_{1},x_{2},ldotsx_{m}mid p_{1},p_{2},ldotsp_{m}={frac {n!}{prod ¡Prod! ¿Qué? {n}{1},x_{2},ldotsx_{m}p_{1}{x_{1}p_{2}{x_{2}}cdots ¿Qué?

Cada casilla tomada por separado contra todas las otras casillas es un binomio y esta es una extensión de la misma.

La log-verosimilitud de esto es:

l l ()p1,p2,...... ,pm)=log⁡ ⁡ n!− − .. i=1mlog⁡ ⁡ xi!+.. i=1mxilog⁡ ⁡ pi{displaystyle ell (p_{1},p_{2},ldotsp_{m})=log n!-sum - ¿Qué? x_{i}!+sum ##{i=1} {m}x_{i}log P_{i}

Se debe tener en cuenta la restricción y utilizar los multiplicadores de Lagrange:

L()p1,p2,...... ,pm,λ λ )=l l ()p1,p2,...... ,pm)+λ λ ()1− − .. i=1mpi){displaystyle L(p_{1},p_{2},ldotsp_{m},lambda)=ell (p_{1},p_{2},ldotsp_{m})+lambda left(1-sum) ¿Qué?

Al plantear todas las derivadas como 0, se obtiene la estimación más natural

p^ ^ i=xin{displaystyle {hat} {p}_{i}={frac} {x_{i} {n}}} {fn} {fn}}}} {fn}}}}} {cH}}}}}}}}}} {cH}}}}}}}}}} {cH}}}}}}}}}} {c}}}}}}}}}}}}} {}}}}} {}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

Maximizar la probabilidad de registro, con y sin restricciones, puede ser un problema irresoluble en forma cerrada, entonces tenemos que usar procedimientos iterativos.

Procedimientos iterativos

Excepto en casos especiales, las ecuaciones de verosimilitud

∂ ∂ l l ()Silencio Silencio ;Sí.)∂ ∂ Silencio Silencio =0{displaystyle {frac {partial ell (theta;mathbf {y}}{partial theta }=0}

no se puede resolver explícitamente para un estimador Silencio Silencio ^ ^ =Silencio Silencio ^ ^ ()Sí.){displaystyle {widehat {theta }={widehat {theta} {Mathbf {y}}}. En cambio, necesitan ser resueltos iterativamente: a partir de una suposición inicial Silencio Silencio {displaystyle theta } (ensayo) Silencio Silencio ^ ^ 1{displaystyle {widehat {theta }_{1}), uno busca obtener una secuencia convergente {}Silencio Silencio ^ ^ r}{displaystyle left {fnMicrosoft {theta - Sí.. Muchos métodos para este tipo de problema de optimización están disponibles, pero los más utilizados son algoritmos basados en una fórmula de actualización de la forma

Silencio Silencio ^ ^ r+1=Silencio Silencio ^ ^ r+.. rdr()Silencio Silencio ^ ^ ){displaystyle {widehat {theta {fnMicrosoft Sans Serif} }_{r}+eta ¿Por qué?

donde el vector dr()Silencio Silencio ^ ^ ){displaystyle mathbf {d} _{r}left({widehat {theta }right)} indica la dirección de descenso de la r"Paso" y el escalar .. r{displaystyle eta _{r} captura la "longitud del paso", también conocida como la tasa de aprendizaje.

Método de descenso de gradiente

(Nota: aquí se trata de un problema de maximización, por lo que se invierte el signo antes del degradado)

.. r▪ ▪ R+{displaystyle eta _{r}in mathbb {R} {fn} que es lo suficientemente pequeño para la convergencia y dr()Silencio Silencio ^ ^ )=Silencio Silencio l l ()Silencio Silencio ^ ^ r;Sí.){displaystyle mathbf {d} _{r}left({widehat {theta }right)=nabla ell left({widehat {theta] - Sí.

El método de descenso de gradiente requiere calcular el gradiente en la r-ésima iteración, pero no es necesario calcular la inversa de la derivada de segundo orden, es decir, la matriz hessiana. Por lo tanto, es computacionalmente más rápido que el método de Newton-Raphson.

Método de Newton-Raphson

.. r=1{displaystyle eta _{r}=1} y dr()Silencio Silencio ^ ^ )=− − Hr− − 1()Silencio Silencio ^ ^ )sr()Silencio Silencio ^ ^ ){fnMicrosoft {fnMicrosoft} {fnMicrosoft {fnMicrosoft} {f}}m]=-mathbf {} _{-1}left {theta {theta}right)mathbf {} {}m}m} {fnMicrosoft}} {f}}}}}}}} {f}}}}}}f}}}}} {m}m}}}}}}}}}}}}}}}}}} {m}}}}}m}}}}}}m}}}}}}}}}}m}}}}m} {m} {m} {m} {m}} {m}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

Donde sr()Silencio Silencio ^ ^ ){displaystyle mathbf {} {f}} {f}}}} es la puntuación y Hr− − 1()Silencio Silencio ^ ^ ){displaystyle mathbf {fnMicrosoft Sans Serif} es el inverso de la matriz hesiana de la función log-likelihood, ambos evaluaron riteración. Pero como el cálculo de la matriz hesiana es costoso computacionalmente, se han propuesto numerosas alternativas. El popular algoritmo Berndt-Hall-Hall-Hausman aproxima al Hessian con el producto exterior del gradiente esperado, tal que

dr()Silencio Silencio ^ ^ )=− − [1n.. t=1n∂ ∂ l l ()Silencio Silencio ;Sí.)∂ ∂ Silencio Silencio ()∂ ∂ l l ()Silencio Silencio ;Sí.)∂ ∂ Silencio Silencio )T]− − 1sr()Silencio Silencio ^ ^ ){displaystyle mathbf {d} _{r}left({widehat {theta {fn} {f}} {f}f}f}f}}f} {f}}f} {f}}f}}f} {f} {f} {f}} {f}f}f} {f}}f} {f}}f}f}}f}f}}f}} {f}f}}}}f}f} {f}f}}}f} {f}f}}}}}}}}}}f} {f}f} {f}f}f}}f}}f}f}}f}f}}}}}}}}}}}}}}}f}f}f}f}f}f}}}f} {f}f}}f}f}f}f}}}}}}}}}}}}}}}}

Métodos cuasi-newton

Otros métodos cuasi-Newton utilizan actualizaciones secantes más elaboradas para dar una aproximación de la matriz de Hessian.

Davidon - Fletcher - Fórmula de Powell

La fórmula

DFP encuentra una solución simétrica, positiva y más cercana al valor aproximado actual de la derivada de segundo orden:

Hk+1=()I− − γ γ kSí.kskT)Hk()I− − γ γ kskSí.kT)+γ γ kSí.kSí.kT,{displaystyle mathbf {H} _{k+1}=left(I-gamma) - Sí. {T}right)mathbf {H}left(I-gamma) ¿Por qué? - Sí. {T}}

dónde

Sí.k=Silencio Silencio l l ()xk+sk)− − Silencio Silencio l l ()xk),{displaystyle y_{k}=nabla ell (x_{k}+s_{k})-nabla ell (x_{k}),}
γ γ k=1Sí.kTsk,{displaystyle gamma _{k}={frac {1}{y_{k} {}} {}} {}} {}} {}} {}} {}} {}} {}}} {}}}} {}}} {}}}} {}} {}}} {}}}}} {}}} {}}}}}} {}}}}}} {}}}}}}} {}}}}}} {}}} {}}}}}}}}}}}}}}}}}}} {}}} {}}}}}} {} {}}}}}}} {}}}}}} {}}}}}} {}}}}}}}}}}}}} {}}}}}}}}} {}}}}}}} {}}}}}} {}}}}}} {}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}
sk=xk+1− − xk.{displaystyle S_{k}=x_{k+1}-x_{k}

Algoritmo de Broyden-Fletcher-Goldfarb-Shanno

BFGS también da una solución que es simétrica y definida positiva:

Bk+1=Bk+Sí.kSí.kTSí.kTsk− − BkskskTBkTskTBksk,{displaystyle B_{k+1}=B_{k}+{frac {fnMicrosoft Sans Serif} {T} {y_{k} {fnMithsf}} {f}} {f}} {f}} {f}} {f}}} {f}} {f}}} {f}}} {f}}} {f} {f} {f}}}}} {f}}}}} {f}}}}}} {f}}}}}} {f}}}} {\f} {f}}}}} {f}}}}}}}} {f} {f} {f}}}}}}f}}}}}}}}}}} {f}} {f} {f} {f}} {f}}}}}}}}}} {f} {f} {f} {f}}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {T}s_{k}}-{frac} {fnMicrosoft Sans} {T}B_{k} {fnMithsf {T} {fn} {fnMitsf}} {f}} {f}} {f}} {f}} {f}}}} {f}} {fnMitsf}}}}} {f}}} {f}}} {f}}}}} {f}}}} {f}}}}}}} {f}}}}}} {\f}}}}}}}}} {f}}} {f}}}}}}}}}}} {\f} {f} {f} {f} {f}} {f}}}}}}}}} {f} {f} {f}} {f}}}}}}}}}} {f}}}}}}}}}} {f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {T}B_{k}s_{k}}}

dónde

Sí.k=Silencio Silencio l l ()xk+sk)− − Silencio Silencio l l ()xk),{displaystyle y_{k}=nabla ell (x_{k}+s_{k})-nabla ell (x_{k}),}
sk=xk+1− − xk.{displaystyle S_{k}=x_{k+1}-x_{k}
El método

BFGS no está garantizado que converge a menos que la función tenga una expansión cuadrática de Taylor cerca de un óptimo. Sin embargo, los BFG pueden tener un rendimiento aceptable incluso para instancias de optimización no suaves

Fisher ' s anotando

Otro método popular es reemplazar al Hessian con la matriz de información Fisher, I()Silencio Silencio )=E⁡ ⁡ [Hr()Silencio Silencio ^ ^ )]{displaystyle {mathcal {}}(theta)=operatorname {mathbb {E} left[mathbf Está bien., dándonos el algoritmo de puntuación de Fisher. Este procedimiento es estándar en la estimación de muchos métodos, como modelos lineales generalizados.

Aunque son populares, los métodos cuasi-Newton pueden converger en un punto estacionario que no es necesariamente un máximo local o global, sino un mínimo local o un punto de silla. Por lo tanto, es importante evaluar la validez de la solución obtenida de las ecuaciones de verosimilitud, verificando que la hessiana, evaluada en la solución, sea definida negativa y bien condicionada.

Historia

Ronald Fisher en 1913

Los primeros usuarios de máxima verosimilitud fueron Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele y Francis Ysidro Edgeworth. Sin embargo, su uso generalizado aumentó entre 1912 y 1922 cuando Ronald Fisher recomendó, popularizó ampliamente y analizó cuidadosamente la estimación de máxima verosimilitud (con intentos infructuosos de demostración).

La estimación de máxima verosimilitud finalmente trascendió la justificación heurística en una prueba publicada por Samuel S. Wilks en 1938, ahora llamada Wilks' teorema. El teorema muestra que el error en el logaritmo de los valores de probabilidad para las estimaciones de múltiples observaciones independientes tiene una distribución asintótica de χ 2, lo que permite la determinación conveniente de una región de confianza alrededor de cualquier estimación de los parámetros. La única parte difícil de la prueba de Wilks depende del valor esperado de la matriz de información de Fisher, que es proporcionada por un teorema probado por Fisher. Wilks continuó mejorando la generalidad del teorema a lo largo de su vida, y su demostración más general se publicó en 1962.

Varios autores han proporcionado revisiones del desarrollo de la estimación de máxima verosimilitud.

Contenido relacionado

Distribución gamma

En teoría de probabilidad y estadística, la distribución gamma es una familia de dos parámetros de distribuciones de probabilidad continuas. La...

Distribución hipergeométrica

En teoría de probabilidad y estadísticas, distribución hipergeométrica es una distribución discreta de probabilidad que describe la probabilidad de...

Demografía de Tailandia

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save