Máxima verosimilitud

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En estadística, la estimación de máxima verosimilitud es un método para estimar los parámetros de una distribución de probabilidad supuesta, dados algunos datos observados. Esto se logra maximizando una función de verosimilitud para que, bajo el modelo estadístico asumido, los datos observados sean los más probables. El punto en el espacio de parámetros que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. La lógica de máxima verosimilitud es tanto intuitiva como flexible y, como tal, el método se ha convertido en un medio dominante de inferencia estadística.

Si la función de verosimilitud es derivable, se puede aplicar la prueba de la derivada para determinar los máximos. En algunos casos, las condiciones de primer orden de la función de verosimilitud pueden resolverse explícitamente; por ejemplo, el estimador de mínimos cuadrados ordinarios maximiza la probabilidad del modelo de regresión lineal. En la mayoría de las circunstancias, sin embargo, serán necesarios métodos numéricos para encontrar el máximo de la función de verosimilitud.

Desde el punto de vista de la inferencia bayesiana, MLE es generalmente equivalente a la estimación máxima a posteriori (MAP) bajo una distribución previa uniforme en los parámetros. En la inferencia frecuentista, MLE es un caso especial de un estimador extremo, siendo la función objetivo la verosimilitud.

Principios

Modelamos un conjunto de observaciones como una muestra aleatoria de una distribución de probabilidad conjunta desconocida que se expresa en términos de un conjunto de parámetros. El objetivo de la estimación de máxima verosimilitud es determinar los parámetros para los cuales los datos observados tienen la mayor probabilidad conjunta. Escribimos los parámetros que gobiernan la distribución conjunta como un vector {displaystyle ;theta =left[theta_{1},,theta_{2},,ldots,,theta_{k}right]^{mathsf {T} };}para que esta distribución caiga dentro de una familia paramétrica {displaystyle ;{f(cdot ,;theta)mid theta in Theta };,}donde { estilo de visualización ,  Theta ,}se llama espacio de parámetros, un subconjunto de dimensión finita del espacio euclidiano. La evaluación de la densidad conjunta en la muestra de datos observados {displaystyle ;mathbf {y} =(y_{1},y_{2},ldots,y_{n});}da una función de valor real,{displaystyle {mathcal {L}}_{n}(theta)={mathcal {L}}_{n}(theta;mathbf {y})=f_{n}(mathbf {y };theta);,}

que se llama función de verosimilitud. Para variables aleatorias independientes e idénticamente distribuidas, {displaystyle f_{n}(mathbf {y};theta)}será el producto de funciones de densidad univariadas:{displaystyle f_{n}(mathbf {y};theta)=prod _{k=1}^{n},f_{k}^{mathsf {univar}}(y_{k}; theta)~.}

El objetivo de la estimación de máxima verosimilitud es encontrar los valores de los parámetros del modelo que maximizan la función de verosimilitud sobre el espacio de parámetros, es decir{displaystyle {hat {theta }}={underset {theta in Theta }{operatorname {arg;max} }},{widehat {mathcal {L}}}_{n }(theta,;mathbf{y})~.}

Intuitivamente, esto selecciona los valores de los parámetros que hacen que los datos observados sean más probables. El valor específico {displaystyle ~{sombrero {theta }}={sombrero {theta }}_{n}(mathbf {y})en Theta ~}que maximiza la función de verosimilitud {displaystyle ,{mathcal {L}}_{n},}se denomina estimación de máxima verosimilitud. Además, si la función {displaystyle ;{hat {theta }}_{n}:mathbb {R} ^{n}to Theta ;}así definida es medible, se denomina estimador de máxima verosimilitud. Generalmente es una función definida sobre el espacio muestral, es decir, tomando una muestra dada como su argumento. Una condición suficiente pero no necesaria para su existencia es que la función de verosimilitud sea continua en un espacio de parámetros { estilo de visualización ,  Theta ,}que sea compacto. Para una apertura { estilo de visualización ,  Theta ,}, la función de probabilidad puede aumentar sin llegar nunca a un valor supremo.

En la práctica, a menudo es conveniente trabajar con el logaritmo natural de la función de verosimilitud, llamada log-verosimilitud:{displaystyle ell (theta ,;mathbf {y})=ln {mathcal {L}}_{n}(theta ,;mathbf {y})~.}

Dado que el logaritmo es una función monótona, el máximo de {displaystyle ;ell (theta ,;mathbf {y});}ocurre al mismo valor de  thetaque el máximo de {displaystyle ,{mathcal {L}}_{n}~.}Si {displaystyle ell (theta,;mathbf {y})}es diferenciable en { estilo de visualización ,  Theta ,,}las condiciones necesarias para que ocurra un máximo (o un mínimo) son{displaystyle {frac {parcial ell }{parcial theta _{1}}}=0,quad {frac {parcial ell }{parcial theta _{2}}}=0,quad ldots,quad {frac {parcial ell }{parcial theta _{k}}}=0~,}

conocidas como ecuaciones de verosimilitud. Para algunos modelos, estas ecuaciones se pueden resolver explícitamente, {displaystyle ,{widehat {theta ,}},,}pero en general no se conoce ni está disponible una solución de forma cerrada para el problema de maximización, y un MLE solo se puede encontrar a través de la optimización numérica. Otro problema es que en muestras finitas pueden existir raíces múltiples para las ecuaciones de probabilidad. Si la raíz identificada {displaystyle ,{widehat {theta,}},}de las ecuaciones de verosimilitud es de hecho un máximo (local) depende de si la matriz de derivadas parciales cruzadas y parciales de segundo orden, la llamada matriz hessiana{displaystyle mathbf {H} left({widehat {theta ,}}right)={begin{bmatrix}left.{frac {parcial ^{2}ell }{parcial theta _{1}^{2}}}right|_{theta ={widehat {theta ,}}}&left.{frac {parcial ^{2}ell }{ theta _{1} parcial,\theta _{2}}}parcial|_{theta ={widehat {theta ,}}}&dots &left.{frac { parcial ^{2}ell }{parcial theta _{1},parcial theta _{k}}}right|_{theta ={widehat {theta ,}}}\ left.{frac {parcial ^{2}ell }{parcial theta _{2},parcial theta _{1}}}right|_{theta ={widehat { theta ,}}}&left.{frac {parcial ^{2}ell }{parcial theta _{2}^{2}}}right|_{theta ={widehat { theta ,}}}&dots &left.{frac {parcial ^{2}ell }{parcial theta _{2},parcial theta _{k}}}right |_{theta ={widehat {theta ,}}}\vdots &vdots &ddots &vdots \left.{frac {parcial ^{2}ell }{parcial theta _{k},parcial theta _{1}}}right|_{theta ={widehat {theta , }}}&left.{frac {parcial ^{2}ell }{parcial theta _{k},parcial theta _{2}}}right|_{theta ={ widehat {theta ,}}}&dots &left.{frac {parcial ^{2}ell }{parcial theta _{k}^{2}}}right|_{ theta ={widehat {theta ,}}}end{bmatrix}}~,}

es semidefinido negativo en {displaystyle {widehat {theta,}}}, ya que esto indica concavidad local. Convenientemente, las distribuciones de probabilidad más comunes, en particular la familia exponencial, son logarítmicamente cóncavas.

Espacio de parámetros restringido

Si bien el dominio de la función de probabilidad, el espacio de parámetros, es generalmente un subconjunto de dimensión finita del espacio euclidiano, a veces es necesario incorporar restricciones adicionales en el proceso de estimación. El espacio de parámetros se puede expresar como{displaystyle Theta =left{theta:theta in mathbb {R} ^{k},;h(theta)=0right}~,}

donde {displaystyle ;h(theta)=left[h_{1}(theta),h_{2}(theta),ldots,h_{r}(theta)right];}es una función de valor vectorial que se asigna {displaystyle,mathbb {R} ^{k},}a { estilo de visualización ;  mathbb {R} ^ {r} ~.}Estimar el parámetro verdadero que  thetapertenece a Thetaentonces, como cuestión práctica, significa encontrar el máximo de la función de verosimilitud sujeta a la restricción{ estilo de visualización ~ h ( theta) = 0 ~.}

Teóricamente, el enfoque más natural para este problema de optimización con restricciones es el método de sustitución, es decir, "completar" las restricciones {displaystyle ;h_{1},h_{2},ldots,h_{r};}de un conjunto {displaystyle ;h_{1},h_{2},ldots,h_{r},h_{r+1},ldots,h_{k};}de tal manera que {displaystyle ;h^{ast }=left[h_{1},h_{2},ldots,h_{k}right];}sea una función uno a uno de { estilo de visualización  mathbb {R} ^ {k}}sí mismo, y reparametrizar la función de verosimilitud. estableciendo {displaystyle ;phi_{i}=h_{i}(theta_{1},theta_{2},ldots,theta_{k})~.}Debido a la equivarianza del estimador de máxima verosimilitud, las propiedades del MLE también se aplican a las estimaciones restringidas. Por ejemplo, en una distribución normal multivariante, la matriz de covarianza { estilo de visualización ,  Sigma ,}debe ser definida positiva; esta restricción se puede imponer reemplazando {displaystyle ;Sigma =Gamma ^{mathsf {T}}Gamma ;,}donde Gamaes una matriz triangular superior real y {displaystyle Gamma ^{mathsf {T}}}es su transpuesta.

En la práctica, las restricciones suelen imponerse utilizando el método de Lagrange que, dadas las restricciones definidas anteriormente, conduce a las ecuaciones de verosimilitud restringida{displaystyle {frac {parcial ell }{parcial theta }}-{frac {parcial h(theta)^{mathsf {T}}}{parcial theta }}lambda = 0}y{displaystyle h(theta)=0;,}

donde {displaystyle ~lambda =left[lambda_{1},lambda_{2},ldots,lambda_{r}right]^{mathsf {T}}~}es un vector columna de multiplicadores de Lagrange y {displaystyle ;{frac {parcial h(theta)^{mathsf {T}}}{parcial theta }};}es la matriz jacobiana k × r de derivadas parciales. Naturalmente, si las restricciones no son vinculantes al máximo, los multiplicadores de Lagrange deberían ser cero. Esto, a su vez, permite una prueba estadística de la "validez" de la restricción, conocida como prueba del multiplicador de Lagrange.

Propiedades

Un estimador de máxima verosimilitud es un estimador extremo obtenido al maximizar, en función de θ, la función objetivo {displaystyle {widehat {ell,}}(theta,;x)}. Si los datos son independientes e idénticamente distribuidos, entonces tenemos{displaystyle {widehat {ell ,}}(theta ,;x)={frac {1}{n}}sum _{i=1}^{n}ln f(x_{ i}midtheta),}

siendo esta la muestra análoga del log-verosimilitud esperado {displaystyle ell (theta)=operatorname {mathbb {E} } [,ln f(x_{i}mid theta),]}, donde esta expectativa se toma con respecto a la densidad real.

Los estimadores de máxima verosimilitud no tienen propiedades óptimas para muestras finitas, en el sentido de que (cuando se evalúan en muestras finitas) otros estimadores pueden tener una mayor concentración en torno al verdadero valor del parámetro. Sin embargo, al igual que otros métodos de estimación, la estimación de máxima verosimilitud posee una serie de atractivas propiedades limitantes: a medida que el tamaño de la muestra aumenta hasta el infinito, las secuencias de estimadores de máxima verosimilitud tienen estas propiedades:

  • Consistencia: la secuencia de MLE converge en probabilidad al valor que se estima.
  • Equivarianza funcional: si {displaystyle {sombrero {theta}}}es el estimador de máxima verosimilitud para { estilo de visualización  theta}, y si { estilo de visualización g ( theta)}es cualquier transformación de { estilo de visualización  theta}, entonces el estimador de máxima verosimilitud para { estilo de visualización  alfa = g ( theta)}es {displaystyle {sombrero {alfa}}=g({sombrero {theta}})}.
  • Eficiencia, es decir, alcanza el límite inferior de Cramér-Rao cuando el tamaño de la muestra tiende a infinito. Esto significa que ningún estimador consistente tiene un error cuadrático medio asintótico más bajo que el MLE (u otros estimadores que alcanzan este límite), lo que también significa que MLE tiene normalidad asintótica.
  • Eficiencia de segundo orden después de la corrección por sesgo.

Consistencia

Bajo las condiciones descritas a continuación, el estimador de máxima verosimilitud es consistente. La consistencia significa que si los datos fueron generados por {displaystyle f(cdot,;theta _{0})}y tenemos un número suficientemente grande de observaciones n, entonces es posible encontrar el valor de θ 0 con precisión arbitraria. En términos matemáticos esto significa que cuando n tiende a infinito el estimador {displaystyle {widehat {theta,}}}converge en probabilidad a su verdadero valor:{displaystyle {widehat {theta ,}}_{mathrm {mle} } {xrightarrow {text{p}}} theta _{0}.}

En condiciones ligeramente más fuertes, el estimador converge casi con seguridad (o fuertemente):{displaystyle {widehat {theta ,}}_{mathrm {mle} } {xrightarrow {text{as}}} theta _{0}.}

En aplicaciones prácticas, los datos nunca son generados por {displaystyle f(cdot,;theta _{0})}. Más bien, {displaystyle f(cdot,;theta _{0})}es un modelo, a menudo en forma idealizada, del proceso generado por los datos. Es un aforismo común en estadística que todos los modelos están equivocados. Por lo tanto, la verdadera consistencia no ocurre en las aplicaciones prácticas. Sin embargo, a menudo se considera que la consistencia es una propiedad deseable que debe tener un estimador.

Para establecer la consistencia, las siguientes condiciones son suficientes.

  1. Identificación del modelo:theta neq theta _{0}quad Leftrightarrow quad f(cdot mid theta)neq f(cdot mid theta _{0}).En otras palabras, diferentes valores de parámetros θ corresponden a diferentes distribuciones dentro del modelo. Si esta condición no se cumpliera, habría algún valor de θ 1 tal que θ 0 y θ 1 generaran una distribución idéntica de los datos observables. Entonces no seríamos capaces de distinguir entre estos dos parámetros incluso con una cantidad infinita de datos; estos parámetros habrían sido observacionalmente equivalentes.La condición de identificación es absolutamente necesaria para que el estimador ML sea consistente. Cuando se cumple esta condición, la función de verosimilitud límite (θ |·) tiene un máximo global único en θ 0.
  2. Compacidad: el espacio de parámetros Θ del modelo es compacto.Ee no compacidad.svgLa condición de identificación establece que el log-verosimilitud tiene un máximo global único. La compacidad implica que la probabilidad no puede acercarse al valor máximo arbitrariamente cercano en algún otro punto (como se demuestra, por ejemplo, en la imagen de la derecha).La compacidad es sólo una condición suficiente y no una condición necesaria. La compacidad puede ser reemplazada por algunas otras condiciones, tales como:
    • tanto la concavidad de la función de verosimilitud logarítmica como la compacidad de algunos conjuntos de nivel superior (no vacíos) de la función de verosimilitud logarítmica, o
    • existencia de una vecindad compacta N de θ 0 tal que fuera de N la función logarítmica de verosimilitud es menor que el máximo por al menos algo de ε > 0.
  3. Continuidad: la función ln f (x | θ) es continua en θ para casi todos los valores de x:{displaystyle operatorname {mathbb {P} } {Bigl [};ln f(xmid theta);in ​​;C^{0}(Theta);{Bigr ] }=1.}La continuidad aquí se puede reemplazar con una condición ligeramente más débil de semicontinuidad superior.
  4. Dominancia: existe D (x) integrable con respecto a la distribución f (x | θ 0) tal que<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/617047dbdd5df4af69943f4d6e8b4c0c8801aa8f" alt="{displaystyle {Bigl |}ln f(xmid theta){Bigr |}Por la ley uniforme de los grandes números, la condición de dominancia junto con la continuidad establecen la convergencia uniforme en probabilidad del logaritmo de verosimilitud:{displaystyle sup _{theta in Theta }left|{widehat {ell ,}}(theta mid x)-ell (theta),right| {xrightarrow {texto{p}}} 0.}

La condición de dominancia se puede emplear en el caso de observaciones iid. En el caso no iid, la convergencia uniforme en probabilidad se puede verificar mostrando que la secuencia {displaystyle {widehat {ell ,}}(theta mid x)}es estocásticamente equicontinua. Si se quiere demostrar que el estimador ML {displaystyle {widehat {theta,}}}converge a θ 0 casi con seguridad, entonces se debe imponer una condición más fuerte de convergencia uniforme casi con seguridad:{displaystyle sup _{theta in Theta }left|;{widehat {ell ,}}(theta mid x)-ell (theta);right|  xrightarrow {text{como}}  0.}

Además, si (como se supuso anteriormente) los datos fueron generados por {displaystyle f(cdot,;theta _{0})}, entonces, bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Específicamente,{displaystyle {sqrt {n}}left({widehat {theta ,}}_{mathrm {mle} }-theta_{0}right) xrightarrow {d}  { matemática {N}}left(0,,I^{-1}right)}

donde I es la matriz de información de Fisher.

Equivarianza funcional

El estimador de máxima verosimilitud selecciona el valor del parámetro que da a los datos observados la mayor probabilidad posible (o densidad de probabilidad, en el caso continuo). Si el parámetro consiste en un número de componentes, entonces definimos sus estimadores de máxima verosimilitud separados, como el componente correspondiente del MLE del parámetro completo. De acuerdo con esto, si {displaystyle {widehat {theta,}}}es el MLE para  theta, y si g(theta)es cualquier transformación de  theta, entonces el MLE para { estilo de visualización  alfa = g ( theta)}es por definición{displaystyle {widehat {alpha }}=g(,{widehat {theta ,}},).,}

Maximiza la llamada probabilidad de perfil:{bar {L}}(alpha)=sup _{theta:alpha =g(theta)}L(theta).,

El MLE también es equivariante con respecto a ciertas transformaciones de los datos. Si y=g(x)donde gramoes uno a uno y no depende de los parámetros a estimar, entonces las funciones de densidad satisfacenf_{Y}(y)={frac {f_{X}(x)}{|g'(x)|}}

Xy, por lo tanto, las funciones de probabilidad Ydifieren solo por un factor que no depende de los parámetros del modelo.

Por ejemplo, los parámetros MLE de la distribución log-normal son los mismos que los de la distribución normal ajustados al logaritmo de los datos.

Eficiencia

Como se supuso anteriormente, si los datos se generaron para {displaystyle ~f(cdot,;theta _{0})~,}entonces bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Es √ n -consistente y asintóticamente eficiente, lo que significa que alcanza el límite de Cramér-Rao. Específicamente,{displaystyle {sqrt {n,}},left({widehat {theta ,}}_{text{mle}}-theta_{0}right)  xrightarrow { d}   {mathcal {N}}left(0, {mathcal {I}}^{-1}right)~,}

donde {displaystyle ~{mathcal {I}}~}está la matriz de información de Fisher:{displaystyle {mathcal {I}}_{jk}=operatorname {mathbb {E} } ,{biggl [};-{frac {parcial ^{2}ln f_{theta _ {0}}(X_{t})}{parcial theta _{j},parcial theta _{k}}};{biggr ]}~.}

En particular, significa que el sesgo del estimador de máxima verosimilitud es igual a cero hasta el orden1/√ norte.

Eficiencia de segundo orden después de la corrección por sesgo

Sin embargo, cuando consideramos los términos de orden superior en la expansión de la distribución de este estimador, resulta que θ mle tiene un sesgo de orden 1n. Este sesgo es igual a (por componentes){displaystyle b_{h};equiv ;operatorname {mathbb {E} } {biggl [};left({widehat {theta }}_{mathrm {mle} }- theta _{0}right)_{h};{biggr ]};=;{frac {1}{,n,}},sum _{i,j,k= 1}^{m};{mathcal {I}}^{hi};{mathcal {I}}^{jk}left({frac {1}{,2,}},K_{ijk};+;J_{j,ik}right)}

donde {displaystyle {mathcal {I}}^{jk}}(con superíndices) denota el (j,k)-ésimo componente de la matriz de información inversa de Fisher {displaystyle {mathcal {I}}^{-1}}, y{displaystyle {frac {1}{,2,}},K_{ijk};+;J_{j,ik};=;operatorname {mathbb {E} } , {biggl [};{frac {1}{2}}{frac {parcial ^{3}ln f_{theta _{0}}(X_{t})}{parcial theta _{i};parcial theta _{j};parcial theta _{k}}}+{frac {;parcial ln f_{theta_{0}}(X_{t });}{parcial theta _{j}}},{frac {;parcial ^{2}ln f_{theta _{0}}(X_{t});} {\theta _{i} parcial,\theta _{k}}};{biggr ]}~.}

Usando estas fórmulas es posible estimar el sesgo de segundo orden del estimador de máxima verosimilitud y corregir ese sesgo restándolo:{displaystyle {widehat {theta ,}}_{text{mle}}^{*}={widehat {theta ,}}_{text{mle}}-{widehat {b ,}}~.}

Este estimador es imparcial hasta los términos del pedido.1/ norte , y se denomina estimador de máxima verosimilitud corregido por sesgo.

Este estimador corregido por sesgo es eficiente de segundo orden (al menos dentro de la familia exponencial curva), lo que significa que tiene un error cuadrático medio mínimo entre todos los estimadores corregidos por sesgo de segundo orden, hasta los términos del orden1/ norte . Es posible continuar con este proceso, es decir, derivar el término de corrección de sesgo de tercer orden, y así sucesivamente. Sin embargo, el estimador de máxima verosimilitud no es eficiente de tercer orden.

Relación con la inferencia bayesiana

Un estimador de máxima verosimilitud coincide con el estimador bayesiano más probable dada una distribución previa uniforme en los parámetros. De hecho, la máxima estimación a posteriori es el parámetro θ que maximiza la probabilidad de θ dados los datos, dados por el teorema de Bayes:{displaystyle operatorname {mathbb {P} } (theta mid x_{1},x_{2},ldots,x_{n})={frac {f(x_{1},x_{2 },ldots,x_{n}mid theta)operatorname {mathbb {P} } (theta)}{operatorname {mathbb {P} } (x_{1},x_{2}, ldots,x_{n})}}}

donde { estilo de visualización  nombre del operador { mathbb {P}} ( theta)}es la distribución previa para el parámetro θ y donde {displaystyle nombre del operador {mathbb {P} } (x_{1},x_{2},ldots,x_{n})}es la probabilidad de los datos promediados sobre todos los parámetros. Dado que el denominador es independiente de θ, el estimador bayesiano se obtiene maximizando {displaystyle f(x_{1},x_{2},ldots,x_{n}mid theta)operatorname {mathbb {P} } (theta)}con respecto a θ. Si asumimos además que la anterior { estilo de visualización  nombre del operador { mathbb {P}} ( theta)}es una distribución uniforme, el estimador bayesiano se obtiene maximizando la función de verosimilitud f(x_{1},x_{2},ldots,x_{n}mid theta). Así, el estimador bayesiano coincide con el estimador de máxima verosimilitud para una distribución previa uniforme { estilo de visualización  nombre del operador { mathbb {P}} ( theta)}.

Aplicación de la estimación de máxima verosimilitud en la teoría de decisión de Bayes

En muchas aplicaciones prácticas en aprendizaje automático, la estimación de máxima verosimilitud se utiliza como modelo para la estimación de parámetros.

La teoría de la decisión bayesiana se trata de diseñar un clasificador que minimice el riesgo esperado total, especialmente, cuando los costos (la función de pérdida) asociados con diferentes decisiones son iguales, el clasificador minimiza el error en toda la distribución.

Por lo tanto, la regla de decisión de Bayes se establece como"decidir { estilo de visualización ; w_ {1} ;}si ;operatorname {mathbb {P} } (w_{2}|x)~;~}">de otra manera decidir { estilo de visualización ; w_ {2} ;}"

donde { estilo de visualización ; w_ {1} ,, w_ {2} ;}son predicciones de diferentes clases. Desde una perspectiva de minimizar el error, también se puede establecer como{displaystyle w={underset {w}{operatorname {arg;max} }};int _{-infty }^{infty }operatorname {mathbb {P} } ({text { error}}mid x)nombre del operador {mathbb {P} } (x),nombre del operador {d} x~}

donde{displaystyle operatorname {mathbb {P} } ({text{error}}mid x)=operatorname {mathbb {P} } (w_{1}mid x)~}

si decidimos { estilo de visualización ; w_ {2} ;}y {displaystyle ;operatorname {mathbb {P} } ({text{error}}mid x)=operatorname {mathbb {P} } (w_{2}mid x);}si decidimos{ estilo de visualización ; w_ {1} ;.}

Aplicando el teorema de Bayes{displaystyle operatorname {mathbb {P} } (w_{i}mid x)={frac {operatorname {mathbb {P} } (xmid w_{i})operatorname {mathbb { P} } (w_{i})}{nombre del operador {mathbb {P} } (x)}}},

y si además asumimos la función de pérdida cero o uno, que es la misma pérdida para todos los errores, la regla de decisión de Bayes se puede reformular como:{displaystyle h_{text{Bayes}}={underset {w}{operatorname {arg;max} }},{bigl [},operatorname {mathbb {P} } (x mid w),operatorname {mathbb {P} } (w),{bigr ]};,}

donde {displaystyle h_{text{Bayes}}}es la predicción y {displaystyle ;operatorname {mathbb {P} } (w);}es la probabilidad previa.

Relación con la minimización de la divergencia Kullback-Leibler y la entropía cruzada

Hallar { sombrero { theta}}que maximiza la probabilidad es asintóticamente equivalente a encontrar el { sombrero { theta}}que define una distribución de probabilidad ({displaystyle Q_{sombrero {theta}}}) que tiene una distancia mínima, en términos de divergencia de Kullback-Leibler, a la distribución de probabilidad real a partir de la cual se generaron nuestros datos (es decir, generada por {displaystyle P_{theta _{0}}}). En un mundo ideal, P y Q son lo mismo (y lo único que se desconoce es lo  thetaque define a P), pero incluso si no lo son y el modelo que usamos está mal especificado, el MLE nos dará la distribución "más cercana" (dentro de la restricción de un modelo Q que depende de { sombrero { theta}}) a la distribución real {displaystyle P_{theta _{0}}}.

showPrueba.

Dado que la entropía cruzada es solo la entropía de Shannon más la divergencia KL, y dado que la entropía de {displaystyle P_{theta _{0}}}es constante, entonces el MLE también minimiza asintóticamente la entropía cruzada.

Ejemplos

Distribución uniforme discreta

Considere un caso en el que se colocan n boletos numerados del 1 al n en una caja y se selecciona uno al azar (ver distribución uniforme); por lo tanto, el tamaño de la muestra es 1. Si se desconoce n, entonces el estimador de máxima verosimilitud ancho de sombrero {n}de n es el número m en el boleto extraído. (La probabilidad es 0 para n < m, 1n para nm, y esto es mayor cuando n = m. Tenga en cuenta que la estimación de máxima verosimilitud de n se produce en el extremo inferior de los valores posibles {m, m + 1,...}, en lugar de en algún lugar en el "medio" del rango de valores posibles, lo que resultaría en menos sesgo). El valor esperado del número m en el boleto extraído y, por lo tanto, el valor esperado el valor de ancho de sombrero {n}, es (n + 1)/2. Como resultado, con un tamaño de muestra de 1, el estimador de máxima verosimilitud para n subestimará sistemáticamente n por (n − 1)/2.

Distribución discreta, espacio de parámetros finitos

Supongamos que uno desea determinar qué tan sesgada es una moneda injusta. Llama a la probabilidad de sacar una 'cara' p. El objetivo entonces se convierte en determinar p.

Supongamos que la moneda se lanza 80 veces: es decir, la muestra podría ser algo así como x 1 = H, x 2 = T,..., x 80 = T, y se observa la cuenta del número de caras "H".

La probabilidad de sacar cruz es 1 − p (así que aquí p es θ arriba). Suponga que el resultado es 49 caras y 31 cruces, y suponga que la moneda se sacó de una caja que contiene tres monedas: una que da cara con probabilidad p = 13, otra que da cara con probabilidad p = 12 y otra que da cara con probabilidad p = 23. Las monedas han perdido sus etiquetas, por lo que se desconoce cuál era. Usando la estimación de máxima verosimilitud, se puede encontrar la moneda que tiene la mayor probabilidad, dados los datos que se observaron. Al usar la función de masa de probabilidad de la distribución binomial con un tamaño de muestra igual a 80, número de éxitos igual a 49 pero para diferentes valores de p (la "probabilidad de éxito"), la función de probabilidad (definida a continuación) toma uno de tres valores:{displaystyle {begin{alineado}operatorname {mathbb {P} } {bigl [};mathrm {H} =49mid p={tfrac {1}{3}};{ grande]}&={binom {80}{49}}({tfrac {1}{3}})^{49}(1-{tfrac {1}{3}})^{31} aproximadamente 0,000,\[6pt]operatorname {mathbb {P} } {bigl [};mathrm {H} =49mid p={tfrac {1}{2}};{bigr ]}&={binom {80}{49}}({tfrac {1}{2}})^{49}(1-{tfrac {1}{2}})^{31}aprox. 0.012,\[6pt]operatorname {mathbb {P} } {bigl [};mathrm {H} =49mid p={tfrac {2}{3}};{bigr ] }&={binom {80}{49}}({tfrac {2}{3}})^{49}(1-{tfrac {2}{3}})^{31}aprox. 0,054 ~.end{alineado}}}

La verosimilitud se maximiza cuando p = 23, por lo que esta es la estimación de máxima verosimilitud para p.

Distribución discreta, espacio de parámetros continuo

Ahora suponga que solo había una moneda pero su p podría haber sido cualquier valor 0 ≤ p ≤ 1. La función de verosimilitud a maximizar es{displaystyle L(p)=f_{D}(mathrm {H} =49mid p)={binom {80}{49}}p^{49}(1-p)^{31}~,}

y la maximización es sobre todos los valores posibles 0 ≤ p ≤ 1.

Una forma de maximizar esta función es diferenciando con respecto a p y poniendo a cero:{displaystyle {begin{alineado}0&={frac {parcial }{parcial p}}left({binom {80}{49}}p^{49}(1-p)^{31 }right)~,\[8pt]0&=49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\[8pt]&=p ^{48}(1-p)^{30}left[49(1-p)-31pright]\[8pt]&=p^{48}(1-p)^{30}left [49-80pright]~.end{alineado}}}

Este es un producto de tres términos. El primer término es 0 cuando p = 0. El segundo es 0 cuando p = 1. El tercero es cero cuando p = 4980. La solución que maximiza la probabilidad es claramente p = 4980 (ya que p = 0 y p = 1 dan como resultado una probabilidad de 0). Así, el estimador de máxima verosimilitud para p es 4980.

Este resultado se generaliza fácilmente sustituyendo una letra como s en lugar de 49 para representar el número observado de "éxitos" de nuestros ensayos de Bernoulli, y una letra como n en lugar de 80 para representar el número de ensayos de Bernoulli. Exactamente el mismo cálculo produce sn, que es el estimador de máxima verosimilitud para cualquier secuencia de n ensayos de Bernoulli que den como resultado s 'éxitos'.

Distribución continua, espacio de parámetros continuo

Para la distribución normal { matemáticas {N}} ( mu,  sigma ^ {2})que tiene una función de densidad de probabilidad{displaystyle f(xmid mu,sigma ^{2})={frac {1}{{sqrt {2pi sigma ^{2}}} }}exp left(- {frac {(x-mu)^{2}}{2sigma ^{2}}}right),}

la función de densidad de probabilidad correspondiente para una muestra de n variables aleatorias normales independientes idénticamente distribuidas (la probabilidad) es{displaystyle f(x_{1},ldots,x_{n}mid mu,sigma ^{2})=prod_{i=1}^{n}f(x_{i}mid mu,sigma ^{2})=left({frac {1}{2pi sigma ^{2}}}right)^{n/2}exp left(-{frac {sum _{i=1}^{n}(x_{i}-mu)^{2}}{2sigma ^{2}}}right).}

Esta familia de distribuciones tiene dos parámetros: θ = (μ, σ); entonces maximizamos la probabilidad, {mathcal {L}}(mu,sigma)=f(x_{1},ldots,x_{n}mid mu,sigma), sobre ambos parámetros simultáneamente, o si es posible, individualmente.

Dado que la función logarítmica en sí misma es una función continua estrictamente creciente en el rango de la probabilidad, los valores que maximizan la probabilidad también maximizarán su logaritmo (la logaritmo de la probabilidad en sí no es necesariamente estrictamente creciente). El log-verosimilitud se puede escribir de la siguiente manera:{displaystyle log {Bigl (}{mathcal {L}}(mu,sigma){Bigr)}=-{frac {,n,}{2}}log(2 pi sigma ^{2})-{frac {1}{2sigma ^{2}}}sum _{i=1}^{n}(,x_{i}-mu ,) ^{2}}

(Nota: el log-verosimilitud está estrechamente relacionado con la entropía de la información y la información de Fisher).

Ahora calculamos las derivadas de este log-verosimilitud de la siguiente manera.{displaystyle {begin{alineado}0&={frac {parcial }{parcial mu }}log {Bigl (}{mathcal {L}}(mu,sigma){Bigr) }=0-{frac {;-2!n({bar {x}}-mu);}{2sigma ^{2}}}.end{alineado}}}

donde { barra {x}}es la media muestral. Esto se soluciona por{displaystyle {widehat {mu }}={bar {x}}=sum _{i=1}^{n}{frac {,x_{i},}{n}}. }

De hecho, este es el máximo de la función, ya que es el único punto de inflexión en μ y la segunda derivada es estrictamente menor que cero. Su valor esperado es igual al parámetro μ de la distribución dada,{displaystyle operatorname {mathbb {E} } {bigl [};{widehat {mu }};{bigr]}=mu,,}

lo que significa que el estimador de máxima verosimilitud { sombrero ancho { mu}}es insesgado.

De manera similar, diferenciamos el log-verosimilitud con respecto a σ y lo igualamos a cero:{displaystyle {begin{alineado}0&={frac {parcial }{parcial sigma }}log {Bigl (}{mathcal {L}}(mu,sigma){Bigr) }=-{frac {,n,}{sigma }}+{frac {1}{sigma ^{3}}}sum _{i=1}^{n}(,x_ {i}-mu,)^{2}.end{alineado}}}

que se resuelve por{displaystyle {widehat {sigma}}^{2}={frac {1}{n}}sum _{i=1}^{n}(x_{i}-mu)^{2 }.}

Insertando la estimación mu ={sombrero ancho {mu }}que obtenemos{displaystyle {widehat {sigma}}^{2}={frac {1}{n}}sum _{i=1}^{n}(x_{i}-{bar {x} })^{2}={frac {1}{n}}sum _{i=1}^{n}x_{i}^{2}-{frac {1}{n^{2} }}sum_{i=1}^{n}sum_{j=1}^{n}x_{i}x_{j}.}

Para calcular su valor esperado, es conveniente reescribir la expresión en términos de variables aleatorias de media cero (error estadístico) delta _{i}equiv mu -x_{i}. Expresando la estimación en estas variables se obtiene{displaystyle {widehat {sigma}}^{2}={frac {1}{n}}sum _{i=1}^{n}(mu -delta _{i})^ {2}-{frac {1}{n^{2}}}sum_{i=1}^{n}sum_{j=1}^{n}(mu -delta_{ i})(mu -delta _{j}).}

Simplificando la expresión anterior, utilizando los hechos que {displaystyle operatorname {mathbb {E} } {bigl [};delta _{i};{bigr]}=0}y {displaystyle operatorname {E} {bigl [};delta _{i}^{2};{bigr]}=sigma ^{2}}, nos permite obtener{displaystyle operatorname {mathbb {E} } {bigl [};{widehat {sigma}}^{2};{bigr]}={frac {,n-1, {n}}sigma^{2}.}

Esto significa que el estimador {displaystyle {sombrero ancho {sigma}}^{2}}está sesgado por sigma^{2}. También se puede demostrar que { sombrero ancho { sigma}}está sesgado por sigma, pero que ambos {displaystyle {sombrero ancho {sigma}}^{2}}y { sombrero ancho { sigma}}son consistentes.

Formalmente decimos que el estimador de máxima verosimilitud para theta =(mu,sigma ^{2})es{displaystyle {widehat {theta ,}}=left({widehat {mu }},{widehat {sigma }}^{2}right).}

En este caso, los MLE podrían obtenerse individualmente. En general, este puede no ser el caso, y los MLE tendrían que obtenerse simultáneamente.

El logaritmo de verosimilitud normal en su máximo toma una forma particularmente simple:{displaystyle log {Bigl (}{mathcal {L}}({widehat {mu }},{widehat {sigma }}){Bigr)}={frac {,-n ;;}{2}}{bigl (},log(2pi {widehat {sigma}}^{2})+1,{bigr)}}

Se puede demostrar que esta verosimilitud logarítmica máxima es la misma para mínimos cuadrados más generales, incluso para mínimos cuadrados no lineales. Esto se usa a menudo para determinar los intervalos de confianza aproximados basados ​​en la probabilidad y las regiones de confianza, que generalmente son más precisos que los que usan la normalidad asintótica discutida anteriormente.

Variables no independientes

Puede darse el caso de que las variables estén correlacionadas, es decir, no independientes. Dos variables aleatorias y_{1}y y_{2}son independientes solo si su función de densidad de probabilidad conjunta es el producto de las funciones de densidad de probabilidad individuales, es decir{displaystyle f(y_{1},y_{2})=f(y_{1})f(y_{2}),}

Supongamos que se construye un vector gaussiano de orden n a partir de variables aleatorias {displaystyle (y_{1},ldots,y_{n})}, donde cada variable tiene medias dadas por { estilo de visualización ( mu _ {1},  ldots,  mu _ {n})}. Además, denotemos la matriz de covarianzas por {displaystyle {mathit {Sigma}}}. La función de densidad de probabilidad conjunta de estas n variables aleatorias sigue entonces una distribución normal multivariada dada por:{displaystyle f(y_{1},ldots,y_{n})={frac {1}{(2pi)^{n/2}{sqrt {det({mathit {Sigma }})}}}}exp left(-{frac {1}{2}}left[y_{1}-mu _{1},ldots,y_{n}-mu_{ n}right]{mathit {Sigma }}^{-1}left[y_{1}-mu _{1},ldots,y_{n}-mu _{n}right] ^{mathrm {T} }right)}

En el caso bivariado, la función de densidad de probabilidad conjunta viene dada por:{displaystyle f(y_{1},y_{2})={frac {1}{2pi sigma_{1}sigma_{2}{sqrt {1-rho ^{2} }}}}exp left[-{frac {1}{2(1-rho ^{2})}}left({frac {(y_{1}-mu _{1}) ^{2}}{sigma_{1}^{2}}}-{frac {2rho (y_{1}-mu_{1})(y_{2}-mu_{2} })}{sigma_{1}sigma_{2}}}+{frac {(y_{2}-mu_{2})^{2}}{sigma_{2}^{ 2}}}derecho)derecho]}

En este y otros casos en los que existe una función de densidad conjunta, la función de verosimilitud se define como se indicó anteriormente, en la sección "principios", utilizando esta densidad.

Ejemplo

{displaystyle X_{1}, X_{2},ldots, X_{m}}son conteos en celdas/casillas 1 hasta m; cada caja tiene una probabilidad diferente (piensa en que las cajas sean más grandes o más pequeñas) y fijamos el número de bolas que caen para que sea norte: {displaystyle x_{1}+x_{2}+cdots +x_{m}=n}. La probabilidad de cada caja es Pi}, con una restricción: {displaystyle p_{1}+p_{2}+cdots +p_{m}=1}. Este es un caso en el que las s no son independientes, la probabilidad conjunta de un vector se llama multinomio y tiene la forma: X_{yo} {displaystyle x_{1}, x_{2},ldots,x_{m}}{displaystyle f(x_{1},x_{2},ldots,x_{m}mid p_{1},p_{2},ldots,p_{m})={frac {n!} {prod x_{i}!}}prod p_{i}^{x_{i}}={binom {n}{x_{1},x_{2},ldots,x_{m}}} p_{1}^{x_{1}}p_{2}^{x_{2}}cdots p_{m}^{x_{m}}}

Cada casilla tomada por separado contra todas las demás casillas es un binomio y esta es una extensión de la misma.

La log-verosimilitud de esto es:{displaystyle ell (p_{1},p_{2},ldots,p_{m})=log n!-sum _{i=1}^{m}log x_{i}!+ sum _{i=1}^{m}x_{i}log p_{i}}

La restricción debe tenerse en cuenta y utilizar los multiplicadores de Lagrange:{displaystyle L(p_{1},p_{2},ldots,p_{m},lambda)=ell (p_{1},p_{2},ldots,p_{m})+ lambda left(1-sum _{i=1}^{m}p_{i}right)}

Al plantear todas las derivadas como 0, se obtiene la estimación más natural{displaystyle {sombrero {p}}_{i}={frac {x_{i}}{n}}}

Maximizar la probabilidad de registro, con y sin restricciones, puede ser un problema irresoluble en forma cerrada, entonces tenemos que usar procedimientos iterativos.

Procedimientos iterativos

Excepto en casos especiales, las ecuaciones de verosimilitud{displaystyle {frac {parcial ell (theta;mathbf {y})}{parcial theta }}=0}

no se puede resolver explícitamente para un estimador {displaystyle {sombrero ancho {theta }}={sombrero ancho {theta }}(mathbf {y})}. En cambio, deben resolverse iterativamente: a partir de una suposición inicial de  theta(digamos {displaystyle {sombrero ancho {theta }}_{1}}), uno busca obtener una secuencia convergente {displaystyle left{{widehat {theta }}_{r}right}}. Hay muchos métodos disponibles para este tipo de problema de optimización, pero los más utilizados son algoritmos basados ​​en una fórmula de actualización de la forma{displaystyle {widehat {theta }}_{r+1}={widehat {theta }}_{r}+eta _{r}mathbf {d} _{r}left({ widehat {theta }}right)}

donde el vector {displaystyle mathbf {d} _{r}left({widehat {theta}}right)}indica la dirección de descenso del r -ésimo "paso" y el escalar { estilo de visualización  eta _ {r}}captura la "longitud del paso", también conocida como tasa de aprendizaje. En general, la función de verosimilitud no es convexa con múltiples máximos locales. Los métodos de búsqueda deterministas basados ​​en derivados generalmente pueden identificar solo un máximo local de la función de verosimilitud. Localizar un máximo global de una función no convexa es un problema NP-completo y, por lo tanto, no puede resolverse en un tiempo razonable. Se pueden utilizar técnicas de optimización inspiradas en la biología y otras basadas en la heurística para explorar múltiples máximos locales e identificar un máximo aceptable en la práctica.

Método de descenso de gradiente

(Nota: aquí es un problema de maximización, por lo que se invierte el signo antes del gradiente){displaystyle eta _{r}in mathbb {R} ^{+}} que es lo suficientemente pequeño para la convergencia y{displaystyle mathbf {d} _{r}left({widehat {theta }}right)=nabla ell left({widehat {theta }}_{r};mathbf { y} derecho)}

El método de descenso de gradiente requiere calcular el gradiente en la r-ésima iteración, pero no es necesario calcular la inversa de la derivada de segundo orden, es decir, la matriz hessiana. Por lo tanto, es computacionalmente más rápido que el método de Newton-Raphson.

Método de Newton-Raphson

{ estilo de visualización  eta _ {r} = 1}y{displaystyle mathbf {d} _{r}left({widehat {theta }}right)=-mathbf {H} _{r}^{-1}left({widehat { theta }}right)mathbf {s} _{r}left({widehat {theta }}right)}

donde {displaystyle mathbf {s} _{r}({widehat {theta }})}es la puntuación y {displaystyle mathbf {H} _{r}^{-1}left({widehat {theta }}right)}es la inversa de la matriz hessiana de la función log-verosimilitud, ambas evaluaron la r th iteración. Pero debido a que el cálculo de la matriz hessiana es computacionalmente costoso, se han propuesto numerosas alternativas. El popular algoritmo de Berndt-Hall-Hall-Hausman aproxima la arpillera con el producto exterior del gradiente esperado, de modo que{displaystyle mathbf {d} _{r}left({widehat {theta }}right)=-left[{frac {1}{n}}sum _{t=1}^ {n}{frac {parcial ell (theta;mathbf {y})}{parcial theta }}left({frac {parcial ell (theta;mathbf {y}) }{parcial theta }}right)^{mathsf {T}}right]^{-1}mathbf {s} _{r}left({widehat {theta }}right) }

Métodos cuasi-Newton

Otros métodos cuasi-Newton utilizan actualizaciones de secantes más elaboradas para dar una aproximación de la matriz hessiana.

Fórmula de Davidon-Fletcher-Powell

La fórmula DFP encuentra una solución que es simétrica, definida positiva y más cercana al valor aproximado actual de la derivada de segundo orden:{displaystyle mathbf {H} _{k+1}=left(I-gamma _{k}y_{k}s_{k}^{mathsf {T}}right)mathbf {H} _{k}left(I-gamma_{k}s_{k}y_{k}^{mathsf {T}}right)+gamma_{k}y_{k}y_{k}^ {mathsf {T}},}

donde{displaystyle y_{k}=nabla ell (x_{k}+s_{k})-nabla ell (x_{k}),}{displaystyle gamma _{k}={frac {1}{y_{k}^{T}s_{k}}},}{displaystyle s_{k}=x_{k+1}-x_{k}.}

Algoritmo de Broyden-Fletcher-Goldfarb-Shanno

BFGS también da una solución que es simétrica y definida positiva:{displaystyle B_{k+1}=B_{k}+{frac {y_{k}y_{k}^{mathsf {T}}}{y_{k}^{mathsf {T}}s_ {k}}}-{frac {B_{k}s_{k}s_{k}^{mathsf {T}}B_{k}^{mathsf {T}}}{s_{k}^{ mathsf {T}}B_{k}s_{k}}},}

donde{displaystyle y_{k}=nabla ell (x_{k}+s_{k})-nabla ell (x_{k}),}{displaystyle s_{k}=x_{k+1}-x_{k}.}

No se garantiza que el método BFGS converja a menos que la función tenga una expansión de Taylor cuadrática cerca de un óptimo. Sin embargo, BFGS puede tener un rendimiento aceptable incluso para instancias de optimización no fluidas.

Puntuación de Fisher

Otro método popular es reemplazar el Hessian con la matriz de información de Fisher {displaystyle {mathcal {I}}(theta)=operatorname {mathbb {E} } left[mathbf {H} _{r}left({widehat {theta }}right) derecho]}, dándonos el algoritmo de puntuación de Fisher. Este procedimiento es estándar en la estimación de muchos métodos, como los modelos lineales generalizados.

Aunque son populares, los métodos cuasi-Newton pueden converger en un punto estacionario que no es necesariamente un máximo local o global, sino un mínimo local o un punto de silla. Por lo tanto, es importante evaluar la validez de la solución obtenida de las ecuaciones de verosimilitud, verificando que la hessiana, evaluada en la solución, sea definida negativa y bien condicionada.

Historia

Los primeros usuarios de máxima verosimilitud fueron Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele y Francis Ysidro Edgeworth. Sin embargo, su uso generalizado aumentó entre 1912 y 1922 cuando Ronald Fisher recomendó, popularizó ampliamente y analizó cuidadosamente la estimación de máxima verosimilitud (con intentos infructuosos de demostración).

La estimación de máxima verosimilitud finalmente trascendió la justificación heurística en una prueba publicada por Samuel S. Wilks en 1938, ahora llamada teorema de Wilks. El teorema muestra que el error en el logaritmo de los valores de probabilidad para las estimaciones de múltiples observaciones independientes se distribuye asintóticamente en χ, lo que permite la determinación conveniente de una región de confianza alrededor de cualquier estimación de los parámetros. La única parte difícil de la prueba de Wilks depende del valor esperado de la matriz de información de Fisher, que es proporcionada por un teorema probado por Fisher. Wilks continuó mejorando la generalidad del teorema a lo largo de su vida, y su demostración más general se publicó en 1962.

Varios autores han proporcionado revisiones del desarrollo de la estimación de máxima verosimilitud.

Contenido relacionado

William Sealy Gosset

William Sealy Gosset fue un estadístico, químico y cervecero inglés que se desempeñó como principal cervecero de Guinness y principal cervecero...

Ley de Bradford

La ley de Bradford es un patrón descrito por primera vez por Samuel C. Bradford en 1934 que estima los rendimientos exponencialmente decrecientes de la...

Valor atípico

En estadística, un valor atípico es un punto de datos que difiere significativamente de otras observaciones. Un valor atípico puede deberse a la...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save