Máxima verosimilitud
En estadística, la estimación de máxima verosimilitud es un método para estimar los parámetros de una distribución de probabilidad supuesta, dados algunos datos observados. Esto se logra maximizando una función de verosimilitud para que, bajo el modelo estadístico asumido, los datos observados sean los más probables. El punto en el espacio de parámetros que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. La lógica de máxima verosimilitud es tanto intuitiva como flexible y, como tal, el método se ha convertido en un medio dominante de inferencia estadística.
Si la función de verosimilitud es derivable, se puede aplicar la prueba de la derivada para determinar los máximos. En algunos casos, las condiciones de primer orden de la función de verosimilitud pueden resolverse explícitamente; por ejemplo, el estimador de mínimos cuadrados ordinarios maximiza la probabilidad del modelo de regresión lineal. En la mayoría de las circunstancias, sin embargo, serán necesarios métodos numéricos para encontrar el máximo de la función de verosimilitud.
Desde el punto de vista de la inferencia bayesiana, MLE es generalmente equivalente a la estimación máxima a posteriori (MAP) bajo una distribución previa uniforme en los parámetros. En la inferencia frecuentista, MLE es un caso especial de un estimador extremo, siendo la función objetivo la verosimilitud.
Principios
Modelamos un conjunto de observaciones como una muestra aleatoria de una distribución de probabilidad conjunta desconocida que se expresa en términos de un conjunto de parámetros. El objetivo de la estimación de máxima verosimilitud es determinar los parámetros para los cuales los datos observados tienen la mayor probabilidad conjunta. Escribimos los parámetros que gobiernan la distribución conjunta como un vector para que esta distribución caiga dentro de una familia paramétrica donde se llama espacio de parámetros, un subconjunto de dimensión finita del espacio euclidiano. La evaluación de la densidad conjunta en la muestra de datos observados da una función de valor real,
que se llama función de verosimilitud. Para variables aleatorias independientes e idénticamente distribuidas, será el producto de funciones de densidad univariadas:
El objetivo de la estimación de máxima verosimilitud es encontrar los valores de los parámetros del modelo que maximizan la función de verosimilitud sobre el espacio de parámetros, es decir
Intuitivamente, esto selecciona los valores de los parámetros que hacen que los datos observados sean más probables. El valor específico que maximiza la función de verosimilitud se denomina estimación de máxima verosimilitud. Además, si la función así definida es medible, se denomina estimador de máxima verosimilitud. Generalmente es una función definida sobre el espacio muestral, es decir, tomando una muestra dada como su argumento. Una condición suficiente pero no necesaria para su existencia es que la función de verosimilitud sea continua en un espacio de parámetros que sea compacto. Para una apertura , la función de probabilidad puede aumentar sin llegar nunca a un valor supremo.
En la práctica, a menudo es conveniente trabajar con el logaritmo natural de la función de verosimilitud, llamada log-verosimilitud:
Dado que el logaritmo es una función monótona, el máximo de ocurre al mismo valor de que el máximo de Si es diferenciable en las condiciones necesarias para que ocurra un máximo (o un mínimo) son
conocidas como ecuaciones de verosimilitud. Para algunos modelos, estas ecuaciones se pueden resolver explícitamente, pero en general no se conoce ni está disponible una solución de forma cerrada para el problema de maximización, y un MLE solo se puede encontrar a través de la optimización numérica. Otro problema es que en muestras finitas pueden existir raíces múltiples para las ecuaciones de probabilidad. Si la raíz identificada de las ecuaciones de verosimilitud es de hecho un máximo (local) depende de si la matriz de derivadas parciales cruzadas y parciales de segundo orden, la llamada matriz hessiana
es semidefinido negativo en , ya que esto indica concavidad local. Convenientemente, las distribuciones de probabilidad más comunes, en particular la familia exponencial, son logarítmicamente cóncavas.
Espacio de parámetros restringido
Si bien el dominio de la función de probabilidad, el espacio de parámetros, es generalmente un subconjunto de dimensión finita del espacio euclidiano, a veces es necesario incorporar restricciones adicionales en el proceso de estimación. El espacio de parámetros se puede expresar como
donde es una función de valor vectorial que se asigna a Estimar el parámetro verdadero que pertenece a entonces, como cuestión práctica, significa encontrar el máximo de la función de verosimilitud sujeta a la restricción
Teóricamente, el enfoque más natural para este problema de optimización con restricciones es el método de sustitución, es decir, "completar" las restricciones de un conjunto de tal manera que sea una función uno a uno de sí mismo, y reparametrizar la función de verosimilitud. estableciendo Debido a la equivarianza del estimador de máxima verosimilitud, las propiedades del MLE también se aplican a las estimaciones restringidas. Por ejemplo, en una distribución normal multivariante, la matriz de covarianza debe ser definida positiva; esta restricción se puede imponer reemplazando donde es una matriz triangular superior real y es su transpuesta.
En la práctica, las restricciones suelen imponerse utilizando el método de Lagrange que, dadas las restricciones definidas anteriormente, conduce a las ecuaciones de verosimilitud restringiday
donde es un vector columna de multiplicadores de Lagrange y es la matriz jacobiana k × r de derivadas parciales. Naturalmente, si las restricciones no son vinculantes al máximo, los multiplicadores de Lagrange deberían ser cero. Esto, a su vez, permite una prueba estadística de la "validez" de la restricción, conocida como prueba del multiplicador de Lagrange.
Propiedades
Un estimador de máxima verosimilitud es un estimador extremo obtenido al maximizar, en función de θ, la función objetivo . Si los datos son independientes e idénticamente distribuidos, entonces tenemos
siendo esta la muestra análoga del log-verosimilitud esperado , donde esta expectativa se toma con respecto a la densidad real.
Los estimadores de máxima verosimilitud no tienen propiedades óptimas para muestras finitas, en el sentido de que (cuando se evalúan en muestras finitas) otros estimadores pueden tener una mayor concentración en torno al verdadero valor del parámetro. Sin embargo, al igual que otros métodos de estimación, la estimación de máxima verosimilitud posee una serie de atractivas propiedades limitantes: a medida que el tamaño de la muestra aumenta hasta el infinito, las secuencias de estimadores de máxima verosimilitud tienen estas propiedades:
- Consistencia: la secuencia de MLE converge en probabilidad al valor que se estima.
- Equivarianza funcional: si es el estimador de máxima verosimilitud para , y si es cualquier transformación de , entonces el estimador de máxima verosimilitud para es .
- Eficiencia, es decir, alcanza el límite inferior de Cramér-Rao cuando el tamaño de la muestra tiende a infinito. Esto significa que ningún estimador consistente tiene un error cuadrático medio asintótico más bajo que el MLE (u otros estimadores que alcanzan este límite), lo que también significa que MLE tiene normalidad asintótica.
- Eficiencia de segundo orden después de la corrección por sesgo.
Consistencia
Bajo las condiciones descritas a continuación, el estimador de máxima verosimilitud es consistente. La consistencia significa que si los datos fueron generados por y tenemos un número suficientemente grande de observaciones n, entonces es posible encontrar el valor de θ 0 con precisión arbitraria. En términos matemáticos esto significa que cuando n tiende a infinito el estimador converge en probabilidad a su verdadero valor:
En condiciones ligeramente más fuertes, el estimador converge casi con seguridad (o fuertemente):
En aplicaciones prácticas, los datos nunca son generados por . Más bien, es un modelo, a menudo en forma idealizada, del proceso generado por los datos. Es un aforismo común en estadística que todos los modelos están equivocados. Por lo tanto, la verdadera consistencia no ocurre en las aplicaciones prácticas. Sin embargo, a menudo se considera que la consistencia es una propiedad deseable que debe tener un estimador.
Para establecer la consistencia, las siguientes condiciones son suficientes.
- Identificación del modelo:En otras palabras, diferentes valores de parámetros θ corresponden a diferentes distribuciones dentro del modelo. Si esta condición no se cumpliera, habría algún valor de θ 1 tal que θ 0 y θ 1 generaran una distribución idéntica de los datos observables. Entonces no seríamos capaces de distinguir entre estos dos parámetros incluso con una cantidad infinita de datos; estos parámetros habrían sido observacionalmente equivalentes.La condición de identificación es absolutamente necesaria para que el estimador ML sea consistente. Cuando se cumple esta condición, la función de verosimilitud límite ℓ (θ |·) tiene un máximo global único en θ 0.
- Compacidad: el espacio de parámetros Θ del modelo es compacto.La condición de identificación establece que el log-verosimilitud tiene un máximo global único. La compacidad implica que la probabilidad no puede acercarse al valor máximo arbitrariamente cercano en algún otro punto (como se demuestra, por ejemplo, en la imagen de la derecha).La compacidad es sólo una condición suficiente y no una condición necesaria. La compacidad puede ser reemplazada por algunas otras condiciones, tales como:
- tanto la concavidad de la función de verosimilitud logarítmica como la compacidad de algunos conjuntos de nivel superior (no vacíos) de la función de verosimilitud logarítmica, o
- existencia de una vecindad compacta N de θ 0 tal que fuera de N la función logarítmica de verosimilitud es menor que el máximo por al menos algo de ε > 0.
- Continuidad: la función ln f (x | θ) es continua en θ para casi todos los valores de x:La continuidad aquí se puede reemplazar con una condición ligeramente más débil de semicontinuidad superior.
- Dominancia: existe D (x) integrable con respecto a la distribución f (x | θ 0) tal que<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/617047dbdd5df4af69943f4d6e8b4c0c8801aa8f" alt="{displaystyle {Bigl |}ln f(xmid theta){Bigr |}Por la ley uniforme de los grandes números, la condición de dominancia junto con la continuidad establecen la convergencia uniforme en probabilidad del logaritmo de verosimilitud:
La condición de dominancia se puede emplear en el caso de observaciones iid. En el caso no iid, la convergencia uniforme en probabilidad se puede verificar mostrando que la secuencia es estocásticamente equicontinua. Si se quiere demostrar que el estimador ML converge a θ 0 casi con seguridad, entonces se debe imponer una condición más fuerte de convergencia uniforme casi con seguridad:
Además, si (como se supuso anteriormente) los datos fueron generados por , entonces, bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Específicamente,
donde I es la matriz de información de Fisher.
Equivarianza funcional
El estimador de máxima verosimilitud selecciona el valor del parámetro que da a los datos observados la mayor probabilidad posible (o densidad de probabilidad, en el caso continuo). Si el parámetro consiste en un número de componentes, entonces definimos sus estimadores de máxima verosimilitud separados, como el componente correspondiente del MLE del parámetro completo. De acuerdo con esto, si es el MLE para , y si es cualquier transformación de , entonces el MLE para es por definición
Maximiza la llamada probabilidad de perfil:
El MLE también es equivariante con respecto a ciertas transformaciones de los datos. Si donde es uno a uno y no depende de los parámetros a estimar, entonces las funciones de densidad satisfacen
y, por lo tanto, las funciones de probabilidad difieren solo por un factor que no depende de los parámetros del modelo.
Por ejemplo, los parámetros MLE de la distribución log-normal son los mismos que los de la distribución normal ajustados al logaritmo de los datos.
Eficiencia
Como se supuso anteriormente, si los datos se generaron para entonces bajo ciertas condiciones, también se puede demostrar que el estimador de máxima verosimilitud converge en distribución a una distribución normal. Es √ n -consistente y asintóticamente eficiente, lo que significa que alcanza el límite de Cramér-Rao. Específicamente,
donde está la matriz de información de Fisher:
En particular, significa que el sesgo del estimador de máxima verosimilitud es igual a cero hasta el orden1/√ norte.
Eficiencia de segundo orden después de la corrección por sesgo
Sin embargo, cuando consideramos los términos de orden superior en la expansión de la distribución de este estimador, resulta que θ mle tiene un sesgo de orden 1 ⁄ n. Este sesgo es igual a (por componentes)
donde (con superíndices) denota el (j,k)-ésimo componente de la matriz de información inversa de Fisher , y
Usando estas fórmulas es posible estimar el sesgo de segundo orden del estimador de máxima verosimilitud y corregir ese sesgo restándolo:
Este estimador es imparcial hasta los términos del pedido.1/ norte , y se denomina estimador de máxima verosimilitud corregido por sesgo.
Este estimador corregido por sesgo es eficiente de segundo orden (al menos dentro de la familia exponencial curva), lo que significa que tiene un error cuadrático medio mínimo entre todos los estimadores corregidos por sesgo de segundo orden, hasta los términos del orden1/ norte . Es posible continuar con este proceso, es decir, derivar el término de corrección de sesgo de tercer orden, y así sucesivamente. Sin embargo, el estimador de máxima verosimilitud no es eficiente de tercer orden.
Relación con la inferencia bayesiana
Un estimador de máxima verosimilitud coincide con el estimador bayesiano más probable dada una distribución previa uniforme en los parámetros. De hecho, la máxima estimación a posteriori es el parámetro θ que maximiza la probabilidad de θ dados los datos, dados por el teorema de Bayes:
donde es la distribución previa para el parámetro θ y donde es la probabilidad de los datos promediados sobre todos los parámetros. Dado que el denominador es independiente de θ, el estimador bayesiano se obtiene maximizando con respecto a θ. Si asumimos además que la anterior es una distribución uniforme, el estimador bayesiano se obtiene maximizando la función de verosimilitud . Así, el estimador bayesiano coincide con el estimador de máxima verosimilitud para una distribución previa uniforme .
Aplicación de la estimación de máxima verosimilitud en la teoría de decisión de Bayes
En muchas aplicaciones prácticas en aprendizaje automático, la estimación de máxima verosimilitud se utiliza como modelo para la estimación de parámetros.
La teoría de la decisión bayesiana se trata de diseñar un clasificador que minimice el riesgo esperado total, especialmente, cuando los costos (la función de pérdida) asociados con diferentes decisiones son iguales, el clasificador minimiza el error en toda la distribución.
Por lo tanto, la regla de decisión de Bayes se establece como"decidir si ;operatorname {mathbb {P} } (w_{2}|x)~;~}">de otra manera decidir "
donde son predicciones de diferentes clases. Desde una perspectiva de minimizar el error, también se puede establecer como
donde
si decidimos y si decidimos
Aplicando el teorema de Bayes,
y si además asumimos la función de pérdida cero o uno, que es la misma pérdida para todos los errores, la regla de decisión de Bayes se puede reformular como:
donde es la predicción y es la probabilidad previa.
Relación con la minimización de la divergencia Kullback-Leibler y la entropía cruzada
Hallar que maximiza la probabilidad es asintóticamente equivalente a encontrar el que define una distribución de probabilidad () que tiene una distancia mínima, en términos de divergencia de Kullback-Leibler, a la distribución de probabilidad real a partir de la cual se generaron nuestros datos (es decir, generada por ). En un mundo ideal, P y Q son lo mismo (y lo único que se desconoce es lo que define a P), pero incluso si no lo son y el modelo que usamos está mal especificado, el MLE nos dará la distribución "más cercana" (dentro de la restricción de un modelo Q que depende de ) a la distribución real .
showPrueba. |
Dado que la entropía cruzada es solo la entropía de Shannon más la divergencia KL, y dado que la entropía de es constante, entonces el MLE también minimiza asintóticamente la entropía cruzada.
Ejemplos
Distribución uniforme discreta
Considere un caso en el que se colocan n boletos numerados del 1 al n en una caja y se selecciona uno al azar (ver distribución uniforme); por lo tanto, el tamaño de la muestra es 1. Si se desconoce n, entonces el estimador de máxima verosimilitud de n es el número m en el boleto extraído. (La probabilidad es 0 para n < m, 1 ⁄ n para n ≥ m, y esto es mayor cuando n = m. Tenga en cuenta que la estimación de máxima verosimilitud de n se produce en el extremo inferior de los valores posibles {m, m + 1,...}, en lugar de en algún lugar en el "medio" del rango de valores posibles, lo que resultaría en menos sesgo). El valor esperado del número m en el boleto extraído y, por lo tanto, el valor esperado el valor de , es (n + 1)/2. Como resultado, con un tamaño de muestra de 1, el estimador de máxima verosimilitud para n subestimará sistemáticamente n por (n − 1)/2.
Distribución discreta, espacio de parámetros finitos
Supongamos que uno desea determinar qué tan sesgada es una moneda injusta. Llama a la probabilidad de sacar una 'cara' p. El objetivo entonces se convierte en determinar p.
Supongamos que la moneda se lanza 80 veces: es decir, la muestra podría ser algo así como x 1 = H, x 2 = T,..., x 80 = T, y se observa la cuenta del número de caras "H".
La probabilidad de sacar cruz es 1 − p (así que aquí p es θ arriba). Suponga que el resultado es 49 caras y 31 cruces, y suponga que la moneda se sacó de una caja que contiene tres monedas: una que da cara con probabilidad p = 1 ⁄ 3, otra que da cara con probabilidad p = 1 ⁄ 2 y otra que da cara con probabilidad p = 2 ⁄ 3. Las monedas han perdido sus etiquetas, por lo que se desconoce cuál era. Usando la estimación de máxima verosimilitud, se puede encontrar la moneda que tiene la mayor probabilidad, dados los datos que se observaron. Al usar la función de masa de probabilidad de la distribución binomial con un tamaño de muestra igual a 80, número de éxitos igual a 49 pero para diferentes valores de p (la "probabilidad de éxito"), la función de probabilidad (definida a continuación) toma uno de tres valores:
La verosimilitud se maximiza cuando p = 2 ⁄ 3, por lo que esta es la estimación de máxima verosimilitud para p.
Distribución discreta, espacio de parámetros continuo
Ahora suponga que solo había una moneda pero su p podría haber sido cualquier valor 0 ≤ p ≤ 1. La función de verosimilitud a maximizar es
y la maximización es sobre todos los valores posibles 0 ≤ p ≤ 1.
Una forma de maximizar esta función es diferenciando con respecto a p y poniendo a cero:
Este es un producto de tres términos. El primer término es 0 cuando p = 0. El segundo es 0 cuando p = 1. El tercero es cero cuando p = 49 ⁄ 80. La solución que maximiza la probabilidad es claramente p = 49 ⁄ 80 (ya que p = 0 y p = 1 dan como resultado una probabilidad de 0). Así, el estimador de máxima verosimilitud para p es 49 ⁄ 80.
Este resultado se generaliza fácilmente sustituyendo una letra como s en lugar de 49 para representar el número observado de "éxitos" de nuestros ensayos de Bernoulli, y una letra como n en lugar de 80 para representar el número de ensayos de Bernoulli. Exactamente el mismo cálculo produce s ⁄ n, que es el estimador de máxima verosimilitud para cualquier secuencia de n ensayos de Bernoulli que den como resultado s 'éxitos'.
Distribución continua, espacio de parámetros continuo
Para la distribución normal que tiene una función de densidad de probabilidad
la función de densidad de probabilidad correspondiente para una muestra de n variables aleatorias normales independientes idénticamente distribuidas (la probabilidad) es
Esta familia de distribuciones tiene dos parámetros: θ = (μ, σ); entonces maximizamos la probabilidad, , sobre ambos parámetros simultáneamente, o si es posible, individualmente.
Dado que la función logarítmica en sí misma es una función continua estrictamente creciente en el rango de la probabilidad, los valores que maximizan la probabilidad también maximizarán su logaritmo (la logaritmo de la probabilidad en sí no es necesariamente estrictamente creciente). El log-verosimilitud se puede escribir de la siguiente manera:
(Nota: el log-verosimilitud está estrechamente relacionado con la entropía de la información y la información de Fisher).
Ahora calculamos las derivadas de este log-verosimilitud de la siguiente manera.
donde es la media muestral. Esto se soluciona por
De hecho, este es el máximo de la función, ya que es el único punto de inflexión en μ y la segunda derivada es estrictamente menor que cero. Su valor esperado es igual al parámetro μ de la distribución dada,
lo que significa que el estimador de máxima verosimilitud es insesgado.
De manera similar, diferenciamos el log-verosimilitud con respecto a σ y lo igualamos a cero:
que se resuelve por
Insertando la estimación que obtenemos
Para calcular su valor esperado, es conveniente reescribir la expresión en términos de variables aleatorias de media cero (error estadístico) . Expresando la estimación en estas variables se obtiene
Simplificando la expresión anterior, utilizando los hechos que y , nos permite obtener
Esto significa que el estimador está sesgado por . También se puede demostrar que está sesgado por , pero que ambos y son consistentes.
Formalmente decimos que el estimador de máxima verosimilitud para es
En este caso, los MLE podrían obtenerse individualmente. En general, este puede no ser el caso, y los MLE tendrían que obtenerse simultáneamente.
El logaritmo de verosimilitud normal en su máximo toma una forma particularmente simple:
Se puede demostrar que esta verosimilitud logarítmica máxima es la misma para mínimos cuadrados más generales, incluso para mínimos cuadrados no lineales. Esto se usa a menudo para determinar los intervalos de confianza aproximados basados en la probabilidad y las regiones de confianza, que generalmente son más precisos que los que usan la normalidad asintótica discutida anteriormente.
Variables no independientes
Puede darse el caso de que las variables estén correlacionadas, es decir, no independientes. Dos variables aleatorias y son independientes solo si su función de densidad de probabilidad conjunta es el producto de las funciones de densidad de probabilidad individuales, es decir
Supongamos que se construye un vector gaussiano de orden n a partir de variables aleatorias , donde cada variable tiene medias dadas por . Además, denotemos la matriz de covarianzas por . La función de densidad de probabilidad conjunta de estas n variables aleatorias sigue entonces una distribución normal multivariada dada por:
En el caso bivariado, la función de densidad de probabilidad conjunta viene dada por:
En este y otros casos en los que existe una función de densidad conjunta, la función de verosimilitud se define como se indicó anteriormente, en la sección "principios", utilizando esta densidad.
Ejemplo
son conteos en celdas/casillas 1 hasta m; cada caja tiene una probabilidad diferente (piensa en que las cajas sean más grandes o más pequeñas) y fijamos el número de bolas que caen para que sea : . La probabilidad de cada caja es , con una restricción: . Este es un caso en el que las s no son independientes, la probabilidad conjunta de un vector se llama multinomio y tiene la forma:
Cada casilla tomada por separado contra todas las demás casillas es un binomio y esta es una extensión de la misma.
La log-verosimilitud de esto es:
La restricción debe tenerse en cuenta y utilizar los multiplicadores de Lagrange:
Al plantear todas las derivadas como 0, se obtiene la estimación más natural
Maximizar la probabilidad de registro, con y sin restricciones, puede ser un problema irresoluble en forma cerrada, entonces tenemos que usar procedimientos iterativos.
Procedimientos iterativos
Excepto en casos especiales, las ecuaciones de verosimilitud
no se puede resolver explícitamente para un estimador . En cambio, deben resolverse iterativamente: a partir de una suposición inicial de (digamos ), uno busca obtener una secuencia convergente . Hay muchos métodos disponibles para este tipo de problema de optimización, pero los más utilizados son algoritmos basados en una fórmula de actualización de la forma
donde el vector indica la dirección de descenso del r -ésimo "paso" y el escalar captura la "longitud del paso", también conocida como tasa de aprendizaje. En general, la función de verosimilitud no es convexa con múltiples máximos locales. Los métodos de búsqueda deterministas basados en derivados generalmente pueden identificar solo un máximo local de la función de verosimilitud. Localizar un máximo global de una función no convexa es un problema NP-completo y, por lo tanto, no puede resolverse en un tiempo razonable. Se pueden utilizar técnicas de optimización inspiradas en la biología y otras basadas en la heurística para explorar múltiples máximos locales e identificar un máximo aceptable en la práctica.
Método de descenso de gradiente
(Nota: aquí es un problema de maximización, por lo que se invierte el signo antes del gradiente) que es lo suficientemente pequeño para la convergencia y
El método de descenso de gradiente requiere calcular el gradiente en la r-ésima iteración, pero no es necesario calcular la inversa de la derivada de segundo orden, es decir, la matriz hessiana. Por lo tanto, es computacionalmente más rápido que el método de Newton-Raphson.
Método de Newton-Raphson
y
donde es la puntuación y es la inversa de la matriz hessiana de la función log-verosimilitud, ambas evaluaron la r th iteración. Pero debido a que el cálculo de la matriz hessiana es computacionalmente costoso, se han propuesto numerosas alternativas. El popular algoritmo de Berndt-Hall-Hall-Hausman aproxima la arpillera con el producto exterior del gradiente esperado, de modo que
Métodos cuasi-Newton
Otros métodos cuasi-Newton utilizan actualizaciones de secantes más elaboradas para dar una aproximación de la matriz hessiana.
Fórmula de Davidon-Fletcher-Powell
La fórmula DFP encuentra una solución que es simétrica, definida positiva y más cercana al valor aproximado actual de la derivada de segundo orden:
donde
Algoritmo de Broyden-Fletcher-Goldfarb-Shanno
BFGS también da una solución que es simétrica y definida positiva:
donde
No se garantiza que el método BFGS converja a menos que la función tenga una expansión de Taylor cuadrática cerca de un óptimo. Sin embargo, BFGS puede tener un rendimiento aceptable incluso para instancias de optimización no fluidas.
Puntuación de Fisher
Otro método popular es reemplazar el Hessian con la matriz de información de Fisher , dándonos el algoritmo de puntuación de Fisher. Este procedimiento es estándar en la estimación de muchos métodos, como los modelos lineales generalizados.
Aunque son populares, los métodos cuasi-Newton pueden converger en un punto estacionario que no es necesariamente un máximo local o global, sino un mínimo local o un punto de silla. Por lo tanto, es importante evaluar la validez de la solución obtenida de las ecuaciones de verosimilitud, verificando que la hessiana, evaluada en la solución, sea definida negativa y bien condicionada.
Historia
Los primeros usuarios de máxima verosimilitud fueron Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele y Francis Ysidro Edgeworth. Sin embargo, su uso generalizado aumentó entre 1912 y 1922 cuando Ronald Fisher recomendó, popularizó ampliamente y analizó cuidadosamente la estimación de máxima verosimilitud (con intentos infructuosos de demostración).
La estimación de máxima verosimilitud finalmente trascendió la justificación heurística en una prueba publicada por Samuel S. Wilks en 1938, ahora llamada teorema de Wilks. El teorema muestra que el error en el logaritmo de los valores de probabilidad para las estimaciones de múltiples observaciones independientes se distribuye asintóticamente en χ, lo que permite la determinación conveniente de una región de confianza alrededor de cualquier estimación de los parámetros. La única parte difícil de la prueba de Wilks depende del valor esperado de la matriz de información de Fisher, que es proporcionada por un teorema probado por Fisher. Wilks continuó mejorando la generalidad del teorema a lo largo de su vida, y su demostración más general se publicó en 1962.
Varios autores han proporcionado revisiones del desarrollo de la estimación de máxima verosimilitud.
Contenido relacionado
William Sealy Gosset
Ley de Bradford
Valor atípico