Función de verosimilitud

Compartir Imprimir Citar

La función de verosimilitud (a menudo llamada simplemente verosimilitud) es la probabilidad conjunta de los datos observados vistos como una función de los parámetros del modelo estadístico elegido.

Para enfatizar que la probabilidad es una función de los parámetros, mientras que la muestra se toma como dada, a menudo se escribe como {displaystyle {mathcal {L}}(theta mid X)}. De manera equivalente, la probabilidad se puede escribir {displaystyle P(Xmid theta)}para enfatizar que proporciona la probabilidad de observar la muestra Xdada  theta, pero esta notación se usa con menos frecuencia. Según el principio de verosimilitud, toda la información que proporciona una muestra dada  thetase expresa en la función de verosimilitud. En la estimación de máxima verosimilitud, el valor que maximiza la probabilidad de observar la muestra dada, es decir{displaystyle {hat {theta }}=operatorname {argmax} _{theta in Theta }{mathcal {L}}(theta mid X)}, sirve como una estimación puntual del parámetro de la distribución de la que se extrajo la muestra. Mientras tanto, en la estadística bayesiana, la función de verosimilitud sirve como conducto a través del cual la información de la muestra influye en {displaystyle P(theta mid X)}la probabilidad posterior del parámetro, a través de la regla de Bayes.

Definición

La función de probabilidad generalmente se define de manera diferente para distribuciones de probabilidad discretas y continuas. También es posible una definición general, como se analiza a continuación.

Distribución de probabilidad discreta

Sea Xuna variable aleatoria discreta con función de masa de probabilidad pagsdependiente de un parámetro  theta. Entonces la función{displaystyle {mathcal {L}}(theta mid x)=p_{theta}(x)=P_{theta}(X=x),}

considerada como una función de  theta, es la función de verosimilitud, dado el resultado Xde la variable aleatoria X. A veces, la probabilidad de "el valor Xde Xpara el valor del parámetro " se escribe como P (X = x | θ) o P (X = x; θ). La verosimilitud es igual a la probabilidad de que se observe un resultado particular cuando el valor verdadero del parámetro es, es igual a la densidad de probabilidad sobre, no es una densidad de probabilidad sobre el parámetro. La probabilidad, theta X thetaX theta{displaystyle {mathcal {L}}(theta mid x)}, no debe confundirse con {displaystyle P(theta mid x)}, que es la probabilidad posterior de  thetadados los datos X.

Dado que no hay ningún evento (sin datos), la probabilidad y, por lo tanto, la probabilidad es 1; cualquier evento no trivial tendrá una probabilidad menor.

Ejemplo

Considere un modelo estadístico simple de un lanzamiento de moneda: un solo parámetro p_texto{H}que expresa la "equidad" de la moneda. El parámetro es la probabilidad de que una moneda caiga cara ("H") al lanzarla. p_texto{H}puede tomar cualquier valor dentro del rango de 0.0 a 1.0. Para una moneda perfectamente justa, p_texto{H} = 0.5.

Imagínese lanzar una moneda al aire dos veces y observar los siguientes datos: dos caras en dos lanzamientos ("HH"). Suponiendo que cada lanzamiento de moneda sucesivo es iid, entonces la probabilidad de observar HH es{displaystyle P({text{HH}}mid p_{text{H}}=0,5)=0,5^{2}=0,25.}

Por lo tanto, dados los datos observados HH, la probabilidad de que el parámetro del modelo p_texto{H}sea igual a 0,5 es 0,25. Matemáticamente, esto se escribe como{displaystyle {mathcal {L}}(p_{text{H}}=0.5mid {text{HH}})=0.25.}

Esto no es lo mismo que decir que la probabilidad de que p_texto{H} = 0.5, dada la observación HH, sea 0.25. (Para eso, podríamos aplicar el teorema de Bayes, que implica que la probabilidad posterior es proporcional a la probabilidad multiplicada por la probabilidad previa).

Suponga que la moneda no es una moneda justa, sino que tiene {displaystyle p_{text{H}}=0.3}. Entonces la probabilidad de obtener dos caras es{displaystyle P({text{HH}}mid p_{text{H}}=0.3)=0.3^{2}=0.09.}

Por eso{displaystyle {mathcal {L}}(p_{text{H}}=0.3mid {text{HH}})=0.09.}

Más generalmente, para cada valor de p_texto{H}, podemos calcular la probabilidad correspondiente. El resultado de tales cálculos se muestra en la Figura 1.

En la Figura 1, la integral de la probabilidad en el intervalo [0, 1] es 1/3. Eso ilustra un aspecto importante de las probabilidades: las probabilidades no tienen que integrarse (o sumarse) a 1, a diferencia de las probabilidades.

Distribución de probabilidad continua

Sea Xuna variable aleatoria que sigue una distribución de probabilidad absolutamente continua con la función de densidad F(una función de X) que depende de un parámetro  theta. Entonces la función{displaystyle {mathcal {L}}(theta mid x)=f_{theta }(x),,}

considerada como una función de  theta, es la función de verosimilitud (de  theta, dado el resultado Xde X). A veces, la función de densidad para "el valor Xde un valor de Xparámetro dado " se escribe como. La función de verosimilitud,, no debe confundirse con; la probabilidad es igual a la densidad de probabilidad del resultado observado, cuando el valor verdadero del parámetro es y, por lo tanto, es igual a una densidad de probabilidad sobre el resultado, es decir, la función de probabilidad no es una densidad sobre el parámetro. En pocas palabras, theta { Displaystyle f (x  mid  theta)}{displaystyle {mathcal {L}}(theta mid x)}{displaystyle f(theta mid x)}X thetaX theta{displaystyle {mathcal {L}}(theta mid x)}es a la prueba de hipótesis (encontrar la probabilidad de resultados variables dado un conjunto de parámetros definidos en la hipótesis nula) como {displaystyle f(theta mid x)}a la inferencia (encontrar los parámetros probables dado un resultado específico).

En general

En la teoría de la probabilidad teórica de la medida, la función de densidad se define como la derivada de Radon-Nikodym de la distribución de probabilidad en relación con una medida dominante común. La función de verosimilitud es esa densidad interpretada como una función del parámetro (posiblemente un vector), en lugar de los posibles resultados. Esto proporciona una función de probabilidad para cualquier modelo estadístico con todas las distribuciones, ya sea discreta, absolutamente continua, una mezcla o cualquier otra. (Las probabilidades serán comparables, por ejemplo, para la estimación de parámetros, solo si son derivados de Radon-Nikodym con respecto a la misma medida dominante).

La discusión anterior sobre probabilidad con probabilidades discretas es un caso especial de esto usando la medida de conteo, que hace que la densidad de probabilidad en cualquier resultado sea igual a la probabilidad de ese único resultado.

Función de probabilidad de un modelo parametrizado

Entre muchas aplicaciones, consideramos aquí una de amplia importancia teórica y práctica. Dada una familia parametrizada de funciones de densidad de probabilidad (o funciones de masa de probabilidad en el caso de distribuciones discretas)xmapsto f(xmidtheta), !

donde  thetaes el parámetro, la función de verosimilitud esthetamapsto f(xmidtheta), !

escritomathcal{L}(theta mid x)=f(xmidtheta), !

donde Xes el resultado observado de un experimento. En otras palabras, cuando { Displaystyle f (x  mid  theta)}se ve como una función de Xfijo  theta, es una función de densidad de probabilidad, y cuando se ve como una función de  thetafijo X, es una función de probabilidad.

Esto no es lo mismo que la probabilidad de que esos parámetros sean los correctos, dada la muestra observada. Intentar interpretar la probabilidad de una hipótesis dada la evidencia observada como la probabilidad de la hipótesis es un error común, con consecuencias potencialmente desastrosas. Consulte la falacia del fiscal para ver un ejemplo de esto.

Desde un punto de vista geométrico, si consideramos { Displaystyle f (x  mid  theta)}como una función de dos variables, entonces la familia de distribuciones de probabilidad puede verse como una familia de curvas paralelas al Xeje, mientras que la familia de funciones de probabilidad son las curvas ortogonales paralelas al  thetaeje.

Probabilidades de distribuciones continuas

El uso de la densidad de probabilidad para especificar la función de probabilidad anterior se justifica de la siguiente manera. Dada una observación x_{j}, la probabilidad del intervalo { estilo de visualización [x_{j},x_{j}+h]}, donde { estilo de visualización h> 0}es una constante, viene dada por {displaystyle {mathcal {L}}(theta mid xin [x_{j},x_{j}+h])}. Observa eso{displaystyle operatorname {argmax} _ {theta }{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax}_{ theta }{frac {1}{h}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])},

ya que hes positivo y constante. Porque{displaystyle operatorname {argmax} _{theta }{frac {1}{h}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h ])=nombre del operador {argmax} _ {theta }{frac {1}{h}}Pr(x_{j}leq xleq x_{j}+hmid theta)=nombre del operador { argmax} _ { theta }{ frac {1} {h}}  int _ {x_ {j}}^ {x_ {j} + h} f (x  mid  theta) , dx,}

donde { Displaystyle f (x  mid  theta)}es la función de densidad de probabilidad, se sigue que{displaystyle operatorname {argmax} _ {theta }{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])=operatorname {argmax}_{ theta }{frac {1}{h}}int _{x_{j}}^{x_{j}+h}f(xmid theta),dx}.

El primer teorema fundamental del cálculo establece que{displaystyle {begin{alineado}&lim _{hto 0^{+}}{frac {1}{h}}int _{x_{j}}^{x_{j}+h }f(xmid theta),dx=f(x_{j}mid theta).end{alineado}}}

Después{displaystyle {begin{alineado}&operatorname {argmax} _{theta }{mathcal {L}}(theta mid x_{j})=operatorname {argmax}_{theta }left [lim _{hto 0^{+}}{mathcal {L}}(theta mid xin [x_{j},x_{j}+h])right]\[4pt ]={}&nombre del operador {argmax} _{theta }left[lim _{hto 0^{+}}{frac {1}{h}}int _{x_{j}} ^{x_{j}+h}f(xmid theta),dxright]=operatorname {argmax} _{theta }f(x_{j}mid theta).end{alineado }}}

Por lo tanto,{displaystyle operatorname {argmax} _ {theta }{mathcal {L}}(theta mid x_{j})=operatorname {argmax}_{theta }f(x_{j}mid  theta),!}

y así maximizar la densidad de probabilidad en x_{j}cantidades para maximizar la probabilidad de la observación específica x_{j}.

Probabilidades de distribuciones mixtas continuas-discretas

Lo anterior se puede ampliar de forma sencilla para permitir la consideración de distribuciones que contienen componentes discretos y continuos. Suponga que la distribución consta de un número de masas de probabilidad discretas {displaystyle p_{k}theta}y una densidad { Displaystyle f (x  mid  theta)}, donde la suma de todos los pags's sumados a la integral de Fes siempre uno. Suponiendo que es posible distinguir una observación correspondiente a una de las masas de probabilidad discretas de una que corresponde al componente de densidad, la función de probabilidad para una observación del componente continuo se puede tratar de la manera que se muestra arriba. Para una observación del componente discreto, la función de probabilidad para una observación del componente discreto es simplementemathcal{L}(theta mid x)= p_k(theta), !

donde kes el índice de la masa de probabilidad discreta correspondiente a la observación X, porque maximizar la masa de probabilidad (o probabilidad) en Xequivale a maximizar la probabilidad de la observación específica.

El hecho de que la función de verosimilitud pueda definirse de manera que incluya contribuciones que no son conmensurables (la densidad y la masa de probabilidad) surge de la forma en que se define la función de verosimilitud hasta una constante de proporcionalidad, donde esta "constante" puede cambiar con la observación X, pero no con el parámetro  theta.

Condiciones de regularidad

En el contexto de la estimación de parámetros, se suele suponer que la función de verosimilitud obedece a ciertas condiciones, conocidas como condiciones de regularidad. Estas condiciones se asumen en varias pruebas que involucran funciones de probabilidad y deben verificarse en cada aplicación particular. Para la estimación de máxima verosimilitud, la existencia de un máximo global de la función de verosimilitud es de suma importancia. Por el teorema del valor extremo, basta que la función de verosimilitud sea continua en un espacio de parámetros compacto para que exista el estimador de máxima verosimilitud. Si bien la suposición de continuidad generalmente se cumple, la suposición de compacidad sobre el espacio de parámetros a menudo no lo es, ya que se desconocen los límites de los valores reales de los parámetros. En ese caso, la concavidad de la función de verosimilitud juega un papel clave.

Más específicamente, si la función de verosimilitud es dos veces continuamente diferenciable en el espacio de parámetros k -dimensional que se { estilo de visualización ,  Theta ,}supone que es un subconjunto conectado abierto de {displaystyle,mathbb {R} ^{k};,}existe un máximo único {displaystyle {sombrero {theta}}en Theta}si la matriz de segundos parciales{displaystyle mathbf {H} (theta)equiv left[,{frac {parcial ^{2}L}{,parcial theta _{i},parcial theta_{ j},}},right]_{i,j=1,1}^{n_{mathrm {i} },n_{mathrm {j} }};}es definida negativa para todo { estilo de visualización ,  theta  en  Theta ,}en el que el gradiente {displaystyle ;nabla Lequiv left[,{frac {parcial L}{,parcial theta _{i},}},right]_{i=1}^ {n_{matemáticas {i} }};}se desvanece,

y si{displaystyle lim _{theta to parcial Theta }L(theta)=0;,}

es decir, la función de verosimilitud se aproxima a una constante en el límite del espacio de parámetros, {displaystyle ;parcial Theta ;,}que puede incluir los puntos en el infinito si { estilo de visualización ,  Theta ,}no está acotado. Mäkeläinen et al. Demuestre este resultado usando la teoría de Morse mientras apela informalmente a una propiedad de un paso de montaña. Mascarenhas reafirma su prueba usando el teorema del paso de montaña.

En las pruebas de consistencia y normalidad asintótica del estimador de máxima verosimilitud, se hacen suposiciones adicionales sobre las densidades de probabilidad que forman la base de una función de verosimilitud particular. Estas condiciones fueron establecidas por primera vez por Chanda. En particular, para casi todos X, y para todos{ estilo de visualización ,  theta  en  Theta ,,}{displaystyle {frac {parcial log f}{parcial theta _{r}}},,quad {frac {parcial ^{2}log f}{parcial theta_{ r}parcial theta _{s}}},,quad {frac {parcial ^{3}log f}{parcial theta _{r},parcial theta _{s} ,parcial theta _{t}}},}

existen para todos { estilo de visualización , r, s, t = 1,2,  ldots, k ,}con el fin de asegurar la existencia de una expansión de Taylor. En segundo lugar, para casi todos Xy para todos { estilo de visualización ,  theta  en  Theta ,}debe ser que{displaystyle left|{frac {parcial f}{parcial theta _{r}}}right|<F_{r}(x),,quad left|{frac {parcial ^{2}f}{parcial theta _{r},parcial theta _{s}}}right|<F_{rs}(x),,quad left|{frac { parcial ^{3}f}{parcial theta _{r},parcial theta _{s},parcial theta _{t}}}right|<H_{rst}(x) }

donde Hes tal que {displaystyle ,int _{-infty }^{infty }H_{rst}(z)mathrm {d} zleq M<infty ;.}Esta acotación de las derivadas es necesaria para permitir la diferenciación bajo el signo integral. Y por último, se supone que la matriz de información,{displaystyle mathbf {I} (theta)=int _{-infty }^{infty }{frac {parcial log f}{parcial theta _{r}}} { frac {parcial log f}{parcial theta _{s}}} f mathrm {d} z}

es definida positiva y {displaystyle ,left|mathbf {I} (theta)right|,}es finita. Esto asegura que la puntuación tenga una varianza finita.

Las condiciones anteriores son suficientes, pero no necesarias. Es decir, un modelo que no cumpla con estas condiciones de regularidad puede tener o no un estimador de máxima verosimilitud de las propiedades mencionadas anteriormente. Además, en el caso de observaciones distribuidas de manera no independiente o no idéntica, es posible que sea necesario asumir propiedades adicionales.

En las estadísticas bayesianas, se imponen condiciones de regularidad casi idénticas a la función de verosimilitud para probar la normalidad asintótica de la probabilidad posterior y, por lo tanto, para justificar una aproximación de Laplace de la posterior en muestras grandes.

Razón de verosimilitud y verosimilitud relativa

Índice de probabilidad

Una razón de verosimilitud es la razón de dos probabilidades especificadas, frecuentemente escrita como:{displaystyle Lambda (theta_{1}:theta_{2}mid x)={frac {{mathcal {L}}(theta_{1}mid x)}{{ matemática {L}}(theta _{2}mid x)}}}

La razón de verosimilitud es fundamental para las estadísticas verosímiles: la ley de probabilidad establece que el grado en que los datos (considerados como evidencia) respaldan el valor de un parámetro frente a otro se mide mediante la razón de verosimilitud.

En la inferencia frecuentista, la razón de verosimilitud es la base para una estadística de prueba, la llamada prueba de razón de verosimilitud. Según el lema de Neyman-Pearson, esta es la prueba más poderosa para comparar dos hipótesis simples en un nivel de significación dado. Muchas otras pruebas pueden verse como pruebas de razón de verosimilitud o aproximaciones de las mismas. La distribución asintótica del logaritmo de la razón de verosimilitud, considerada como un estadístico de prueba, viene dada por el teorema de Wilks.

La relación de verosimilitud también tiene una importancia central en la inferencia bayesiana, donde se conoce como el factor de Bayes y se usa en la regla de Bayes. Expresada en términos de probabilidades, la regla de Bayes establece que las probabilidades posteriores de dos alternativas A_{1}y A_{2}, dado un evento B, son las probabilidades anteriores multiplicadas por la razón de probabilidad. Como una ecuación:{displaystyle O(A_{1}:A_{2}mid B)=O(A_{1}:A_{2})cdot Lambda (A_{1}:A_{2}mid B). }

La razón de verosimilitud no se usa directamente en las estadísticas basadas en AIC. En cambio, lo que se usa es la probabilidad relativa de los modelos (ver más abajo).

Función de verosimilitud relativa

Dado que el valor real de la función de verosimilitud depende de la muestra, a menudo es conveniente trabajar con una medida estandarizada. Suponga que la estimación de máxima verosimilitud para el parámetro θ es hat{theta}. Las plausibilidades relativas de otros valores de θ se pueden encontrar comparando las probabilidades de esos otros valores con la probabilidad de hat{theta}. La probabilidad relativa de θ se define como{displaystyle R(theta)={frac {{mathcal {L}}(theta mid x)}{{mathcal {L}}({hat {theta }}mid x)} }.}

Por lo tanto, la verosimilitud relativa es la razón de verosimilitud (discutida anteriormente) con el denominador fijo {displaystyle {mathcal {L}}({sombrero {theta }})}. Esto corresponde a estandarizar la probabilidad de tener un máximo de 1.

Región de probabilidad

Una región de probabilidad es el conjunto de todos los valores de θ cuya probabilidad relativa es mayor o igual a un umbral dado. En términos de porcentajes, una región de verosimilitud p % para θ se define como{displaystyle left{theta:R(theta)geq {frac {p}{100}}right}.}

Si θ es un único parámetro real, una región de verosimilitud de p % generalmente comprenderá un intervalo de valores reales. Si la región comprende un intervalo, entonces se llama intervalo de verosimilitud.

Los intervalos de probabilidad, y más generalmente las regiones de probabilidad, se utilizan para la estimación de intervalos dentro de las estadísticas verosímiles: son similares a los intervalos de confianza en las estadísticas frecuentistas y los intervalos creíbles en las estadísticas bayesianas. Los intervalos de probabilidad se interpretan directamente en términos de probabilidad relativa, no en términos de probabilidad de cobertura (frecuencia) o probabilidad posterior (bayesianismo).

Dado un modelo, los intervalos de probabilidad se pueden comparar con los intervalos de confianza. Si θ es un único parámetro real, entonces, bajo ciertas condiciones, un intervalo de probabilidad del 14,65 % (alrededor de 1:7 de probabilidad) para θ será igual a un intervalo de confianza del 95 % (probabilidad de cobertura 19/20). En una formulación ligeramente diferente adecuada para el uso de log-verosimilitudes (ver el teorema de Wilks), el estadístico de prueba es el doble de la diferencia en log-verosimilitudes y la distribución de probabilidad del estadístico de prueba es aproximadamente una distribución de chi-cuadrado con grados de -libertad (gl) igual a la diferencia de gl entre los dos modelos (por lo tanto, el intervalo de verosimilitud e es el mismo que el intervalo de confianza de 0,954; suponiendo que la diferencia de gl sea 1).

Probabilidades que eliminan parámetros molestos

En muchos casos, la probabilidad es una función de más de un parámetro, pero el interés se centra en la estimación de uno solo, o como mucho de algunos de ellos, considerándose los demás como parámetros molestos. Se han desarrollado varios enfoques alternativos para eliminar dichos parámetros molestos, de modo que se pueda escribir una probabilidad como una función solo del parámetro (o parámetros) de interés: los enfoques principales son las probabilidades de perfil, condicional y marginal. Estos enfoques también son útiles cuando una superficie de probabilidad de alta dimensión debe reducirse a uno o dos parámetros de interés para permitir un gráfico.

Probabilidad de perfil

Es posible reducir las dimensiones concentrando la función de verosimilitud para un subconjunto de parámetros expresando los parámetros molestos como funciones de los parámetros de interés y reemplazándolos en la función de verosimilitud. En general, para una función de verosimilitud que depende del vector de parámetros en el mathbf {theta}que se puede dividir {displaystyle mathbf {theta } =left(mathbf {theta } _{1}:mathbf {theta } _{2}right)}y donde una correspondencia {displaystyle mathbf {hat {theta }} _{2}=mathbf {hat {theta }} _{2}left(mathbf {theta }_{1}right)}se puede determinar explícitamente, la concentración reduce la carga computacional del problema de maximización original.

Por ejemplo, en una regresión lineal con errores normalmente distribuidos {displaystyle mathbf {y} =mathbf {X} beta +u}, el vector de coeficientes podría dividirse en { estilo de visualización  beta =  izquierda [ beta _ {1}:  beta _ {2}  derecha]}(y, en consecuencia, la matriz de diseño {displaystyle mathbf {X} =left[mathbf {X}_{1}:mathbf {X}_{2}right]}). Maximizar con respecto a { estilo de visualización  beta _ {2}}produce una función de valor óptimo {displaystyle beta_{2}(beta_{1})=left(mathbf {X}_{2}^{mathsf {T}}mathbf {X}_{2}right) ^{-1}mathbf {X} _{2}^{mathsf {T}}left(mathbf {y} -mathbf {X}_{1}beta_{1}right)}. Usando este resultado, el estimador de máxima verosimilitud para { estilo de visualización  beta _ {1}}puede derivarse como{displaystyle {hat {beta }}_{1}=left(mathbf {X} _{1}^{mathsf {T}}left(mathbf {I} -mathbf {P} _ {2}right)mathbf {X}_{1}right)^{-1}mathbf {X}_{1}^{mathsf {T}}left(mathbf {I} - mathbf {P} _{2}right)mathbf {y} }

donde {displaystyle mathbf {P}_{2}=mathbf {X}_{2}left(mathbf {X}_{2}^{mathsf {T}}mathbf {X}_{2 }right)^{-1}mathbf {X} _{2}^{mathsf {T}}}es la matriz de proyección de { estilo de visualización  mathbf {X} _ {2}}. Este resultado se conoce como el teorema de Frisch-Waugh-Lovell.

Dado que gráficamente el procedimiento de concentración es equivalente a cortar la superficie de probabilidad a lo largo de la cresta de los valores del parámetro perturbador { estilo de visualización  beta _ {2}}que maximiza la función de probabilidad, creando un perfil isométrico de la función de probabilidad para un determinado { estilo de visualización  beta _ {1}}, el resultado de este procedimiento también se conoce como perfil probabilidad _ Además de graficarse, la verosimilitud del perfil también se puede usar para calcular intervalos de confianza que a menudo tienen mejores propiedades para muestras pequeñas que los basados ​​en errores estándar asintóticos calculados a partir de la verosimilitud total.

Probabilidad condicional

A veces es posible encontrar una estadística suficiente para los parámetros molestos, y el condicionamiento sobre esta estadística da como resultado una probabilidad que no depende de los parámetros molestos.

Un ejemplo ocurre en las tablas de 2 × 2, donde el condicionamiento de los cuatro totales marginales conduce a una probabilidad condicional basada en la distribución hipergeométrica no central. Esta forma de condicionamiento es también la base de la prueba exacta de Fisher.

Probabilidad marginal

A veces, podemos eliminar los parámetros molestos al considerar una probabilidad basada solo en una parte de la información de los datos, por ejemplo, al usar el conjunto de rangos en lugar de los valores numéricos. Otro ejemplo ocurre en los modelos mixtos lineales, donde considerar una probabilidad para los residuos solo después de ajustar los efectos fijos conduce a una estimación de máxima verosimilitud residual de los componentes de la varianza.

Probabilidad parcial

Una verosimilitud parcial es una adaptación de la verosimilitud total tal que sólo una parte de los parámetros (los parámetros de interés) ocurren en ella. Es un componente clave del modelo de riesgos proporcionales: al usar una restricción en la función de riesgo, la probabilidad no contiene la forma del riesgo a lo largo del tiempo.

Productos de probabilidades

La probabilidad, dados dos o más eventos independientes, es el producto de las probabilidades de cada uno de los eventos individuales:{displaystyle Lambda (Amid X_{1}land X_{2})=Lambda (Amid X_{1})cdot Lambda (Amid X_{2})}

Esto se deriva de la definición de independencia en probabilidad: las probabilidades de que sucedan dos eventos independientes, dado un modelo, es el producto de las probabilidades.

Esto es particularmente importante cuando los eventos provienen de variables aleatorias independientes e idénticamente distribuidas, como observaciones independientes o muestreo con reemplazo. En tal situación, la función de probabilidad se factoriza en un producto de funciones de probabilidad individuales.

El producto vacío tiene el valor 1, que corresponde a la probabilidad, sin ningún evento, siendo 1: antes de cualquier dato, la probabilidad siempre es 1. Esto es similar a un previo uniforme en las estadísticas bayesianas, pero en las estadísticas verosímiles esto no es impropio. antes porque las probabilidades no están integradas.

Log-verosimilitud

La función de verosimilitud logarítmica es una transformación logarítmica de la función de verosimilitud, a menudo denotada por una l minúscula o ana, para contrastar con la L mayúscula o { matemáticas {L}}para la probabilidad. Debido a que los logaritmos son funciones estrictamente crecientes, maximizar la probabilidad es equivalente a maximizar la probabilidad logarítmica. Pero para fines prácticos es más conveniente trabajar con la función de verosimilitud logarítmica en la estimación de máxima verosimilitud, en particular porque las distribuciones de probabilidad más comunes, en particular la familia exponencial, son solo logarítmicamente cóncavas, y la concavidad de la función objetivo juega un papel clave en la maximización.

Dada la independencia de cada evento, la probabilidad logarítmica general de intersección es igual a la suma de las probabilidades logarítmicas de los eventos individuales. Esto es análogo al hecho de que la probabilidad logarítmica general es la suma de la probabilidad logarítmica de los eventos individuales. Además de la conveniencia matemática de esto, el proceso de suma de log-verosimilitud tiene una interpretación intuitiva, expresada a menudo como "apoyo" de los datos. Cuando los parámetros se estiman usando el log-verosimilitud para la estimación de máxima verosimilitud, cada punto de datos se usa al sumarse al log-verosimilitud total. Dado que los datos pueden verse como una evidencia que respalda los parámetros estimados, este proceso puede interpretarse como "el apoyo de evidencia independiente agrega",y el log-verosimilitud es el "peso de la evidencia". Interpretando la log-probabilidad negativa como contenido de información o sorpresa, el soporte (log-verosimilitud) de un modelo, dado un evento, es el negativo de la sorpresa del evento, dado el modelo: un modelo está respaldado por un evento en la medida que el evento no es sorprendente, dado el modelo.

Un logaritmo de una razón de verosimilitud es igual a la diferencia de las verosimilitudes logarítmicas:{displaystyle log {frac {L(A)}{L(B)}}=log L(A)-log L(B)=ell (A)-ell (B).}

Así como la probabilidad, sin evento, es 1, la probabilidad logarítmica, sin evento, es 0, que corresponde al valor de la suma vacía: sin ningún dato, no hay soporte para ningún modelo.

Grafico

La gráfica del log-verosimilitud se denomina curva de soporte (en el caso univariante).. En el caso multivariado, el concepto se generaliza en una superficie de apoyo sobre el espacio de parámetros. Tiene una relación con el soporte de una distribución, pero es distinto de él.

El término fue acuñado por AWF Edwards en el contexto de la prueba estadística de hipótesis, es decir, si los datos "respaldan" o no una hipótesis (o valor de parámetro) que se prueba más que cualquier otra.

La función de logaritmo de verosimilitud que se está representando se utiliza en el cálculo de la puntuación (el gradiente del logaritmo de verosimilitud) y la información de Fisher (la curvatura del logaritmo de verosimilitud). Este gráfico tiene una interpretación directa en el contexto de la estimación de máxima verosimilitud y las pruebas de razón de verosimilitud.

Ecuaciones de probabilidad

Si la función logarítmica de verosimilitud es suave, su gradiente con respecto al parámetro, conocido como puntaje y escrito {displaystyle s_{n}(theta)equiv nabla_{theta }ell_{n}(theta)}, existe y permite la aplicación del cálculo diferencial. La forma básica de maximizar una función diferenciable es encontrar los puntos estacionarios (los puntos donde la derivada es cero); dado que la derivada de una suma es solo la suma de las derivadas, pero la derivada de un producto requiere la regla del producto, es más fácil calcular los puntos estacionarios del log-verosimilitud de eventos independientes que para la probabilidad de eventos independientes.

Las ecuaciones definidas por el punto estacionario de la función de puntuación sirven como ecuaciones de estimación para el estimador de máxima verosimilitud.{displaystyle s_{n}(theta)=mathbf {0} }

En ese sentido, el estimador de máxima verosimilitud está implícitamente definido por el valor en mathbf {0}de la función inversa {displaystyle s_{n}^{-1}:mathbb {E} ^{d}to Theta }, donde { estilo de visualización  mathbb {E} ^ {d}}es el espacio euclidiano dTheta -dimensional, y es el espacio de parámetros. Usando el teorema de la función inversa, se puede demostrar que {displaystyle s_{n}^{-1}}está bien definida en una vecindad abierta mathbf {0}con una probabilidad de uno, y {displaystyle {sombrero {theta }}_{n}=s_{n}^{-1}(mathbf {0})}es una estimación consistente de  theta. Como consecuencia existe una secuencia {displaystyle left{{sombrero {theta}}_{n}right}}tal que {displaystyle s_{n}({sombrero {theta }}_{n})=mathbf {0} }asintóticamente casi seguro, y {displaystyle {sombrero {theta }}_{n}{xrightarrow {text{p}}}theta _{0}}. Se puede establecer un resultado similar utilizando el teorema de Rolle.

La segunda derivada evaluada en hat{theta}, conocida como información de Fisher, determina la curvatura de la superficie de probabilidad y, por lo tanto, indica la precisión de la estimación.

Familias exponenciales

El log-verosimilitud también es particularmente útil para familias exponenciales de distribuciones, que incluyen muchas de las distribuciones de probabilidad paramétricas comunes. La función de distribución de probabilidad (y, por lo tanto, la función de probabilidad) para familias exponenciales contiene productos de factores que involucran exponenciación. El logaritmo de tal función es una suma de productos, nuevamente más fácil de diferenciar que la función original.

Una familia exponencial es aquella cuya función de densidad de probabilidad tiene la forma (para algunas funciones, escribir {displaystyle langle -,-rangle }para el producto interno):{displaystyle p(xmid {boldsymbol {theta }})=h(x)exp {Big (}langle {boldsymbol {eta }}({boldsymbol {theta }}), mathbf {T} (x)rangle -A({boldsymbol {theta }}){Big)}.}

Cada uno de estos términos tiene una interpretación, pero simplemente cambiando de probabilidad a verosimilitud y tomando logaritmos se obtiene la suma:{displaystyle ell ({boldsymbol {theta }}mid x)=langle {boldsymbol {eta }}({boldsymbol {theta }}),mathbf {T} (x)rangle -A({boldsymbol {theta }})+log h(x).}

Los {displaystyle {boldsymbol {eta }}({boldsymbol {theta }})}y h(x)cada uno corresponden a un cambio de coordenadas, por lo que en estas coordenadas, la probabilidad logarítmica de una familia exponencial viene dada por la fórmula simple:{displaystyle ell ({boldsymbol {eta }}mid x)=langle {boldsymbol {eta }},mathbf {T} (x)rangle -A({boldsymbol {eta } }).}

En palabras, la verosimilitud logarítmica de una familia exponencial es el producto interno del parámetro natural { símbolo de negrita { eta}}y la estadística suficiente mathbf {T} (x), menos el factor de normalización (función de partición logarítmica) A({ símbolo de negrita { eta}}). Así, por ejemplo, la estimación de máxima verosimilitud se puede calcular tomando derivadas de la estadística suficiente T y la función de partición logarítmica A.

Ejemplo: la distribución gamma

La distribución gamma es una familia exponencial con dos parámetros, alfay beta. La función de verosimilitud es{displaystyle {mathcal {L}}(alpha,beta mid x)={frac {beta ^{alpha }}{Gamma (alpha)}}x^{alpha -1} e^{-betax}.}

Encontrar la estimación de máxima verosimilitud de betapara un solo valor observado Xparece bastante desalentador. Su logaritmo es mucho más simple de trabajar:{displaystyle log {mathcal {L}}(alpha,beta mid x)=alpha log beta -log Gamma (alpha)+(alpha -1)log x- beta x.,}

Para maximizar la log-verosimilitud, primero tomamos la derivada parcial con respecto a beta:{displaystyle {frac {parcial log {mathcal {L}}(alpha,beta mid x)}{parcial beta }}={frac {alpha }{beta }}- X.}

Si hay un número de observaciones independientes x_{1},ldots,x_{n}, entonces la verosimilitud logarítmica conjunta será la suma de las verosimilitudes logarítmicas individuales, y la derivada de esta suma será la suma de las derivadas de cada verosimilitud logarítmica individual:{displaystyle {begin{alineado}&{frac {parcial log {mathcal {L}}(alpha,beta mid x_{1},ldots,x_{n})}{parcial beta }}\={}&{frac {parcial log {mathcal {L}}(alpha,beta mid x_{1})}{parcial beta }}+cdots + {frac {parcial log {mathcal {L}}(alpha,beta mid x_{n})}{parcial beta }}={frac {nalpha }{beta }} -sum _{i=1}^{n}x_{i}.end{alineado}}}

Para completar el procedimiento de maximización de la verosimilitud logarítmica conjunta, la ecuación se establece en cero y se resuelve para beta:{displaystyle {widehat {beta }}={frac {alpha }{bar {x}}}.}

Aquí {displaystyle {widehat {beta}}}denota la estimación de máxima verosimilitud y {displaystyle textstyle {bar {x}}={frac {1}{n}}sum _{i=1}^{n}x_{i}}es la media muestral de las observaciones.

Antecedentes e interpretación

Observaciones históricas

El término "probabilidad" se ha utilizado en inglés desde al menos finales del inglés medio. Ronald Fisher propuso su uso formal para referirse a una función específica en estadística matemática, en dos artículos de investigación publicados en 1921 y 1922. El artículo de 1921 introdujo lo que hoy se llama un "intervalo de probabilidad"; el documento de 1922 introdujo el término "método de máxima verosimilitud". Citando a Fisher:

[E]n 1922 propuse el término 'verosimilitud', en vista de que, con respecto a [el parámetro], no es una probabilidad, y no obedece a las leyes de la probabilidad, mientras que al mismo tiempo tiene con el problema de la elección racional entre los valores posibles de [el parámetro] una relación similar a la que tiene la probabilidad con el problema de predecir eventos en los juegos de azar.... Mientras que, sin embargo, en relación con el juicio psicológico, la probabilidad tiene cierta semejanza con la probabilidad, los dos conceptos son totalmente distintos...."

El concepto de verosimilitud no debe confundirse con probabilidad como lo menciona Sir Ronald Fisher

Subrayo esto porque a pesar del énfasis que siempre he puesto sobre la diferencia entre probabilidad y verosimilitud, todavía hay una tendencia a tratar la probabilidad como si fuera una especie de probabilidad. El primer resultado es, pues, que hay dos medidas diferentes de creencia racional apropiadas para casos diferentes. Conociendo la población, podemos expresar nuestro conocimiento incompleto o expectativa de la muestra en términos de probabilidad; conociendo la muestra podemos expresar nuestro conocimiento incompleto de la población en términos de verosimilitud.

La invención de Fisher de la probabilidad estadística fue una reacción contra una forma anterior de razonamiento llamada probabilidad inversa. Su uso del término "probabilidad" fijó el significado del término dentro de las estadísticas matemáticas.

AWF Edwards (1972) estableció la base axiomática para el uso de la razón de verosimilitud logarítmica como medida del apoyo relativo de una hipótesis frente a otra. La función de soporte es entonces el logaritmo natural de la función de verosimilitud. Ambos términos se utilizan en filogenética, pero no se adoptaron en un tratamiento general del tema de la evidencia estadística.

Interpretaciones bajo diferentes fundamentos

Entre los estadísticos, no hay consenso sobre cuál debe ser la base de las estadísticas. Hay cuatro paradigmas principales que se han propuesto para la fundación: frecuentismo, bayesianismo, verosimilitud y basado en AIC. Para cada uno de los fundamentos propuestos, la interpretación de verosimilitud es diferente. Las cuatro interpretaciones se describen en las subsecciones siguientes.

Interpretación frecuentista

Interpretación bayesiana

En la inferencia bayesiana, aunque se puede hablar de la probabilidad de cualquier proposición o variable aleatoria dada otra variable aleatoria: por ejemplo, la probabilidad de un valor de parámetro o de un modelo estadístico (ver probabilidad marginal), dados datos específicos u otra evidencia, la probabilidad la función sigue siendo la misma entidad, con las interpretaciones adicionales de (i) una densidad condicional de los datos dado el parámetro (dado que el parámetro es entonces una variable aleatoria) y (ii) una medida o cantidad de información aportada por los datos sobre el parámetro valor o incluso el modelo. Debido a la introducción de una estructura de probabilidad en el espacio de parámetros o en la recopilación de modelos, es posible que un valor de parámetro o un modelo estadístico tenga un valor de probabilidad grande para datos dados y, sin embargo, tenga un valor de probabilidad bajo.probabilidad, o viceversa. Este suele ser el caso en contextos médicos. Siguiendo la regla de Bayes, la probabilidad, cuando se ve como una densidad condicional, puede multiplicarse por la densidad de probabilidad anterior del parámetro y luego normalizarse para dar una densidad de probabilidad posterior. Más generalmente, la probabilidad de una cantidad desconocida Xdada otra cantidad desconocida Yes proporcional a la probabilidad de dada.

Interpretación verosímil

En las estadísticas frecuentistas, la función de verosimilitud es en sí misma una estadística que resume una sola muestra de una población, cuyo valor calculado depende de la elección de varios parámetros θ 1... θ p, donde p es el recuento de parámetros en algunos ya seleccionados modelo estadístico. El valor de la verosimilitud sirve como figura de mérito para la elección utilizada para los parámetros, y el conjunto de parámetros con máxima verosimilitud es la mejor elección, dados los datos disponibles.

El cálculo específico de la verosimilitud es la probabilidad de que se asigne la muestra observada, suponiendo que el modelo elegido y los valores de los diversos parámetros θ dan una aproximación precisa de la distribución de frecuencias de la población de la que se extrajo la muestra observada. Heurísticamente, tiene sentido que una buena elección de parámetros sean aquellos que hacen que la muestra realmente observada tenga la máxima probabilidad post-hoc posible de que haya sucedido. El teorema de Wilks cuantifica la regla heurística mostrando que la diferencia en el logaritmo de la probabilidad generada por los valores de los parámetros de la estimación y el logaritmo de la probabilidad generada por los valores de los parámetros "verdaderos" (pero desconocidos) de la población tiene una distribución asintótica de χ.

La estimación de máxima verosimilitud de cada muestra independiente es una estimación separada del conjunto de parámetros "verdaderos" que describen la población muestreada. Las estimaciones sucesivas de muchas muestras independientes se agruparán junto con el conjunto "verdadero" de valores de parámetros de la población escondidos en algún lugar entre ellos. La diferencia en los logaritmos de la máxima verosimilitud y las verosimilitudes de los conjuntos de parámetros adyacentes se puede utilizar para dibujar una región de confianza en un gráfico cuyas coordenadas son los parámetros θ 1... θ p. La región rodea la estimación de máxima verosimilitud y todos los puntos (conjuntos de parámetros) dentro de esa región difieren como máximo en logaritmo de verosimilitud en algún valor fijo. La distribución χ dada por el teorema de Wilks convierte las diferencias de probabilidad logarítmica de la región en la "confianza" de que el conjunto de parámetros "verdaderos" de la población se encuentra dentro. El arte de elegir la diferencia logarítmica de verosimilitud fija es hacer que la confianza sea aceptablemente alta mientras se mantiene la región aceptablemente pequeña (rango estrecho de estimaciones).

A medida que se observan más datos, en lugar de usarse para hacer estimaciones independientes, se pueden combinar con las muestras anteriores para hacer una sola muestra combinada, y esa muestra grande se puede usar para una nueva estimación de máxima verosimilitud. A medida que aumenta el tamaño de la muestra combinada, se reduce el tamaño de la región de probabilidad con la misma confianza. Eventualmente, el tamaño de la región de confianza es casi un solo punto, o se ha muestreado a toda la población; en ambos casos, el conjunto de parámetros estimados es esencialmente el mismo que el conjunto de parámetros de la población.

Interpretación basada en AIC

Bajo el paradigma AIC, la probabilidad se interpreta dentro del contexto de la teoría de la información.