Función de probabilidad

ImprimirCitar
Función relacionada con las estadísticas y la teoría de probabilidad

El función de probabilidad (a menudo simplemente llamado ♪♪) representa la probabilidad de realizaciones variables aleatorias condicionadas a valores particulares de los parámetros estadísticos. Así, cuando se evalúa en una muestra dada, la función de probabilidad indica qué valores de parámetro son más probablemente que otros, en el sentido de que habrían hecho los datos observados más probables. En consecuencia, la probabilidad se escribe a menudo como L()Silencio Silencio ▪ ▪ X){displaystyle {mathcal {L} {theta mid X)} en lugar de P()X▪ ▪ Silencio Silencio ){displaystyle P(Xmid theta)}, para subrayar que debe entenderse como una función de los parámetros Silencio Silencio {displaystyle theta } en lugar de la variable aleatoria X{displaystyle X}.

En la estimación de probabilidad máxima, el arg max de la función de probabilidad sirve como un punto estimado para Silencio Silencio {displaystyle theta }, mientras que la curvatura local (aproximada por la matriz hesiana de la probabilidad) indica la precisión de la estimación. Mientras tanto, en las estadísticas bayesianas, las estimaciones del parámetro se derivan del contrario de la probabilidad, la llamada probabilidad posterior, que se calcula a través de la regla de Bayes.

Definición

La función de probabilidad, parametrada por un parámetro (posiblemente multivariable) Silencio Silencio {displaystyle theta }, generalmente se define de manera diferente para las distribuciones de probabilidad discretas y continuas (una definición más general se discute a continuación). Dada una densidad de probabilidad o función de masa

x↦ ↦ f()x▪ ▪ Silencio Silencio ),{displaystyle xmapsto f(xmid theta),!}

Donde x{displaystyle x} es una realización de la variable aleatoria X{displaystyle X}, la función de probabilidad es

Silencio Silencio ↦ ↦ f()x▪ ▪ Silencio Silencio ),{displaystyle theta mapsto f(xmid theta),!}

a menudo escrito

L()Silencio Silencio ▪ ▪ x).{displaystyle {mathcal {L}(theta mid x).!}

En otras palabras, cuando f()x▪ ▪ Silencio Silencio ){displaystyle f(xmid theta)} se considera una función de x{displaystyle x} con Silencio Silencio {displaystyle theta } fijo, es una función de densidad de probabilidad, y cuando se ve como una función Silencio Silencio {displaystyle theta } con x{displaystyle x} fijo, es una función de probabilidad. La función de probabilidad sí no especificar la probabilidad de que Silencio Silencio {displaystyle theta } es la verdad, dada la muestra observada X=x{displaystyle X=x}. Tal interpretación es un error común, con consecuencias potencialmente desastrosas (ver la falacia del fiscal).

Distribución de probabilidad discreta

Vamos X{displaystyle X} ser una variable discreta aleatoria con función de masa de probabilidad p{displaystyle p} dependiendo de un parámetro Silencio Silencio {displaystyle theta }. Luego la función

L()Silencio Silencio ▪ ▪ x)=pSilencio Silencio ()x)=PSilencio Silencio ()X=x),{displaystyle {mathcal {L}(theta mid x)=p_{theta }(x)=P_{theta }(X=x),}

considerada como una función Silencio Silencio {displaystyle theta }, es el función de probabilidad, dado el resultado x{displaystyle x} de la variable aleatoria X{displaystyle X}. A veces la probabilidad de "el valor x{displaystyle x} de X{displaystyle X} para el valor del parámetro Silencio Silencio {displaystyle theta }"Está escrito como P()X = x Silencio Silencio) o P()X = x; Silencio). La probabilidad es la probabilidad de que un resultado particular x{displaystyle x} se observa cuando el valor verdadero del parámetro es Silencio Silencio {displaystyle theta }, equivalente a la masa de probabilidad en x{displaystyle x}; es no una densidad de probabilidad sobre el parámetro Silencio Silencio {displaystyle theta }. La probabilidad, L()Silencio Silencio ▪ ▪ x){displaystyle {mathcal}(theta mid x)}, no debe confundirse con P()Silencio Silencio ▪ ▪ x){displaystyle P(theta mid x)}, que es la probabilidad posterior de Silencio Silencio {displaystyle theta } dados los datos x{displaystyle x}.

Si no hay ningún evento (sin datos), la probabilidad es 1; cualquier evento no trivial tendrá una probabilidad menor.

Ejemplo

Gráfico 1. Función de probabilidad (pH2{displaystyle ¿Qué?) para la probabilidad de un aterrizaje de monedas cabeza arriba (sin conocimiento previo de la equidad de la moneda), dado que hemos observado HH.
Gráfico 2. Función de probabilidad (pH2()1− − pH){displaystyle p_{text{H} {2}(1-p_{H}}}) para la probabilidad de un aterrizaje de monedas cabeza arriba (sin conocimiento previo de la equidad de la moneda), dado que hemos observado HHT.

Considere un modelo estadístico simple de una moneda flip: un solo parámetro pH{displaystyle p_{text{H}} que expresa la "fairidad" de la moneda. El parámetro es la probabilidad de que una moneda aterrice ("H") cuando se lanza. pH{displaystyle p_{text{H}} puede tomar cualquier valor dentro del rango 0.0 a 1.0. Para una moneda perfectamente justa, pH=0.5{displaystyle P_{text{H}=0.5}.

Imagine lanzar una moneda al aire dos veces y observar dos caras en dos lanzamientos ("HH"). Suponiendo que cada lanzamiento de moneda sucesivo es i.i.d., entonces la probabilidad de observar HH es

P()HH▪ ▪ pH=0.5)=0.52=0.25.{displaystyle P({text{HH}mid p_{H}=0.5)=0.5^{2}=0.25}

Equivalentemente, la probabilidad de Silencio Silencio =0.5{displaystyle theta =0.5} dado que "HH" fue observado es 0.25:

L()pH=0.5▪ ▪ HH)=0.25.{fnMicrosoft Sans Serif}=0.25}

Esto no es lo mismo que decir que P()pH=0.5▪ ▪ HH)=0,25{displaystyle P(p_{text{H}=0.5mid HH)=0.25}, una conclusión que sólo se puede llegar a través del teorema de Bayes dado conocimiento sobre las probabilidades marginales P()pH=0.5){displaystyle P(p_{h}=0.5)} y P()HH){displaystyle P(HHH)}.

Ahora supongamos que la moneda no es una moneda justa, sino que pH=0.3{displaystyle P_{text{H}=0.3}. Entonces la probabilidad de dos cabezas en dos vueltas es

P()HH▪ ▪ pH=0.3)=0.32=0.09.{displaystyle P({text{HH}mid p_{text{H}=0.3)=0.3^{2}=0.09.}

Por lo tanto

L()pH=0.3▪ ▪ HH)=0.09.{displaystyle {Mathcal {L}(p_{text{H}=0.3mid {text{HH})=0.09.}

Más generalmente, por cada valor pH{displaystyle p_{text{H}}, podemos calcular la probabilidad correspondiente. El resultado de estos cálculos se muestra en la Figura 1. Note that the integral of L{displaystyle {fnMithcal}} más [0, 1] es 1/3; las probabilidades no necesitan integrarse ni sumarse a una sobre el espacio del parámetro.

Distribución de probabilidad continua

Vamos X{displaystyle X} ser una variable aleatoria siguiendo una distribución de probabilidad absolutamente continua con función de densidad f{displaystyle f} (una función de x{displaystyle x}) que depende de un parámetro Silencio Silencio {displaystyle theta }. Luego la función

L()Silencio Silencio ▪ ▪ x)=fSilencio Silencio ()x),{displaystyle {mathcal {L}(theta mid x)=f_{theta }(x),,}

considerada como una función Silencio Silencio {displaystyle theta }, es el función de probabilidad (de Silencio Silencio {displaystyle theta }, dado el resultado X=x{displaystyle X=x}). Una vez más, note que L{displaystyle {fnMithcal}} no es una densidad de probabilidad o función de masa sobre Silencio Silencio {displaystyle theta }, a pesar de ser una función de Silencio Silencio {displaystyle theta } dada la observación X=x{displaystyle X=x}.

Relación entre las funciones de probabilidad y densidad de probabilidad

El uso de la densidad de probabilidad en la especificación de la función de probabilidad anterior se justifica como sigue. Dada una observación xj{displaystyle x_{j}, la probabilidad para el intervalo [xj,xj+h]{displaystyle [x_{j},x_{j}+h], donde 0}" xmlns="http://www.w3.org/1998/Math/MathML">h■0{displaystyle h confía0}0}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/cbddb7a5cca6170575e4e73e769fbb434c2a3d71" style="vertical-align: -0.338ex; width:5.6ex; height:2.176ex;"/> es una constante, es dada por L()Silencio Silencio ▪ ▪ x▪ ▪ [xj,xj+h]){displaystyle {mathcal {}(theta mid xin) [x_{j},x_{j}+h)}. Observe que

argmaxSilencio Silencio ⁡ ⁡ L()Silencio Silencio ▪ ▪ x▪ ▪ [xj,xj+h])=argmaxSilencio Silencio ⁡ ⁡ 1hL()Silencio Silencio ▪ ▪ x▪ ▪ [xj,xj+h]){displaystyle operatorname {argmax} _{theta }{mathcal {L}(theta mid xin) [x_{j},x_{j}+h)=operatorname {argmax} _{theta }{frac {1}{h}}{mathcal {L} {theta mid xin [x_{j},x_{j}+h)},

desde entonces h{displaystyle h} es positivo y constante. Porque...

argmaxSilencio Silencio ⁡ ⁡ 1hL()Silencio Silencio ▪ ▪ x▪ ▪ [xj,xj+h])=argmaxSilencio Silencio ⁡ ⁡ 1hPr()xj≤ ≤ x≤ ≤ xj+h▪ ▪ Silencio Silencio )=argmaxSilencio Silencio ⁡ ⁡ 1h∫ ∫ xjxj+hf()x▪ ▪ Silencio Silencio )dx,{displaystyle operatorname {argmax} {Theta} {fn} {fn} {fn} {fn} {fn} {fn} {fn} {fnK}} {fnMitcal {}} {fnK} {fnK}} {fnK} {f}fnfnKfnKfnKf}f}}}}}}}}} {fnKfnKfnKf9fnKfnKf9fnKfnKf9fnKfnKfnKfnKfnKf}}}}}fnKf9}}fnKf9}}}}}}}fnKf9fnKf9fnKfnKfnKfnKfnKfnKfnKfnKfnKf9}fnK [x_{j},x_{j}+h)=operatorname {argmax} _{theta }{frac {1}{h}Pr(x_{j}leq xleq x_{j}+hmid theta)=operatorname {argmax} _{theta }{frac {1} {h}int} ¿Por qué?

Donde f()x▪ ▪ Silencio Silencio ){displaystyle f(xmid theta)} es la función de densidad de probabilidad, sigue que

argmaxSilencio Silencio ⁡ ⁡ L()Silencio Silencio ▪ ▪ x▪ ▪ [xj,xj+h])=argmaxSilencio Silencio ⁡ ⁡ 1h∫ ∫ xjxj+hf()x▪ ▪ Silencio Silencio )dx{displaystyle operatorname {argmax} _{theta }{mathcal {L}(theta mid xin) [x_{j},x_{j}+h)=operatorname {argmax} _{theta }{frac {1} {h}int} ¿Por qué?.

El primer teorema fundamental del cálculo establece que

limh→ → 0+1h∫ ∫ xjxj+hf()x▪ ▪ Silencio Silencio )dx=f()xj▪ ▪ Silencio Silencio ).{displaystyle {begin{aligned} âTMa âTMa âTMa 0{+}{frac {1}{h}}int ¿Por qué?

Entonces

argmaxSilencio Silencio ⁡ ⁡ L()Silencio Silencio ▪ ▪ xj)=argmaxSilencio Silencio ⁡ ⁡ [limh→ → 0+L()Silencio Silencio ▪ ▪ x▪ ▪ [xj,xj+h])]=argmaxSilencio Silencio ⁡ ⁡ [limh→ → 0+1h∫ ∫ xjxj+hf()x▪ ▪ Silencio Silencio )dx]=argmaxSilencio Silencio ⁡ ⁡ f()xj▪ ▪ Silencio Silencio ).{displaystyle {begin{aligned} {argmax} _{theta } {Thetamathcal {}}(theta mid x_{j})=operatorname {argmax} _{theta }left[lim _{+}} {mathcal {L} {theta} {theta} {theta {theta} {theta}}} {theta}}} {theta}} {theta} {begin{theta} {begin {begin{begin{begin{}}}}}}}}}}}}}} {begin{begin{begin{begin{beginstyle {begin{begin{begin{begin{begin{begin{}}}}}}}}}}}}}}}}}}}}}}}}}}}} {begin{}}}}}} { [x_{j},x_{j}+h])derecha][4pt]={} {argmax} _{theta. #### {fn} {fnK} {fn}} {fnK}} {fn}} {fn}}} {fn}}} {fn}}} {fn}}}} {fn}}} {fn}}}}}}} {fn}}}}} {f}}}}}} {f} {f}}}} {f}}}}}}f}}}}}}}}}}}}}}}}}}}} {f} {f}} {f}}}}}}}}}}}}}}}}}}}}}}}}} {f} {f} {f} {f}} {f}f}} {f} {f}f}f}}f}}}}}}}}}}}}}}}}}}}}}}}}}f}}}}}}}}} ¿Por qué?

Por lo tanto,

argmaxSilencio Silencio ⁡ ⁡ L()Silencio Silencio ▪ ▪ xj)=argmaxSilencio Silencio ⁡ ⁡ f()xj▪ ▪ Silencio Silencio ),{displaystyle operatorname {argmax} _{theta }{mathcal {L}(theta mid x_{j})=operatorname {argmax} _{theta }f(x_{j}mid theta),!}

y así maximizar la densidad de probabilidad xj{displaystyle x_{j} equivale a maximizar la probabilidad de la observación específica xj{displaystyle x_{j}.

En general

En la teoría de la probabilidad teórica de medida, la función de densidad se define como la derivada de Radon-Nikodym de la distribución de probabilidad en relación con una medida dominante común. La función de verosimilitud es esta densidad interpretada como una función del parámetro, en lugar de la variable aleatoria. Por lo tanto, podemos construir una función de verosimilitud para cualquier distribución, ya sea discreta, continua, mixta o de otro tipo. (Las probabilidades son comparables, por ejemplo, para la estimación de parámetros, solo si son derivados de Radon-Nikodym con respecto a la misma medida dominante).

La discusión anterior sobre la probabilidad de variables aleatorias discretas utiliza la medida de conteo, según la cual la densidad de probabilidad en cualquier resultado es igual a la probabilidad de ese resultado.

Probabilidades para distribuciones mixtas continuas-discretas

Lo anterior se puede ampliar de forma sencilla para permitir el examen de las distribuciones que contienen componentes discretos y continuos. Supongamos que la distribución consiste en una serie de masas de probabilidad discretas pkSilencio Silencio {displaystyle ¿Qué? y una densidad f()x▪ ▪ Silencio Silencio ){displaystyle f(xmid theta)}, donde la suma de todo p{displaystyle p}'s añadido a la integral de f{displaystyle f} es siempre uno. Asumiendo que es posible distinguir una observación correspondiente a una de las masas discretas de probabilidad de una que corresponde al componente de densidad, la función de probabilidad de una observación del componente continuo se puede tratar de la manera indicada anteriormente. Para una observación del componente discreto, la función de probabilidad de una observación del componente discreto es simplemente

L()Silencio Silencio ▪ ▪ x)=pk()Silencio Silencio ),{displaystyle {mathcal {L}(theta mid x)=p_{k}(theta),!}

Donde k{displaystyle k} es el índice de la masa de probabilidad discreta correspondiente a la observación x{displaystyle x}, porque maximizar la masa de probabilidad (o probabilidad) a x{displaystyle x} equivale a maximizar la probabilidad de la observación específica.

El hecho de que la función de probabilidad se pueda definir de una manera que incluya contribuciones que no sean proporcionales (la densidad y la masa de probabilidad) surge de la forma en que la función de probabilidad se define hasta una constante de proporcionalidad, donde esta "continuidad" puede cambiar con la observación x{displaystyle x}, pero no con el parámetro Silencio Silencio {displaystyle theta }.

Condiciones de regularidad

En el contexto de la estimación de parámetros, generalmente se supone que la función de verosimilitud obedece a ciertas condiciones, conocidas como condiciones de regularidad. Estas condiciones se asumen en varias pruebas que involucran funciones de probabilidad y deben verificarse en cada aplicación en particular. Para la estimación de máxima verosimilitud, la existencia de un máximo global de la función de verosimilitud es de suma importancia. Por el teorema del valor extremo, basta que la función de verosimilitud sea continua en un espacio de parámetros compacto para que exista el estimador de máxima verosimilitud. Si bien la suposición de continuidad generalmente se cumple, la suposición de compacidad sobre el espacio de parámetros a menudo no lo es, ya que se desconocen los límites de los valores reales de los parámetros. En ese caso, la concavidad de la función de verosimilitud juega un papel clave.

Más específicamente, si la función de probabilidad es dos veces continuamente diferenciable en el k- espacio de parámetro dimensional .. {displaystyle ,Theta ,} supone ser un subconjunto conectado abierto Rk,{fnMicrosoft Sans Serif} existe un máximo único Silencio Silencio ^ ^ ▪ ▪ .. {displaystyle {hat {theta En "Theta" si la matriz de segundos parciales

H()Silencio Silencio )↑ ↑ [∂ ∂ 2L∂ ∂ Silencio Silencio i∂ ∂ Silencio Silencio j]i,j=1,1ni,nj{displaystyle mathbf {H} (theta)equiv left[,{frac {partial ^{2}L}{,partial theta _{i},partial theta {cHFF},fnMicrosoft Sans Serif} {},n_{mathrm {};} es negativo definido para cada Silencio Silencio ▪ ▪ .. {displaystyle ,theta in Theta ,} en que el gradiente Silencio Silencio L↑ ↑ [∂ ∂ L∂ ∂ Silencio Silencio i]i=1ni{displaystyle ;nabla Lequiv left[\,{frac {partial L}{,partial theta ¿Qué? {}};} desaparece,

y si

limSilencio Silencio → → ∂ ∂ .. L()Silencio Silencio )=0,{displaystyle lim _{theta to partial Theta }L(theta)=0;}

i.e. the likelihood function approaches a constant on the boundary of the parameter space, ∂ ∂ .. ,{displaystyle ;partial Theta ;,} que pueden incluir los puntos en el infinito si .. {displaystyle ,Theta ,} está sin límites. Mäkeläinen et. probar este resultado utilizando Teoría Morse mientras informalmente apela a una propiedad de pase de montaña. Mascarenhas renueva su prueba usando el teorema de pase de montaña.

En las pruebas de consistencia y normalidad asintotica del estimador de probabilidad máxima, se hacen suposiciones adicionales sobre las densidades de probabilidad que forman la base de una función de probabilidad particular. Estas condiciones fueron establecidas por primera vez por Chanda. En particular, para casi todos x{displaystyle x}, y para todos Silencio Silencio ▪ ▪ .. ,{displaystyle ,theta in Theta ,}

∂ ∂ log⁡ ⁡ f∂ ∂ Silencio Silencio r,∂ ∂ 2log⁡ ⁡ f∂ ∂ Silencio Silencio r∂ ∂ Silencio Silencio s,∂ ∂ 3log⁡ ⁡ f∂ ∂ Silencio Silencio r∂ ∂ Silencio Silencio s∂ ∂ Silencio Silencio t{fnMicroc {fnMicrosoft Sans Serif},quad {fnMicroc {partial ^{2}log f}{partial theta _{r}partial theta _{theta}f},quad {frac {partial }{3}log fthealtheta}f}Thet}f}f}f}f}f}f}f}f}}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f} ¿Por qué?.

existen para todos r,s,t=1,2,...... ,k{displaystyle ,r,s,t=1,2,ldotsk,} para garantizar la existencia de una expansión de Taylor. Segundo, por casi todo x{displaystyle x} y para todos Silencio Silencio ▪ ▪ .. {displaystyle ,theta in Theta ,} Debe ser que

<math alttext="{displaystyle left|{frac {partial f}{partial theta _{r}}}right|<F_{r}(x),,quad left|{frac {partial ^{2}f}{partial theta _{r},partial theta _{s}}}right|<F_{rs}(x),,quad left|{frac {partial ^{3}f}{partial theta _{r},partial theta _{s},partial theta _{t}}}right|Silencio∂ ∂ f∂ ∂ Silencio Silencio rSilencio.Fr()x),Silencio∂ ∂ 2f∂ ∂ Silencio Silencio r∂ ∂ Silencio Silencio sSilencio.Frs()x),Silencio∂ ∂ 3f∂ ∂ Silencio Silencio r∂ ∂ Silencio Silencio s∂ ∂ Silencio Silencio tSilencio.Hrst()x){fnMicrosoft Sans Serif} {f} {fnMicrosoft Sans Serif} {f}f} {f}f}f}f} {f}f} {f}f} {f}f}f} {f}f}f}f} {f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f} {f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f} ¿Por qué? {fnMicrosoft Sans Serif}<img alt="{displaystyle left|{frac {partial f}{partial theta _{r}}}right|<F_{r}(x),,quad left|{frac {partial ^{2}f}{partial theta _{r},partial theta _{s}}}right|<F_{rs}(x),,quad left|{frac {partial ^{3}f}{partial theta _{r},partial theta _{s},partial theta _{t}}}right|

Donde H{displaystyle H. es tal que <math alttext="{displaystyle ,int _{-infty }^{infty }H_{rst}(z)mathrm {d} zleq M∫ ∫ − − JUEGO JUEGO JUEGO JUEGO Hrst()z)dz≤ ≤ M.JUEGO JUEGO .{displaystyle ,int _{-infty }H_{rst}(z)mathrm {d} zleq M madeinfty ;.}<img alt="{displaystyle ,int _{-infty }^{infty }H_{rst}(z)mathrm {d} zleq M Esta vinculación de los derivados es necesaria para permitir la diferenciación bajo el signo integral. Y por último, se supone que la matriz de información,

I()Silencio Silencio )=∫ ∫ − − JUEGO JUEGO JUEGO JUEGO ∂ ∂ log⁡ ⁡ f∂ ∂ Silencio Silencio r∂ ∂ log⁡ ⁡ f∂ ∂ Silencio Silencio sfdz{displaystyle mathbf {I} (theta)=int _{-infty }{infty }{frac {partial log f}{partial theta _{r}}} {fnMicroc {partial log f}{partial theta _{s}} f\m {d} z}

es definitivo positivo SilencioI()Silencio Silencio )Silencio{fnMicrosoft Sans Serif} es finito. Esto asegura que la puntuación tenga una varianza finita.

Las condiciones anteriores son suficientes, pero no necesarias. Es decir, un modelo que no cumpla con estas condiciones de regularidad puede tener o no un estimador de máxima verosimilitud de las propiedades mencionadas anteriormente. Además, en el caso de observaciones distribuidas de manera no independiente o no idéntica, es posible que sea necesario asumir propiedades adicionales.

En las estadísticas bayesianas, se imponen condiciones de regularidad casi idénticas a la función de verosimilitud para probar la normalidad asintótica de la probabilidad posterior y, por lo tanto, para justificar una aproximación de Laplace de la posterior en muestras grandes.

Razón de verosimilitud y probabilidad relativa

Relación de probabilidad

Una razón de verosimilitud es la razón de dos probabilidades especificadas, frecuentemente escrita como:

▪ ▪ ()Silencio Silencio 1:Silencio Silencio 2▪ ▪ x)=L()Silencio Silencio 1▪ ▪ x)L()Silencio Silencio 2▪ ▪ x){displaystyle Lambda (theta _{1}:theta _{2}mid x)={frac {{mathcal {L}} {theta _{1}mid x)}{mathcal {} {theta _{2}mid x)}}}}}}}}}}}}} {

La razón de verosimilitud es fundamental para las estadísticas verosímiles: la ley de verosimilitud establece que el grado en que los datos (considerados como evidencia) respaldan el valor de un parámetro frente a otro se mide mediante la razón de verosimilitud.

En la inferencia frecuentista, la razón de verosimilitud es la base de una estadística de prueba, la llamada prueba de razón de verosimilitud. Según el lema de Neyman-Pearson, esta es la prueba más poderosa para comparar dos hipótesis simples en un nivel de significación dado. Muchas otras pruebas pueden verse como pruebas de razón de verosimilitud o aproximaciones de las mismas. Wilks' teorema.

La relación de probabilidad es también de importancia central en la inferencia bayesiana, donde se conoce como el factor Bayes, y se utiliza en la regla de Bayes. En términos de probabilidades, la regla de Bayes afirma que posterior probabilidades de dos alternativas, A1{displaystyle A_{1} y A2{displaystyle A_{2}, dado un evento B{displaystyle B}, es el anteriores probabilidades, veces la relación de probabilidad. Como ecuación:

O()A1:A2▪ ▪ B)=O()A1:A2)⋅ ⋅ ▪ ▪ ()A1:A2▪ ▪ B).{displaystyle O(A_{1}:A_{2}mid B)=O(A_{1}:A_{2})cdot Lambda (A_{1}:A_{2}mid B).}

La razón de verosimilitud no se usa directamente en las estadísticas basadas en AIC. En cambio, lo que se usa es la probabilidad relativa de los modelos (ver más abajo).

Función de verosimilitud relativa

Dado que el valor real de la función de probabilidad depende de la muestra, a menudo es conveniente trabajar con una medida estandarizada. Supongamos que la estimación de probabilidad máxima para el parámetro Silencio es Silencio Silencio ^ ^ {displaystyle {hat {theta }. Plausibilidades relativas de otros Silencio valores se pueden encontrar comparando las probabilidades de esos otros valores con la probabilidad de Silencio Silencio ^ ^ {displaystyle {hat {theta }. El relativa probabilidad de Silencio se define como

R()Silencio Silencio )=L()Silencio Silencio ▪ ▪ x)L()Silencio Silencio ^ ^ ▪ ▪ x).{displaystyle R(theta)={mathcal {} {theta mid x)}{mathcal {} {hat {theta} {fn} {fnK}} - Sí.

Así, la probabilidad relativa es la relación de probabilidad (discutida arriba) con el denominador fijo L()Silencio Silencio ^ ^ ){displaystyle {mathcal {}} {hat {theta}}}} {f}}} {f}} {fn}}} {fn}}} {fn}}}} {fn}}}} {fn}}}} {fnf}}}}} {fnKf}}}}. Esto corresponde a estandarizar la probabilidad de tener un máximo de 1.

Región de probabilidad

Una región de probabilidad es el conjunto de todos los valores de θ cuya probabilidad relativa es mayor que o igual a un umbral dado. En términos de porcentajes, una p% región de probabilidad para el estilo θ se define como

{}Silencio Silencio :R()Silencio Silencio )≥ ≥ p100}.{displaystyle lefttheta:R(theta)geq {frac {p}right}.}

Si θ es un único parámetro real, un p% región de probabilidad generalmente comprenderá un intervalo de valores reales. Si la región comprende un intervalo, entonces se llama un intervalo de verosimilitud.

Los intervalos de probabilidad y, de manera más general, las regiones de probabilidad, se utilizan para la estimación de intervalos dentro de las estadísticas verosímiles: son similares a los intervalos de confianza en las estadísticas frecuentistas y los intervalos creíbles en las estadísticas bayesianas. Los intervalos de probabilidad se interpretan directamente en términos de probabilidad relativa, no en términos de probabilidad de cobertura (frecuencia) o probabilidad posterior (bayesianismo).

Dado un modelo, los intervalos de probabilidad se pueden comparar con los intervalos de confianza. Si θ es un único parámetro real, entonces, bajo ciertas condiciones, un intervalo de probabilidad del 14,65 % (alrededor de 1:7 de probabilidad) para θ será igual a un intervalo de confianza del 95 % (probabilidad de cobertura 19/20). En una formulación ligeramente diferente adecuada para el uso de log-verosimilitudes (consulte el teorema de Wilks), el estadístico de prueba es el doble de la diferencia en log-verosimilitudes y la distribución de probabilidad del estadístico de prueba es aproximadamente una distribución de chi-cuadrado con grados -of-freedom (df) igual a la diferencia en df's entre los dos modelos (por lo tanto, el e−2 es el mismo que el intervalo de confianza de 0,954, suponiendo que la diferencia en df's sea 1).

Probabilidades que eliminan parámetros molestos

En muchos casos, la probabilidad es una función de más de un parámetro, pero el interés se centra en la estimación de solo uno, o como máximo algunos de ellos, y los demás se consideran parámetros molestos. Se han desarrollado varios enfoques alternativos para eliminar dichos parámetros molestos, de modo que se pueda escribir una probabilidad como una función solo del parámetro (o parámetros) de interés: los enfoques principales son las probabilidades de perfil, condicional y marginal. Estos enfoques también son útiles cuando una superficie de probabilidad de alta dimensión debe reducirse a uno o dos parámetros de interés para permitir un gráfico.

Probabilidad de perfil

Es posible reducir las dimensiones concentrando la función de probabilidad para un subconjunto de parámetros expresando los parámetros de molestias como funciones de los parámetros de interés y sustituyéndolos en la función de probabilidad. En general, para una función de probabilidad dependiendo del vector del parámetro Silencio Silencio {displaystyle mathbf {theta} que se puede dividir en Silencio Silencio =()Silencio Silencio 1:Silencio Silencio 2){displaystyle mathbf {theta } =left(mathbf {theta ¿Qué? - Sí., y donde una correspondencia Silencio Silencio ^ ^ 2=Silencio Silencio ^ ^ 2()Silencio Silencio 1){displaystyle mathbf {hat {theta } ¿Qué? se puede determinar explícitamente, la concentración reduce la carga computacional del problema de maximización original.

Por ejemplo, en una regresión lineal con errores normalmente distribuidos, Sí.=Xβ β +u{displaystyle mathbf {y} =mathbf {X} beta +u}, el vector de coeficiente podría dividirse en β β =[β β 1:β β 2]{displaystyle beta =left[beta _{1}:beta _{2}right] (y consecuentemente la matriz de diseño X=[X1:X2]{displaystyle mathbf {X} =left[mathbf] {X} _{1}:Mathbf {X} _{2}right]). Maximizar con respecto a β β 2{displaystyle beta _{2} produce una función de valor óptima β β 2()β β 1)=()X2TX2)− − 1X2T()Sí.− − X1β β 1){displaystyle beta _{2}(beta _{1})=left(mathbf) {X} _{2} {fnMithsf {T}m} {X} _{2}derecha)}mathbf {X} _{2}{mathsf {T}left(mathbf {y} -mathbf {X} _{1}beta _{1}right)}. Utilizando este resultado, el estimador de probabilidad máxima para β β 1{displaystyle beta ¿Qué? puede entonces ser derivado como

β β ^ ^ 1=()X1T()I− − P2)X1)− − 1X1T()I− − P2)Sí.{displaystyle {hat {beta {fnMicrosoft Sans Serif}mathbf {f} {fnMicrosoft {f}left(mathbf {I} -mathbf {P}{2}derecho)mathbf {X}derecha)}mathbf}mathbf} {X} _{1}mathsf {T}left(mathbf {I} -mathbf {P} _{2}right)mathbf {y}

Donde P2=X2()X2TX2)− − 1X2T{displaystyle mathbf {P} {2}=mathbf {X} _{2}mathbf {X}* {X} _{2}derecha)}mathbf {X} _{2} {fnMithsf}} es la matriz de proyección X2{displaystyle mathbf {X} _{2}. Este resultado se conoce como el teorema Frisch–Waugh–Lovell.

Puesto que gráficamente el procedimiento de concentración es equivalente a cortar la superficie de probabilidad a lo largo de la cresta de valores del parámetro de molestia β β 2{displaystyle beta _{2} que maximiza la función de probabilidad, creando un perfil isométrico de la función de probabilidad para un determinado β β 1{displaystyle beta ¿Qué?, el resultado de este procedimiento también se conoce como Perfil. Además de ser graficado, la probabilidad de perfil también se puede utilizar para calcular intervalos de confianza que a menudo tienen mejores propiedades de tamaño pequeño que los basados en errores estándar asintoticos calculados a partir de la probabilidad total.

Verosimilitud condicional

A veces es posible encontrar una estadística suficiente para los parámetros molestos y condicionar esta estadística da como resultado una probabilidad que no depende de los parámetros molestos.

Un ejemplo ocurre en las tablas de 2×2, donde el condicionamiento de los cuatro totales marginales conduce a una probabilidad condicional basada en la distribución hipergeométrica no central. Esta forma de condicionamiento también es la base de la prueba exacta de Fisher.

Probabilidad marginal

A veces, podemos eliminar los parámetros molestos al considerar una probabilidad basada solo en una parte de la información de los datos, por ejemplo, al usar el conjunto de rangos en lugar de los valores numéricos. Otro ejemplo ocurre en los modelos mixtos lineales, donde considerar una probabilidad para los residuos solo después de ajustar los efectos fijos conduce a una estimación de máxima verosimilitud residual de los componentes de la varianza.

Verosimilitud parcial

Una verosimilitud parcial es una adaptación de la verosimilitud total tal que solo una parte de los parámetros (los parámetros de interés) ocurren en ella. Es un componente clave del modelo de riesgos proporcionales: al usar una restricción en la función de riesgo, la probabilidad no contiene la forma del riesgo a lo largo del tiempo.

Productos de probabilidades

La probabilidad, dados dos o más eventos independientes, es el producto de las probabilidades de cada uno de los eventos individuales:

▪ ▪ ()A▪ ▪ X1∧ ∧ X2)=▪ ▪ ()A▪ ▪ X1)⋅ ⋅ ▪ ▪ ()A▪ ▪ X2){displaystyle Lambda (Amid X_{1}land X_{2}=Lambda (Amid X_{1})cdot Lambda (Amid X_{2})}

Esto se deriva de la definición de independencia en probabilidad: las probabilidades de que sucedan dos eventos independientes, dado un modelo, es el producto de las probabilidades.

Esto es particularmente importante cuando los eventos provienen de variables aleatorias independientes e idénticamente distribuidas, como observaciones independientes o muestreo con reemplazo. En tal situación, la función de probabilidad se factoriza en un producto de funciones de probabilidad individuales.

El producto vacío tiene el valor 1, que corresponde a la probabilidad, sin ningún evento, siendo 1: antes de cualquier dato, la probabilidad siempre es 1. Esto es similar a un previo uniforme en las estadísticas bayesianas, pero en las estadísticas verosímiles esto es no es un previo impropio porque las probabilidades no están integradas.

Logaritmo de probabilidad

Función de probabilidad de registro es una transformación logarítmica de la función de probabilidad, a menudo denotada por una minúscula l o l l {displaystyle ell }, a contraste con la maleta superior L o L{displaystyle {fnMithcal}} por la probabilidad. Debido a que los logaritmos están aumentando estrictamente las funciones, maximizar la probabilidad es equivalente a maximizar la probabilidad de registro. Pero para fines prácticos es más conveniente trabajar con la función de probabilidad de log en la estimación máxima de probabilidad, en particular porque las distribuciones de probabilidad más comunes, sobre todo la familia exponencial, son sólo logarítmicamente concave, y la concavidad de la función objetiva desempeña un papel clave en la maximización.

Dada la independencia de cada evento, la probabilidad logarítmica general de intersección es igual a la suma de las probabilidades logarítmicas de los eventos individuales. Esto es análogo al hecho de que la probabilidad logarítmica general es la suma de la probabilidad logarítmica de los eventos individuales. Además de la conveniencia matemática de esto, el proceso de suma de log-verosimilitud tiene una interpretación intuitiva, expresada a menudo como "soporte" de los datos Cuando los parámetros se estiman usando el log-verosimilitud para la estimación de máxima verosimilitud, cada punto de datos se usa al sumarse al log-verosimilitud total. Dado que los datos pueden verse como una evidencia que respalda los parámetros estimados, este proceso puede interpretarse como "respaldo de evidencia independiente agrega" y la probabilidad logarítmica es &# 34;peso de la evidencia". Interpretando la log-probabilidad negativa como contenido de información o sorpresa, el soporte (log-verosimilitud) de un modelo, dado un evento, es el negativo de la sorpresa del evento, dado el modelo: un modelo está respaldado por un evento en la medida que el evento no es sorprendente, dado el modelo.

Un logaritmo de una razón de verosimilitud es igual a la diferencia de las verosimilitudes logarítmicas:

log⁡ ⁡ L()A)L()B)=log⁡ ⁡ L()A)− − log⁡ ⁡ L()B)=l l ()A)− − l l ()B).{displaystyle log {frac {L(A)}{L(B)}=log L(A)-log L(B)=ell (A)-ell (B).}

Así como la probabilidad, sin evento, es 1, la log-verosimilitud, sin evento, es 0, que corresponde al valor de la suma vacía: sin ningún dato, no hay soporte para ningún modelo.

Gráfica

La gráfica del log-verosimilitud se denomina curva de soporte (en el caso univariante). En el caso multivariado, el concepto se generaliza en una superficie de apoyo sobre el espacio de parámetros. Tiene una relación con el soporte de una distribución, pero es distinto de él.

El término fue acuñado por A. W. F. Edwards en el contexto de la prueba de hipótesis estadísticas, es decir, si los datos "respaldan" una hipótesis (o valor de parámetro) se prueba más que cualquier otra.

La función de log-verosimilitud que se está representando se utiliza en el cálculo de la puntuación (el gradiente del log-verosimilitud) y la información de Fisher (la curvatura del log-verosimilitud). Este gráfico tiene una interpretación directa en el contexto de la estimación de máxima verosimilitud y las pruebas de razón de verosimilitud.

Ecuaciones de probabilidad

Si la función de probabilidad de registro es suave, su gradiente con respecto al parámetro, conocido como la puntuación y escrito sn()Silencio Silencio )↑ ↑ Silencio Silencio Silencio Silencio l l n()Silencio Silencio ){displaystyle s_{n}(theta)equiv nabla _{theta }ell _{n}(theta)}, existe y permite la aplicación de cálculo diferencial. La forma básica de maximizar una función diferenciable es encontrar los puntos estacionarios (los puntos donde el derivado es cero); ya que el derivado de una suma es sólo la suma de los derivados, pero el derivado de un producto requiere la regla del producto, es más fácil calcular los puntos estacionarios de la probabilidad log de eventos independientes que para la probabilidad de eventos independientes.

Las ecuaciones definidas por el punto estacionario de la función de puntaje sirven como ecuaciones de estimación para el estimador de máxima verosimilitud.

sn()Silencio Silencio )=0{displaystyle s_{n}(theta)=mathbf {0}

En ese sentido, el estimador de probabilidad máxima se define implícitamente por el valor a 0{displaystyle mathbf {0} de la función inversa sn− − 1:Ed→ → .. {displaystyle "Mathbb" [E] ^{d}to Theta }, donde Ed{displaystyle mathbb {E} es d-dimensional Espacio euclidiano, y .. {displaystyle Theta } es el espacio del parámetro. Usando el teorema de función inversa, se puede demostrar que sn− − 1{displaystyle s_{n} {-1} está bien definido en un vecindario abierto sobre 0{displaystyle mathbf {0} con probabilidad yendo a uno, y Silencio Silencio ^ ^ n=sn− − 1()0){displaystyle {hat {theta - Sí. es una estimación consistente Silencio Silencio {displaystyle theta }. Como consecuencia existe una secuencia {}Silencio Silencio ^ ^ n}{displaystyle left{hat {theta - Sí. tales que sn()Silencio Silencio ^ ^ n)=0{displaystyle s_{n} {hat {theta }_ {n}=Mathbf {0} asintoticamente casi seguro, y Silencio Silencio ^ ^ n→pSilencio Silencio 0{displaystyle {hat {theta {fn} {fn} {fn}fn}fn} {fn} {fn}} {fn}}} {fn} {fn}}fn}}}}fn}}} {fn} {\fn}}}}\\fn}}}}\\\\\\\\\\\\\\n}\\\\\\\cH00}}}}\\\\\\\\\cH}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}\\\\\\\\ ¿Qué?. Un resultado similar se puede establecer usando el teorema de Rolle.

El segundo derivado evaluado en Silencio Silencio ^ ^ {displaystyle {hat {theta }, conocido como información de Fisher, determina la curvatura de la superficie de probabilidad, y por lo tanto indica la precisión de la estimación.

Familias exponenciales

La log-verosimilitud también es particularmente útil para familias de distribuciones exponenciales, que incluyen muchas de las distribuciones de probabilidad paramétricas comunes. La función de distribución de probabilidad (y, por lo tanto, la función de probabilidad) para familias exponenciales contiene productos de factores que involucran exponenciación. El logaritmo de tal función es una suma de productos, nuevamente más fácil de diferenciar que la función original.

Una familia exponencial es una cuya función de densidad de probabilidad es de la forma (para algunas funciones, escribir .. − − ,− − .. {displaystyle langle -,-rangle } para el producto interior:

p()x▪ ▪ Silencio Silencio )=h()x)exp⁡ ⁡ ().. .. ()Silencio Silencio ),T()x).. − − A()Silencio Silencio )).{displaystyle p(xmid {boldsymbol {theta }}=h(x)exp {Big (}langle {boldsymbol {eta } {boldsymbol {theta }}),mathbf {T} (x)rangle -A({boldsymbol {theta }){Big)}}}}}} {Big)}

Cada uno de estos términos tiene una interpretación, pero simplemente cambiar de probabilidad a probabilidad y tomar logaritmos produce la suma:

l l ()Silencio Silencio ▪ ▪ x)=.. .. ()Silencio Silencio ),T()x).. − − A()Silencio Silencio )+log⁡ ⁡ h()x).{displaystyle ell ({boldsymbol {theta }mid x)=langle {boldsymbol {eta }({boldsymbol {theta }),mathbf {T} (x)rangle -A({boldsymbol {theta })+log h(x). }

El .. ()Silencio Silencio ){displaystyle {boldsymbol {eta} {boldsymbol {theta }}}} y h()x){displaystyle h(x)} cada uno corresponde a un cambio de coordenadas, por lo que en estas coordenadas, la probabilidad de registro de una familia exponencial es dada por la fórmula simple:

l l ().. ▪ ▪ x)=.. .. ,T()x).. − − A().. ).{displaystyle ell ({boldsymbol {eta }mid x)=langle {boldsymbol {eta }}},mathbf {T} (x)rangle -A({boldsymbol {eta }}}}}}}

En palabras, la probabilidad de registro de una familia exponencial es producto interno del parámetro natural .. {displaystyle {boldsymbol {eta } y la estadística suficiente T()x){displaystyle mathbf {T} (x)}, menos el factor de normalización (función de partición-log) A().. ){displaystyle A({boldsymbol {eta }}}}. Por ejemplo, la estimación de probabilidad máxima se puede calcular tomando derivados de la estadística suficiente T y la función log-partition A.

Ejemplo: la distribución gamma

La distribución gamma es una familia exponencial con dos parámetros, α α {displaystyle alpha } y β β {displaystyle beta }. La función de probabilidad es

L()α α ,β β ▪ ▪ x)=β β α α .. ()α α )xα α − − 1e− − β β x.{displaystyle {mathcal {L}}(alphabetamid x)={frac {beta ^{alpha } {Gamma (alpha)}x^{alpha -1}e^{-beta x}

Encontrar la estimación de probabilidad máxima de β β {displaystyle beta } para un único valor observado x{displaystyle x} Parece bastante desalentador. Su logaritmo es mucho más simple de trabajar con:

log⁡ ⁡ L()α α ,β β ▪ ▪ x)=α α log⁡ ⁡ β β − − log⁡ ⁡ .. ()α α )+()α α − − 1)log⁡ ⁡ x− − β β x.{displaystyle log {mathcal {L}(alphabetamid x)=alpha log beta -log Gamma (alpha)+(alpha -1)log x-beta x.,}

Para maximizar la probabilidad de registro, primero tomamos el derivado parcial con respecto a β β {displaystyle beta }:

∂ ∂ log⁡ ⁡ L()α α ,β β ▪ ▪ x)∂ ∂ β β =α α β β − − x.{displaystyle {frac {partial log {mathcal {L} {alphabeta mid x)}{partial beta }={frac {alpha }{beta }-x.}

Si hay una serie de observaciones independientes x1,...... ,xn{displaystyle x_{1},ldotsx_{n}, entonces la probabilidad de registro conjunto será la suma de probabilidad de registro individual, y el derivado de esta suma será una suma de derivados de cada probabilidad de registro individual:

∂ ∂ log⁡ ⁡ L()α α ,β β ▪ ▪ x1,...... ,xn)∂ ∂ β β =∂ ∂ log⁡ ⁡ L()α α ,β β ▪ ▪ x1)∂ ∂ β β +⋯ ⋯ +∂ ∂ log⁡ ⁡ L()α α ,β β ▪ ▪ xn)∂ ∂ β β =nα α β β − − .. i=1nxi.{displaystyle {begin{aligned} {frac {partial log {mathcal {} {alphabeta mid x_{1},ldotsx_{n}}{partial beta }={}{frac {partial log {mathcal {L} {alphabeta mid x_{1}}}{partial beta }+cdots +frac {partial log {mathcal {}} {alphabeta mid x_{n}}}{ta}}}} {c} {c}c}}}}}}c}c} {c]c]c}c}cc]c}ccc]c]cccccccccccccccccccccccccccccccccccccccccccccccccccccc }={frac {nalpha ♫ {beta }- - ¿Qué?

Para completar el procedimiento de maximización de la probabilidad de log conjunta, la ecuación se establece a cero y se resuelve para β β {displaystyle beta }:

β β ^ ^ =α α x̄ ̄ .{displaystyle {widehat {beta }={frac {alpha } {bar {x}}} {fnMicrosoft Sans Serif}

Aquí. β β ^ ^ {displaystyle {widehat {beta } denota la estimación de la probabilidad máxima, y x̄ ̄ =1n.. i=1nxi{displaystyle textstyle {bar {x}={frac {1}{n}sum ¿Qué? es la media muestra de las observaciones.

Antecedentes e interpretación

Comentarios históricos

El término "probabilidad" ha estado en uso en inglés desde al menos finales del inglés medio. Su uso formal para referirse a una función específica en estadística matemática fue propuesto por Ronald Fisher, en dos artículos de investigación publicados en 1921 y 1922. El artículo de 1921 introdujo lo que hoy se llama un "intervalo de verosimilitud"; el documento de 1922 introdujo el término "método de máxima verosimilitud". Citando a Fisher:

[I]n 1922, propuse el término 'mejordad', en vista del hecho de que, con respecto a [el parámetro], no es una probabilidad, y no obedece las leyes de probabilidad, mientras que al mismo tiempo soporta el problema de elección racional entre los posibles valores de [el parámetro] una relación similar a la que la probabilidad conlleva al problema de predecir eventos en juegos de azar... Mientras que, sin embargo, en relación con el juicio psicológico, la probabilidad tiene cierto parecido a la probabilidad, los dos conceptos son totalmente distintos...".

El concepto de verosimilitud no debe confundirse con probabilidad como lo menciona Sir Ronald Fisher

Estreso esto porque a pesar del énfasis que siempre he puesto en la diferencia entre probabilidad y probabilidad todavía hay una tendencia a tratar la probabilidad como si fuera una especie de probabilidad. El primer resultado es que existen dos medidas diferentes de creencias racionales apropiadas para diferentes casos. Conocer a la población podemos expresar nuestro conocimiento incompleto o expectativa de la muestra en términos de probabilidad; conocer la muestra podemos expresar nuestro conocimiento incompleto de la población en términos de probabilidad.

La invención de Fisher de la probabilidad estadística fue una reacción contra una forma anterior de razonamiento llamada probabilidad inversa. Su uso del término "probabilidad" fijó el significado del término dentro de las estadísticas matemáticas.

A. W. F. Edwards (1972) estableció la base axiomática para el uso de la razón de verosimilitud logarítmica como medida del apoyo relativo de una hipótesis frente a otra. La función de soporte es entonces el logaritmo natural de la función de verosimilitud. Ambos términos se utilizan en filogenética, pero no se adoptaron en un tratamiento general del tema de la evidencia estadística.

Interpretaciones bajo diferentes fundamentos

Entre los estadísticos, no hay consenso sobre cuál debería ser la base de las estadísticas. Hay cuatro paradigmas principales que se han propuesto para la fundación: frecuentismo, bayesianismo, verosimilitud y basado en AIC. Para cada uno de los fundamentos propuestos, la interpretación de verosimilitud es diferente. Las cuatro interpretaciones se describen en las subsecciones siguientes.

Interpretación frecuentista

Interpretación bayesiana

En la inferencia bayesiana, aunque se puede hablar de la probabilidad de cualquier proposición o variable aleatoria dada otra variable aleatoria: por ejemplo, la probabilidad de un valor parámetro o de un modelo estadístico (ver probabilidad marginal), dado datos especificados u otra evidencia, la función de probabilidad sigue siendo la misma entidad, con las interpretaciones adicionales de (i) una densidad condicional de los datos dados el parámetro (ya que el parámetro es entonces una medida aleatoria). Debido a la introducción de una estructura de probabilidad en el espacio del parámetro o en la colección de modelos, es posible que un valor del parámetro o un modelo estadístico tengan un gran valor de probabilidad para datos dados, y sin embargo tienen un bajo probabilidad, o viceversa. Este es a menudo el caso en contextos médicos. Siguiendo Bayes Regla, la probabilidad cuando se ve como una densidad condicional puede ser multiplicada por la densidad de probabilidad anterior del parámetro y luego normalizada, para dar una densidad de probabilidad posterior. Más generalmente, la probabilidad de una cantidad desconocida X{displaystyle X} dada otra cantidad desconocida Y{displaystyle Sí. es proporcional al probabilidad de Y{displaystyle Sí. dado X{displaystyle X}.

Interpretación verosímil

En las estadísticas frecuentistas, la función de verosimilitud es en sí misma una estadística que resume una sola muestra de una población, cuyo valor calculado depende de la elección de varios parámetros θ1... θp, donde p es el recuento de parámetros en algún modelo estadístico ya seleccionado. El valor de la verosimilitud sirve como figura de mérito para la elección utilizada para los parámetros, y el conjunto de parámetros con máxima verosimilitud es la mejor elección, dados los datos disponibles.

El cálculo específico de la verosimilitud es la probabilidad de que se asigne la muestra observada, asumiendo que el modelo elegido y los valores de los diversos parámetros θ dan una aproximación de la distribución de frecuencias de la población de la que se extrajo la muestra observada. Heurísticamente, tiene sentido que una buena elección de parámetros sea la que hace que la muestra realmente observada tenga la máxima probabilidad post-hoc posible de que haya ocurrido. Wilks' El teorema cuantifica la regla heurística al mostrar que la diferencia en el logaritmo de la probabilidad generada por los valores de los parámetros de la estimación y el logaritmo de la probabilidad generada por los valores 'verdaderos' de la población. (pero desconocido) los valores de los parámetros se distribuyen asintóticamente en χ2.

La estimación de máxima verosimilitud de cada muestra independiente es una estimación separada de la "verdadera" conjunto de parámetros que describen la población muestreada. Las estimaciones sucesivas de muchas muestras independientes se agruparán junto con el valor 'verdadero' de la población. conjunto de valores de parámetros ocultos en algún lugar entre ellos. La diferencia en los logaritmos de la máxima verosimilitud y los conjuntos de parámetros adyacentes' las probabilidades se pueden usar para dibujar una región de confianza en una gráfica cuyas coordenadas son los parámetros θ1... θp . La región rodea la estimación de máxima verosimilitud y todos los puntos (conjuntos de parámetros) dentro de esa región difieren como máximo en logaritmo de verosimilitud en algún valor fijo. La distribución χ2 dada por Wilks' El teorema convierte las diferencias logarítmicas de verosimilitud de la región en la "confianza" que la población es "verdadera" conjunto de parámetros se encuentra dentro. El arte de elegir la diferencia logarítmica de verosimilitud fija es hacer que la confianza sea aceptablemente alta mientras se mantiene la región aceptablemente pequeña (rango estrecho de estimaciones).

A medida que se observan más datos, en lugar de usarse para hacer estimaciones independientes, se pueden combinar con las muestras anteriores para hacer una sola muestra combinada, y esa muestra grande se puede usar para una nueva estimación de máxima verosimilitud. A medida que aumenta el tamaño de la muestra combinada, se reduce el tamaño de la región de probabilidad con la misma confianza. Eventualmente, el tamaño de la región de confianza es casi un solo punto, o se ha muestreado a toda la población; en ambos casos, el conjunto de parámetros estimados es esencialmente el mismo que el conjunto de parámetros de la población.

Interpretación basada en AIC

Bajo el paradigma AIC, la probabilidad se interpreta dentro del contexto de la teoría de la información.

Contenido relacionado

Jean-Pierre Serre

Jean-Pierre Serre es un matemático francés que ha hecho contribuciones a la topología algebraica, la geometría algebraica y la teoría algebraica de...

Número de la suerte

En la teoría de los números, un número de la suerte es un número natural en un conjunto generado por un cierto &#034;tamiz&#034;. Esta criba es similar a la...

Entero

An entero es el número cero un número natural positivo o un entero negativo con un signo menos (1, −2, −3, etc.). Los números negativos son los...
Más resultados...
Tamaño del texto:
Copiar
Síguenos en YouTube
¡ Ayúdanos a crecer con @academialab !