Métrica de información de Fisher

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En geometría de la información, la métrica de información de Fisher es una métrica de Riemann particular que se puede definir en una variedad estadística suave, es decir,, una variedad suave cuyos puntos son medidas de probabilidad. definido en un espacio de probabilidad común. Se puede utilizar para calcular la diferencia de información entre mediciones.

La métrica es interesante en varios aspectos. Según el teorema de Chentsov, la métrica de información de Fisher en modelos estadísticos es la única métrica de Riemann (hasta el reescalamiento) que es invariante bajo estadísticas suficientes.

También puede entenderse como la forma infinitesimal de la entropía relativa (es decir,, la divergencia Kullback-Leibler); concretamente, es el hessiano de la divergencia. Alternativamente, puede entenderse como la métrica inducida por la métrica euclidiana del espacio plano, después de cambios apropiados de variable. Cuando se extiende al espacio proyectivo complejo de Hilbert, se convierte en la métrica de Fubini-Study; cuando se escribe en términos de estados mixtos, es la métrica cuántica de Bures.

Considerada puramente como una matriz, se la conoce como matriz de información de Fisher. Considerada como una técnica de medición, donde se utiliza para estimar parámetros ocultos en términos de variables aleatorias observadas, se le conoce como información observada.

Definición

Dada un conjunto estadístico con coordenadas ${displaystyle theta =(theta _{1},theta _{2},ldotstheta _{n}}$ , uno escribe ${displaystyle p(x,theta)}$ para la distribución de probabilidad como función ${displaystyle theta }$ . Aquí. ${displaystyle x}$ se extrae del espacio de valor R para una variable aleatoria (discreta o continua) X. La probabilidad es normalizada por ${displaystyle int _{X}p(x,theta),dx=1}$

La métrica de información de Fisher toma la forma:

{displaystyle g_{jk}(theta)=int _{X}{frac {partial log p(x,theta)}{partial theta _{j}}}{frac {partial log p(x,theta)}{k}}}}}p(x,theta)dx.

La integral se realiza sobre todos los valores x dentro X. La variable ${displaystyle theta }$ es ahora una coordenadas en un manifold Riemann. Las etiquetas j y k indexar los ejes de coordenadas locales en el múltiple.

Cuando la probabilidad se deriva de la medida Gibbs, como sería para cualquier proceso markoviano, entonces ${displaystyle theta }$ también se puede entender que es un multiplicador Lagrange; los multiplicadores Lagrange se utilizan para hacer cumplir las restricciones, tales como mantener el valor de expectativa de alguna cantidad constante. Si hay n limitaciones n diferentes valores de expectativa constante, entonces la dimensión del múltiple es n dimensiones más pequeñas que el espacio original. En este caso, la métrica puede derivarse explícitamente de la función de partición; allí se presenta una derivación y discusión.

Sustitución ${displaystyle i(x,theta)=-log {}p(x,theta)}$ de la teoría de la información, una forma equivalente de la definición anterior es:

{fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} ¿Qué?

Para demostrar que la forma equivalente es igual a la definición anterior, tenga en cuenta que

{displaystyle mathrm {} left[{frac {partial log {}p(x,theta)}{partial theta _{j}}}right]=0}

y aplicar ${fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft} }{partial theta ♪♪$ en ambos lados.

Relación con la divergencia Kullback-Leibler

Alternativamente, la métrica se puede obtener como el segundo derivado del relativa entropía o la divergencia de Kullback-Leibler. Para obtener esto, se consideran dos distribuciones de probabilidad ${displaystyle P(theta)}$ y ${displaystyle P(theta - Sí.$ , que son infinitamente cercanos unos a otros, para que

{displaystyle P(theta)=P(theta _{0})+sum _{j}Delta theta ^{j}left.{frac {partial P}{partial theta ¿Qué? - Sí.

con ${displaystyle Delta theta ^{j}$ un cambio infinitamente pequeño ${displaystyle theta }$ en el j dirección. Entonces, desde la divergencia Kullback-Leibler ${displaystyle D_{mathrm {KL}[P(theta _{0}fnciónP(theta)}$ tiene un mínimo absoluto de 0 cuando ${displaystyle P(theta)=P(theta _{0}$ , uno tiene una expansión hasta el segundo orden ${displaystyle theta =theta ¿Qué?$ de la forma

{displaystyle f_{theta _{0}}(theta):=D_{mathrm {KL} [P(theta _{0}) eternaP(theta)]={frac {1}{2}sum _{jk}Delta theta ^{j}Deltatheta} {theta} {theta}}}}}}}} {}}}}} {}}}}} {f}}} {f} {f} {f}}}}}}}}}}}}}}}}}}}}f} {f}}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f} ¿Qué?

La matriz simétrica ${displaystyle g_{jk}$ es positiva (semi) definida y es la matriz hesiana de la función ${displaystyle f_{theta}(theta)}$ en el punto extremum ${displaystyle theta ¿Qué?$ . Esto se puede pensar intuitivamente como: "La distancia entre dos puntos infinitamente cercanos en un conjunto diferencial estadístico es la diferencia informativa entre ellos".

Relación con la geometría de Ruppeiner

La métrica de Ruppeiner y la métrica de Weinhold son la métrica de información de Fisher calculada para distribuciones de Gibbs como las que se encuentran en la mecánica estadística de equilibrio.

Cambio en la entropía libre

La acción de una curva sobre una variedad de Riemann está dada por

{displaystyle A={2}int _{a}{b}{frac {partial theta ^{j}{partial t}g_{jk}(theta){frac {partial thetatal} {theta} {Theta}}} {c}} {cH0} {c}}}}} {f}}}}f} {f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f}f} {f} {f}f} {f}f}f}f}f}f}f}f}f}f}fnMit] {b}f}f}f}f}f}f}}f}fn ¿Qué?

El parámetro de ruta aquí es el tiempo t; Se puede entender que esta acción proporciona el cambio en la entropía libre de un sistema a medida que se mueve del tiempo a al tiempo b. En concreto, uno tiene

{displaystyle Delta S=(b-a)A,}

como el cambio en la entropía libre. Esta observación ha dado lugar a aplicaciones prácticas en la industria química y de procesamiento: para minimizar el cambio en la entropía libre de un sistema, se debe seguir la ruta geodésica mínima entre los puntos finales deseados del proceso. La geodésica minimiza la entropía, debido a la desigualdad de Cauchy-Schwarz, que establece que la acción está limitada por debajo de la longitud de la curva, al cuadrado.

Relación con la divergencia Jensen-Shannon

La métrica de Fisher también permite relacionar la acción y la longitud de la curva con la divergencia de Jensen-Shannon. En concreto, uno tiene

{displaystyle (b-a)int _{a}{b}{frac {partial theta ^{j}{partial t}g_{jk}{frac {partial theta ^{k}{partial ¿Qué?

donde el integrando dJSD se entiende como el cambio infinitesimal en la divergencia de Jensen-Shannon a lo largo del camino tomado. De manera similar, para la longitud de la curva, se tiene

{displaystyle int _{a}{b}{sqrt {fnMicroc {fnK} {f} {fnK} {f} {f} {f} {f} {fnf}fnf}} {fnf}fnf}fn\fnK} {f}f}fnKf}f}f}\\f}\f}\\\\\\\\\\\\\fnK}fnK}\f}fnKfnK}\fnK\\\\f}f}\\fnK}\fnK}fnK}\\\\\fnKfnK}\\\\\\fnKh}\\\\\\\\\\\fn ^{k}{partial {}}},dt={sqrt {8}int _{a}{b}{sqrt {dJSD}}

Es decir, la raíz cuadrada de la divergencia de Jensen-Shannon es simplemente la métrica de Fisher (dividida por la raíz cuadrada de 8).

Como métrica euclidiana

Para un espacio de probabilidad discreto, es decir, un espacio de probabilidad en un conjunto finito de objetos, se puede entender que la métrica de Fisher es simplemente la métrica euclidiana restringida a un "cuadrante" de una esfera unitaria, después de cambios apropiados de variable.

Considere un espacio plano euclidiano, de dimensión $N + 1$ , parametrizado por puntos ${displaystyle y=(y_{0},cdotsy_{n}}$ . La métrica para el espacio Euclideano es dada por

{displaystyle h=sum ¿Qué?

Donde ${displaystyle textstyle dy_{i}$ son 1-formas; son los vectores base para el espacio cotangente. Escritura ${displaystyle textstyle {frac {partial }{partial Y...$ como vectores de base para el espacio tangente, así

{displaystyle dy_{j}left({frac {partial }{partial Y... ¿Qué?

la métrica euclidiana se puede escribir como

{displaystyle {fnMicrosoft} {fnMicrosoft} {fnMicroc {partial }{partial Y_{j}}},{frac {partial }{partial y_{k}right)=delta ¿Qué?

El superscript 'flat' está allí para recordar que, cuando está escrito en forma de coordenadas, esta métrica es con respecto a la coordenadas espacio-plano ${displaystyle y}$ .

Una esfera unitaria N-dimensional incrustada en un espacio euclidiano (N + 1)-dimensional se puede definir como

{displaystyle sum ¿Qué?

Esta incrustación induce una métrica en la esfera, que se hereda directamente de la métrica euclidiana en el espacio ambiental. Toma exactamente la misma forma que el anterior, teniendo cuidado de garantizar que las coordenadas estén restringidas a estar en la superficie de la esfera. Esto se puede hacer, p. con la técnica de los multiplicadores de Lagrange.

Considere ahora el cambio de variable ${displaystyle ¿Qué?$ . La condición de la esfera ahora se convierte en la condición de normalización de probabilidad

{displaystyle sum _{i}p_{i}=1}

mientras la métrica se vuelve

{displaystyle {begin{aligned}h ¿Por qué? ¿Qué? {fnh};d{fnh} {fnh}\\fnh}\\fnK}\\\fn}\\\\\\\\cH00}\\\\\\\\\\\fn\\fn\fn\\cH3fn}}}\\\\\\\\\\\\\\\\\\\\\\\\fn}\\\\\\\\\\\\\\\\\fn}fn}\\fn}\\\\fn}\\fn}fn}\fn}}\\\\\\\fn}\\fn {1}{4}sum ¿Por qué? {fnK}= {fnK}}= {fnK}} {f}} {f}}} {f}} {f} {fn}}} {f}}}}}} {f}}}}}}} {f} {f}}} {f}}}} {f}}}}}}}}}}}}} {f}}}}}}}}}}}}}} {f} {f}}}}}}} {f}}}}}}}}}} {f}} {f}}}}}}}}} {f}}}}}}}}}}}} {f} {f}}} {f} {f}} {f}}} {f}}}}}f}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {1}{4}sum ¿Por qué?

El último puede ser reconocido como una cuarta parte de la métrica de información Fisher. Para completar el proceso, recuerde que las probabilidades son funciones paramétricas de las variables múltiples ${displaystyle theta }$ , es decir, uno tiene ${displaystyle p_{i}=p_{i}(theta)}$ . Así, lo anterior induce una métrica en el eje del parámetro:

{displaystyle {begin{aligned}h {1}{4}}sum _{i}p_{i}(theta);d(log p_{i}(theta);d(log p_{i}(theta))\\c={frac] {1}{4}sum _{jk}sum _{i}p_{i}(theta);{frac {partial log p_{i}(theta)}{partial theta ¿Por qué? ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ ♪ {j}dtheta ¿Qué?

o, en forma de coordenadas, la métrica de información de Fisher es:

{displaystyle {begin{aligned}g_{jk}(theta)=4h_{jk}^{mathrm {fncipal} {fnMicroc {partial }{partial theta _{j}}}}}{frac {partial }{partial thetata ¿Por qué? {fnK}};{frac {partial log p_{i} {theta)}{partial theta ################################################################################################################################################################################################################################################################ {E} left[{frac {partial log p_{i} {theta)}{partial theta {fnK} {fnMicroc {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}} {fnuncio}}}} {fnunció}}

donde, como antes,

{displaystyle dtheta _{j}left({frac {partial }{partial {fnK}}derecha)=delta - Sí.

El superscripto 'pescador' está presente para recordar que esta expresión es aplicable para las coordenadas ${displaystyle theta }$ ; mientras que la forma no coordinada es la misma que la métrica Euclidean (flat-space). Es decir, la métrica de información de Fisher sobre un conjunto estadístico es simplemente (cuatro veces) la métrica Euclideana restringida al cuadrante positivo de la esfera, después de cambios apropiados de variable.

Cuando la variable aleatoria ${displaystyle p}$ no es discreto, pero continuo, el argumento todavía sostiene. Esto se puede ver de dos maneras diferentes. Una manera es retransmitir cuidadosamente todos los pasos anteriores en un espacio infinita, teniendo cuidado de definir los límites apropiadamente, etc., para asegurarse de que todas las manipulaciones estén bien definidas, convergentes, etc. La otra manera, como señala Gromov, es utilizar un enfoque teórico de categoría; es decir, señalar que las manipulaciones anteriores siguen siendo válidas en la categoría de probabilidades. Aquí, hay que señalar que tal categoría tendría la propiedad Radon-Nikodym, es decir, el teorema Radon-Nikodym tiene en esta categoría. Esto incluye los espacios de Hilbert; estos son cuadradas-integrables, y en las manipulaciones anteriores, esto es suficiente para reemplazar con seguridad la suma sobre cuadrados por una parte integral sobre cuadrados.

Como Fubini–Métrica de estudio

Las manipulaciones anteriores que derivan la métrica de Fisher de la métrica euclidiana se pueden extender a espacios proyectivos complejos de Hilbert. En este caso, se obtiene la métrica del Estudio Fubini. Quizás esto no debería sorprender, ya que la métrica del estudio Fubini proporciona los medios para medir información en mecánica cuántica. La métrica de Bures, también conocida como métrica de Helstrom, es idéntica a la métrica de Fubini-Study, aunque esta última generalmente se escribe en términos de estados puros, como se muestra a continuación, mientras que la métrica de Bures se escribe para estados mixtos. Al establecer la fase de la coordenada compleja en cero, se obtiene exactamente un cuarto de la métrica de información de Fisher, exactamente como se indicó anteriormente.

Se comienza con el mismo truco, de construir una amplitud de probabilidad, escrita en coordenadas polares, así:

{displaystyle psi (x;theta)={sqrt {p(x;theta)};e^{ialpha (x;theta)}}

Aquí, ${displaystyle psi (x;theta)}$ es una amplitud de probabilidad de valor complejo; ${displaystyle p(x;theta)}$ y ${displaystyle alpha (x;theta)}$ son estrictamente reales. Los cálculos anteriores se obtienen por configuración ${displaystyle alpha (x;theta)=0}$ . La condición habitual de que las probabilidades se encuentran dentro de un simplex, es decir,

{displaystyle int _{X}p(x;theta),dx=1}

se expresa de manera equivalente mediante la idea de que la amplitud del cuadrado esté normalizada:

{displaystyle int _{X}vert psi (x;theta)vert ^{2},dx=1}

Cuando ${displaystyle psi (x;theta)}$ es real, esta es la superficie de una esfera.

La métrica de Fubini-Study, escrita en forma infinitesimal, utilizando notación de soporte mecánico-cuántico, es

{displaystyle ds^{2}={frac {langle delta psi mid delta psi rangle }{langle psi mid psi rangle }-{frac {langle delta psi mid psi rangle ;langle psi mid delta psi rangle }{langle psi mid psi rangle }{2}}}}

En esta notación, uno tiene eso ${displaystyle langle xmid psi rangle =psi (x;theta)}$ e integración en todo el espacio de medida X está escrito como

{displaystyle langle phi mid psi rangle =int _{X}phi ^{*}(x;theta)psi (x;theta),dx.}

La expresión ${displaystyle vert delta psi rangle }$ puede ser entendido como una variación infinitesimal; equivalentemente, se puede entender que es una forma 1 en el espacio cotangente. Usando la notación infinitesimal, la forma polar de la probabilidad anterior es simplemente

{displaystyle delta psi =left({frac {delta p}{2p}+idelta alpha right)psi }

Insertar lo anterior en la métrica Fubini-Study da:

{displaystyle {begin{aligned}ds^{2}={} {f} {f} {1}{4}int _{X}(delta log p)^{2};p,dx\[8pt]{} limit+int _{X}(delta alpha)^{2};p,dx-left(int) _{X}delta alpha ;p,dxright)^{2}[8pt] reducida{}-{frac {i}{2}}int _{X}(delta log pdelta alpha -delta delta log p);p,dxend{aligned}}}}}

Ajuste ${displaystyle delta alpha =0}$ en lo anterior deja claro que el primer término es (una cuarta parte) la métrica de información Fisher. La forma completa de lo anterior puede ser ligeramente más clara cambiando la notación a la de la geometría Riemanniana estándar, de modo que la métrica se convierte en una forma simétrica de 2 formas que actúa en el espacio tangente. El cambio de notación se hace simplemente reemplazando ${displaystyle delta to d}$ y ${displaystyle ds^{2}to h}$ y notando que los integrales son valores de expectativa; así:

{displaystyle {begin{aligned}h={} {frac} {1}{4}}mathrm {E} left[(dlog p)^{2}right]+mathrm {E} left[(dalpha)^{2}right]-left(mathrm {E} left[dalpha right]right)}{2}[8pt]{}{4}{4}{4}{4}{4}{4}{4}{4}}{4}}}}}}{4}}}}} {} {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {}}}}}}} {}}}}}}}}}m}m}m}m}}}}}}}}m}}}m}}m}m}m}m}m}m}m}m}m} {I}{2}mathrm {E} left[dlog pwedge dalpha right]end{aligned}}

El término imaginario es una forma simpléctica, es la fase Berry o fase geométrica. En notación de índice, la métrica es:

{displaystyle {begin{aligned}h_{jk}={hleft({frac} {partial }{partial {fnMicrosoft Sans Serif} {fnMicrosoft } {fnMicrosoft Sans Serif} theta _{k}}right)[8pt]={} {frac {1}{4}mathrm {E} left[{frac {partial log p}{partial theta {fnK} {fnMicroc {cHFF} {fnK}fnunció][8pt]{} {m} {m} left[{frac {partial alpha }{partial theta {c} {c} {c} {c}c} {c}c}c}}mm}m} left[{frac {partial alpha }{partial theta _{j}}}}m} {}}m} left[{frac {frac {partial alpha } {theta}}}}}}}}m}m}m}m}m}m}m}m}m}m}m} {m}m}m}m}m}m}m}m}m}m}m}m}m}m}m} {m}m}m}m}m}m}m}m} {m}m}m}m}m}m}m}m}m}m}m}m}m} ¿Por qué? {f}m}mhm} left[{frac {partial log p}{partial theta {fnMicroc {fnMicrosoft Sans Serif} }{partial theta {fnMicrosoft Sans Serif} }{partial theta {fnK} {fnMicroc {pariallog p}{partial theta _{k}}right]end{aligned}}

De nuevo, el primer término se puede ver claramente (una cuarta parte de) la métrica de información Fisher, estableciendo ${displaystyle alpha =0}$ . Equivalentemente, la métrica Fubini-Study puede entenderse como la métrica en el espacio complejo proyector Hilbert que es inducida por la compleja extensión de la métrica plana Euclideana. La diferencia entre esto y la métrica Bures es que la métrica Bures está escrita en términos de estados mixtos.

Probabilidades valoradas continuamente

Se puede dar una definición abstracta un poco más formal, como sigue.

Vamos X ser un manifold orientable, y dejar ${displaystyle (X,Sigmamu)}$ ser una medida X. Equivalentemente, vamos ${displaystyle (Omega{mathcal {F}},P)}$ ser un espacio de probabilidad en ${displaystyle Omega =X}$ , con álgebra de sigma ${displaystyle {Mathcal}=Sigma }$ y probabilidad ${displaystyle P=mu }$ .

El conjunto estadístico S()X) de X se define como el espacio de todas las medidas ${displaystyle mu }$ on X (con el sigma-algebra ${displaystyle Sigma }$ mantenido fijo). Tenga en cuenta que este espacio es infinito-dimensional, y se toma comúnmente como un espacio Fréchet. Los puntos de S()X) son medidas.

Elige un punto ${displaystyle mu in S(X)}$ y considerar el espacio tangente ${displaystyle T... {mu}S}$ . La métrica de información Fisher es entonces un producto interno en el espacio tangente. Con algún abuso de notación, uno puede escribir esto como

{displaystyle g(sigma _{1},sigma _{2}=int _{X}{frac {dsigma ¿Qué? }{frac {dsigma ¿Qué?

Aquí, ${displaystyle sigma ¿Qué?$ y ${displaystyle sigma _{2}$ son vectores en el espacio tangente; es decir, ${displaystyle sigma _{1},sigma _{2}in T... {mu}S}$ . El abuso de la notación es escribir los vectores tangentes como si fueran derivados, e insertar el extraneous d por escrito la integral: la integración está destinada a llevar a cabo utilizando la medida ${displaystyle mu }$ sobre todo el espacio X. Este abuso de notación es, de hecho, tomado para ser perfectamente normal en la teoría de medida; es la notación estándar para el derivado Radon-Nikodym.

Para que la integral esté bien definida, el espacio S(X) debe tener la propiedad Radón-Nikodym y, más específicamente, el espacio tangente es restringido a aquellos vectores que son integrables al cuadrado. La integrabilidad cuadrada equivale a decir que una secuencia de Cauchy converge a un valor finito bajo la topología débil: el espacio contiene sus puntos límite. Tenga en cuenta que los espacios de Hilbert poseen esta propiedad.

Esta definición de la métrica puede considerarse equivalente a la anterior, en varios pasos. Primero, se selecciona un submanifold de S()X) examinando sólo esas medidas ${displaystyle mu }$ que están parametrados por algún parámetro suavemente variable ${displaystyle theta }$ . Entonces, si ${displaystyle theta }$ es finito-dimensional, entonces es el submanifold; igualmente, el espacio tangente tiene la misma dimensión que ${displaystyle theta }$ .

Con algunos abusos adicionales de lenguaje, se observa que el mapa exponencial proporciona un mapa de vectores en un espacio tangente a puntos en un múltiples ejes subyacentes. Así, si ${displaystyle sigma in T_{mu }S}$ es un vector en el espacio tangente, entonces ${displaystyle p=exp(sigma)}$ es la probabilidad correspondiente asociada con el punto ${displaystyle pin S(X)}$ (después del transporte paralelo del mapa exponencial a ${displaystyle mu }$ .) Por el contrario, dado un punto ${displaystyle pin S(X)}$ , el logaritmo da un punto en el espacio tangente (aproximadamente hablando, como otra vez, uno debe transportar desde el origen hasta el punto ${displaystyle mu }$ ; para más detalles, consulte fuentes originales). Así, uno tiene la apariencia de logaritmos en la definición más simple, previamente dada.

Contenido relacionado

Más resultados...