Métrica de información de Fisher
En geometría de la información, la métrica de información de Fisher es una métrica de Riemann particular que se puede definir en una variedad estadística suave, es decir,, una variedad suave cuyos puntos son medidas de probabilidad. definido en un espacio de probabilidad común. Se puede utilizar para calcular la diferencia de información entre mediciones.
La métrica es interesante en varios aspectos. Según el teorema de Chentsov, la métrica de información de Fisher en modelos estadísticos es la única métrica de Riemann (hasta el reescalamiento) que es invariante bajo estadísticas suficientes.
También puede entenderse como la forma infinitesimal de la entropía relativa (es decir,, la divergencia Kullback-Leibler); concretamente, es el hessiano de la divergencia. Alternativamente, puede entenderse como la métrica inducida por la métrica euclidiana del espacio plano, después de cambios apropiados de variable. Cuando se extiende al espacio proyectivo complejo de Hilbert, se convierte en la métrica de Fubini-Study; cuando se escribe en términos de estados mixtos, es la métrica cuántica de Bures.
Considerada puramente como una matriz, se la conoce como matriz de información de Fisher. Considerada como una técnica de medición, donde se utiliza para estimar parámetros ocultos en términos de variables aleatorias observadas, se le conoce como información observada.
Definición
Dada un conjunto estadístico con coordenadas , uno escribe para la distribución de probabilidad como función . Aquí. se extrae del espacio de valor R para una variable aleatoria (discreta o continua) X. La probabilidad es normalizada por
La métrica de información de Fisher toma la forma:
La integral se realiza sobre todos los valores x dentro X. La variable es ahora una coordenadas en un manifold Riemann. Las etiquetas j y k indexar los ejes de coordenadas locales en el múltiple.
Cuando la probabilidad se deriva de la medida Gibbs, como sería para cualquier proceso markoviano, entonces también se puede entender que es un multiplicador Lagrange; los multiplicadores Lagrange se utilizan para hacer cumplir las restricciones, tales como mantener el valor de expectativa de alguna cantidad constante. Si hay n limitaciones n diferentes valores de expectativa constante, entonces la dimensión del múltiple es n dimensiones más pequeñas que el espacio original. En este caso, la métrica puede derivarse explícitamente de la función de partición; allí se presenta una derivación y discusión.
Sustitución de la teoría de la información, una forma equivalente de la definición anterior es:
Para demostrar que la forma equivalente es igual a la definición anterior, tenga en cuenta que
y aplicar en ambos lados.
Relación con la divergencia Kullback-Leibler
Alternativamente, la métrica se puede obtener como el segundo derivado del relativa entropía o la divergencia de Kullback-Leibler. Para obtener esto, se consideran dos distribuciones de probabilidad y , que son infinitamente cercanos unos a otros, para que
con un cambio infinitamente pequeño en el j dirección. Entonces, desde la divergencia Kullback-Leibler tiene un mínimo absoluto de 0 cuando , uno tiene una expansión hasta el segundo orden de la forma
- .
La matriz simétrica es positiva (semi) definida y es la matriz hesiana de la función en el punto extremum . Esto se puede pensar intuitivamente como: "La distancia entre dos puntos infinitamente cercanos en un conjunto diferencial estadístico es la diferencia informativa entre ellos".
Relación con la geometría de Ruppeiner
La métrica de Ruppeiner y la métrica de Weinhold son la métrica de información de Fisher calculada para distribuciones de Gibbs como las que se encuentran en la mecánica estadística de equilibrio.
Cambio en la entropía libre
La acción de una curva sobre una variedad de Riemann está dada por
El parámetro de ruta aquí es el tiempo t; Se puede entender que esta acción proporciona el cambio en la entropía libre de un sistema a medida que se mueve del tiempo a al tiempo b. En concreto, uno tiene
como el cambio en la entropía libre. Esta observación ha dado lugar a aplicaciones prácticas en la industria química y de procesamiento: para minimizar el cambio en la entropía libre de un sistema, se debe seguir la ruta geodésica mínima entre los puntos finales deseados del proceso. La geodésica minimiza la entropía, debido a la desigualdad de Cauchy-Schwarz, que establece que la acción está limitada por debajo de la longitud de la curva, al cuadrado.
Relación con la divergencia Jensen-Shannon
La métrica de Fisher también permite relacionar la acción y la longitud de la curva con la divergencia de Jensen-Shannon. En concreto, uno tiene
donde el integrando dJSD se entiende como el cambio infinitesimal en la divergencia de Jensen-Shannon a lo largo del camino tomado. De manera similar, para la longitud de la curva, se tiene
Es decir, la raíz cuadrada de la divergencia de Jensen-Shannon es simplemente la métrica de Fisher (dividida por la raíz cuadrada de 8).
Como métrica euclidiana
Para un espacio de probabilidad discreto, es decir, un espacio de probabilidad en un conjunto finito de objetos, se puede entender que la métrica de Fisher es simplemente la métrica euclidiana restringida a un "cuadrante" de una esfera unitaria, después de cambios apropiados de variable.
Considere un espacio plano euclidiano, de dimensión N+ 1, parametrizado por puntos . La métrica para el espacio Euclideano es dada por
Donde son 1-formas; son los vectores base para el espacio cotangente. Escritura como vectores de base para el espacio tangente, así
- ,
la métrica euclidiana se puede escribir como
El superscript 'flat' está allí para recordar que, cuando está escrito en forma de coordenadas, esta métrica es con respecto a la coordenadas espacio-plano .
Una esfera unitaria N-dimensional incrustada en un espacio euclidiano (N + 1)-dimensional se puede definir como
Esta incrustación induce una métrica en la esfera, que se hereda directamente de la métrica euclidiana en el espacio ambiental. Toma exactamente la misma forma que el anterior, teniendo cuidado de garantizar que las coordenadas estén restringidas a estar en la superficie de la esfera. Esto se puede hacer, p. con la técnica de los multiplicadores de Lagrange.
Considere ahora el cambio de variable . La condición de la esfera ahora se convierte en la condición de normalización de probabilidad
mientras la métrica se vuelve
El último puede ser reconocido como una cuarta parte de la métrica de información Fisher. Para completar el proceso, recuerde que las probabilidades son funciones paramétricas de las variables múltiples , es decir, uno tiene . Así, lo anterior induce una métrica en el eje del parámetro:
o, en forma de coordenadas, la métrica de información de Fisher es:
donde, como antes,
El superscripto 'pescador' está presente para recordar que esta expresión es aplicable para las coordenadas ; mientras que la forma no coordinada es la misma que la métrica Euclidean (flat-space). Es decir, la métrica de información de Fisher sobre un conjunto estadístico es simplemente (cuatro veces) la métrica Euclideana restringida al cuadrante positivo de la esfera, después de cambios apropiados de variable.
Cuando la variable aleatoria no es discreto, pero continuo, el argumento todavía sostiene. Esto se puede ver de dos maneras diferentes. Una manera es retransmitir cuidadosamente todos los pasos anteriores en un espacio infinita, teniendo cuidado de definir los límites apropiadamente, etc., para asegurarse de que todas las manipulaciones estén bien definidas, convergentes, etc. La otra manera, como señala Gromov, es utilizar un enfoque teórico de categoría; es decir, señalar que las manipulaciones anteriores siguen siendo válidas en la categoría de probabilidades. Aquí, hay que señalar que tal categoría tendría la propiedad Radon-Nikodym, es decir, el teorema Radon-Nikodym tiene en esta categoría. Esto incluye los espacios de Hilbert; estos son cuadradas-integrables, y en las manipulaciones anteriores, esto es suficiente para reemplazar con seguridad la suma sobre cuadrados por una parte integral sobre cuadrados.
Como Fubini–Métrica de estudio
Las manipulaciones anteriores que derivan la métrica de Fisher de la métrica euclidiana se pueden extender a espacios proyectivos complejos de Hilbert. En este caso, se obtiene la métrica del Estudio Fubini. Quizás esto no debería sorprender, ya que la métrica del estudio Fubini proporciona los medios para medir información en mecánica cuántica. La métrica de Bures, también conocida como métrica de Helstrom, es idéntica a la métrica de Fubini-Study, aunque esta última generalmente se escribe en términos de estados puros, como se muestra a continuación, mientras que la métrica de Bures se escribe para estados mixtos. Al establecer la fase de la coordenada compleja en cero, se obtiene exactamente un cuarto de la métrica de información de Fisher, exactamente como se indicó anteriormente.
Se comienza con el mismo truco, de construir una amplitud de probabilidad, escrita en coordenadas polares, así:
Aquí, es una amplitud de probabilidad de valor complejo; y son estrictamente reales. Los cálculos anteriores se obtienen por configuración . La condición habitual de que las probabilidades se encuentran dentro de un simplex, es decir,
se expresa de manera equivalente mediante la idea de que la amplitud del cuadrado esté normalizada:
Cuando es real, esta es la superficie de una esfera.
La métrica de Fubini-Study, escrita en forma infinitesimal, utilizando notación de soporte mecánico-cuántico, es
En esta notación, uno tiene eso e integración en todo el espacio de medida X está escrito como
La expresión puede ser entendido como una variación infinitesimal; equivalentemente, se puede entender que es una forma 1 en el espacio cotangente. Usando la notación infinitesimal, la forma polar de la probabilidad anterior es simplemente
Insertar lo anterior en la métrica Fubini-Study da:
Ajuste en lo anterior deja claro que el primer término es (una cuarta parte) la métrica de información Fisher. La forma completa de lo anterior puede ser ligeramente más clara cambiando la notación a la de la geometría Riemanniana estándar, de modo que la métrica se convierte en una forma simétrica de 2 formas que actúa en el espacio tangente. El cambio de notación se hace simplemente reemplazando y y notando que los integrales son valores de expectativa; así:
El término imaginario es una forma simpléctica, es la fase Berry o fase geométrica. En notación de índice, la métrica es:
De nuevo, el primer término se puede ver claramente (una cuarta parte de) la métrica de información Fisher, estableciendo . Equivalentemente, la métrica Fubini-Study puede entenderse como la métrica en el espacio complejo proyector Hilbert que es inducida por la compleja extensión de la métrica plana Euclideana. La diferencia entre esto y la métrica Bures es que la métrica Bures está escrita en términos de estados mixtos.
Probabilidades valoradas continuamente
Se puede dar una definición abstracta un poco más formal, como sigue.
Vamos X ser un manifold orientable, y dejar ser una medida X. Equivalentemente, vamos ser un espacio de probabilidad en , con álgebra de sigma y probabilidad .
El conjunto estadístico S()X) de X se define como el espacio de todas las medidas on X (con el sigma-algebra mantenido fijo). Tenga en cuenta que este espacio es infinito-dimensional, y se toma comúnmente como un espacio Fréchet. Los puntos de S()X) son medidas.
Elige un punto y considerar el espacio tangente . La métrica de información Fisher es entonces un producto interno en el espacio tangente. Con algún abuso de notación, uno puede escribir esto como
Aquí, y son vectores en el espacio tangente; es decir, . El abuso de la notación es escribir los vectores tangentes como si fueran derivados, e insertar el extraneous d por escrito la integral: la integración está destinada a llevar a cabo utilizando la medida sobre todo el espacio X. Este abuso de notación es, de hecho, tomado para ser perfectamente normal en la teoría de medida; es la notación estándar para el derivado Radon-Nikodym.
Para que la integral esté bien definida, el espacio S(X) debe tener la propiedad Radón-Nikodym y, más específicamente, el espacio tangente es restringido a aquellos vectores que son integrables al cuadrado. La integrabilidad cuadrada equivale a decir que una secuencia de Cauchy converge a un valor finito bajo la topología débil: el espacio contiene sus puntos límite. Tenga en cuenta que los espacios de Hilbert poseen esta propiedad.
Esta definición de la métrica puede considerarse equivalente a la anterior, en varios pasos. Primero, se selecciona un submanifold de S()X) examinando sólo esas medidas que están parametrados por algún parámetro suavemente variable . Entonces, si es finito-dimensional, entonces es el submanifold; igualmente, el espacio tangente tiene la misma dimensión que .
Con algunos abusos adicionales de lenguaje, se observa que el mapa exponencial proporciona un mapa de vectores en un espacio tangente a puntos en un múltiples ejes subyacentes. Así, si es un vector en el espacio tangente, entonces es la probabilidad correspondiente asociada con el punto (después del transporte paralelo del mapa exponencial a .) Por el contrario, dado un punto , el logaritmo da un punto en el espacio tangente (aproximadamente hablando, como otra vez, uno debe transportar desde el origen hasta el punto ; para más detalles, consulte fuentes originales). Así, uno tiene la apariencia de logaritmos en la definición más simple, previamente dada.
Contenido relacionado
Paleontología de vertebrados
Número triangular
Flujo medio