Matriz Hessiana

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

(Matemática) matriz de segundos derivados

En matemáticas, la matriz de Hesse, hessiana o (menos comúnmente) la matriz de Hesse es una matriz cuadrada de derivadas parciales de segundo orden de una función con valores escalares o campo escalar. Describe la curvatura local de una función de muchas variables. La matriz de Hesse fue desarrollada en el siglo XIX por el matemático alemán Ludwig Otto Hesse y más tarde recibió su nombre. Hesse utilizó originalmente el término "determinantes funcionales".

Definiciones y propiedades

Suppose ${displaystyle f:mathbb {R} ^{n}to mathbb {R} }$ es una función que toma como entrada un vector ${displaystyle mathbf {x} in mathbb {R} ^{n}}$ y producir un escalar ${displaystyle f(mathbf {x})in mathbb {R}.}$ Si todos los derivados parciales de segundo orden de $f$ existen, entonces la matriz hesiana $mathbf{H}$ de $f$ es un cuadrado $ntimes n$ matriz, generalmente definida y arreglada

{displaystyle mathbf {H} _{f}={begin{bmatrix}{dfrac {partial ^{2}f}{partial x_{1}^{2}}}&{dfrac {partial ^{2}f}{partial x_{1},partial x_{2}}}&cdots &{dfrac {partial ^{2}f}{partial x_{1},partial x_{n}}}\[2.2ex]{dfrac {partial ^{2}f}{partial x_{2},partial x_{1}}}&{dfrac {partial ^{2}f}{partial x_{2}^{2}}}&cdots &{dfrac {partial ^{2}f}{partial x_{2},partial x_{n}}}\[2.2ex]vdots &vdots &ddots &vdots \[2.2ex]{dfrac {partial ^{2}f}{partial x_{n},partial x_{1}}}&{dfrac {partial ^{2}f}{partial x_{n},partial x_{2}}}&cdots &{dfrac {partial ^{2}f}{partial x_{n}^{2}}}end{bmatrix}}.}

i

j

{displaystyle (mathbf {H} _{f})_{i,j}={frac {partial ^{2}f}{partial x_{i},partial x_{j}}}.}

Si además las segundas derivadas parciales son todas continuas, la matriz de Hesse es una matriz simétrica por la simetría de las segundas derivadas.

El determinante de la matriz de Hesse se llama determinante de Hesse.

La matriz hesiana de una función $f$ es la transposición de la matriz Jacobiana del gradiente de la función $f$ ; es decir: ${displaystyle mathbf {H} (f(mathbf {x}))=mathbf {J} (nabla f(mathbf {x}))^{T}.}$

Aplicaciones

Puntos de inflexión

Si $f$ es un polinomio homogéneo en tres variables, la ecuación $f=0$ es la ecuación implícita de una curva proyectiva plana. Los puntos de inflexión de la curva son exactamente los puntos no-singulares donde el determinante hesiano es cero. Sigue por el teorema de Bézout que una curva de plano cúbico tiene al máximo $9$ puntos de inflexión, ya que el determinante hesiano es un polinomio de grado ${displaystyle 3.}$

Prueba de la segunda derivada

La matriz hesiana de una función convexa es semi-definida positiva. Refinar esta propiedad nos permite probar si un punto crítico $x$ es un máximo local, mínimo local, o un punto de silla, como sigue:

Si el Hessian es positivo-definido en $x,$ entonces $f$ alcanza un mínimo local aislado $x.$ Si el Hessian es negativo-definido en $x,$ entonces $f$ alcanza un máximo local aislado $x.$ Si el Hessian tiene valores positivos y negativos, entonces $x$ es un punto de silla para $f.$ De lo contrario, la prueba no es concluyente. Esto implica que en un mínimo local el Hessian es positivo-semidefinito, y en un máximo local el Hessian es negativo-semidefinito.

Para los hessianos positivos-semidefinidos y negativos-semidefinidos la prueba no es concluyente (un punto crítico donde el hessiano es semidefinido pero no definido puede ser un extremo local o un punto de silla). Sin embargo, se puede decir más desde el punto de vista de la teoría Morse.

La segunda prueba derivativa para funciones de una y dos variables es más simple que el caso general. En una variable, el Hessian contiene exactamente un segundo derivado; si es positivo, entonces $x$ es un mínimo local, y si es negativo, entonces $x$ es un máximo local; si es cero, entonces la prueba es inconclusiva. En dos variables se puede utilizar el determinante, ya que el determinante es el producto de los eigenvalues. Si es positivo, entonces los eigenvalues son tanto positivos, o ambos negativos. Si es negativo, entonces los dos eigenvalues tienen diferentes signos. Si es cero, entonces la segunda prueba dériva es inconclusiva.

Equivalentemente, las condiciones de segundo orden que son suficientes para un mínimo o máximo local se pueden expresar en términos de la secuencia de los menores principales (actualmente) (determinantes de sub-matrices) del Hessian; estas condiciones son un caso especial de los que se dan en la siguiente sección para los hesianos fronterizos para la optimización limitada—el caso en que el número de limitaciones es cero. Específicamente, la condición suficiente para un mínimo es que todos estos principales menores sean positivos, mientras que la condición suficiente para un máximo es que los menores se alternan en señal, con los menores $1 times 1$ menor negativo.

Puntos críticos

Si el gradiente (el vector de los derivados parciales) de una función $f$ es cero en algún punto ${displaystyle mathbf {x}}$ entonces $f$ tiene punto crítico (o Punto fijo) at ${displaystyle mathbf {x}.}$ El determinante del Hesian en $mathbf {x}$ se llama, en algunos contextos, un discriminante. Si este determinante es cero entonces $mathbf {x}$ se llama punto crítico degenerado de $f,$ o a punto crítico no monetario de $f.$ De lo contrario no es degenerado, y llamado a Punto crítico Morse de $f.$

La matriz de Hesse juega un papel importante en la teoría Morse y la teoría de catástrofes, porque su núcleo y sus valores propios permiten la clasificación de los puntos críticos.

El determinante de la matriz de Hesse, cuando se evalúa en un punto crítico de una función, es igual a la curvatura gaussiana de la función considerada como una variedad. Los valores propios del hessiano en ese punto son las curvaturas principales de la función, y los vectores propios son las direcciones principales de curvatura. (Ver Curvatura gaussiana § Relación con las curvaturas principales).

Uso en optimización

Las matrices de Hesse se utilizan en problemas de optimización a gran escala dentro de los métodos de tipo Newton porque son el coeficiente del término cuadrático de una expansión local de Taylor de una función. Eso es,

{displaystyle y=f(mathbf {x} +Delta mathbf {x})approx f(mathbf {x})+nabla f(mathbf {x})^{mathrm {T} }Delta mathbf {x} +{frac {1}{2}},Delta mathbf {x} ^{mathrm {T} }mathbf {H} (mathbf {x}),Delta mathbf {x} }

nabla f

{displaystyle left({frac {partial f}{partial x_{1}}},ldots{frac {partial f}{partial x_{n}}}right).}

{displaystyle Theta left(n^{2}right)}

Tales aproximaciones pueden utilizar el hecho de que un algoritmo de optimización utiliza el Hessian sólo como un operador lineal ${displaystyle mathbf {H} (mathbf {v}),}$ y proceder por primera vez notando que el Hessian también aparece en la expansión local del gradiente:

{displaystyle nabla f(mathbf {x} +Delta mathbf {x})=nabla f(mathbf {x})+mathbf {H} (mathbf {x}),Delta mathbf {x} +{mathcal {O}}(|Delta mathbf {x} |^{2})}

Letting ${displaystyle Delta mathbf {x} =rmathbf {v} }$ para algunos scalar $r,$ esto da

{displaystyle mathbf {H} (mathbf {x}),Delta mathbf {x} =mathbf {H} (mathbf {x})rmathbf {v} =rmathbf {H} (mathbf {x})mathbf {v} =nabla f(mathbf {x} +rmathbf {v})-nabla f(mathbf {x})+{mathcal {O}}(r^{2}),}

{displaystyle mathbf {H} (mathbf {x})mathbf {v} ={frac {1}{r}}left[nabla f(mathbf {x} +rmathbf {v})-nabla f(mathbf {x})right]+{mathcal {O}}(r)}

r

{displaystyle {mathcal {O}}(r)}

En particular, en lo que respecta a las heurísticas de búsqueda aleatoria, la matriz de covarianza de la estrategia de evolución se adapta a la inversa de la matriz de Hesse, hasta un factor escalar y pequeñas fluctuaciones aleatorias. Este resultado ha sido probado formalmente para una estrategia monoparental y un modelo estático, a medida que aumenta el tamaño de la población, basándose en la aproximación cuadrática.

Otras aplicaciones

La matriz de Hesse se usa comúnmente para expresar operadores de procesamiento de imágenes en procesamiento de imágenes y visión por computadora (consulte el detector de manchas laplaciano de Gauss (LoG), el determinante del detector de manchas de Hesse (DoH) y el espacio de escala). Se puede utilizar en análisis en modo normal para calcular las diferentes frecuencias moleculares en espectroscopia infrarroja. También se puede utilizar en sensibilidad local y diagnóstico estadístico.

Generalizaciones

Arpillera bordeada

A bordered Hessian se utiliza para la segunda prueba de riesgo en ciertos problemas de optimización limitados. Dada la función $f$ considerado anteriormente, pero añadiendo una función de restricción $g$ tales que ${displaystyle g(mathbf {x})=c,}$ el Hessian fronterizo es el Hessian de la función Lagrange ${displaystyle Lambda (mathbf {x}lambda)=f(mathbf {x})+lambda [g(mathbf {x})-c]:}$

{displaystyle mathbf {H} (Lambda)={begin{bmatrix}{dfrac {partial ^{2}Lambda }{partial lambda ^{2}}}&{dfrac {partial ^{2}Lambda }{partial lambda partial mathbf {x} }}\left({dfrac {partial ^{2}Lambda }{partial lambda partial mathbf {x} }}right)^{mathsf {T}}&{dfrac {partial ^{2}Lambda }{partial mathbf {x} ^{2}}}end{bmatrix}}={begin{bmatrix}0&{dfrac {partial g}{partial x_{1}}}&{dfrac {partial g}{partial x_{2}}}&cdots &{dfrac {partial g}{partial x_{n}}}\[2.2ex]{dfrac {partial g}{partial x_{1}}}&{dfrac {partial ^{2}Lambda }{partial x_{1}^{2}}}&{dfrac {partial ^{2}Lambda }{partial x_{1},partial x_{2}}}&cdots &{dfrac {partial ^{2}Lambda }{partial x_{1},partial x_{n}}}\[2.2ex]{dfrac {partial g}{partial x_{2}}}&{dfrac {partial ^{2}Lambda }{partial x_{2},partial x_{1}}}&{dfrac {partial ^{2}Lambda }{partial x_{2}^{2}}}&cdots &{dfrac {partial ^{2}Lambda }{partial x_{2},partial x_{n}}}\[2.2ex]vdots &vdots &vdots &ddots &vdots \[2.2ex]{dfrac {partial g}{partial x_{n}}}&{dfrac {partial ^{2}Lambda }{partial x_{n},partial x_{1}}}&{dfrac {partial ^{2}Lambda }{partial x_{n},partial x_{2}}}&cdots &{dfrac {partial ^{2}Lambda }{partial x_{n}^{2}}}end{bmatrix}}={begin{bmatrix}0&{dfrac {partial g}{partial mathbf {x} }}\left({dfrac {partial g}{partial mathbf {x} }}right)^{mathsf {T}}&{dfrac {partial ^{2}Lambda }{partial mathbf {x} ^{2}}}end{bmatrix}}}

Si hay, digamos, $m$ restricciones entonces el cero en la esquina superior izquierda es un $mtimes m$ bloque de ceros, y hay $m$ filas fronterizas en la parte superior y $m$ columnas fronterizas a la izquierda.

Las reglas anteriores que indican que los extremos se caracterizan (entre puntos críticos con un hesiano no-singular) por un hesiano positivo-definido o negativo-definido no pueden aplicarse aquí ya que un hesiano fronterizo no puede ser ni negativo-definido ni positivo-definido, como ${displaystyle mathbf {z} ^{mathsf {T}}mathbf {H} mathbf {z} =0}$ si $mathbf {z}$ es cualquier vector cuya única entrada no cero es su primera.

La segunda prueba derivada consiste aquí de restricciones de signos de los determinantes de un determinado conjunto de $n-m$ submatrices de la frontera hesiana. Intuitivamente, $m$ se puede considerar que las limitaciones reducen el problema a uno con $n-m$ variables libres. (Por ejemplo, la maximización de ${displaystyle fleft(x_{1},x_{2},x_{3}right)}$ sujeto a la limitación ${displaystyle x_{1}+x_{2}+x_{3}=1}$ se puede reducir a la máxima ${displaystyle fleft(x_{1},x_{2},1-x_{1}-x_{2}right)}$ sin restricciones.)

Específicamente, se imponen condiciones de señalización a la secuencia de los principales menores (determinantes de submatrices de alta izquierda) del Hesiano fronterizo, para el cual el primero ${displaystyle 2m}$ principales menores son desatendidos, el menor menor que consiste en el primer truncado ${displaystyle 2m+1}$ filas y columnas, la siguiente consistiendo de la primera truncada ${displaystyle 2m+2}$ filas y columnas, y así sucesivamente, con el último ser el Hessian bordeado entero; si ${displaystyle 2m+1}$ es más grande que ${displaystyle n+m,}$ entonces el menor principal menor es el propio Hessian. Hay, pues, $n-m$ Menores a considerar, cada uno evaluado en el punto específico que se considera como candidato máximo o mínimo. Una condición suficiente para un local máximo es que estos menores se alternan en señal con el menor que tiene la señal de ${displaystyle (-1)^{m+1}.}$ Una condición suficiente para un local mínimo es que todos estos menores tienen el signo de ${displaystyle (-1)^{m}.}$ (En el caso sin restricciones $m=0$ estas condiciones coinciden con las condiciones para que el hesiano sin fronteras sea definido o positivo negativo respectivamente.

Funciones con valores vectoriales

Si $f$ es un campo vectorial ${displaystyle mathbf {f}:mathbb {R} ^{n}to mathbb {R} ^{m},}$ es decir,

{displaystyle mathbf {f} (mathbf {x})=left(f_{1}(mathbf {x}),f_{2}(mathbf {x}),ldotsf_{m}(mathbf {x})right),}

ntimes n

m

mathbf {f}

{displaystyle mathbf {H} (mathbf {f})=left(mathbf {H} (f_{1}),mathbf {H} (f_{2}),ldotsmathbf {H} (f_{m})right).}

{displaystyle m=1.}

Generalización al caso complejo

En el contexto de varias variables complejas, el Hessian puede ser generalizado. Suppose ${displaystyle fcolon mathbb {C} ^{n}to mathbb {C}}$ y escribir ${displaystyle fleft(z_{1},ldotsz_{n}right).}$ Entonces el hesiano generalizado es ${displaystyle {frac {partial ^{2}f}{partial z_{i}partial {overline {z_{j}}}}}.}$ Si $f$ satisface las condiciones n-dimensionales Cauchy–Riemann, entonces la matriz hesiana compleja es idénticamente cero.

Generalizaciones a variedades de Riemann

Vamos $(M,g)$ ser un andamio Riemanniano $nabla$ su conexión Levi-Civita. Vamos ${displaystyle f:Mto mathbb {R} }$ ser una función suave. Define el tensor hesiano por

{displaystyle operatorname {Hess} (f)in Gamma left(T^{*}Motimes T^{*}Mright)quad {text{ by }}quad operatorname {Hess} (f):=nabla nabla f=nabla df,}

{displaystyle left{x^{i}right}}

{displaystyle operatorname {Hess} (f)=nabla _{i},partial _{j}f dx^{i}!otimes !dx^{j}=left({frac {partial ^{2}f}{partial x^{i}partial x^{j}}}-Gamma _{ij}^{k}{frac {partial f}{partial x^{k}}}right)dx^{i}otimes dx^{j}}

Gamma^k_{ij}

{displaystyle operatorname {Hess} (f)(X,Y)=langle nabla _{X}operatorname {grad} f,Yrangle quad {text{ and }}quad operatorname {Hess} (f)(X,Y)=X(Yf)-df(nabla _{X}Y).}

Contenido relacionado

Más resultados...