Matriz Hessiana

ImprimirCitar
(Matemática) matriz de segundos derivados

En matemáticas, la matriz de Hesse, hessiana o (menos comúnmente) la matriz de Hesse es una matriz cuadrada de derivadas parciales de segundo orden de una función con valores escalares o campo escalar. Describe la curvatura local de una función de muchas variables. La matriz de Hesse fue desarrollada en el siglo XIX por el matemático alemán Ludwig Otto Hesse y más tarde recibió su nombre. Hesse utilizó originalmente el término "determinantes funcionales".

Definiciones y propiedades

Suppose f:Rn→ → R{displaystyle f:mathbb {R} ^{n}to mathbb {R} es una función que toma como entrada un vector x▪ ▪ Rn{displaystyle mathbf {x} in mathbb {R} {fn} y producir un escalar f()x)▪ ▪ R.{displaystyle f(mathbf {x})in mathbb {R} Si todos los derivados parciales de segundo orden de f{displaystyle f} existen, entonces la matriz hesiana H{displaystyle mathbf {H} de f{displaystyle f} es un cuadrado n× × n{displaystyle ntimes n} matriz, generalmente definida y arreglada

Hf=[∂ ∂ 2f∂ ∂ x12∂ ∂ 2f∂ ∂ x1∂ ∂ x2⋯ ⋯ ∂ ∂ 2f∂ ∂ x1∂ ∂ xn∂ ∂ 2f∂ ∂ x2∂ ∂ x1∂ ∂ 2f∂ ∂ x22⋯ ⋯ ∂ ∂ 2f∂ ∂ x2∂ ∂ xn⋮ ⋮ ⋮ ⋮ ⋱ ⋱ ⋮ ⋮ ∂ ∂ 2f∂ ∂ xn∂ ∂ x1∂ ∂ 2f∂ ∂ xn∂ ∂ x2⋯ ⋯ ∂ ∂ 2f∂ ∂ xn2].{displaystyle mathbf {H} _{begin{bmatrix}{dfrac {partial ^{2}f}{partial x_{1}{2}} {dfrac {partial ^{2}f}{partial x_{1},partial x_{2}}}} {cdots > {dfrac {partial ^{2}f}{partial x_{1},partial x_{n}}[2.2ex]{dfrac {partial ^{2}f}{partial x_{2},partial {f}}} {dfrac {partial ^{2}f}{partial x_{2}{2}} {cdots}dfrac {partial ^{2}f}{partial x_{2},partial x_{n}}[2.2ex]vdots >vdots &vdots \[2.2ex]{dfrac {partial ^{2}f}{partial x_{n},partial {f}}} {dfrac {partial ^{2}f}{partial x_{n},partial x_{2}} {cdots > {partial ^{2}f}{partial ¿Qué?
ij
()Hf)i,j=∂ ∂ 2f∂ ∂ xi∂ ∂ xj.{displaystyle (mathbf {H}_{i,j}={frac {partial ^{2}f}{partial x_{i},partial #

Si además las segundas derivadas parciales son todas continuas, la matriz de Hesse es una matriz simétrica por la simetría de las segundas derivadas.

El determinante de la matriz de Hesse se llama determinante de Hesse.

La matriz hesiana de una función f{displaystyle f} es la transposición de la matriz Jacobiana del gradiente de la función f{displaystyle f}; es decir: H()f()x))=J()Silencio Silencio f()x))T.{displaystyle mathbf {H} (f(mathbf {x})=mathbf {J} (nabla f(mathbf {x})}{T}.}

Aplicaciones

Puntos de inflexión

Si f{displaystyle f} es un polinomio homogéneo en tres variables, la ecuación f=0{displaystyle f=0} es la ecuación implícita de una curva proyectiva plana. Los puntos de inflexión de la curva son exactamente los puntos no-singulares donde el determinante hesiano es cero. Sigue por el teorema de Bézout que una curva de plano cúbico tiene al máximo 9{displaystyle 9} puntos de inflexión, ya que el determinante hesiano es un polinomio de grado 3.{displaystyle 3.}

Prueba de la segunda derivada

La matriz hesiana de una función convexa es semi-definida positiva. Refinar esta propiedad nos permite probar si un punto crítico x{displaystyle x} es un máximo local, mínimo local, o un punto de silla, como sigue:

Si el Hessian es positivo-definido en x,{displaystyle x,} entonces f{displaystyle f} alcanza un mínimo local aislado x.{displaystyle x.} Si el Hessian es negativo-definido en x,{displaystyle x,} entonces f{displaystyle f} alcanza un máximo local aislado x.{displaystyle x.} Si el Hessian tiene valores positivos y negativos, entonces x{displaystyle x} es un punto de silla para f.{displaystyle f.} De lo contrario, la prueba no es concluyente. Esto implica que en un mínimo local el Hessian es positivo-semidefinito, y en un máximo local el Hessian es negativo-semidefinito.

Para los hessianos positivos-semidefinidos y negativos-semidefinidos la prueba no es concluyente (un punto crítico donde el hessiano es semidefinido pero no definido puede ser un extremo local o un punto de silla). Sin embargo, se puede decir más desde el punto de vista de la teoría Morse.

La segunda prueba derivativa para funciones de una y dos variables es más simple que el caso general. En una variable, el Hessian contiene exactamente un segundo derivado; si es positivo, entonces x{displaystyle x} es un mínimo local, y si es negativo, entonces x{displaystyle x} es un máximo local; si es cero, entonces la prueba es inconclusiva. En dos variables se puede utilizar el determinante, ya que el determinante es el producto de los eigenvalues. Si es positivo, entonces los eigenvalues son tanto positivos, o ambos negativos. Si es negativo, entonces los dos eigenvalues tienen diferentes signos. Si es cero, entonces la segunda prueba dériva es inconclusiva.

Equivalentemente, las condiciones de segundo orden que son suficientes para un mínimo o máximo local se pueden expresar en términos de la secuencia de los menores principales (actualmente) (determinantes de sub-matrices) del Hessian; estas condiciones son un caso especial de los que se dan en la siguiente sección para los hesianos fronterizos para la optimización limitada—el caso en que el número de limitaciones es cero. Específicamente, la condición suficiente para un mínimo es que todos estos principales menores sean positivos, mientras que la condición suficiente para un máximo es que los menores se alternan en señal, con los menores 1× × 1{displaystyle 1times 1} menor negativo.

Puntos críticos

Si el gradiente (el vector de los derivados parciales) de una función f{displaystyle f} es cero en algún punto x,{displaystyle mathbf {x} entonces f{displaystyle f} tiene punto crítico (o Punto fijo) at x.{displaystyle mathbf {x} El determinante del Hesian en x{displaystyle mathbf {x} se llama, en algunos contextos, un discriminante. Si este determinante es cero entonces x{displaystyle mathbf {x} se llama punto crítico degenerado de f,{displaystyle f,} o a punto crítico no monetario de f.{displaystyle f.} De lo contrario no es degenerado, y llamado a Punto crítico Morse de f.{displaystyle f.}

La matriz de Hesse juega un papel importante en la teoría Morse y la teoría de catástrofes, porque su núcleo y sus valores propios permiten la clasificación de los puntos críticos.

El determinante de la matriz de Hesse, cuando se evalúa en un punto crítico de una función, es igual a la curvatura gaussiana de la función considerada como una variedad. Los valores propios del hessiano en ese punto son las curvaturas principales de la función, y los vectores propios son las direcciones principales de curvatura. (Ver Curvatura gaussiana § Relación con las curvaturas principales).

Uso en optimización

Las matrices de Hesse se utilizan en problemas de optimización a gran escala dentro de los métodos de tipo Newton porque son el coeficiente del término cuadrático de una expansión local de Taylor de una función. Eso es,

Sí.=f()x+Δ Δ x).. f()x)+Silencio Silencio f()x)TΔ Δ x+12Δ Δ xTH()x)Δ Δ x{displaystyle y=f(mathbf {x} +Delta mathbf {x})approx f(mathbf {x})+nabla f(mathbf {x})^{mathrm {T}Delta mathbf {x} # Delta mathbf {x},Delta mathbf {x}mathbf {x}mathbf {x},Delta mathbf {x}
Silencio Silencio f{displaystyle nabla f}()∂ ∂ f∂ ∂ x1,...... ,∂ ∂ f∂ ∂ xn).{displaystyle left({frac {partial f}{partial x_{1}}}ldots{frac {partial f}{partial x_{n}}right).}.. ()n2){displaystyle Theta left (n^{2}right)}

Tales aproximaciones pueden utilizar el hecho de que un algoritmo de optimización utiliza el Hessian sólo como un operador lineal H()v),{displaystyle mathbf {H} (mathbf {v}),} y proceder por primera vez notando que el Hessian también aparece en la expansión local del gradiente:

Silencio Silencio f()x+Δ Δ x)=Silencio Silencio f()x)+H()x)Δ Δ x+O().. Δ Δ x.. 2){displaystyle nabla f(mathbf {x} +Delta mathbf {x})=nabla f(mathbf {x})+mathbf {H} (mathbf {x}),Delta mathbf {x} +{mthcal {} {f} {f} {f}}} {f}}}} {f}}}}}} {f}} {f}}}} {f} {f}}}}} {f}}}}}}}}}}} {f} {f}}}}f}}}}}}}}}} {f} {f} {f}}}}} {f}}} {f}}f}f}}}}}}}f}}}}}}}}}}f}}}}}}f} {f} {f} {f}f}

Letting Δ Δ x=rv{displaystyle Delta mathbf {x} =rmathbf {v} para algunos scalar r,{displaystyle r,} esto da

H()x)Δ Δ x=H()x)rv=rH()x)v=Silencio Silencio f()x+rv)− − Silencio Silencio f()x)+O()r2),{fnMicrosoft} {fnMicrosoft} {fnMicrosoft} {cH} {cH} {cH} {cH} {cH} {cH} {cH} {cH} {cH} {cH} {cH} {cH}cH00}cH00}
H()x)v=1r[Silencio Silencio f()x+rv)− − Silencio Silencio f()x)]+O()r){displaystyle mathbf {H}mathbf {x}mathbf {v} ={frac {1}{r}}left[nabla f(mathbf {x} +rmathbf {v})-nabla f(mathbf {x})right]+{mathr}
r{displaystyle r}O()r){displaystyle {mathcal}(r)}

En particular, en lo que respecta a las heurísticas de búsqueda aleatoria, la matriz de covarianza de la estrategia de evolución se adapta a la inversa de la matriz de Hesse, hasta un factor escalar y pequeñas fluctuaciones aleatorias. Este resultado ha sido probado formalmente para una estrategia monoparental y un modelo estático, a medida que aumenta el tamaño de la población, basándose en la aproximación cuadrática.

Otras aplicaciones

La matriz de Hesse se usa comúnmente para expresar operadores de procesamiento de imágenes en procesamiento de imágenes y visión por computadora (consulte el detector de manchas laplaciano de Gauss (LoG), el determinante del detector de manchas de Hesse (DoH) y el espacio de escala). Se puede utilizar en análisis en modo normal para calcular las diferentes frecuencias moleculares en espectroscopia infrarroja. También se puede utilizar en sensibilidad local y diagnóstico estadístico.

Generalizaciones

Arpillera bordeada

A bordered Hessian se utiliza para la segunda prueba de riesgo en ciertos problemas de optimización limitados. Dada la función f{displaystyle f} considerado anteriormente, pero añadiendo una función de restricción g{displaystyle g} tales que g()x)=c,{displaystyle g(mathbf {x})=c,} el Hessian fronterizo es el Hessian de la función Lagrange ▪ ▪ ()x,λ λ )=f()x)+λ λ [g()x)− − c]:{displaystyle Lambda (mathbf {x}lambda)=f(mathbf {x})+lambda [g(mathbf {x})-c]:}

H()▪ ▪ )=[∂ ∂ 2▪ ▪ ∂ ∂ λ λ 2∂ ∂ 2▪ ▪ ∂ ∂ λ λ ∂ ∂ x()∂ ∂ 2▪ ▪ ∂ ∂ λ λ ∂ ∂ x)T∂ ∂ 2▪ ▪ ∂ ∂ x2]=[0∂ ∂ g∂ ∂ x1∂ ∂ g∂ ∂ x2⋯ ⋯ ∂ ∂ g∂ ∂ xn∂ ∂ g∂ ∂ x1∂ ∂ 2▪ ▪ ∂ ∂ x12∂ ∂ 2▪ ▪ ∂ ∂ x1∂ ∂ x2⋯ ⋯ ∂ ∂ 2▪ ▪ ∂ ∂ x1∂ ∂ xn∂ ∂ g∂ ∂ x2∂ ∂ 2▪ ▪ ∂ ∂ x2∂ ∂ x1∂ ∂ 2▪ ▪ ∂ ∂ x22⋯ ⋯ ∂ ∂ 2▪ ▪ ∂ ∂ x2∂ ∂ xn⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋱ ⋮ ⋮ ∂ ∂ g∂ ∂ xn∂ ∂ 2▪ ▪ ∂ ∂ xn∂ ∂ x1∂ ∂ 2▪ ▪ ∂ ∂ xn∂ ∂ x2⋯ ⋯ ∂ ∂ 2▪ ▪ ∂ ∂ xn2]=[0∂ ∂ g∂ ∂ x()∂ ∂ g∂ ∂ x)T∂ ∂ 2▪ ▪ ∂ ∂ x2]{fnMicrosoft} {fnMicrosoft} {partial g}{partial ################################################################################################################################################################################################################################################################ {partial g}{partial #### {2}} {cdots > {dfrac {partial g}{partial {fn}}[2.2ex]{dfrac {partial g}{partial ################################################################################################################################################################################################################################################################ ################################################################################################################################################################################################################################################################ {partial ^{2}Lambda}{partial x_{1},partial x_{2}} {cdots > {dfrac] {partial ^{2}Lambda}{partial x_{1},partial {fn}}[2.2ex]{dfrac {partial g}{partial #### {2} {dfrac} {partial ^{2}Lambda}{partial x_{2},partial ################################################################################################################################################################################################################################################################ x_{2} {2}} {cdots > {dfrac {partial ^{2}Lambda }{partial x_{2},partial x_{n}}[2.2ex]vdots &vdots &vdots &ddots &vdots \[2.2ex]{dfrac {partial g}{partial g}partial ################################################################################################################################################################################################################################################################ {partial ^{2}Lambda}{partial x_{n},partial ################################################################################################################################################################################################################################################################ x_{n},partial x_{2}} {cdots > {partial ^{2}Lambda}{partial ### {begin{bmatrix}={begin{bmatrix}0 limit{dfrac {fn} {fn}\fnh}}\fn} {\fnh}}} {fnh}}}}}}} {fn}} {fn}}}}}} {m}}}}} {m}}} {m} {bh}}} {bh}}}} {b}}}}}}}}}}}}}}}} {c}}}}} {p}}}}} {p}} {m} {c}}}}} {c}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} {p}}} {p}} {p}}} {p}}}}} {p}} {p}}}}}}}}}}}}}}}}} {p}}}}}}}}}}}}}}}}}}}}}}}}}

Si hay, digamos, m{displaystyle m} restricciones entonces el cero en la esquina superior izquierda es un m× × m{displaystyle mtimes m} bloque de ceros, y hay m{displaystyle m} filas fronterizas en la parte superior y m{displaystyle m} columnas fronterizas a la izquierda.

Las reglas anteriores que indican que los extremos se caracterizan (entre puntos críticos con un hesiano no-singular) por un hesiano positivo-definido o negativo-definido no pueden aplicarse aquí ya que un hesiano fronterizo no puede ser ni negativo-definido ni positivo-definido, como zTHz=0{displaystyle mathbf {z} {Mathbf {T}Mathbf {H} mathbf {z} =0} si z{displaystyle mathbf {z} es cualquier vector cuya única entrada no cero es su primera.

La segunda prueba derivada consiste aquí de restricciones de signos de los determinantes de un determinado conjunto de n− − m{displaystyle No. submatrices de la frontera hesiana. Intuitivamente, m{displaystyle m} se puede considerar que las limitaciones reducen el problema a uno con n− − m{displaystyle No. variables libres. (Por ejemplo, la maximización de f()x1,x2,x3){displaystyle fleft(x_{1},x_{2},x_{3}right)} sujeto a la limitación x1+x2+x3=1{displaystyle x_{1}+x_{2}+x_{3}=1} se puede reducir a la máxima f()x1,x2,1− − x1− − x2){displaystyle fleft(x_{1},x_{2},1-x_{1}-x_{2}right)} sin restricciones.)

Específicamente, se imponen condiciones de señalización a la secuencia de los principales menores (determinantes de submatrices de alta izquierda) del Hesiano fronterizo, para el cual el primero 2m{displaystyle 2m} principales menores son desatendidos, el menor menor que consiste en el primer truncado 2m+1{displaystyle 2m+1} filas y columnas, la siguiente consistiendo de la primera truncada 2m+2{displaystyle 2m+2} filas y columnas, y así sucesivamente, con el último ser el Hessian bordeado entero; si 2m+1{displaystyle 2m+1} es más grande que n+m,{displaystyle n+m,} entonces el menor principal menor es el propio Hessian. Hay, pues, n− − m{displaystyle No. Menores a considerar, cada uno evaluado en el punto específico que se considera como candidato máximo o mínimo. Una condición suficiente para un local máximo es que estos menores se alternan en señal con el menor que tiene la señal de ()− − 1)m+1.{displaystyle (-1)^{m+1} Una condición suficiente para un local mínimo es que todos estos menores tienen el signo de ()− − 1)m.{displaystyle (-1)^{m} (En el caso sin restricciones m=0{displaystyle m=0} estas condiciones coinciden con las condiciones para que el hesiano sin fronteras sea definido o positivo negativo respectivamente.

Funciones con valores vectoriales

Si f{displaystyle f} es un campo vectorial f:Rn→ → Rm,{displaystyle mathbf {f}:mathbb {R} {n}to mathbb {R} {m},} es decir,

f()x)=()f1()x),f2()x),...... ,fm()x)),{displaystyle mathbf {f} (mathbf {x})=left(f_{1}(mathbf {x}),f_{2}(mathbf {x}),ldotsf_{m}(mathbf {x})right),}}
n× × n{displaystyle ntimes n}m{displaystyle m}f{displaystyle mathbf {f}
H()f)=()H()f1),H()f2),...... ,H()fm)).{displaystyle mathbf {H} (mathbf {f})=left(mathbf {H} (f_{1}),mathbf {H} (f_{2}),ldotsmathbf {H} (f_{m})right). }
m=1.{displaystyle m=1.}

Generalización al caso complejo

En el contexto de varias variables complejas, el Hessian puede ser generalizado. Suppose f:: Cn→ → C,{displaystyle fcolon mathbb {C}to mathbb {C} y escribir f()z1,...... ,zn).{displaystyle fleft(z_{1},ldotsz_{n}right). } Entonces el hesiano generalizado es ∂ ∂ 2f∂ ∂ zi∂ ∂ zj̄ ̄ .{displaystyle {frac {partial ^{2}f}{partial z_{i}partial {fnMicrosoft Sans Serif} {Z_{j}}}}}} Si f{displaystyle f} satisface las condiciones n-dimensionales Cauchy–Riemann, entonces la matriz hesiana compleja es idénticamente cero.

Generalizaciones a variedades de Riemann

Vamos ()M,g){displaystyle (M,g)} ser un andamio Riemanniano Silencio Silencio {displaystyle nabla } su conexión Levi-Civita. Vamos f:M→ → R{displaystyle f:Mto mathbb {R} ser una función suave. Define el tensor hesiano por

Hess⁡ ⁡ ()f)▪ ▪ .. ()TAlternativa Alternativa M⊗ ⊗ TAlternativa Alternativa M)porHess⁡ ⁡ ()f):=Silencio Silencio Silencio Silencio f=Silencio Silencio df,{displaystyle operatorname {Hess} (f)in Gamma left(T^{*}Motimes T^{*}Mright)quad {text{ by }quad operatorname {Hess} (f):=nabla nabla f=nabla df,}
{}xi}{displaystyle left{x^{i}right}
Hess⁡ ⁡ ()f)=Silencio Silencio i∂ ∂ jfdxi⊗ ⊗ dxj=()∂ ∂ 2f∂ ∂ xi∂ ∂ xj− − .. ijk∂ ∂ f∂ ∂ xk)dxi⊗ ⊗ dxj{displaystyle operatorname {Hess} (f)=nabla ################################################################################################################################################################################################################################################################ # Gamma _{y}{k}{frac {partial f}{partial x^{k}right)dx^{i}otimes dx^{j}
.. ijk{displaystyle "Gamma"
Hess⁡ ⁡ ()f)()X,Y)=.. Silencio Silencio Xgrad⁡ ⁡ f,Y.. yHess⁡ ⁡ ()f)()X,Y)=X()Yf)− − df()Silencio Silencio XY).{displaystyle operatorname {Hess} (f)(X,Y)=langle nabla _{X}operatorname {grad} f,Yrangle quad {text{ and }quad operatorname {Hess} (f)(X,Y)=X(Yf)-df(nabla _{X}Y).}

Contenido relacionado

Conjunto universal

En la teoría de conjuntos, un conjunto universal es un conjunto que contiene todos los objetos, incluido él mismo. En la teoría de conjuntos, tal como se...

Conexión Levi-Civita

En la geometría riemanniana o pseudoriemanniana la conexión Levi-Civita es la única conexión afín en el haz tangente de una variedad que conserva la...

Cálculo secuencial

En lógica matemática, el cálculo de secuencias es un estilo de argumentación lógica formal en el que cada línea de una prueba es una tautología...
Más resultados...
Tamaño del texto:
Copiar