Descenso de gradiente

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

algoritmo de optimización

Descenso de posgrado en 2D

En matemáticas, descenso de gradiente (también llamado descenso más pronunciado) es un algoritmo de optimización iterativo de primer orden para encontrar un mínimo local de una función diferenciable. La idea es dar pasos repetidos en la dirección opuesta del gradiente (o gradiente aproximado) de la función en el punto actual, porque esta es la dirección del descenso más pronunciado. Por el contrario, avanzar en la dirección del gradiente conducirá a un máximo local de esa función; el procedimiento se conoce entonces como ascenso de gradiente. Es particularmente útil en el aprendizaje automático para minimizar la función de costo o pérdida. El descenso de gradiente no debe confundirse con los algoritmos de búsqueda local, aunque todos son métodos iterativos para la optimización.

El descenso de gradiente generalmente se atribuye a Augustin-Louis Cauchy, quien lo sugirió por primera vez en 1847. Jacques Hadamard propuso de forma independiente un método similar en 1907. Sus propiedades de convergencia para problemas de optimización no lineal fueron estudiadas por primera vez por Haskell Curry en 1944, con el método se volvió cada vez más estudiado y utilizado en las décadas siguientes.

Una extensión simple del descenso de gradiente, el descenso de gradiente estocástico, sirve como el algoritmo más básico que se usa para entrenar la mayoría de las redes profundas en la actualidad.

Descripción

Ilustración de descenso de gradiente en una serie de conjuntos de nivel

El descenso del gradiente se basa en la observación de que si la función multivariable $F(mathbf {x})$ es definido y diferenciable en un barrio de un punto $mathbf {a}$ , entonces $F(mathbf {x})$ disminuciones más rápido si uno va de $mathbf {a}$ en la dirección del gradiente negativo de $F$ a ${displaystyle mathbf {a}-nabla F(mathbf {a})}$ . De ello se desprende, si

{displaystyle mathbf {a} _{n+1}=mathbf {a} _{n}-gamma nabla F(mathbf {a} _{n})}

para un pequeño tamaño de paso o tasa de aprendizaje ${displaystyle gamma in mathbb {R} _{+}}$ , entonces ${displaystyle F(mathbf {a_{n}})geq F(mathbf {a_{n+1}})}$ . En otras palabras, el término ${displaystyle gamma nabla F(mathbf {a})}$ se restringe de $mathbf {a}$ porque queremos movernos contra el gradiente, hacia el mínimo local. Con esta observación en mente, uno comienza con una conjetura $mathbf {x} _{0}$ para un mínimo local $F$ , y considera la secuencia ${displaystyle mathbf {x} _{0},mathbf {x} _{1},mathbf {x} _{2},ldots }$ tales que

mathbf {x} _{n+1}=mathbf {x} _{n}-gamma _{n}nabla F(mathbf {x} _{n}), ngeq 0.

Tenemos una secuencia monótona

F(mathbf {x} _{0})geq F(mathbf {x} _{1})geq F(mathbf {x} _{2})geq cdots

Así que, con suerte, la secuencia $(mathbf {x} _{n})$ converge al mínimo local deseado. Note que el valor del tamaño del paso $gamma$ se permite cambiar en cada iteración. Con ciertas suposiciones sobre la función $F$ (por ejemplo, $F$ convex y $nabla F$ Lipschitz) y opciones particulares de $gamma$ (por ejemplo, elegido ya sea a través de una búsqueda de línea que satisface las condiciones de Wolfe, o el método Barzilai-Borwein demostrado como sigue),

{displaystyle gamma _{n}={frac {left|left(mathbf {x} _{n}-mathbf {x} _{n-1}right)^{T}left[nabla F(mathbf {x} _{n})-nabla F(mathbf {x} _{n-1})right]right|}{left|nabla F(mathbf {x} _{n})-nabla F(mathbf {x} _{n-1})right|^{2}}}}

Se puede garantizar la convergencia a un mínimo local. Cuando la función $F$ es convex, todas las minima locales son también minima global, por lo que en este caso el descenso gradiente puede converger a la solución global.

Este proceso se ilustra en la imagen adyacente. Aquí, $F$ se supone que se define en el plano, y que su gráfico tiene una forma de tazón. Las curvas azules son las líneas de contorno, es decir, las regiones en las que el valor $F$ es constante. Una flecha roja originada en un punto muestra la dirección del gradiente negativo en ese punto. Tenga en cuenta que el gradiente (negativo) en un punto es ortogonal a la línea de contorno pasando por ese punto. Vemos ese gradiente descenso nos lleva al fondo del tazón, es decir, al punto donde el valor de la función $F$ es mínimo.

Una analogía para entender el gradiente descendente

Fog en las montañas

La intuición básica detrás del descenso de gradiente se puede ilustrar con un escenario hipotético. Una persona está atrapada en las montañas y está tratando de bajar (es decir, tratando de encontrar el mínimo global). Hay mucha niebla, por lo que la visibilidad es extremadamente baja. Por lo tanto, el camino que baja de la montaña no es visible, por lo que deben usar la información local para encontrar el mínimo. Pueden usar el método de descenso de pendiente, que consiste en observar la inclinación de la colina en su posición actual y luego proceder en la dirección con el descenso más pronunciado (es decir, cuesta abajo). Si estuvieran tratando de encontrar la cima de la montaña (es decir, el máximo), entonces procederían en la dirección del ascenso más empinado (es decir, cuesta arriba). Usando este método, eventualmente encontrarían su camino montaña abajo o posiblemente quedarían atrapados en algún agujero (es decir, mínimo local o punto de silla), como un lago de montaña. Sin embargo, asuma también que la inclinación de la colina no es inmediatamente obvia con una simple observación, sino que requiere un instrumento sofisticado para medir, que la persona tiene en ese momento. Lleva bastante tiempo medir la inclinación de la colina con el instrumento, por lo que deben minimizar el uso del instrumento si quieren bajar de la montaña antes del atardecer. La dificultad entonces es elegir la frecuencia con la que se debe medir la pendiente del cerro para no desviarse.

En esta analogía, la persona representa el algoritmo y el camino recorrido por la montaña representa la secuencia de configuración de parámetros que explorará el algoritmo. La pendiente de la colina representa la pendiente de la función en ese punto. El instrumento utilizado para medir la inclinación es la diferenciación. La dirección en la que eligen viajar se alinea con el gradiente de la función en ese punto. La cantidad de tiempo que viajan antes de tomar otra medida es el tamaño del paso.

Elegir el tamaño del paso y la dirección de descenso

Desde el uso de un tamaño de paso $gamma$ que es demasiado pequeño retrasaría la convergencia, y $gamma$ demasiado grande conduciría a la divergencia, encontrando un buen entorno $gamma$ es un problema práctico importante. Philip Wolfe también abogó por utilizar en la práctica "opciones más claras de la dirección [descendente]". Mientras que usando una dirección que se desvía de la dirección de descenso más pronunciada puede parecer contra-intuitiva, la idea es que la pendiente más pequeña puede ser compensada por ser sostenida a una distancia mucho más larga.

Para razonar sobre esto matemáticamente, considerar una dirección ${displaystyle mathbf {p} _{n}}$ y tamaño del paso ${displaystyle gamma _{n}}$ y considerar la actualización más general:

{displaystyle mathbf {a} _{n+1}=mathbf {a} _{n}-gamma _{n},mathbf {p} _{n}}

Encontrar buenas configuraciones de ${displaystyle mathbf {p} _{n}}$ y ${displaystyle gamma _{n}}$ requiere un poco de pensamiento. En primer lugar, nos gustaría la dirección de actualización para apuntar cuesta abajo. Matemáticamente, dejando ${displaystyle theta _{n}}$ denota el ángulo entre ${displaystyle -nabla F(mathbf {a_{n}})}$ y ${displaystyle mathbf {p} _{n}}$ , esto requiere que $0.}" xmlns="http://www.w3.org/1998/Math/MathML">#⁡ ⁡ Silencio Silencio n■0.{displaystyle cos theta _{n} {0}0.}" aria-hidden="true" class="mwe-math-fallback-image-inline" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/54c11842aa128a748a96c2103dcf0a266806b6ba" style="vertical-align: -0.671ex; width:10.715ex; height:2.509ex;"/>$ Para decir más, necesitamos más información sobre la función objetiva que estamos optimizando. Bajo la hipótesis bastante débil $F$ es continuamente diferente, podemos probar que:

{displaystyle F(mathbf {a} _{n+1})leq F(mathbf {a} _{n})-gamma _{n}|nabla F(mathbf {a} _{n})|_{2}|mathbf {p} _{n}|_{2}left[cos theta _{n}-max _{tin [0,1]}{frac {|nabla F(mathbf {a} _{n}-tgamma _{n}mathbf {p} _{n})-nabla F(mathbf {a} _{n})|_{2}}{|nabla F(mathbf {a} _{n})|_{2}}}right]}

()1)

Esta desigualdad implica que la cantidad por la que podemos estar seguros de la función $F$ la disminución depende de un intercambio entre los dos términos entre corchetes. El primer término entre corchetes mide el ángulo entre la dirección de descenso y el gradiente negativo. El segundo término mide lo rápido que el gradiente cambia a lo largo de la dirección de descenso.

En principio la desigualdad (1) se puede optimizar sobre ${displaystyle mathbf {p} _{n}}$ y ${displaystyle gamma _{n}}$ para elegir un tamaño y dirección de paso óptimos. El problema es que la evaluación del segundo término entre corchetes requiere la evaluación ${displaystyle nabla F(mathbf {a} _{n}-tgamma _{n}mathbf {p} _{n})}$ , y evaluaciones extra gradientes son generalmente costosas e indeseables. Algunas maneras en torno a este problema son:

Forja los beneficios de una dirección de ascendencia inteligente estableciendo ${displaystyle mathbf {p} _{n}=nabla F(mathbf {a_{n}})}$ , y utilizar la búsqueda de línea para encontrar un tamaño paso adecuado ${displaystyle gamma _{n}}$ , como uno que satisface las condiciones de Wolfe. Una manera más económica de elegir las tasas de aprendizaje es la búsqueda de líneas de retroceso, un método que tiene buenas garantías teóricas y resultados experimentales. Note que uno no necesita elegir ${displaystyle mathbf {p} _{n}}$ para ser el gradiente; cualquier dirección que tenga producto de intersección positivo con el gradiente resultará en una reducción del valor de la función (para un valor suficientemente pequeño ${displaystyle gamma _{n}}$ ).
Suponiendo que $F$ es dos veces diferente, utilizar su Hessian ${displaystyle nabla ^{2}F}$ estimación ${displaystyle |nabla F(mathbf {a} _{n}-tgamma _{n}mathbf {p} _{n})-nabla F(mathbf {a} _{n})|_{2}approx |tgamma _{n}nabla ^{2}F(mathbf {a} _{n})mathbf {p} _{n}|.}$ Entonces elija ${displaystyle mathbf {p} _{n}}$ y ${displaystyle gamma _{n}}$ optimizando la desigualdad (1).
Suponiendo que $nabla F$ es Lipschitz, utiliza su constante de Lipschitz $L$ a límites ${displaystyle |nabla F(mathbf {a} _{n}-tgamma _{n}mathbf {p} _{n})-nabla F(mathbf {a} _{n})|_{2}leq Ltgamma _{n}|mathbf {p} _{n}|.}$ Entonces elija ${displaystyle mathbf {p} _{n}}$ y ${displaystyle gamma _{n}}$ optimizando la desigualdad (1).
Construya un modelo personalizado ${displaystyle max _{tin [0,1]}{frac {|nabla F(mathbf {a} _{n}-tgamma _{n}mathbf {p} _{n})-nabla F(mathbf {a} _{n})|_{2}}{|nabla F(mathbf {a} _{n})|_{2}}}}$ para $F$ . Entonces elija ${displaystyle mathbf {p} _{n}}$ y ${displaystyle gamma _{n}}$ optimizando la desigualdad (1).
Bajo hipótesis más firmes sobre la función $F$ como la convexidad, las técnicas más avanzadas pueden ser posibles.

Por lo general siguiendo una de las recetas anteriores, se puede garantizar la convergencia a un mínimo local. Cuando la función $F$ es convex, todas las minima locales son también minima global, por lo que en este caso el descenso gradiente puede converger a la solución global.

Resolución de un sistema lineal

El algoritmo de descenso más pronunciado aplicado al filtro Wiener

El descenso de gradiente se puede utilizar para resolver un sistema de ecuaciones lineales

Amathbf {x} -mathbf {b} =0

reformulado como un problema de minimización cuadrática. Si la matriz del sistema $A$ es simétrico real y positivo-definido, una función objetiva se define como la función cuadrática, con minimización de

{displaystyle F(mathbf {x})=mathbf {x} ^{T}Amathbf {x} -2mathbf {x} ^{T}mathbf {b}}

para que

{displaystyle nabla F(mathbf {x})=2(Amathbf {x} -mathbf {b}).}

Para una matriz real general $A$ , linear mínimo cuadrados definir

{displaystyle F(mathbf {x})=left|Amathbf {x} -mathbf {b} right|^{2}.}

En los cuadrados tradicionales lineales mínimos para real $A$ y $mathbf {b}$ la norma Euclideana se utiliza, en cuyo caso

nabla F(mathbf {x})=2A^{T}(Amathbf {x} -mathbf {b}).

La minimización de la búsqueda de líneas, encontrando el tamaño de paso óptimo localmente $gamma$ en cada iteración, se puede realizar analíticamente para funciones cuadráticas, y fórmulas explícitas para el localmente óptimo $gamma$ son conocidos.

Por ejemplo, para la matriz simétrica real y definitiva $A$ , un algoritmo simple puede ser como sigue,

{displaystyle {begin{aligned}&{text{repeat in the loop:}}\&qquad mathbf {r}:=mathbf {b} -mathbf {Ax} \&qquad gamma:={mathbf {r} ^{mathsf {T}}mathbf {r} }/{mathbf {r} ^{mathsf {T}}mathbf {Ar} }\&qquad mathbf {x}:=mathbf {x} +gamma mathbf {r} \&qquad {hbox{if }}mathbf {r} ^{mathsf {T}}mathbf {r} {text{ is sufficiently small, then exit loop}}\&{text{end repeat loop}}\&{text{return }}mathbf {x} {text{ as the result}}end{aligned}}}

Para evitar multiplicarse por $A$ dos veces por iteración, notamos que ${displaystyle mathbf {x}:=mathbf {x} +gamma mathbf {r} }$ implicación ${displaystyle mathbf {r}:=mathbf {r} -gamma mathbf {Ar} }$ , que da el algoritmo tradicional,

{displaystyle {begin{aligned}&mathbf {r}:=mathbf {b} -mathbf {Ax} \&{text{repeat in the loop:}}\&qquad gamma:={mathbf {r} ^{mathsf {T}}mathbf {r} }/{mathbf {r} ^{mathsf {T}}mathbf {Ar} }\&qquad mathbf {x}:=mathbf {x} +gamma mathbf {r} \&qquad {hbox{if }}mathbf {r} ^{mathsf {T}}mathbf {r} {text{ is sufficiently small, then exit loop}}\&qquad mathbf {r}:=mathbf {r} -gamma mathbf {Ar} \&{text{end repeat loop}}\&{text{return }}mathbf {x} {text{ as the result}}end{aligned}}}

El método se utiliza raramente para resolver ecuaciones lineales, siendo el método conjugado de gradiente una de las alternativas más populares. El número de iteraciones de descenso gradiente es comúnmente proporcional al número de condición espectral $kappa (A)$ de la matriz del sistema $A$ (la proporción de los eigenvalues máximos a mínimos $A^{T}A$ ), mientras que la convergencia del método de gradiente conjugado se determina típicamente por una raíz cuadrada del número de condición, es decir, es mucho más rápido. Ambos métodos pueden beneficiarse del preacondicionamiento, donde el descenso de gradiente puede requerir menos supuestos en el precondicionador.

Resolución de un sistema no lineal

El descenso de gradiente también se puede usar para resolver un sistema de ecuaciones no lineales. A continuación se muestra un ejemplo que muestra cómo usar el descenso de gradiente para resolver tres variables desconocidas, x₁, x₂ y x₃. Este ejemplo muestra una iteración del descenso de gradiente.

Considere el sistema no lineal de ecuaciones

{displaystyle {begin{cases}3x_{1}-cos(x_{2}x_{3})-{tfrac {3}{2}}=0\4x_{1}^{2}-625x_{2}^{2}+2x_{2}-1=0\exp(-x_{1}x_{2})+20x_{3}+{tfrac {10pi -3}{3}}=0end{cases}}}

Introduzcamos la función asociada

{displaystyle G(mathbf {x})={begin{bmatrix}3x_{1}-cos(x_{2}x_{3})-{tfrac {3}{2}}\4x_{1}^{2}-625x_{2}^{2}+2x_{2}-1\exp(-x_{1}x_{2})+20x_{3}+{tfrac {10pi -3}{3}}\end{bmatrix}},}

dónde

{displaystyle mathbf {x} ={begin{bmatrix}x_{1}\x_{2}\x_{3}\end{bmatrix}}.}

Ahora se podría definir la función objetivo

{displaystyle {begin{aligned}F(mathbf {x})&={frac {1}{2}}G^{mathrm {T} }(mathbf {x})G(mathbf {x})\&={frac {1}{2}}left[left(3x_{1}-cos(x_{2}x_{3})-{frac {3}{2}}right)^{2}+left(4x_{1}^{2}-625x_{2}^{2}+2x_{2}-1right)^{2}+right.\&{}qquad left.left(exp(-x_{1}x_{2})+20x_{3}+{frac {10pi -3}{3}}right)^{2}right],end{aligned}}}

que intentaremos minimizar. Como suposición inicial, usemos

{displaystyle mathbf {x} ^{(0)}=mathbf {0} ={begin{bmatrix}0\0\0\end{bmatrix}}.}

Sabemos que

{displaystyle mathbf {x} ^{(1)}=mathbf {0} -gamma _{0}nabla F(mathbf {0})=mathbf {0} -gamma _{0}J_{G}(mathbf {0})^{mathrm {T} }G(mathbf {0}),}

donde la matriz Jacobiana ${displaystyle J_{G}}$ es dado por

{displaystyle J_{G}(mathbf {x})={begin{bmatrix}3&sin(x_{2}x_{3})x_{3}&sin(x_{2}x_{3})x_{2}\8x_{1}&-1250x_{2}+2&0\-x_{2}exp {(-x_{1}x_{2})}&-x_{1}exp(-x_{1}x_{2})&20\end{bmatrix}}.}

Calculamos:

{displaystyle J_{G}(mathbf {0})={begin{bmatrix}3&0&0\0&2&0\0&0&20end{bmatrix}},qquad G(mathbf {0})={begin{bmatrix}-2.5\-1\10.472end{bmatrix}}.}

Así

{displaystyle mathbf {x} ^{(1)}=mathbf {0} -gamma _{0}{begin{bmatrix}-7.5\-2\209.44end{bmatrix}},}

{displaystyle F(mathbf {0})=0.5left((-2.5)^{2}+(-1)^{2}+(10.472)^{2}right)=58.456.}

Una animación que muestra las primeras 83 iteraciones de descenso gradiente aplicadas a este ejemplo. Las superficies son isosurfaces de

F(mathbf {x} ^{(n)})

en la actualidad

mathbf {x} ^{(n)}

, y las flechas muestran la dirección del descenso. Debido a un pequeño y constante tamaño de paso, la convergencia es lenta.

Ahora, un adecuado $gamma _{0}$ debe encontrarse tal que

{displaystyle Fleft(mathbf {x} ^{(1)}right)leq Fleft(mathbf {x} ^{(0)}right)=F(mathbf {0}).}

Esto se puede hacer con cualquiera de una variedad de algoritmos de búsqueda de línea. Uno podría simplemente adivinar ${displaystyle gamma _{0}=0.001,}$ que da

{displaystyle mathbf {x} ^{(1)}={begin{bmatrix}0.0075\0.002\-0.20944\end{bmatrix}}.}

Al evaluar la función objetivo en este valor, se obtiene

{displaystyle Fleft(mathbf {x} ^{(1)}right)=0.5left((-2.48)^{2}+(-1.00)^{2}+(6.28)^{2}right)=23.306.}

La disminución de ${displaystyle F(mathbf {0})=58.456}$ al valor del siguiente paso

{displaystyle Fleft(mathbf {x} ^{(1)}right)=23.306}

es una disminución considerable en la función objetivo. Otros pasos reducirían aún más su valor hasta que se encontrara una solución aproximada para el sistema.

Comentarios

El descenso de gradiente funciona en espacios de cualquier número de dimensiones, incluso en dimensiones infinitas. En el último caso, el espacio de búsqueda es típicamente un espacio funcional, y se calcula la derivada de Fréchet del funcional a minimizar para determinar la dirección de descenso.

Que el descenso de gradiente funcione en cualquier cantidad de dimensiones (al menos en un número finito) puede verse como una consecuencia de la desigualdad de Cauchy-Schwarz. Ese artículo prueba que la magnitud del producto interno (punto) de dos vectores de cualquier dimensión se maximiza cuando son colineales. En el caso de descenso de gradiente, sería cuando el vector de ajustes de la variable independiente es proporcional al vector gradiente de derivadas parciales.

El descenso del gradiente puede requerir muchas iteraciones para calcular un mínimo local con la precisión requerida, si la curvatura en diferentes direcciones es muy diferente para la función dada. Para tales funciones, el preacondicionamiento, que cambia la geometría del espacio para dar forma a los conjuntos de niveles de función como círculos concéntricos, cura la convergencia lenta. Sin embargo, construir y aplicar el preacondicionamiento puede ser computacionalmente costoso.

El descenso gradiente se puede combinar con una búsqueda en línea, encontrando el tamaño de paso localmente óptimo $gamma$ en cada iteración. Realizar la búsqueda de la línea puede llevar mucho tiempo. Por el contrario, usando un pequeño fijo $gamma$ puede producir pobre convergencia.

Los métodos basados en el método de Newton y la inversión del Hessian utilizando técnicas de gradiente conjugada pueden ser mejores alternativas. Generalmente, estos métodos convergen en menos iteraciones, pero el costo de cada iteración es mayor. Un ejemplo es el método BFGS que consiste en calcular en cada paso una matriz por la que se multiplica el vector gradiente para entrar en una dirección "mejor", combinado con un algoritmo de búsqueda de líneas más sofisticado, para encontrar el valor "mejor" de $gamma.$ Para problemas extremadamente grandes, donde predominan las cuestiones de memoria computarizada, se debe utilizar un método de memoria limitada como L-BFGS en lugar de BFGS o el descenso más pronunciado.

Si bien a veces es posible sustituir el descenso de gradiente por un algoritmo de búsqueda local, el descenso de gradiente no pertenece a la misma familia: aunque es un método iterativo para la optimización local, se basa en el gradiente de una función objetiva en lugar de una exploración explícita de un espacio de solución.

La bajada gradual se puede ver como aplicar el método de Euler para resolver ecuaciones diferenciales ordinarias $x'(t)=-nabla f(x(t))$ a un flujo gradiente. A su vez, esta ecuación puede derivarse como un controlador óptimo para el sistema de control ${displaystyle x'(t)=u(t)}$ con $u(t)$ dado en forma de retroalimentación ${displaystyle u(t)=-nabla f(x(t))}$ .

Se puede demostrar que existe una correspondencia entre la neuroevolución y el descenso de gradiente.

Modificaciones

El descenso de gradiente puede converger a un mínimo local y disminuir la velocidad en la vecindad de un punto de silla. Incluso para la minimización cuadrática sin restricciones, el descenso de gradiente desarrolla un patrón en zig-zag de iteraciones posteriores a medida que avanzan las iteraciones, lo que da como resultado una convergencia lenta. Se han propuesto múltiples modificaciones del descenso de gradiente para abordar estas deficiencias.

Métodos de gradiente rápido

Yurii Nesterov ha propuesto una simple modificación que permite una convergencia más rápida para problemas convexos y desde entonces se ha generalizado. Para problemas lisos no constreñidos, el método se llama el método gradiente rápido (FGM) o el método gradiente acelerado (AGM). Específicamente, si la función diferenciable $F$ es convexo y $nabla F$ es Lipschitz, y no se supone que $F$ es fuertemente convex, entonces el error en el valor objetivo generado en cada paso $k$ por el método de descenso gradiente será atado por ${textstyle {mathcal {O}}left({tfrac {1}{k}}right)}$ . Utilizando la técnica de aceleración Nesterov, el error disminuye en ${textstyle {mathcal {O}}left({tfrac {1}{k^{2}}}right)}$ . Se sabe que la tasa ${displaystyle {mathcal {O}}left({k^{-2}}right)}$ para la disminución de la función de coste es óptima para los métodos de optimización de primer orden. Sin embargo, hay la oportunidad de mejorar el algoritmo reduciendo el factor constante. El método de gradiente optimizado (OGM) reduce esa constante por un factor de dos y es un método óptimo de primer orden para problemas a gran escala.

Para problemas restringidos o no uniformes, la FGM de Nesterov se denomina método de gradiente proximal rápido (FPGM), un método de aceleración del gradiente proximal.

Método de impulso o bola pesada

Tratando de romper el patrón en zig-zag del descenso del gradiente, el método del impulso o bola pesada utiliza un término de impulso en analogía con una bola pesada deslizándose sobre la superficie de los valores de la función que se minimiza, o al movimiento de masas en la dinámica newtoniana a través de un medio viscoso en un campo de fuerza conservativo. El descenso de gradiente con impulso recuerda la actualización de la solución en cada iteración y determina la próxima actualización como una combinación lineal del gradiente y la actualización anterior. Para la minimización cuadrática sin restricciones, el límite de la tasa de convergencia teórica del método de la bola pesada es asintóticamente el mismo que el del método del gradiente conjugado óptimo.

Esta técnica se usa en el descenso de gradiente estocástico y como una extensión de los algoritmos de retropropagación que se usan para entrenar redes neuronales artificiales. En la dirección de actualización, el descenso de gradiente estocástico agrega una propiedad estocástica. Los pesos se pueden utilizar para calcular las derivadas.

Extensiones

El descenso de gradiente se puede extender para manejar restricciones al incluir una proyección en el conjunto de restricciones. Este método solo es factible cuando la proyección es eficientemente computable en una computadora. Bajo suposiciones adecuadas, este método converge. Este método es un caso específico del algoritmo adelante-atrás para inclusiones monótonas (que incluye programación convexa y desigualdades variacionales).

El descenso de gradiente es un caso especial de descenso de espejo que usa la distancia euclidiana al cuadrado como la divergencia de Bregman dada.

Contenido relacionado

Más resultados...