Memoria a corto plazo y larga duración

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

La memoria a corto plazo larga (LSTM) es un tipo de red neuronal recurrente (RNN) que tiene como objetivo mitigar el problema del gradiente de desaparición que suelen encontrar las RNN tradicionales. Su relativa insensibilidad a la longitud de los espacios es su ventaja sobre otras RNN, modelos ocultos de Markov y otros métodos de aprendizaje de secuencias. Su objetivo es proporcionar una memoria a corto plazo para las RNN que pueda durar miles de pasos de tiempo (de ahí el nombre de "memoria a corto plazo larga"). El nombre se hace en analogía con la memoria a corto plazo y la memoria a largo plazo y su relación, estudiada por psicólogos cognitivos desde principios del siglo XX.

Una unidad LSTM se compone típicamente de una celda y tres puertas: una puerta de entrada, una puerta de salida y una puerta de olvido. La celda recuerda valores en intervalos de tiempo arbitrarios y las puertas regulan el flujo de información que entra y sale de la celda. Las puertas de olvido deciden qué información descartar del estado anterior, asignando el estado anterior y la entrada actual a un valor entre 0 y 1. Un valor (redondeado) de 1 significa retención de la información y un valor de 0 representa descarte. Las puertas de entrada deciden qué fragmentos de información nueva almacenar en el estado actual de la celda, utilizando el mismo sistema que las puertas de olvido. Las puertas de salida controlan qué fragmentos de información en el estado actual de la celda se deben emitir, asignando un valor de 0 a 1 a la información, considerando los estados anterior y actual. La generación selectiva de información relevante del estado actual permite que la red LSTM mantenga dependencias útiles a largo plazo para realizar predicciones, tanto en intervalos de tiempo actuales como futuros.

LSTM tiene amplias aplicaciones en clasificación, procesamiento de datos, tareas de análisis de series temporales, reconocimiento de voz, traducción automática, detección de actividad del habla, control de robots, videojuegos y atención médica.

Motivación

En teoría, las RNN clásicas pueden realizar un seguimiento de dependencias arbitrarias a largo plazo en las secuencias de entrada. El problema con las RNN clásicas es de naturaleza computacional (o práctica): cuando se entrena una RNN clásica mediante retropropagación, los gradientes a largo plazo que se retropropagan pueden "desaparecer", lo que significa que pueden tender a cero debido a que se introducen números muy pequeños en los cálculos, lo que hace que el modelo deje de aprender. Las RNN que utilizan unidades LSTM resuelven parcialmente el problema del gradiente evanescente, porque las unidades LSTM permiten que los gradientes también fluyan con poca o ninguna atenuación. Sin embargo, las redes LSTM aún pueden sufrir el problema del gradiente explosivo.

La intuición detrás de la arquitectura LSTM es crear un módulo adicional en una red neuronal que aprende cuándo recordar y cuándo olvidar información pertinente. En otras palabras, la red aprende efectivamente qué información podría ser necesaria más adelante en una secuencia y cuándo esa información ya no es necesaria. Por ejemplo, en el contexto del procesamiento del lenguaje natural, la red puede aprender dependencias gramaticales. Una LSTM podría procesar la oración "Dave, como resultado de sus afirmaciones controvertidas, es ahora un paria" recordando el género y número gramaticales (estadísticamente probables) del sujeto Dave, note que esta información es pertinente para el pronombre his y note que esta información ya no es importante después del verbo is.

Variantes

En las ecuaciones siguientes, las variables de la minúscula representan vectores. Matrices ${\displaystyle ¿Qué?$ y $U_{q$ contienen, respectivamente, los pesos de la entrada y las conexiones recurrentes, donde el subscript $_{q$ puede ser la puerta de entrada $i$ , puerta de salida $o$ , la puerta del olvido $f$ o la célula de memoria $c$ , dependiendo de la activación que se calcula. En esta sección, estamos utilizando una "notación de actor". Así que, por ejemplo, $c_{t}\in \mathbb {R} {h$ no es sólo una unidad de una célula LSTM, pero contiene $h$ Unidades de la célula LSTM.

Consulte un estudio empírico de ocho variantes arquitectónicas de LSTM.

LSTM con una puerta olvidada

Las formas compactas de las ecuaciones para el paso hacia adelante de una celda LSTM con una puerta de olvido son:

{\begin{aligned}f_{t} ################################################################################################################################################################################################################################################################ {C}_{t} ¿Por qué? C_{t-1}+i_{t}\odot {\fnh}\fnh} {\fnh} {\fnh} {\fnh} {\fnh} {\fn} {\fnh}} {\fn}\fnh}} {\fnh} {\fn}}\f}\fnh} {\f}}}\h}\h} {\fn}}}}}}} {\f}}}}}}}}}}}}} {\f}}\h}}}}}} {\f}}} {\f}}}}}}\f} {\f}}}}}}}}\f}}}}}}}}}}}}}}}\\\\\\\\h} {\f} {\f}}}}}}}}}}}}}}}\\\f} {\f}\f}}\f}}}\f}}\f}}}}\f}\f}}\f}\f}}}}\f}} {}

donde los valores iniciales son ${\displaystyle ¿Qué?$ y $H_{0}=0$ y el operador $\odot$ denota el producto Hadamard (producto del elemento). El subscript $t$ indexa el paso del tiempo.

Variables

Dejando los superscriptos $d$ y $h$ referencia al número de características de entrada y número de unidades ocultas, respectivamente:

$x_{t}\in \mathbb {R} {d$ : vector de entrada a la unidad LSTM
$f_{t}in {0,1)} {h$ : olvidar el vector de activación de la puerta
$i_{t}in {0,1)} {h$ : vector de activación de entrada/actualización
${\fnMicrosoft Sans Serif}$ : vector de activación de la puerta de salida
${\fnMicrosoft Sans Serif}$ : vector de estado escondido también conocido como vector de salida de la unidad LSTM
${\fnMicrosoft Sans Serif}$ : vector de activación de entrada celular
$c_{t}\in \mathbb {R} {h$ : vector de estado celular
$W\in \mathbb {R$ , $U\in \mathbb {R} {h\times h$ y $b\in \mathbb {R} {h$ : matrices de peso y parámetros vectoriales de sesgo que deben aprenderse durante el entrenamiento

Funciones de activación

$\sigma _{g$ : función sigmoide.
$\sigma _{c$ : función tangente hiperbólica.
$\sigma _{h$ : función de tangente hiperbólico o, como sugiere el papel de peephole LSTM, $\sigma _{h}(x)=x$ .

Peephole LSTM

{\displaystyle i} — Un peephole LSTM unidad con entrada (es decir, $i$ ), salida (es decir. $o$ ), y olvidar (es decir, $f$ ) puertas

La figura de la derecha es una representación gráfica de una unidad LSTM con conexiones de peephole (es decir, un peephole LSTM). Las conexiones de peephole permiten a las puertas acceder al carrusel de error constante (CEC), cuya activación es el estado celular. $h_{t-1$ no se utiliza, $C_{t-1$ se utiliza en la mayoría de los lugares.

{\begin{aligned}f_{t} ################################################################################################################################################################################################################################################################ C_{t-1}+i_{t}\odot \sigma _{c}( ¿Qué? {}

Cada una de las puertas se puede pensar como una neurona "estándar" en una red neuronal de alimentación (o multicapa): es decir, computan una activación (utilizando una función de activación) de una suma ponderada. ${\displaystyle ¿Qué?$ y $f_{t$ representan las activaciones de las puertas de entrada, salida y olvido respectivamente, a tiempo paso $t$ .

Las 3 flechas de salida de la célula de memoria $c$ a las 3 puertas $i,o$ y $f$ representa al Peephole conexiones. Estas conexiones de peephole realmente denotan las contribuciones de la activación de la célula de memoria $c$ paso a tiempo $t-1$ , es decir, la contribución de $C_{t-1$ (y no $c_{t$ , como la imagen puede sugerir). En otras palabras, las puertas $i,o$ y $f$ calcular sus activaciones a tiempo paso $t$ (es decir, respectivamente, ${\displaystyle ¿Qué?$ y $f_{t$ ) también considerando la activación de la célula de memoria $c$ paso a tiempo $t-1$ , es decir. $C_{t-1$ .

La única flecha izquierda a derecha saliendo de la célula de memoria es no una conexión de peephole y denota $c_{t$ .

Los pequeños círculos que contienen un $\times$ el símbolo representa una multiplicación a base de elemento entre sus entradas. Los grandes círculos que contienen un S-como la curva representan la aplicación de una función diferenciable (como la función sigmoide) a una suma ponderada.

Peephole convolutional LSTM

Peephole convolutional LSTM. El $*$ denota al operador conversor.

{\begin{aligned}f_{t} ¿Por qué? ¿Por qué? c_{t-1}+b_{i}\c_{t} C_{t-1}+i_{t}\odot \sigma _{c}( ¿Por qué? ¿Qué? ¿Qué? {}

Capacitación

Una RNN que utiliza unidades LSTM se puede entrenar de manera supervisada en un conjunto de secuencias de entrenamiento, utilizando un algoritmo de optimización como el descenso de gradiente combinado con retropropagación a través del tiempo para calcular los gradientes necesarios durante el proceso de optimización, con el fin de cambiar cada peso de la red LSTM en proporción a la derivada del error (en la capa de salida de la red LSTM) con respecto al peso correspondiente.

Un problema con el uso de linaje gradiente para RNNs estándar es que los gradientes de error desaparecen exponencialmente rápidamente con el tamaño del tiempo transcurrido entre eventos importantes. Esto se debe a $\lim _{n\to \infty }W^{n}=0$ si el radio espectral de ${\displaystyle W.$ es más pequeño que 1.

Sin embargo, con las unidades LSTM, cuando los valores de error se retropropagan desde la capa de salida, el error permanece en la celda de la unidad LSTM. Este "carrusel de errores" retroalimenta continuamente el error a cada una de las puertas de la unidad LSTM, hasta que aprenden a cortar el valor.

Función de puntuación de CTC

Muchas aplicaciones utilizan pilas de RNN LSTM y las entrenan mediante la clasificación temporal conexionista (CTC) para encontrar una matriz de ponderación de RNN que maximice la probabilidad de las secuencias de etiquetas en un conjunto de entrenamiento, dadas las secuencias de entrada correspondientes. La CTC logra tanto la alineación como el reconocimiento.

Alternativas

A veces, puede resultar ventajoso entrenar (partes de) un LSTM mediante neuroevolución o métodos de gradiente de políticas, especialmente cuando no hay un "maestro" (es decir, etiquetas de entrenamiento).

Aplicaciones

Las aplicaciones de LSTM incluyen:

Robot control
Predicción de series temporales
Reconocimiento del discurso
Rhythm learning
Modelado de precipitación hidrológica
Composición musical
Grammar learning
Reconocimiento de escritura
Reconocimiento de la acción humana
Traducción de idiomas
Detección de homología proteína
Localización subcelular de proteínas
Detección de anomalías de series temporales
Varias tareas de predicción en el ámbito de la gestión de procesos institucionales
Predicción en las vías de atención médica
Paring semántico
Object co-segmentation
Gestión de pasajeros en el aeropuerto
Pronóstico de tráfico a corto plazo
Diseño de drogas
Predicción del mercado
Clasificación de la actividad en vídeo

2015: Google comenzó a utilizar un LSTM entrenado por CTC para el reconocimiento de voz en Google Voice. Según la publicación del blog oficial, el nuevo modelo redujo los errores de transcripción en un 49 %.

2016: Google comenzó a usar un LSTM para sugerir mensajes en la aplicación de conversación Allo. Ese mismo año, Google lanzó el sistema de traducción automática neuronal de Google para Google Translate, que usaba LSTM para reducir los errores de traducción en un 60 %.

Apple anunció en su Conferencia Mundial de Desarrolladores que empezará a utilizar el LSTM para escritura rápida en el iPhone y para Siri.

Amazon lanzó Polly, que genera las voces detrás de Alexa, utilizando un LSTM bidireccional para la tecnología de texto a voz.

2017: Facebook realizó alrededor de 4.500 millones de traducciones automáticas cada día utilizando redes de memoria de corto plazo.

Microsoft informó que alcanzó una precisión de reconocimiento del 94,9 % en el corpus de Switchboard, que incorpora un vocabulario de 165 000 palabras. El enfoque utilizó una "memoria a corto y largo plazo basada en sesiones de diálogo".

2018: OpenAI utilizó LSTM entrenado por gradientes de políticas para vencer a humanos en el complejo videojuego Dota 2 y para controlar una mano robótica similar a la humana que manipula objetos físicos con una destreza sin precedentes.

2019: DeepMind utilizó LSTM entrenado por gradientes de políticas para sobresalir en el complejo videojuego Starcraft II.

Historia

Desarrollo

Algunos aspectos de LSTM fueron anticipados por la "retropropagación enfocada" (Mozer, 1989), citada en el artículo sobre LSTM.

La tesis de grado de Sepp Hochreiter, de 1991, analizó el problema del gradiente evanescente y desarrolló los principios del método. Su supervisor, Jürgen Schmidhuber, consideró que la tesis era muy importante.

En 1995 se publicó una versión preliminar del LSTM en un informe técnico elaborado por Sepp Hochreiter y Jürgen Schmidhuber, que luego se publicó en la conferencia NIPS de 1996.

El punto de referencia más utilizado para LSTM se publicó en 1997 en la revista Neural Computation. Al introducir unidades de carrusel de error constante (CEC), LSTM aborda el problema del gradiente evanescente. La versión inicial del bloque LSTM incluía celdas y puertas de entrada y salida.

(Felix Gers, Jürgen Schmidhuber y Fred Cummins, 1999) introdujeron la puerta de olvido (también llamada puerta de mantenimiento) en la arquitectura LSTM en 1999, lo que permite que el LSTM restablezca su propio estado. Esta es la versión más utilizada de LSTM en la actualidad.

(Gers, Schmidhuber y Cummins, 2000) agregaron conexiones de mirilla. Además, se omitió la función de activación de salida.

Desarrollo de las variantes

(Graves, Fernández, Gómez y Schmidhuber, 2006) introducen una nueva función de error para LSTM: la Clasificación Temporal Conexionista (CTC) para el alineamiento y reconocimiento simultáneo de secuencias.

(Graves, Schmidhuber, 2005) publicaron un LSTM con retropropagación completa a través del tiempo y un LSTM bidireccional.

(Kyunghyun Cho et al., 2014) publicaron una variante simplificada de la compuerta de olvido LSTM denominada unidad recurrente con compuerta (GRU).

(Rupesh Kumar Srivastava, Klaus Greff y Schmidhuber, 2015) utilizaron los principios de LSTM para crear la red Highway, una red neuronal de propagación hacia adelante con cientos de capas, mucho más profunda que las redes anteriores. Al mismo tiempo, se desarrolló la arquitectura ResNet, que es equivalente a una red de autopistas con puertas abiertas o sin puertas.

Un equipo dirigido por Sepp Hochreiter publicó una actualización moderna de LSTM llamada xLSTM (Maximilian et al, 2024). Uno de los dos bloques (mLSTM) de la arquitectura es paralelizable como la arquitectura Transformer, los otros (sLSTM) permiten el seguimiento de estados.

Aplicaciones

2004: Primera aplicación exitosa de LSTM al habla Alex Graves et al.

2001: Gers y Schmidhuber entrenaron a LSTM para aprender lenguajes que no se pueden aprender con modelos tradicionales como los modelos ocultos de Markov.

Hochreiter et al. utilizaron LSTM para el metaaprendizaje (es decir, el aprendizaje de un algoritmo de aprendizaje).

2005: Daan Wierstra, Faustino Gómez y Schmidhuber entrenaron a LSTM mediante neuroevolución sin un maestro.

Mayer et al. entrenaron a LSTM para controlar robots.

2007: Wierstra, Foerster, Peters y Schmidhuber entrenaron a LSTM mediante gradientes de políticas para el aprendizaje de refuerzo sin un profesor.

Hochreiter, Heuesel y Obermayr aplicaron el LSTM a la detección de homología de proteínas en el campo de la biología.

2009: Justin Bayer et al. introdujeron la búsqueda de arquitectura neuronal para LSTM.

2009: Un LSTM entrenado por CTC ganó la competencia de reconocimiento de escritura a mano conectada ICDAR. Un equipo dirigido por Alex Graves presentó tres modelos de este tipo. Uno fue el modelo más preciso de la competencia y otro fue el más rápido. Esta fue la primera vez que una RNN ganó competencias internacionales.

2013: Alex Graves, Abdel-rahman Mohamed y Geoffrey Hinton utilizaron redes LSTM como un componente principal de una red que logró una tasa récord de error de fonemas del 17,7 % en el conjunto de datos de habla natural clásico TIMIT.

Investigadores de la Universidad Estatal de Michigan, IBM Research y la Universidad de Cornell publicaron un estudio en la conferencia Knowledge Discovery and Data Mining (KDD). Su LSTM consciente del tiempo (T-LSTM) funciona mejor en ciertos conjuntos de datos que el LSTM estándar.

Véase también

Atención (aprendizaje automático)
El aprendizaje profundo
Computación neuronal diferenciable
Unidad periódica de calefacción
Red de autopistas
Potenciación a largo plazo
Corteza frontal ganglia basal trabajo memoria
Red neural recurrente
Seq2seq
Tiempo consciente de memoria a corto plazo
Transformador (modelo de aprendizaje automático)
Series temporales

Referencias

^ a b c d e Sepp Hochreiter; Jürgen Schmidhuber (1997). "La memoria a corto plazo largo". Computación neuronal. 9 (8): 1735 –1780. doi:10.1162/neco.1997.9.1735. PMID 9377276. S2CID 1915014.
^ a b c Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (tesis diploma). Technical University Munich, Institute of Computer Science.
^ a b Hochreiter, Sepp; Schmidhuber, Jürgen (1996-12-03). "LSTM puede resolver problemas duros de larga duración". Proceedings of the 9th International Conference on Neural Information Processing SystemsNIPS'96. Cambridge, MA, USA: MIT Prensa: 473 –479.
^ a b c Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Aprender a olvidar: Predicción continua con LSTM". Computación neuronal. 12 (10): 2451 –2471. CiteSeerX 10.1.1.55.5709. doi:10.1162/089976600300015015. PMID 11032042. S2CID 11598600.
^ a b c Graves, Alex; Fernández, Santiago; Gómez, Faustino; Schmidhuber, Jürgen (2006). "Clasificación temporal conneccionista: Labelling datos de secuencia no segmented con redes neuronales recurrentes". In Proceedings of the International Conference on Machine Learning, ICML 2006: 369 –376. CiteSeerX 10.1.1.75.6306.
^ Karim, Fazle; Majumdar, Somshubra; Darabi, Houshang; Chen, Shun (2018). "LSTM Fully Convolutional Networks for Time Series Classification". Acceso al IEEE. 6: 1662 –1669. arXiv:1709.05206. Bibcode:2018IEEEA...6.1662K. doi:10.1109/ACCESS.2017.2779939. ISSN 2169-3536.
^ a b c d Wierstra, Daan; Schmidhuber, J.; Gomez, F. J. (2005). "Evolino: Neuroevolución híbrida/Optimal Linear Search for Sequence Learning". Actos de la 19a Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI), Edimburgo: 853 –858.
^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Long Short-Term Memory recurrent neural network architectures for large scale acústica modeling" (PDF). Archivado desde el original (PDF) el 2018-04-24.
^ Li, Xiangang; Wu, Xihong (2014-10-15). "Construyendo Redes Neurales Recurrentes Profundas de Memoria a corto plazo para el Reconocimiento de Vocabulario Grande". arXiv:1410.4281 [cs.CL].
^ a b Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (2016-09-26). "El Sistema de Traducción de Máquinas Neurales de Google: Bridging the Gap between Human and Machine Translation". arXiv:1609.08144 [cs.CL].
^ a b Ong, Thuy (4 de agosto de 2017). "Las traducciones de Facebook ahora son propulsadas completamente por AI". www.allthingsdistributed.com. Retrieved 2019-02-15.
^ Sahidullah, Md; Patino, José; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
^ a b c Mayer, H.; Gomez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (October 2006). "Un sistema de cirugía cardiaca robótica que aprende a marcar nudos usando redes neuronales recurrentes". 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. pp. 543 –548. CiteSeerX 10.1.1.218.3399. doi:10.1109/IROS.2006.282190. ISBN 978-1-4244-0258-8. S2CID 12284900.
^ a b "Aprender la destreza". OpenAI. 30 de julio de 2018. Retrieved 2023-06-28.
^ a b Rodríguez, Jesús (2 de julio de 2018). "La ciencia detrás de OpenAI Cinco que acaba de producir uno de los mayores avances en la historia de AI". Hacia Data Science. Archivado desde el original en 2019-12-26. Retrieved 2019-01-15.
^ a b Stanford, Stacy (25 de enero de 2019). "DeepMind's AI, AlphaStar muestra avances significativos hacia AGI". Media ML Memoirs. Retrieved 2019-01-15.
^ Schmidhuber, Jürgen (2021). "Los 2010s: Nuestra Década de Aprendizaje Profundo / Perspectivas en los 2020s". AI Blog. IDSIA, Switzerland. Retrieved 2022-04-30.
^ Calin, Ovidiu (14 de febrero de 2020). Arquitecturas de aprendizaje profundo. Cham, Suiza: Springer Nature. p. 555. ISBN 978-3-030-36720-6.
^ Lakretz, Yair; Kruszewski, alemán; Desbordes, Theo; Hupkes, Dieuwke; Dehaene, Stanislas; Baroni, Marco (2019), "El surgimiento de unidades de número y sintaxis en", La aparición de unidades de número y sintaxis (PDF), Association for Computational Linguistics, pp. 11–20, doi:10.18653/v1/N19-1002, hdl:11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4, S2CID 81978369
^ a b c d Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). "LSTM: A Search Space Odyssey". Transacciones IEEE en redes neuronales y sistemas de aprendizaje. 28 (10): 2222 –2232. arXiv:1503.04069. Bibcode:2015arXiv150304069G. doi:10.1109/TNNLS.2016.2582924. PMID 27411231. S2CID 3356463.
^ a b c d e f Gers, F. A.; Schmidhuber, J. (2001). "LSTM Recurrent Networks Aprende Simple Context Free and Context Sensitive Languages" (PDF). Transacciones IEEE en redes neuronales. 12 (6): 1333–1340. doi:10.1109/72.963769. PMID 18249962. S2CID 10192330.
^ a b c d Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Aprender tiempo preciso con las redes recurrentes de LSTM" (PDF). Journal of Machine Learning Research. 3: 115 –143.
^ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). "Convolutional LSTM Red: A Machine Learning Approach for Precipitation Nowcasting". Proceedings of the 28th International Conference on Neural Information Processing Systems: 802 –810. arXiv:1506.04214. Bibcode:2015arXiv150604214S.
^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Gradient Flow in Recurrent Nets: the Dificultad of Learning Long-Term Dependencies (PDF Download Available)". En Kremer y S. C.; Kolen, J. F. (eds.). Guía de campo para redes neuronales dinámicas recurrentes. IEEE Press.
^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Etiquetado secuencial en dominios estructurados con redes neuronales jerárquicas recurrentes". Proc. 20th Int. Joint Conf. On Artificial Intelligence, Ijcai 2007: 774 –779. CiteSeerX 10.1.1.79.1887.
^ a b Graves, A.; Schmidhuber, J. (2005). "Clasificación de fonemas con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales. 18 ()5 –6): 602 –610. CiteSeerX 10.1.1.331.5800. doi:10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
^ Fernández, S.; Graves, A.; Schmidhuber, J. (9 de septiembre de 2007). "Una aplicación de redes neuronales recurrentes para detectar palabras clave discriminatorias". Proceedings of the 17th International Conference on Artificial Neural NetworksICANN'07. Berlín, Heidelberg: Springer-Verlag: 220 –229. ISBN 978-3540746935. Retrieved 28 de diciembre 2023.
^ a b Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recidivas profundas". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 6645–6649. arXiv:1303.5778. doi:10.1109/ICASSP.2013.6638947. ISBN 978-1-4799-0356-6. S2CID 206741496.
^ Kratzert, Frederik; Klotz, Daniel; Shalev, Guy; Klambauer, Günter; Hochreiter, Sepp; Nearing, Grey (2019-12-17). "Hacia el aprendizaje de comportamientos hidrológicos universales, regionales y locales a través del aprendizaje automático aplicado a conjuntos de datos de gran muestra". Hydrology and Earth System Sciences. 23 (12): 5089–5110. arXiv:1907.08456. Bibcode:2019HESS...23.5089K. doi:10.5194/hess-23-5089-2019. ISSN 1027-5606.
^ Eck, Douglas; Schmidhuber, Jürgen (2002-08-28). "Aprender la estructura a largo plazo de los azules". Redes rurales artificiales — ICANN 2002. Notas de conferencia en Ciencias de la Computación. Vol. 2415. Springer, Berlín, Heidelberg. pp. 284 –289. CiteSeerX 10.1.1.116.3620. doi:10.1007/3-540-46084-5_47. ISBN 978-3540460848.
^ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). "Aprender idiomas no regulares: Una comparación de redes recurrentes simples y LSTM". Computación neuronal. 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369. doi:10.1162/089976602320263980. PMID 12184841. S2CID 30459046.
^ Perez-Ortiz, J. A.; Gers, F. A.; Eck, D.; Schmidhuber, J. (2003). "Los filtros Kalman mejoran el rendimiento de la red LSTM en problemas insolvables por redes recurrentes tradicionales". Redes neuronales. 16 2): 241–250. CiteSeerX 10.1.1.381.1992. doi:10.1016/s0893-6080(02)00219-8. PMID 12628609.
^ A. Graves, J. Schmidhuber. Sin conexión Reconocimiento de escritura con redes neuronales multidimensionales. Avances en Sistemas de Procesamiento de Información Neural 22, NIPS'22, pp 545-552, Vancouver, MIT Press, 2009.
^ Graves, A.; Fernández, S.; Liwicki, M.; Bunke, H.; Schmidhuber, J. (3 de diciembre de 2007). "Reconocimiento de escritura en línea sin restricciones con redes neuronales recurrentes". Proceedings of the 20th International Conference on Neural Information Processing Systems. NIPS'07. USA: Curran Associates Inc.: 577 –584. ISBN 9781605603520. Retrieved 28 de diciembre 2023.
^ Baccouche, M.; Mamalet, F.; Wolf, C.; García, C.; Baskurt, A. (2011). "Aprendizaje profundo secuencial para el reconocimiento de la acción humana". En Salah, A. A.; Lepri, B. (eds.). II Taller Internacional sobre Entendimiento de Comportamiento Humano (HBU). Notas de conferencia en Ciencias de la Computación. Vol. 7065. Amsterdam, Países Bajos: Springer. pp. 29–39. doi:10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
^ Huang, Jie; Zhou, Wengang; Zhang, Qilin; Li, Houqiang; Li, Weiping (2018-01-30). "Reconocimiento de lenguaje de señas basado en video sin segmentación temporal". arXiv:1801.10111 [cs.CV].
^ a b Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). "Detección de homología de proteínas basada en modelos rápidos sin alineación". Bioinformática. 23 (14): 1728 –1736. doi:10.1093/bioinformática/btm247. PMID 17488755.
^ Thireou, T.; Reczko, M. (2007). "Bidirectional Long Short-Term Memory Networks for predicting the subcellular localization of eukaryotic proteins". Transacciones IEEE/ACM sobre Biología Computacional y Bioinformática. 4 3): 441 –446. doi:10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (abril de 2015). "Long Short Term Memory Networks for Anomaly Detection in Time Series" (PDF). Simposio Europeo sobre Redes Neurales Artificiales, Inteligencia Computacional y Aprendizaje de Máquinas — ESANN 2015. Archivado desde el original (PDF) en 2020-10-30. Retrieved 2018-02-21.
^ Impuestos, N.; Verenich, I.; La Rosa, M.; Dumas, M. (2017). "Predictive Business Process Monitoring with LSTM Neural Networks". Ingeniería de sistemas de información avanzada. Notas de conferencia en Ciencias de la Computación. Vol. 10253. pp. 477 –492. arXiv:1612.02130. doi:10.1007/978-319-59536-8_30. ISBN 978-319-59535-1. S2CID 2192354.
^ Choi, E.; Bahadori, M.T.; Schuetz, E.; Stewart, W.; Sun, J. (2016). "Doctor AI: Predicting Clinical Events via Recurrent Neural Networks". JMLR Workshop and Conference Proceedings. 56: 301 –318. arXiv:1511.05942. Bibcode:2015arXiv151105942C. PMC 5341604. PMID 28286600.
^ Jia, Robin; Liang, Percy (2016). "Reconvocación de datos para la parción semántica neural". arXiv:1606.03622 [cs.CL].
^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation" (PDF). Sensores. 18 (5): 1657. Bibcode:2018Senso..18.1657W. doi:10.3390/s18051657. ISSN 1424-8220. PMC 5982167. PMID 29789447.
^ Duan, Xuhuan; Wang, Le; Zhai, Changbo; Zheng, Nanning; Zhang, Qilin; Niu, Zhenxing; Hua, Gang (2018). "Joint Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation". 2018 25a Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP)25a Conferencia Internacional de IEEE sobre Procesamiento de Imágenes (ICIP). pp. 918 –922. doi:10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
^ Orsini, F.; Gastaldi, M.; Mantecchini, L.; Rossi, R. (2019). Redes neuronales entrenadas con rastros WiFi para predecir el comportamiento de los pasajeros del aeropuertoVI Conferencia Internacional sobre Modelos y Tecnologías para Sistemas de Transporte Inteligente. Krakow: IEEE. arXiv:1910.14026. doi:10.1109/MTITS.2019.8883365. 8883365.
^ Zhao, Z.; Chen, W.; Wu, X.; Chen, P.C.Y.; Liu, J. (2017). "LSTM network: A deep learning approach for Short-term traffic predict". IET Intelligent Transport Systems. 11 2): 68–75. doi:10.1049/iet-its.2016.0208. S2CID 114567527.
^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). Redes periódicas para el diseño de drogas de De Novo. Molinos. 37 ()1 –2). doi:10.1002/minf.201700111. PMC 5836943. PMID 29095571.{{cite journal}}: CS1 maint: múltiples nombres: lista de autores (link)
^ Saiful Islam, Md.; Hossain, Emam (2020-10-26). "Foreign Exchange Moneda Rate Prediction using a GRU-LSTM Hybrid Network". Cartas de computación suave. 3: 100009. doi:10.1016/j.socl.2020.100009. ISSN 2666-2221.
^ {{Cite Abbey Martin, Andrew J. Hill, Konstantin M. Seiler & Mehala Balamurali (2023) Reconocimiento y localización de acciones de excavadoras automáticas para vídeo sin trabas mediante redes híbridas LSTM-Transformer, International Journal of Mining, Reclamation and Environment, DOI: 10.1080/17480930.2023.2290364}}
^ Beaufays, Françoise (11 de agosto de 2015). "Las redes neuronales detrás de la transcripción de Google Voice". Research Blog. Retrieved 2017-06-27.
^ Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (24 de septiembre de 2015). "Buscar voz de Google: más rápido y preciso". Research Blog. Retrieved 2017-06-27.
^ "Prescripción mínima... o más bien, Nueva transcripción para Google Voice". Blog oficial de Google23 de julio de 2015. Retrieved 2020-04-25.
^ Khaitan, Pranav (18 de mayo de 2016). "Chat Smarter con Allo". Research Blog. Retrieved 2017-06-27.
^ Metz, Cade (27 de septiembre de 2016). "Una infusión de inteligencia artificial hace que Google Traducir más poderoso que nunca ← WIRED". Wired. Retrieved 2017-06-27.
^ "Una red neuronal para la traducción automática, en la escala de producción". Google AI Blog27 de septiembre de 2016. Retrieved 2020-04-25.
^ Efrati, Amir (13 de junio de 2016). "Las máquinas de la aplicación también pueden aprender". La información. Retrieved 2017-06-27.
^ Ranger, Steve (14 de junio de 2016). "iPhone, AI y grandes datos: Así es como Apple planea proteger su privacidad". ZDNet. Retrieved 2017-06-27.
^ "¿Puede mejorar el contexto semántico global los modelos de lenguaje neuronal? – Apple". Apple Machine Learning Journal. Retrieved 2020-04-30.
^ Smith, Chris (2016-06-13). "iOS 10: Siri ahora trabaja en aplicaciones de terceros, viene con características adicionales de AI". BGR. Retrieved 2017-06-27.
^ Cabos, Tim; Coles, Paul; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Hunt, Melvyn; Li, Jiangchuan; Neeracher, Matthias; Prahallad, Kishore (2017-08-20). "Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System". Interspeech 2017. ISCA: 4011 –4015. doi:10.21437/Interspeech.2017-1798.
^ Vogels, Werner (30 noviembre 2016). "Traer la magia de Amazon AI y Alexa a aplicaciones en AWS. – Todas las cosas distribuidas". www.allthingsdistributed.com. Retrieved 2017-06-27.
^ Xiong, W.; Wu, L.; Alleva, F.; Droppo, J.; Huang, X.; Stolcke, A. (abril de 2018). "El sistema de reconocimiento de voz conversacional de Microsoft 2017". 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. pp. 5934 –5938. arXiv:1708.06073. doi:10.1109/ICASSP.2018.8461870. ISBN 978-1-5386-4658-8.
^ a b c d e f Schmidhuber, Juergen (10 May 2021). "Aprendizaje profundo: nuestro año milagroso 1990-1991". arXiv:2005.05744 [cs.NE].
^ Mozer, Mike (1989). "Un algoritmo centrado de retropropagación para el reconocimiento del patrón temporal". Sistemas complejos.
^ Schmidhuber, Juergen (2022). "Historia anotada de IA moderna y Aprendizaje profundo". arXiv:2212.11279 [cs.NE].
^ Sepp Hochreiter; Jürgen Schmidhuber (21 de agosto de 1995), Long Short Term Memory, Wikidata Q98967430
^ a b c Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Aprender a olvidar: Predicción continua con LSTM". IX Conferencia Internacional sobre las Redes Neurales Artificiales: ICANN '99Vol. 1999. pp. 850 –855. doi:10.1049/cp:19991218. ISBN 0-85296-721-7.
^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprender Representaciones de Frase usando RNN Encoder-Decoder para Traducción de Máquinas Estadísticas". arXiv:1406.1078 [cs.CL].
^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 de mayo de 2015). "Highway Networks". arXiv:1505.00387 [cs.LG].
^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). "Training Very Deep Networks". Avances en sistemas de procesamiento de información neuronal. 28. Curran Associates, Inc.: 2377 –2385.
^ Schmidhuber, Jürgen (2021). "Las redes neuronales más citadas se basan en el trabajo hecho en mis laboratorios". AI Blog. IDSIA, Switzerland. Retrieved 2022-04-30.
^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770 –778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Beck, Maximilian; Pöppel, Korbinian; Spanring, Markus; Auer, Andreas; Prudnikova, Oleksandra; Kopp, Michael; Klambauer, Günter; Brandstetter, Johannes; Hochreiter, Sepp (2024-05-07). "xLSTM: Extended Long Short-Term Memory". arXiv:2405.04517 [cs.LG].
^ NX-AI/xlstm, NXAI, 2024-06-04, recuperado 2024-06-04
^ Graves, Alex; Beringer, Nicole; Eck, Douglas; Schmidhuber, Juergen (2004). Reconocimiento de habla biológicamente plausible con redes neuronales LSTM. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. pp. 175–184.
^ Hochreiter, S.; Younger, A. S.; Conwell, P. R. (2001). "Aprendizaje a aprender a usar el descenso de los ingredientes". Redes rurales artificiales — ICANN 2001 (PDF). Notas de conferencia en Ciencias de la Computación. Vol. 2130. pp. 87 –94. CiteSeerX 10.1.1.5.323. doi:10.1007/3-540-44668-0_13. ISBN 978-3-540-42486-4. ISSN 0302-9743. S2CID 52872549.
^ Wierstra, Daan; Foerster, Alexander; Peters, Jan; Schmidhuber, Juergen (2005). "Solving Deep Memory POMDPs with Recurrent Policy Gradients". International Conference on Artificial Neural Networks ICANN'07.
^ Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Juergen (2009). "Evolver estructuras de células de memoria para el aprendizaje de secuencias". International Conference on Artificial Neural Networks ICANN'09, Cyprus.
^ Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (Mayo 2009). "Un Sistema Conectista Novelar para el Reconocimiento de la Manufactura No Construida". Transacciones IEEE en Análisis de Patrones e Inteligencia de Máquinas. 31 5): 855–868. CiteSeerX 10.1.1.139.4502. doi:10.1109/tpami.2008.137. ISSN 0162-8828. S2CID 14635907.
^ Märgner, Volker; Abed, Haikal El (julio de 2009). "ICDAR 2009 Concurso de Reconocimiento de Escritura Árabe". 2009 10a Conferencia Internacional sobre el Análisis y el Reconocimiento de Documentos. pp. 1383–1387. doi:10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4. S2CID 52851337.
^ "Patient Subtyping via Time-Aware LSTM Networks" (PDF). msu.edu. Retrieved 21 de noviembre 2018.
^ "Patient Subtyping via Time-Aware LSTM Networks". Kdd.org. Retrieved 24 de mayo 2018.
^ "SIGKDD". Kdd.org. Retrieved 24 de mayo 2018.

Más lectura

Monner, Derek D.; Reggia, James A. (2010). "Un algoritmo generalizado de entrenamiento tipo LSTM para redes neuronales de segundo orden" (PDF). Redes neuronales. 25 1): 70–83. doi:10.1016/j.neunet.2011.07.003. PMC 3217173. PMID 21803542. Ampliación de alto rendimiento de LSTM que se ha simplificado a un único tipo de nodo y puede entrenar arquitecturas arbitrarias
Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (Aug 2002). "Aprender tiempo preciso con las redes recurrentes de LSTM" (PDF). Journal of Machine Learning Research. 3: 115 –143.
Gers, Felix (2001). "Long Short-Term Memory in Recurrent Neural Networks" (PDF). tesis doctorales.
Abidogun, Olusola Adeniyi (2005). Data Mining, Fraud Detection and Mobile Telecommunications: Call Pattern Analysis with Unsupervised Neural Networks. Tesis del Maestro (Tesis). Universidad del Cabo Occidental. hdl:11394/249. Archivado (PDF) original el 22 de mayo de 2012.
- original con dos capítulos dedicados a explicar las redes neuronales recurrentes, especialmente LSTM.

Enlaces externos

Redes neuronales periódicas con más de 30 documentos LSTM del grupo de Jürgen Schmidhuber en IDSIA
Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "10.1. Memoria a corto plazo (LSTM)". Inmersión en el aprendizaje profundo. Cambridge New York Port Melbourne New Delhi Singapur: Cambridge University Press. ISBN 978-1-009-38943-3.

Inteligencia Artificial (AI)

Historia (timeline)

Conceptos

Parámetro
- Hyperparameter
Funciones de pérdida
Regreso
- Bias-varianza
- Doble descenso
- Superficie
Clustering
Bajancia gradual
- SGD
- Método Quasi-Newton
- Método de gradiente conjugado
Backpropagation
Atención
Convolution
Normalización
- Batchnorm
Activación
- Softmax
- Sigmoid
- Rectificador
Gating
Iniciación de peso
Regularización
Datasets
- Aumentación
Prompt engineering
Reforzamiento del aprendizaje
- Q-learning
- SARSA
- Imitación
- Policy gradient
Diffusion
Modelo de difusión latente
Autoregreso
Adversary
RAG
Uncanny Valley
RLHF
Aprendizaje autosupervisado
Automejoramiento Recursivo
Incrustación de palabras
Alucinación

Aplicaciones

Aprendizaje a máquina
- Incontext learning
Red neuronal artificial
- El aprendizaje profundo
Modelo de idioma
- Modelo de lenguaje grande
- NMT
Inteligencia general artificial

Aplicación

Audio-visual	AlexNet WaveNet Síntesis de imagen humana HWR OCR Síntesis de discurso 15.ai Once laboratorios Reconocimiento del discurso Whisper Reconocimiento facial AlphaFold Modelos de texto a imagen Aurora DALL-E Fuego Flux Ideograma Imagen Midjourney Difusión estable Modelos de texto a vídeo Dream Machine Gen-3 Alpha Hailuo AI Kling Sora Veo Generación musical Suno AI Udio
Texto	Word2vec Seq2seq Glove BERT T5 Llama Chinchilla AI PaLM GPT 1 2 3 J ChatGPT 4 4o o1 o3 Claude Gemini chatbot Grok LaMDA BLOOM Project Debater IBM Watson IBM Watsonx Granito PanGu-eva DeepSeek Qwen
Decisiones	AlphaGo AlphaZero OpenAI Five Automóvil coche MuZero Selección de actividades AutoGPT Robot control

Personas

Alan Turing
Warren Sturgis McCulloch
Walter Pitts
John von Neumann
Claude Shannon
Marvin Minsky
John McCarthy
Nathaniel Rochester
Allen Newell
Cliff Shaw
Herbert A. Simon
Oliver Selfridge
Frank Rosenblatt
Bernard Widrow
Joseph Weizenbaum
Seymour Papert
Seppo Linnainmaa
Paul Werbos
Jürgen Schmidhuber
Yann LeCun
Geoffrey Hinton
John Hopfield
Yoshua Bengio
Lotfi A. Zadeh
Stephen Grossberg
Alex Graves
Andrew Ng
Fei-Fei Li
Alex Krizhevsky
Ilya Sutskever
Demis Hassabis
David Silver
Ian Goodfellow
Andrej Karpathy

Arquitecturas

Neural Turing machine
Computación neuronal diferenciable
Transformador
- Transformador de visión (ViT)
Red neural recurrente (RNN)
Memoria a corto plazo (LSTM)
Unidad recidivante (GRU)
Red estatal Echo
Multilayer perceptron (MLP)
Red neuronal convolutiva (CNN)
Red neural residual (RNN)
Red de autopistas
Mamba
Autoencoder
Autoencoder variable (VAE)
Red contradictoria Generativa (GAN)
Red neuronal (GNN)

Portals
- Tecnología
Categoría
- Redes neuronales artificiales
- Aprendizaje a máquina
Lista
- Empresas
- Proyectos

Más resultados...