Función de activación

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

La función de activación de un nodo en una red neuronal artificial calcula la salida del nodo a partir de sus entradas individuales y sus pesos. Los problemas no triviales pueden resolverse utilizando solo unos pocos nodos si la función de activación es no lineal.Las funciones de activación modernas incluyen la función logística (sigmoidea) utilizada en el modelo de reconocimiento de voz de 2012 desarrollado por Hinton et al.; la ReLU utilizada en el modelo de visión artificial AlexNet de 2012 y en el modelo ResNet de 2015; y la versión suavizada de la ReLU, la GELU, utilizada en el modelo BERT de 2018.

Comparación de funciones de activación

Además de su rendimiento empírico, las funciones de activación también tienen diferentes propiedades matemáticas:

No linear: Cuando la función de activación es no lineal, se puede probar que una red neuronal de dos capas es un aproximador de función universal. Esto se conoce como el Teorema de Aproximación Universal. La función de activación de identidad no satisface esta propiedad. Cuando múltiples capas utilizan la función de activación de identidad, toda la red es equivalente a un modelo de una sola capa.
Rango: Cuando el rango de la función de activación es finito, los métodos de entrenamiento basados en gradientes tienden a ser más estables, porque las presentaciones del patrón afectan significativamente sólo pesos limitados. Cuando el rango es infinito, el entrenamiento es generalmente más eficiente porque las presentaciones del patrón afectan significativamente la mayoría de los pesos. En este último caso, las tasas de aprendizaje más pequeñas son típicamente necesarias.
Contínuamente diferente: Esta propiedad es deseable (ReLU no es continuamente diferenciable y tiene algunos problemas con la optimización basada en el gradiente, pero todavía es posible) para permitir métodos de optimización basados en el gradiente. La función de activación de paso binario no es diferente a 0, y diferencia a 0 para todos los otros valores, por lo que los métodos basados en gradientes no pueden progresar con ella.

Estas propiedades no influyen decisivamente en el rendimiento, ni son las únicas propiedades matemáticas que podrían ser útiles. Por ejemplo, el rango estrictamente positivo del softplus lo hace adecuado para predecir varianzas en autocodificadores variacionales.

Detalles matemáticos

Las funciones de activación más comunes se pueden dividir en tres categorías: funciones de cresta, funciones radiales y funciones de pliegue.

Una función de activación $f$ es saturación si $\lim _{ enseñanzas de la vida\to\infty$ . Es no saturación si es $\lim _{Sobrevivir a \infty } arrest\nabla f(v) habit\neq 0$ . Las funciones de activación no saturar, como ReLU, pueden ser mejores que saturar las funciones de activación, porque son menos propensos a sufrir del problema de gradiente desaparecido.

Funciones de activación Ridge

Las funciones de cresta son funciones multivariables que actúan sobre una combinación lineal de las variables de entrada. Algunos ejemplos frecuentes son:

Activación lineal: $\phi (\mathbf {v})=a+\mathbf {v} 'Mathbf {b$ ,
Activación de la ReLU: $\phi (\mathbf {v})=\max(0,a+\mathbf {v} 'Mathbf {b}$ ,
Activación Heaviside: $\phi (\mathbf {v})=1_{a+\mathbf {v} '\mathbf {b$ ,
Activación logística: $\phi (\mathbf {v})=(1+\exp(-a-\mathbf {v} '\mathbf {b})$ .

En las redes neuronales de inspiración biológica, la función de activación suele ser una abstracción que representa la tasa de activación del potencial de acción en la célula. En su forma más simple, esta función es binaria; es decir, la neurona se activa o no. Las neuronas tampoco pueden activarse a una velocidad superior a cierta tasa, lo que motiva funciones de activación sigmoideas cuyo rango es finito.

La función parece $\phi (\mathbf {v})=U(a+\mathbf {v} '\mathbf {b})$ , donde $U$ es la función paso Heaviside.

Si una línea tiene una pendiente positiva, por otro lado, puede reflejar el aumento de la tasa de disparos que ocurre a medida que aumenta la corriente de entrada. Tal función sería de la forma $\phi (\mathbf {v})=a+\mathbf {v} 'Mathbf {b$ .

Funciones de activación radial

En las redes RBF se utiliza una clase especial de funciones de activación, conocidas como funciones de base radial (RBF). Estas funciones de activación pueden adoptar diversas formas, pero generalmente se encuentran como una de las siguientes:

Gaussian: $\,\phi (\mathbf {v})=\exp \left(-{\frac {\fnMitbf {v} - Mathbf {c} {2}} {2\sigma }\derecha)$
Multiquadratics: $\,\phi (\mathbf {v})={\sqrt {\fnMitbf {v} - Mathbf {c} {2}$
Multiquadratics inverso: $\,\phi (\mathbf {v})=\left(\fnMitbf {v} - Mathbf {c} {\fnMicrosoft Sans Serif} {1}{2}}}$
Líneas poliharmónicas

Donde $\mathbf {c$ es el vector que representa la función centro y $a$ y $\sigma$ son parámetros que afectan la difusión del radio.

Otros ejemplos

Las funciones periódicas pueden servir como funciones de activación. Generalmente se utiliza la senoide, ya que cualquier función periódica se descompone en senos mediante la transformada de Fourier.

Mapas de activación cuadrática $x\mapsto x^{2$ .

Funciones de activación plegable

Las funciones de activación por plegamiento se utilizan ampliamente en las capas de agrupación de redes neuronales convolucionales y en las capas de salida de redes de clasificación multiclase. Estas activaciones realizan agregación sobre las entradas, como la toma de la media, el mínimo o el máximo. En la clasificación multiclase, se utiliza con frecuencia la activación softmax.

Tabla de funciones de activación

La siguiente tabla compara las propiedades de varias funciones de activación que son funciones de un pliegue

x

de la capa o capas anteriores:

Nombre	Parcela	Función, $g(x)$	Derivativo de $g$ , $g'(x)$	Rango	Orden de continuidad
Identidad		$x$	$1$	$(-\infty\infty)$	$C^{\infty$
Paso binario		${\begin{cases}0 {\text{if} }x 0\1\1\text{if}x\geq 0\end{cases$	$0$	$\{0,1\}$	$C^{-1$
Logística, sigmoide o suave paso		$\sigma (x)\doteq {\frac {1}{1+e^{-x}$	$g(x)(1-g(x)$	$(0,1)$	$C^{\infty$
Tangente hiperbólico (tanh)		$\tanh(x)\doteq {\frac {\fnK}} {\fnK}} {\fnK}}}}} {\fn}}}}}}}}} {\fn}}}}}} {\fn}}}}}}}}} {\fn\f}}}}}}}$	$1-g(x)^{2$	$(-1,1)$	$C^{\infty$
Soboleva modificado hiperbólico tangente (smht)		$\operatorname {smht} (x)\doteq {\frac {\e^{ax}-e^{-bx}}{e^{cx}+e^{-dx}}}}} {\f}}} {\f}}}} {\f}}}}}}} {\f}$		$(-1,1)$	$C^{\infty$
Softsign		${\fnMicroc} {x}{1+$	${\frac {1}{}}}$	$(-\infty+\infty)$	$C^{1$
Unidad lineal rectificada (ReLU)		${\begin{aligned}(x)^{+}\doteq {} {\begin{cases}0 {\text{if} }x\leq 0\x }x=x{cases}\={}\={}\max(0,x)=x{\textbf {1}_{x Conf0}\end{aligned}$	${\begin{cases}0 {\text{if} }x hicieron0\1⁄4 {\text {if}x {cases}$	${\displaystyle [0,\infty]$	$C^{0$
Unidad lineal de error gaussiano (GELU)		${\begin{aligned} {1}{2}}x\left(1+{\text{erf}\left({\frac {x}{\sqrt {2}}}\right)\{}={} {} {} {} {\f}\fnuncio {\f}}}}}}}}}}}}}\justo)\{}={}={}{}{}{} {}}}}}}}}}{}{}}{}}}}}}}}}}{}}}}}}{}}}}} {\m}}}} {\m}}}}}}}\m}}}}}}}}}}}}}}}}}}}}}}}}}}}}\m}}}}}}\m}}}}}}}}}}\m}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}$ Donde $\mathrm {erf$ es la función de error gaussiano.	$\Phi (x)+{2}x\phi (x)$ Donde $\phi (x)={\frac {1}{\sqrt {2}x} {2}}$ es la función de densidad de probabilidad de la distribución gaussiana estándar.	$(-0.17\ldots\infty)$	$C^{\infty$
Softplus		$\ln \left(1+e^{x}\right)$	${\frac}{1+e^{-x}$	$(0,\infty)$	$C^{\infty$
Unidad lineal exponencial (ELU)		${\begin{cases}\alpha \left(e^{x}-1\right) limitada{\text{if }x\leq 0\x }x título0\end{cases}$ con parámetro $\alpha$	${\begin{cases}\alpha e^{x} {\text{if} }x hicieron0\1⁄4 {\text {if}x {cases}$	$(-\alpha\infty)$	${\begin{cases}C^{1} }\alpha {\fnMicrosoft Sans Serif$
Unidad lineal exponencial escalada (SELU)		$\lambda {\begin{cases}\alpha (e^{x}-1) diez {\text{if }xse hizo0\\x limitada{if }x\geq 0\end{cases}$ con parámetros $\lambda =1.0507$ y $\alpha = 1,67326$	$\lambda {\begin{cases}\alpha e^{x} {\text{if} }x 0\1\1\text{if}x\geq 0\end{cases$	$(-\lambda \alpha\infty)$	$C^{0$
Unidad lineal rectificada (Leaky ReLU)		${\begin{cases}0.01x limitada{if} }x\leq 0\x }x título0\end{cases}$	${\begin{cases}0.01 ventaja{\text{if }x hicieron0\1⁄4 {\text {if}x {cases}$	$(-\infty\infty)$	$C^{0$
Unidad lineal rectificada paramétrica (PReLU)		${\begin{cases}\alpha xiéndose{\text{if }x 0\x\x {\text{if}x\geq 0\end{cases$ con parámetro $\alpha$	${\begin{cases}\alpha >{if} }x 0\1\1\text{if}x\geq 0\end{cases$	$(-\infty\infty)$	$C^{0$
Unidades Sigmoide Paramétricas Rectificadas (flexibles, 5 parámetros)	Paramétrica rectificada Unidades Sigmoid	$\alpha (2x{1}_{\x\geqslant \lambda ##}-g_{\lambda\sigma\mu\beta }(x))+(1-\alpha)g_{\lambda\sigma\mu\beta }(x)$ Donde $g_{\lambda\sigma\mu\beta }(x)={\frac {(x-\lambda){1}_{\{x\geqslant \lambda {}}{1+e^{-\operatorname {sgn}(x-\mu)\left({\frac {\vert x-\mu \vert }{\sigma }}\right)^{\beta$	$-$	$(-\infty+\infty)$	$C^{0$
Unidad lineal sigmoide (SiLU, encogimiento sigmoide, SiL, o Swish- 1)		${\frac {x}{1+e^{-x}}$	${\frac {1+e^{-x}+xe^{-x}{\left(1+e^{-x}\right)}}}$	$[-0.278\ldots\infty)$	$C^{\infty$
Exponential Linear Sigmoid SquasHing (ELiSH)	Una imagen de la función de activación ELiSH trazada sobre el rango [-3, 3] con un valor minumum de ~0.881 a x ~= -0.172.	${\begin{cases}{\frac {\fnMicroc}{-x}} {\f}x}x} {\fnMicroc {x}{1+e^{-x}} {\f} {\f}} {\f}} {\f}} {\fn\f}} {\f} {\f}\f}\f}\fn\f} }x\geq 0\end{cases}$	${\begin{cases}{\frac {2e^{2x}+e^{3x}-e^{x}{e^{2x}+2e^{x}+1}}} }xted0\\\\{x}+e^{2x}+e^{x}{x}{e^{2x}+2e^{x}+1}} {\if} {\f} }x\geq 0\end{cases}$	$[-0.881\ldots\infty)$	$C^{1$
Gaudí		$E^{-x^{2}$	$-2xe^{-x^{2}$	$(0,1]$	$C^{\infty$
Sinusoid		$\sin x$	$\cos x$	$[-1,1]$	$C^{\infty$

La siguiente tabla enumera las funciones de activación que no son funciones de un único pliegue

x

de la capa o capas anteriores:

Nombre	Ecuación, $g_{i}\left({\vec {x}\right)$	Derivativos, ${\displaystyle {\frac {\partial g_{i}\left({\vec {x}\right)}{\partial #$	Rango	Orden de continuidad
Softmax	${\fnMicroc {\fnK} {\fnK}} {\fnMicroc {\fnK}} {\fn}} {\fnK}}} {\fnK}}} {\fnMicrosoft}}}}} {\f}}} {\f}}}}}}} {\fnK\f}}}}}}}} {\f}}}}}}}}}}}}}} {\f}}}}}}}} {\f}}}}}}}}}}}}}}}}}}}}}}}}}}} {\b}}}}}}}}}} {\f}}}} {\f}}}}}}}} {\b}}}}}}}}}}} {\b}}}}}}}}}}}}}}}}} {\b}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} ¿Qué?$ para $i$ = 1, ... $J$	${\displaystyle g_{i}\left({\vec {x}\right)\left(\delta) ¿Por qué?$ ^[1]^[2]	$(0,1)$	$C^{\infty$
Maxout	$\max _{i}x_{i}$	${\begin{cases}1 golpe{\text{if }j={\underset {\fnK} {\fnMicrosoft Sans Serif} }\,x_{i}\0 }j\neq {\underset {\fnK} {\fnMicrosoft Sans Serif} }\,x_{i}\end{cases}$	$(-\infty\infty)$	$C^{0$

^ Aquí,

\delta _{ij

es el Kronecker delta.

^ Por ejemplo,

j

podría estar iterando a través del número de núcleos de la anterior capa de red neuronal mientras

i

itera a través del número de núcleos de la capa actual.

Funciones de activación cuántica

En redes neuronales cuánticas programadas en computadoras cuánticas con modelo de puerta, basadas en perceptrones cuánticos en lugar de circuitos cuánticos variacionales, la no linealidad de la función de activación puede implementarse sin necesidad de medir la salida de cada perceptrón en cada capa. Las propiedades cuánticas cargadas en el circuito, como la superposición, pueden preservarse creando la serie de Taylor del argumento calculado por el propio perceptrón, con circuitos cuánticos adecuados que calculan las potencias hasta un grado de aproximación deseado. Gracias a la flexibilidad de estos circuitos cuánticos, pueden diseñarse para aproximarse a cualquier función de activación clásica arbitraria.

Véase también

Función logística
Rectificador (redes neuronales)
Estabilidad (teoría de aprendizaje)
Función Softmax

Referencias

^ Hinkelmann, Knut. "Neural Networks, p. 7" (PDF). Universidad de Ciencias Aplicadas Northwestern Suiza. Archivado desde el original (PDF) en 2018-10-06. Retrieved 2018-10-06.
^ Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". Revista de Procesamiento de Señal IEEE. 29 (6): 82 –97. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet clasificación con redes neuronales convolutivas profundas". Comunicaciones de la ACM. 60 (6): 84 –90. doi:10.1145/3065386. ISSN 0001-0782.
^ Universidad Rey Abdulaziz; Al-johania, Norah; Elrefaei, Lamiaa; Universidad Benha (2019-06-30). "Reconocimiento del Veinte de Mano Dorsal por Redes Neurales Convocionales: Aprendizaje y Transferencia Aprendizaje Aprendizaje" (PDF). International Journal of Intelligent Engineering and Systems. 12 3): 178 –191. doi:10.22266/ijies2019.0630.19.
^ a b c Hendrycks, Dan; Gimpel, Kevin (2016). "Gaussian Error Unidades lineales (GELUs)". arXiv:1606.08415 [cs.LG].
^ Cybenko, G. (diciembre de 1989). "Aproximación por superposiciones de una función sigmoidal" (PDF). Matemáticas de control, señales y sistemas. 2 4): 303 –314. Bibcode:1989MCSS....2..303C. doi:10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.
^ Snyman, Jan (3 de marzo de 2005). Optimización Matemática Práctica: Introducción a la Teoría de Optimización Básica y Algoritmos Clásicos y Nuevos Basados en Gradiente. Springer Science & Business Media. ISBN 978-0-387-24348-1.
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet clasificación con redes neuronales convolutivas profundas". Comunicaciones de la ACM. 60 (6): 84 –90. doi:10.1145/3065386ISSN 0001-0782. S2CID 195908774.
^ Hodgkin, A. L.; Huxley, A. F. (1952-08-28). "Una descripción cuantitativa de la corriente de membrana y su aplicación a la conducción y excitación en el nervio". The Journal of Physiology. 117 4): 500 –544. doi:10.1113/jphysiol.1952.sp004764. PMC 1392413. PMID 12991237.
^ Sitzmann, Vincent; Martel, Julien; Bergman, Alexander; Lindell, David; Wetzstein, Gordon (2020). "Representaciones neuronales implícitas con funciones de activación periódica". Avances en sistemas de procesamiento de información neuronal. 33. Curran Associates, Inc.: 7462 –7473. arXiv:2006.09661.
^ Flake, Gary William (1998), Orr, Genevieve B.; Müller, Klaus-Robert (eds.), "Square Unit Augmented Radially Extended Multilayer Perceptrons", Redes Neurales: Trucos del Comercio, Notas de conferencia en informática, vol. 1524, Berlin, Heidelberg: Springer, pp. 145–163, doi:10.1007/3-540-49430-8_8, ISBN 978-3-540-49430-0, recuperado 2024-10-05
^ Du, Simon; Lee, Jason (2018-07-03). "Sobre el poder de la sobreparametrización en redes neuronales con activación cuadrática". Proceedings of the 35th International Conference on Machine Learning. PMLR: 1329 –1338. arXiv:1803.01206.
^ Nair, Vinod; Hinton, Geoffrey E. (2010), "Rectified Linear Units Improve Restricted Boltzmann Machines", 27a Conferencia Internacional sobre el Aprendizaje A Máquina, ICML'10, USA: Omnipress, pp. 807 –814, ISBN 9781605589077
^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Deep sparse rectifier neural networks" (PDF). International Conference on Artificial Intelligence and Statistics.
^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). "Aprendizaje rápido y preciso de redes profundas por unidades lineales exponenciales (ELU)". arXiv:1511.07289 [cs.LG].
^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). "Auto-Normalizing Neural Networks". Avances en sistemas de procesamiento de información neuronal. 30 (2017). arXiv:1706.02515.
^ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (junio de 2013). "Las no linealidades reteccionistas mejoran los modelos acústicos de red neuronales". Proc. ICML. 30 1). S2CID 16489696.
^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV].
^ Atto, Abdourrahmane M.; Galichet, Sylvie; Pastor, Dominique; Méger, Nicolas (2023), "Sobre las parametrizaciones conjuntas de funcionalidades lineales y no lineales en redes neuronales", Elsevier Pattern Recognition, vol. 160, pp. 12–21, doi:10.1016/j.neunet.2022.12.019, PMID 36592526
^ Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Grégoire (2008), "Smooth sigmoid wavelet reducing for non-parametric estimation" (PDF), 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 3265–3268, doi:10.1109/ICASSP.2008.4518347, ISBN 978-1-4244-1483-3, S2CID 9959057
^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2018). "Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning". Redes neuronales. 107: 3-11. arXiv:1702.03118. doi:10.1016/j.neunet.2017.12.012. PMID 29395652. S2CID 6940861.
^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). "Buscando funciones de activación". arXiv:1710.05941 [cs.NE].
^ Basirat, Mina; Roth, Peter M. (2018-08-02), La búsqueda de la función de activación de oro, arXiv:1808.00783
^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). "Maxout Networks". JMLR Workshop and Conference Proceedings. 28 3): 1319 –1327. arXiv:1302.4389.
^ Maronesa, Marco; Destri, Claudio; Prati, Enrico (2022). " Funciones de activación cuántica para redes neuronales cuánticas". Información cuántica Procesamiento. 21 (4): 128. arXiv:2201.03700. Bibcode:2022QuIP...21..128M. doi:10.1007/s11128-022-03466-0. ISSN 1570-0755.

Más lectura

Kunc, Vladimír; Kléma, Jiří (2024-02-14), Tres décadas de activación: un estudio completo de 400 funciones de activación para redes neuronales, arXiv:2402.09092
Nwankpa, Chigozie; Ijomah, Winifred; Gachagan, Anthony; Marshall, Stephen (2018-11-08). "Activación Funciones: Comparación de las tendencias en práctica e investigación para el aprendizaje profundo". arXiv:1811.03378 [cs.LG].
Dubey, Shiv Ram; Singh, Satish Kumar; Chaudhuri, Bidyut Baran (2022). "Activación funciona en el aprendizaje profundo: Una encuesta integral y un punto de referencia". Neurocomputación. 503. Elsevier BV: 92 –108. arXiv:2109.14545. doi:10.1016/j.neucom.2022.06.111. ISSN 0925-2312.

Inteligencia Artificial (AI)

Historia (timeline)

Conceptos

Parámetro
- Hyperparameter
Funciones de pérdida
Regreso
- Bias-varianza
- Doble descenso
- Superficie
Clustering
Bajancia gradual
- SGD
- Método Quasi-Newton
- Método de gradiente conjugado
Backpropagation
Atención
Convolution
Normalización
- Batchnorm
Activación
- Softmax
- Sigmoid
- Rectificador
Gating
Iniciación de peso
Regularización
Datasets
- Aumentación
Prompt engineering
Reforzamiento del aprendizaje
- Q-learning
- SARSA
- Imitación
- Policy gradient
Diffusion
Modelo de difusión latente
Autoregreso
Adversary
RAG
Uncanny Valley
RLHF
Aprendizaje autosupervisado
Automejoramiento Recursivo
Incrustación de palabras
Alucinación

Aplicaciones

Aprendizaje a máquina
- Incontext learning
Red neuronal artificial
- El aprendizaje profundo
Modelo de idioma
- Modelo de lenguaje grande
- NMT
Inteligencia general artificial (AGI)

Aplicación

Audio-visual	AlexNet WaveNet Síntesis de imagen humana HWR OCR Síntesis de discurso 15.ai Once laboratorios Reconocimiento del discurso Whisper Reconocimiento facial AlphaFold Modelos de texto a imagen Aurora DALL-E Fuego Flux Ideograma Imagen Midjourney Difusión estable Modelos de texto a vídeo Dream Machine Runway Gen Hailuo AI Kling Sora Veo Generación musical Suno AI Udio
Texto	Word2vec Seq2seq Glove BERT T5 Llama Chinchilla AI PaLM GPT 1 2 3 J ChatGPT 4 4o o1 o3 4.5 4.1 o4 Claude Gemini chatbot Grok LaMDA BLOOM Project Debater IBM Watson IBM Watsonx Granito PanGu-eva DeepSeek Qwen
Decisiones	AlphaGo AlphaZero OpenAI Five Automóvil coche MuZero Selección de actividades AutoGPT Robot control

Personas

Alan Turing
Warren Sturgis McCulloch
Walter Pitts
John von Neumann
Claude Shannon
Marvin Minsky
John McCarthy
Nathaniel Rochester
Allen Newell
Cliff Shaw
Herbert A. Simon
Oliver Selfridge
Frank Rosenblatt
Bernard Widrow
Joseph Weizenbaum
Seymour Papert
Seppo Linnainmaa
Paul Werbos
Jürgen Schmidhuber
Yann LeCun
Geoffrey Hinton
John Hopfield
Yoshua Bengio
Lotfi A. Zadeh
Stephen Grossberg
Alex Graves
Andrew Ng
Fei-Fei Li
Alex Krizhevsky
Ilya Sutskever
Demis Hassabis
David Silver
Ian Goodfellow
Andrej Karpathy
James Goodnight

Arquitecturas

Neural Turing machine
Computación neuronal diferenciable
Transformador
- Transformador de visión (ViT)
Red neural recurrente (RNN)
Memoria a corto plazo (LSTM)
Unidad recidivante (GRU)
Red estatal Echo
Multilayer perceptron (MLP)
Red neuronal convolutiva (CNN)
Red neural residual (RNN)
Red de autopistas
Mamba
Autoencoder
Autoencoder variable (VAE)
Red contradictoria Generativa (GAN)
Red neuronal (GNN)

Portals
- Tecnología
Categoría
- Redes neuronales artificiales
- Aprendizaje a máquina
Lista
- Empresas
- Proyectos

Más resultados...