Función de activación logísticaLa función de activación de un nodo en una red neuronal artificial calcula la salida del nodo a partir de sus entradas individuales y sus pesos. Los problemas no triviales pueden resolverse utilizando solo unos pocos nodos si la función de activación es no lineal.Las funciones de activación modernas incluyen la función logística (sigmoidea) utilizada en el modelo de reconocimiento de voz de 2012 desarrollado por Hinton et al.; la ReLU utilizada en el modelo de visión artificial AlexNet de 2012 y en el modelo ResNet de 2015; y la versión suavizada de la ReLU, la GELU, utilizada en el modelo BERT de 2018.
Comparación de funciones de activación
Además de su rendimiento empírico, las funciones de activación también tienen diferentes propiedades matemáticas:
No linear
Cuando la función de activación es no lineal, se puede probar que una red neuronal de dos capas es un aproximador de función universal. Esto se conoce como el Teorema de Aproximación Universal. La función de activación de identidad no satisface esta propiedad. Cuando múltiples capas utilizan la función de activación de identidad, toda la red es equivalente a un modelo de una sola capa.
Rango
Cuando el rango de la función de activación es finito, los métodos de entrenamiento basados en gradientes tienden a ser más estables, porque las presentaciones del patrón afectan significativamente sólo pesos limitados. Cuando el rango es infinito, el entrenamiento es generalmente más eficiente porque las presentaciones del patrón afectan significativamente la mayoría de los pesos. En este último caso, las tasas de aprendizaje más pequeñas son típicamente necesarias.
Contínuamente diferente
Esta propiedad es deseable (ReLU no es continuamente diferenciable y tiene algunos problemas con la optimización basada en el gradiente, pero todavía es posible) para permitir métodos de optimización basados en el gradiente. La función de activación de paso binario no es diferente a 0, y diferencia a 0 para todos los otros valores, por lo que los métodos basados en gradientes no pueden progresar con ella.
Estas propiedades no influyen decisivamente en el rendimiento, ni son las únicas propiedades matemáticas que podrían ser útiles. Por ejemplo, el rango estrictamente positivo del softplus lo hace adecuado para predecir varianzas en autocodificadores variacionales.
Detalles matemáticos
Las funciones de activación más comunes se pueden dividir en tres categorías: funciones de cresta, funciones radiales y funciones de pliegue.
Una función de activación es saturación si . Es no saturación si es . Las funciones de activación no saturar, como ReLU, pueden ser mejores que saturar las funciones de activación, porque son menos propensos a sufrir del problema de gradiente desaparecido.
Funciones de activación Ridge
Las funciones de cresta son funciones multivariables que actúan sobre una combinación lineal de las variables de entrada. Algunos ejemplos frecuentes son:
Activación lineal: ,
Activación de la ReLU: ,
Activación Heaviside: ,
Activación logística: .
En las redes neuronales de inspiración biológica, la función de activación suele ser una abstracción que representa la tasa de activación del potencial de acción en la célula. En su forma más simple, esta función es binaria; es decir, la neurona se activa o no. Las neuronas tampoco pueden activarse a una velocidad superior a cierta tasa, lo que motiva funciones de activación sigmoideas cuyo rango es finito.
La función parece , donde es la función paso Heaviside.
Si una línea tiene una pendiente positiva, por otro lado, puede reflejar el aumento de la tasa de disparos que ocurre a medida que aumenta la corriente de entrada. Tal función sería de la forma .
Unidad lineal rectificada y funciones de activación de unidad lineal Gauss
Funciones de activación radial
En las redes RBF se utiliza una clase especial de funciones de activación, conocidas como funciones de base radial (RBF). Estas funciones de activación pueden adoptar diversas formas, pero generalmente se encuentran como una de las siguientes:
Gaussian:
Multiquadratics:
Multiquadratics inverso:
Líneas poliharmónicas
Donde es el vector que representa la función centro y y son parámetros que afectan la difusión del radio.
Otros ejemplos
Las funciones periódicas pueden servir como funciones de activación. Generalmente se utiliza la senoide, ya que cualquier función periódica se descompone en senos mediante la transformada de Fourier.
Mapas de activación cuadrática .
Funciones de activación plegable
Las funciones de activación por plegamiento se utilizan ampliamente en las capas de agrupación de redes neuronales convolucionales y en las capas de salida de redes de clasificación multiclase. Estas activaciones realizan agregación sobre las entradas, como la toma de la media, el mínimo o el máximo. En la clasificación multiclase, se utiliza con frecuencia la activación softmax.
Tabla de funciones de activación
La siguiente tabla compara las propiedades de varias funciones de activación que son funciones de un pliegue x de la capa o capas anteriores:
Nombre
Parcela
Función,
Derivativo de ,
Rango
Orden de continuidad
Identidad
Paso binario
Logística, sigmoide o suavepaso
Tangente hiperbólico (tanh)
Soboleva modificado hiperbólico tangente (smht)
Softsign
Unidad lineal rectificada (ReLU)
Unidad lineal de error gaussiano (GELU)
Donde es la función de error gaussiano.
Donde es la función de densidad de probabilidad de la distribución gaussiana estándar.
Unidad lineal sigmoide (SiLU, encogimiento sigmoide, SiL, o Swish- 1)
Exponential Linear Sigmoid SquasHing (ELiSH)
Una imagen de la función de activación ELiSH trazada sobre el rango [-3, 3] con un valor minumum de ~0.881 a x ~= -0.172.
Gaudí
Sinusoid
La siguiente tabla enumera las funciones de activación que no son funciones de un único pliegue x de la capa o capas anteriores:
Nombre
Ecuación,
Derivativos,
Rango
Orden de continuidad
Softmax
para i = 1, ... J
[1][2]
Maxout
^ Aquí, es el Kronecker delta.
^ Por ejemplo, podría estar iterando a través del número de núcleos de la anterior capa de red neuronal mientras itera a través del número de núcleos de la capa actual.
Funciones de activación cuántica
En redes neuronales cuánticas programadas en computadoras cuánticas con modelo de puerta, basadas en perceptrones cuánticos en lugar de circuitos cuánticos variacionales, la no linealidad de la función de activación puede implementarse sin necesidad de medir la salida de cada perceptrón en cada capa. Las propiedades cuánticas cargadas en el circuito, como la superposición, pueden preservarse creando la serie de Taylor del argumento calculado por el propio perceptrón, con circuitos cuánticos adecuados que calculan las potencias hasta un grado de aproximación deseado. Gracias a la flexibilidad de estos circuitos cuánticos, pueden diseñarse para aproximarse a cualquier función de activación clásica arbitraria.
Véase también
Función logística
Rectificador (redes neuronales)
Estabilidad (teoría de aprendizaje)
Función Softmax
Referencias
^Hinkelmann, Knut. "Neural Networks, p. 7" (PDF). Universidad de Ciencias Aplicadas Northwestern Suiza. Archivado desde el original (PDF) en 2018-10-06. Retrieved 2018-10-06.
^Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". Revista de Procesamiento de Señal IEEE. 29 (6): 82 –97. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
^Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet clasificación con redes neuronales convolutivas profundas". Comunicaciones de la ACM. 60 (6): 84 –90. doi:10.1145/3065386. ISSN 0001-0782.
^Universidad Rey Abdulaziz; Al-johania, Norah; Elrefaei, Lamiaa; Universidad Benha (2019-06-30). "Reconocimiento del Veinte de Mano Dorsal por Redes Neurales Convocionales: Aprendizaje y Transferencia Aprendizaje Aprendizaje" (PDF). International Journal of Intelligent Engineering and Systems. 12 3): 178 –191. doi:10.22266/ijies2019.0630.19.
^ a b cHendrycks, Dan; Gimpel, Kevin (2016). "Gaussian Error Unidades lineales (GELUs)". arXiv:1606.08415 [cs.LG].
^Cybenko, G. (diciembre de 1989). "Aproximación por superposiciones de una función sigmoidal" (PDF). Matemáticas de control, señales y sistemas. 2 4): 303 –314. Bibcode:1989MCSS....2..303C. doi:10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.
^Snyman, Jan (3 de marzo de 2005). Optimización Matemática Práctica: Introducción a la Teoría de Optimización Básica y Algoritmos Clásicos y Nuevos Basados en Gradiente. Springer Science & Business Media. ISBN 978-0-387-24348-1.
^Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet clasificación con redes neuronales convolutivas profundas". Comunicaciones de la ACM. 60 (6): 84 –90. doi:10.1145/3065386ISSN 0001-0782. S2CID 195908774.
^Hodgkin, A. L.; Huxley, A. F. (1952-08-28). "Una descripción cuantitativa de la corriente de membrana y su aplicación a la conducción y excitación en el nervio". The Journal of Physiology. 117 4): 500 –544. doi:10.1113/jphysiol.1952.sp004764. PMC 1392413. PMID 12991237.
^Sitzmann, Vincent; Martel, Julien; Bergman, Alexander; Lindell, David; Wetzstein, Gordon (2020). "Representaciones neuronales implícitas con funciones de activación periódica". Avances en sistemas de procesamiento de información neuronal. 33. Curran Associates, Inc.: 7462 –7473. arXiv:2006.09661.
^Flake, Gary William (1998), Orr, Genevieve B.; Müller, Klaus-Robert (eds.), "Square Unit Augmented Radially Extended Multilayer Perceptrons", Redes Neurales: Trucos del Comercio, Notas de conferencia en informática, vol. 1524, Berlin, Heidelberg: Springer, pp. 145–163, doi:10.1007/3-540-49430-8_8, ISBN 978-3-540-49430-0, recuperado 2024-10-05
^Du, Simon; Lee, Jason (2018-07-03). "Sobre el poder de la sobreparametrización en redes neuronales con activación cuadrática". Proceedings of the 35th International Conference on Machine Learning. PMLR: 1329 –1338. arXiv:1803.01206.
^Nair, Vinod; Hinton, Geoffrey E. (2010), "Rectified Linear Units Improve Restricted Boltzmann Machines", 27a Conferencia Internacional sobre el Aprendizaje A Máquina, ICML'10, USA: Omnipress, pp. 807 –814, ISBN 9781605589077
^Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Deep sparse rectifier neural networks" (PDF). International Conference on Artificial Intelligence and Statistics.
^Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). "Aprendizaje rápido y preciso de redes profundas por unidades lineales exponenciales (ELU)". arXiv:1511.07289 [cs.LG].
^Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). "Auto-Normalizing Neural Networks". Avances en sistemas de procesamiento de información neuronal. 30 (2017). arXiv:1706.02515.
^Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (junio de 2013). "Las no linealidades reteccionistas mejoran los modelos acústicos de red neuronales". Proc. ICML. 30 1). S2CID 16489696.
^Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV].
^Atto, Abdourrahmane M.; Galichet, Sylvie; Pastor, Dominique; Méger, Nicolas (2023), "Sobre las parametrizaciones conjuntas de funcionalidades lineales y no lineales en redes neuronales", Elsevier Pattern Recognition, vol. 160, pp. 12–21, doi:10.1016/j.neunet.2022.12.019, PMID 36592526
^Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Grégoire (2008), "Smooth sigmoid wavelet reducing for non-parametric estimation" (PDF), 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 3265–3268, doi:10.1109/ICASSP.2008.4518347, ISBN 978-1-4244-1483-3, S2CID 9959057
^Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2018). "Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning". Redes neuronales. 107: 3-11. arXiv:1702.03118. doi:10.1016/j.neunet.2017.12.012. PMID 29395652. S2CID 6940861.
^Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). "Buscando funciones de activación". arXiv:1710.05941 [cs.NE].
^Basirat, Mina; Roth, Peter M. (2018-08-02), La búsqueda de la función de activación de oro, arXiv:1808.00783
Kunc, Vladimír; Kléma, Jiří (2024-02-14), Tres décadas de activación: un estudio completo de 400 funciones de activación para redes neuronales, arXiv:2402.09092
Nwankpa, Chigozie; Ijomah, Winifred; Gachagan, Anthony; Marshall, Stephen (2018-11-08). "Activación Funciones: Comparación de las tendencias en práctica e investigación para el aprendizaje profundo". arXiv:1811.03378 [cs.LG].
Dubey, Shiv Ram; Singh, Satish Kumar; Chaudhuri, Bidyut Baran (2022). "Activación funciona en el aprendizaje profundo: Una encuesta integral y un punto de referencia". Neurocomputación. 503. Elsevier BV: 92 –108. arXiv:2109.14545. doi:10.1016/j.neucom.2022.06.111. ISSN 0925-2312.