Red neuronal

Compartir Imprimir Citar

Una red neuronal o red neural es una red o circuito de neuronas biológicas o, en un sentido moderno, una red neuronal artificial, compuesta por neuronas o nodos artificiales.Por lo tanto, una red neuronal es una red neuronal biológica, formada por neuronas biológicas, o una red neuronal artificial, utilizada para resolver problemas de inteligencia artificial (IA). Las conexiones de la neurona biológica se modelan en redes neuronales artificiales como pesos entre nodos. Un peso positivo refleja una conexión excitatoria, mientras que valores negativos significan conexiones inhibitorias. Todas las entradas se modifican por un peso y se suman. Esta actividad se denomina combinación lineal. Finalmente, una función de activación controla la amplitud de la salida. Por ejemplo, un rango de salida aceptable suele estar entre 0 y 1, o podría ser −1 y 1.

Estas redes artificiales se pueden usar para modelado predictivo, control adaptativo y aplicaciones en las que se pueden entrenar a través de un conjunto de datos. El autoaprendizaje resultante de la experiencia puede ocurrir dentro de las redes, que pueden derivar conclusiones de un conjunto de información complejo y aparentemente no relacionado.

Visión de conjunto

Una red neuronal biológica está compuesta por un grupo de neuronas conectadas químicamente o asociadas funcionalmente. Una sola neurona puede estar conectada a muchas otras neuronas y el número total de neuronas y conexiones en una red puede ser extenso. Las conexiones, llamadas sinapsis, generalmente se forman desde los axones hasta las dendritas, aunque son posibles las sinapsis dendrodendríticas y otras conexiones. Además de la señalización eléctrica, existen otras formas de señalización que surgen de la difusión de neurotransmisores.

La inteligencia artificial, el modelado cognitivo y las redes neuronales son paradigmas de procesamiento de información inspirados en la forma en que los sistemas neuronales biológicos procesan los datos. La inteligencia artificial y el modelado cognitivo intentan simular algunas propiedades de las redes neuronales biológicas. En el campo de la inteligencia artificial, las redes neuronales artificiales se han aplicado con éxito al reconocimiento de voz, análisis de imágenes y control adaptativo, para construir agentes de software (en computadora y videojuegos) o robots autónomos.

Históricamente, las computadoras digitales evolucionaron a partir del modelo de von Neumann y operan a través de la ejecución de instrucciones explícitas a través del acceso a la memoria por parte de varios procesadores. Por otro lado, los orígenes de las redes neuronales se basan en los esfuerzos por modelar el procesamiento de la información en los sistemas biológicos. A diferencia del modelo de von Neumann, la computación de redes neuronales no separa la memoria y el procesamiento.

La teoría de redes neuronales ha servido tanto para identificar mejor cómo funcionan las neuronas en el cerebro como para proporcionar la base para los esfuerzos por crear inteligencia artificial.

Historia

La base teórica preliminar para las redes neuronales contemporáneas fue propuesta de forma independiente por Alexander Bain (1873) y William James (1890). En su trabajo, tanto los pensamientos como la actividad corporal resultaron de interacciones entre neuronas dentro del cerebro.

Para Bain, cada actividad condujo al disparo de un determinado conjunto de neuronas. Cuando se repetían las actividades, las conexiones entre esas neuronas se fortalecían. Según su teoría, esta repetición fue lo que condujo a la formación de la memoria. La comunidad científica general en ese momento se mostró escéptica sobre la teoría de Bain porque requería lo que parecía ser un número excesivo de conexiones neuronales dentro del cerebro. Ahora es evidente que el cerebro es extremadamente complejo y que el mismo "cableado" cerebral puede manejar múltiples problemas y entradas.

La teoría de James era similar a la de Bain, sin embargo, sugirió que los recuerdos y las acciones eran el resultado de corrientes eléctricas que fluían entre las neuronas del cerebro. Su modelo, al centrarse en el flujo de corrientes eléctricas, no requería conexiones neuronales individuales para cada recuerdo o acción.

CS Sherrington (1898) realizó experimentos para probar la teoría de James. Hizo correr corrientes eléctricas por la médula espinal de las ratas. Sin embargo, en lugar de demostrar un aumento en la corriente eléctrica según lo proyectado por James, Sherrington encontró que la fuerza de la corriente eléctrica disminuyó a medida que la prueba continuaba con el tiempo. Es importante destacar que este trabajo condujo al descubrimiento del concepto de habituación.

McCulloch y Pitts (1943) crearon un modelo computacional para redes neuronales basado en matemáticas y algoritmos. Llamaron a este modelo lógica de umbral. El modelo allanó el camino para que la investigación de redes neuronales se dividiera en dos enfoques distintos. Un enfoque se centró en los procesos biológicos en el cerebro y el otro se centró en la aplicación de redes neuronales a la inteligencia artificial.

A fines de la década de 1940, el psicólogo Donald Hebb creó una hipótesis de aprendizaje basada en el mecanismo de plasticidad neuronal que ahora se conoce como aprendizaje hebbiano. El aprendizaje hebbiano se considera una regla de aprendizaje no supervisada "típica" y sus variantes posteriores fueron modelos tempranos para la potenciación a largo plazo. Estas ideas comenzaron a aplicarse a modelos computacionales en 1948 con las máquinas tipo B de Turing.

Farley y Clark (1954) utilizaron por primera vez máquinas computacionales, luego llamadas calculadoras, para simular una red hebbiana en el MIT. Rochester, Holland, Habit y Duda (1956) crearon otras máquinas computacionales de redes neuronales.

Rosenblatt (1958) creó el perceptrón, un algoritmo para el reconocimiento de patrones basado en una red informática de aprendizaje de dos capas que utiliza sumas y restas simples. Con la notación matemática, Rosenblatt también describió circuitos que no están en el perceptrón básico, como el circuito o exclusivo, un circuito cuyo cálculo matemático no pudo procesarse hasta después de que Werbos (1975) creara el algoritmo de retropropagación.

La investigación de redes neuronales se estancó después de la publicación de la investigación de aprendizaje automático de Marvin Minsky y Seymour Papert (1969). Descubrieron dos problemas clave con las máquinas computacionales que procesaban las redes neuronales. El primer problema fue que las redes neuronales de una sola capa eran incapaces de procesar el circuito o exclusivo. El segundo problema importante fue que las computadoras no eran lo suficientemente sofisticadas para manejar de manera efectiva el largo tiempo de ejecución requerido por las grandes redes neuronales. La investigación de redes neuronales se desaceleró hasta que las computadoras lograron una mayor potencia de procesamiento. También fue clave en los avances posteriores el algoritmo de retropropagación que resolvió efectivamente el problema exclusivo-o (Werbos 1975).

El procesamiento distribuido paralelo de mediados de la década de 1980 se hizo popular bajo el nombre de conexionismo. El texto de Rumelhart y McClelland (1986) proporcionó una exposición completa sobre el uso del conexionismo en las computadoras para simular procesos neuronales.

Las redes neuronales, tal como se utilizan en la inteligencia artificial, se han visto tradicionalmente como modelos simplificados de procesamiento neuronal en el cerebro, aunque se debate la relación entre este modelo y la arquitectura biológica del cerebro, ya que no está claro en qué medida las redes neuronales artificiales reflejan el cerebro. función.

Inteligencia artificial

Una red neuronal (NN), en el caso de las neuronas artificiales denominada red neuronal artificial (ANN) o red neuronal simulada (SNN), es un grupo interconectado de neuronas naturales o artificiales que utiliza un modelo matemático o computacional para el procesamiento de información basado en un enfoque conexionista de la computación. En la mayoría de los casos, una ANN es un sistema adaptativo que cambia su estructura en función de la información externa o interna que fluye a través de la red.

En términos más prácticos, las redes neuronales son herramientas de modelado de datos estadísticos no lineales o de toma de decisiones. Se pueden usar para modelar relaciones complejas entre entradas y salidas o para encontrar patrones en los datos.

Una red neuronal artificial implica una red de elementos de procesamiento simples (neuronas artificiales) que pueden exhibir un comportamiento global complejo, determinado por las conexiones entre los elementos de procesamiento y los parámetros de los elementos. Las neuronas artificiales fueron propuestas por primera vez en 1943 por Warren McCulloch, un neurofisiólogo, y Walter Pitts, un lógico, quienes colaboraron por primera vez en la Universidad de Chicago.

Un tipo clásico de red neuronal artificial es la red Hopfield recurrente.

El concepto de red neuronal parece haber sido propuesto por primera vez por Alan Turing en su artículo Maquinaria inteligente de 1948, en el que las llamó "máquinas desorganizadas de tipo B".

La utilidad de los modelos de redes neuronales artificiales radica en el hecho de que pueden usarse para inferir una función a partir de observaciones y también para usarla. Las redes neuronales no supervisadas también se pueden usar para aprender representaciones de la entrada que capturan las características más destacadas de la distribución de la entrada, por ejemplo, consulte la máquina de Boltzmann (1983) y, más recientemente, los algoritmos de aprendizaje profundo, que pueden aprender implícitamente la función de distribución de la distribución. datos observados. El aprendizaje en redes neuronales es particularmente útil en aplicaciones donde la complejidad de los datos o la tarea hace que el diseño de dichas funciones a mano no sea práctico.

Aplicaciones

Las redes neuronales se pueden utilizar en diferentes campos. Las tareas a las que se aplican las redes neuronales artificiales tienden a caer dentro de las siguientes categorías amplias:

Las áreas de aplicación de las ANN incluyen identificación y control de sistemas no lineales (control de vehículos, control de procesos), juegos y toma de decisiones (backgammon, ajedrez, carreras), reconocimiento de patrones (sistemas de radar, identificación de rostros, reconocimiento de objetos), reconocimiento de secuencias (gestos, voz, reconocimiento de texto escrito a mano), diagnóstico médico, aplicaciones financieras, minería de datos (o descubrimiento de conocimiento en bases de datos, "KDD"), visualización y filtrado de spam de correo electrónico. Por ejemplo, es posible crear un perfil semántico de los intereses del usuario a partir de imágenes entrenadas para el reconocimiento de objetos.

Neurociencia

La neurociencia teórica y computacional es el campo relacionado con el análisis y el modelado computacional de sistemas neuronales biológicos. Dado que los sistemas neuronales están íntimamente relacionados con los procesos cognitivos y el comportamiento, el campo está estrechamente relacionado con el modelado cognitivo y conductual.

El objetivo del campo es crear modelos de sistemas neuronales biológicos para comprender cómo funcionan los sistemas biológicos. Para obtener esta comprensión, los neurocientíficos se esfuerzan por establecer un vínculo entre los procesos biológicos observados (datos), los mecanismos biológicamente plausibles para el procesamiento y aprendizaje neuronal (modelos de redes neuronales biológicas) y la teoría (teoría del aprendizaje estadístico y teoría de la información).

Tipos de modelos

Se utilizan muchos modelos; definido en diferentes niveles de abstracción, y modelado de diferentes aspectos de los sistemas neuronales. Van desde modelos del comportamiento a corto plazo de neuronas individuales, pasando por modelos de la dinámica de los circuitos neuronales que surgen de las interacciones entre neuronas individuales, hasta modelos de comportamiento que surgen de módulos neuronales abstractos que representan subsistemas completos. Estos incluyen modelos de la plasticidad a corto y largo plazo de los sistemas neuronales y su relación con el aprendizaje y la memoria, desde la neurona individual hasta el nivel del sistema.

Conectividad

En agosto de 2020, los científicos informaron que las conexiones bidireccionales, o las conexiones de retroalimentación apropiadas agregadas, pueden acelerar y mejorar la comunicación entre y en las redes neuronales modulares de la corteza cerebral del cerebro y reducir el umbral para su comunicación exitosa. Demostraron que agregar conexiones de retroalimentación entre un par de resonancia puede respaldar la propagación exitosa de un solo paquete de pulso en toda la red.

Crítica

Históricamente, una crítica común a las redes neuronales, particularmente en robótica, fue que requieren una gran diversidad de muestras de entrenamiento para operar en el mundo real. Esto no es sorprendente, ya que cualquier máquina de aprendizaje necesita suficientes ejemplos representativos para capturar la estructura subyacente que le permite generalizar a nuevos casos. Dean Pomerleau, en su investigación presentada en el artículo "Entrenamiento basado en el conocimiento de redes neuronales artificiales para la conducción de robots autónomos", utiliza una red neuronal para entrenar un vehículo robótico para que conduzca en múltiples tipos de caminos (un solo carril, varios carriles, caminos de tierra)., etc.). Una gran parte de su investigación está dedicada a (1) extrapolar múltiples escenarios de entrenamiento a partir de una sola experiencia de entrenamiento y (2) preservar la diversidad de entrenamiento anterior para que el sistema no se sobreentrene (si, por ejemplo, se le presenta una serie de giros a la derecha; no debe aprender a girar siempre a la derecha). Estos problemas son comunes en las redes neuronales que deben decidir entre una amplia variedad de respuestas, pero se pueden tratar de varias maneras, por ejemplo, mezclando aleatoriamente los ejemplos de entrenamiento, usando un algoritmo de optimización numérica que no da pasos demasiado grandes cuando cambiando las conexiones de red siguiendo un ejemplo, o agrupando ejemplos en los llamados mini-lotes.

AK Dewdney, ex columnista de Scientific American, escribió en 1997: "Aunque las redes neuronales resuelven algunos problemas de juguetes, su poder de cálculo es tan limitado que me sorprende que alguien las tome en serio como una herramienta general para resolver problemas" (Dewdney, pág. 82).

Los argumentos a favor de la posición de Dewdney son que para implementar redes neuronales de software grandes y efectivas, es necesario comprometer muchos recursos de procesamiento y almacenamiento. Si bien el cerebro tiene hardware adaptado a la tarea de procesar señales a través de un gráfico de neuronas, simular incluso la forma más simplificada en la tecnología de Von Neumann puede obligar a un diseñador de redes neuronales a llenar muchos millones de filas de bases de datos para sus conexiones, lo que puede consumir grandes cantidades. de la memoria de la computadora y la capacidad de almacenamiento de datos. Además, el diseñador de sistemas de redes neuronales a menudo necesitará simular la transmisión de señales a través de muchas de estas conexiones y sus neuronas asociadas, lo que a menudo debe combinarse con cantidades increíbles de tiempo y potencia de procesamiento de la CPU. Mientras que las redes neuronales a menudo producen efectivoprogramas, con demasiada frecuencia lo hacen a costa de la eficiencia (tienden a consumir cantidades considerables de tiempo y dinero).

Los argumentos en contra de la posición de Dewdney son que las redes neuronales se han utilizado con éxito para resolver muchas tareas complejas y diversas, como volar aviones de forma autónoma.

El escritor de tecnología Roger Bridgman comentó sobre las declaraciones de Dewdney sobre las redes neuronales:

Las redes neuronales, por ejemplo, están en el banquillo no solo porque han sido promocionadas hasta el cielo (¿qué no?), sino también porque podrías crear una red exitosa sin entender cómo funcionaba: el montón de números que captura su el comportamiento sería con toda probabilidad "una tabla opaca e ilegible... sin valor como recurso científico".

A pesar de su declaración enfática de que la ciencia no es tecnología, Dewdney parece ridiculizar las redes neuronales como mala ciencia cuando la mayoría de los que las diseñan solo intentan ser buenos ingenieros. Aún valdría la pena tener una tabla ilegible que una máquina útil pudiera leer.

Si bien es cierto que analizar lo aprendido por una red neuronal artificial es difícil, es mucho más fácil hacerlo que analizar lo aprendido por una red neuronal biológica. Además, el énfasis reciente en la explicabilidad de la IA ha contribuido al desarrollo de métodos, especialmente aquellos basados ​​en mecanismos de atención, para visualizar y explicar las redes neuronales aprendidas. Además, los investigadores involucrados en la exploración de algoritmos de aprendizaje para redes neuronales están descubriendo gradualmente principios genéricos que permiten que una máquina de aprendizaje tenga éxito. Por ejemplo, Bengio y LeCun (2007) escribieron un artículo sobre el aprendizaje local frente al no local, así como la arquitectura superficial frente a la profunda.

Algunas otras críticas provinieron de los creyentes de los modelos híbridos (que combinan redes neuronales y enfoques simbólicos). Abogan por la mezcla de estos dos enfoques y creen que los modelos híbridos pueden captar mejor los mecanismos de la mente humana (Sun y Bookman, 1990).

Mejoras recientes

Si bien inicialmente la investigación se había centrado principalmente en las características eléctricas de las neuronas, una parte particularmente importante de la investigación en los últimos años ha sido la exploración del papel de los neuromoduladores como la dopamina, la acetilcolina y la serotonina en el comportamiento y el aprendizaje.

Los modelos biofísicos, como la teoría BCM, han sido importantes para comprender los mecanismos de la plasticidad sináptica y han tenido aplicaciones tanto en informática como en neurociencia. Se están realizando investigaciones para comprender los algoritmos computacionales utilizados en el cerebro, con algunas pruebas biológicas recientes de redes de base radial y retropropagación neuronal como mecanismos para procesar datos.

Se han creado dispositivos computacionales en CMOS tanto para simulación biofísica como para computación neuromórfica. Esfuerzos más recientes son prometedores para crear nanodispositivos para análisis de componentes principales y convolución a gran escala. Si tienen éxito, estos esfuerzos podrían marcar el comienzo de una nueva era de computación neuronal que es un paso más allá de la computación digital, porque depende del aprendizaje en lugar de la programación y porque es fundamentalmente analógico en lugar de digital, aunque las primeras instancias pueden ser con CMOS. dispositivos digitales.

Entre 2009 y 2012, las redes neuronales recurrentes y las redes neuronales de avance profundo desarrolladas en el grupo de investigación de Jürgen Schmidhuber en el Swiss AI Lab IDSIA ganaron ocho concursos internacionales en reconocimiento de patrones y aprendizaje automático. Por ejemplo, la memoria multidimensional a largo plazo (LSTM) ganó tres concursos de reconocimiento de escritura conectada en la Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR) de 2009, sin ningún conocimiento previo sobre los tres idiomas diferentes que se aprenderán.

Las variantes del algoritmo de retropropagación, así como los métodos no supervisados ​​de Geoff Hinton y sus colegas de la Universidad de Toronto, se pueden usar para entrenar arquitecturas neuronales profundas y altamente no lineales, similares al Neocognitron de 1980 de Kunihiko Fukushima, y ​​la "arquitectura estándar de la visión". ", inspirado en las células simples y complejas identificadas por David H. Hubel y Torsten Wiesel en la corteza visual primaria.

También se han introducido la función de base radial y las redes wavelet. Se puede demostrar que estos ofrecen las mejores propiedades de aproximación y se han aplicado en aplicaciones de identificación y clasificación de sistemas no lineales.

Las redes feedforward de aprendizaje profundo alternan capas convolucionales y capas de agrupación máxima, coronadas por varias capas de clasificación pura. Las implementaciones rápidas de este enfoque basadas en GPU han ganado varios concursos de reconocimiento de patrones, incluido el concurso de reconocimiento de señales de tráfico IJCNN 2011 y el desafío ISBI 2012 de segmentación de estructuras neuronales en pilas de microscopía electrónica. Estas redes neuronales también fueron los primeros reconocedores de patrones artificiales en lograr un rendimiento competitivo humano o incluso sobrehumano en puntos de referencia como el reconocimiento de señales de tráfico (IJCNN 2012) o el problema de dígitos escritos a mano MNIST de Yann LeCun y sus colegas en NYU.