Conexionismo

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Enfoque científico cognitivo

Conexionismo se refiere tanto a un enfoque en el campo de la ciencia cognitiva que espera explicar los fenómenos mentales utilizando redes neuronales artificiales (ANN) como a una amplia gama de técnicas y algoritmos que utilizan ANN en el contexto de inteligencia artificial para construir máquinas más inteligentes. El conexionismo presenta una teoría cognitiva basada en la actividad de señales distribuidas que ocurren simultáneamente a través de conexiones que se pueden representar numéricamente, donde el aprendizaje se produce mediante la modificación de las intensidades de conexión en función de la experiencia.

Algunas de las ventajas del enfoque conexionista incluyen su aplicabilidad a una amplia gama de funciones, la aproximación estructural a las neuronas biológicas, los bajos requisitos de estructura innata y la capacidad de degradación elegante. Algunas desventajas incluyen la dificultad para descifrar cómo las ANN procesan la información o dan cuenta de la composición de las representaciones mentales y la dificultad resultante para explicar los fenómenos a un nivel superior.

El éxito de las redes de aprendizaje profundo en la última década ha aumentado considerablemente la popularidad de este enfoque, pero la complejidad y la escala de dichas redes han traído consigo mayores problemas de interpretación. Muchos consideran que el conexionismo ofrece una alternativa a las teorías clásicas de la mente basadas en la computación simbólica, pero la medida en que los dos enfoques son compatibles ha sido objeto de mucho debate desde sus inicios.

Modelo Connectionista (ANN) con capa oculta

Principios básicos

El principio conexionista central es que los fenómenos mentales pueden describirse mediante redes interconectadas de unidades simples y, a menudo, uniformes. La forma de las conexiones y de las unidades puede variar de un modelo a otro. Por ejemplo, las unidades de la red podrían representar neuronas y las conexiones podrían representar sinapsis, como en el cerebro humano.

Activación de difusión

En la mayoría de los modelos conexionistas, las redes cambian con el tiempo. Un aspecto estrechamente relacionado y muy común de los modelos conexionistas es la activación. En cualquier momento, una unidad en la red tiene una activación, que es un valor numérico destinado a representar algún aspecto de la unidad. Por ejemplo, si las unidades del modelo son neuronas, la activación podría representar la probabilidad de que la neurona genere un pico de potencial de acción. La activación normalmente se extiende a todas las demás unidades conectadas a ella. La difusión de la activación siempre es una característica de los modelos de redes neuronales, y es muy común en los modelos conexionistas utilizados por los psicólogos cognitivos.

Redes neuronales

Las redes neuronales son, con diferencia, el modelo conexionista más utilizado en la actualidad. Aunque existe una gran variedad de modelos de redes neuronales, casi siempre siguen dos principios básicos relacionados con la mente:

  1. Cualquier estado mental puede describirse como un vector (N) de valores de activación numérica sobre unidades neuronales en una red.
  2. La memoria se crea modificando la fuerza de las conexiones entre unidades neuronales. Las fortalezas de conexión, o "pesos", generalmente se representan como una matriz N×M.

La mayor parte de la variedad entre los modelos de redes neuronales proviene de:

  • Interpretación de unidades: Las unidades se pueden interpretar como neuronas o grupos de neuronas.
  • Definición de activación: La activación se puede definir de diversas maneras. Por ejemplo, en una máquina Boltzmann, la activación se interpreta como la probabilidad de generar un pico potencial de acción, y se determina mediante una función logística en la suma de las entradas a una unidad.
  • algoritmo de aprendizaje: Diferentes redes modifican sus conexiones de manera diferente. En general, cualquier cambio matemáticamente definido en pesos de conexión con el tiempo se conoce como el " algoritmo de aprendizaje".

Los conexionistas están de acuerdo en que las redes neuronales recurrentes (redes dirigidas en las que las conexiones de la red pueden formar un ciclo dirigido) son un mejor modelo del cerebro que las redes neuronales feedforward (redes dirigidas sin ciclos, llamadas DAG). Muchos modelos conexionistas recurrentes también incorporan la teoría de sistemas dinámicos. Muchos investigadores, como el conexionista Paul Smolensky, han argumentado que los modelos conexionistas evolucionarán hacia enfoques de sistemas dinámicos no lineales, de alta dimensión y completamente continuos.

Realismo biológico

El trabajo conexionista en general no necesita ser biológicamente realista y, por lo tanto, adolece de una falta de plausibilidad neurocientífica. Sin embargo, la estructura de las redes neuronales se deriva de la de las neuronas biológicas, y a menudo se argumenta que este paralelo en la estructura de bajo nivel es una ventaja del conexionismo en el modelado de estructuras cognitivas en comparación con otros enfoques. Un área en la que se cree que los modelos conexionistas son biológicamente inverosímiles es con respecto a las redes de propagación de errores que se necesitan para apoyar el aprendizaje, pero la propagación de errores puede explicar parte de la actividad eléctrica generada biológicamente que se ve en el cuero cabelludo en potenciales relacionados con eventos, como el N400 y el P600, y esto proporciona cierto apoyo biológico para uno de los supuestos clave de los procedimientos de aprendizaje conexionista.

Aprendizaje

Los pesos en una red neuronal se ajustan de acuerdo con alguna regla o algoritmo de aprendizaje, como el aprendizaje de Hebbian. Por lo tanto, los conexionistas han creado muchos procedimientos de aprendizaje sofisticados para redes neuronales. El aprendizaje implica siempre modificar los pesos de conexión. En general, estos involucran fórmulas matemáticas para determinar el cambio en los pesos cuando se dan conjuntos de datos que consisten en vectores de activación para algún subconjunto de unidades neuronales. Varios estudios se han centrado en el diseño de métodos de enseñanza-aprendizaje basados en el conexionismo.

Al formalizar el aprendizaje de esta manera, los conexionistas tienen muchas herramientas. Una estrategia muy común en los métodos de aprendizaje conexionistas es incorporar gradientes descendentes sobre una superficie de error en un espacio definido por la matriz de pesos. Todo aprendizaje de descenso de gradiente en modelos conexionistas implica cambiar cada peso por la derivada parcial de la superficie de error con respecto al peso. Backpropagation (BP), popularizado por primera vez en la década de 1980, es probablemente el algoritmo de descenso de gradiente conexionista más conocido en la actualidad.

El conexionismo se remonta a ideas de más de un siglo de antigüedad, que eran poco más que especulaciones hasta mediados o finales del siglo XX.

Procesamiento distribuido en paralelo

El enfoque conexionista predominante en la actualidad se conocía originalmente como procesamiento distribuido en paralelo (PDP). Era un enfoque de red neuronal artificial que enfatizaba la naturaleza paralela del procesamiento neuronal y la naturaleza distribuida de las representaciones neuronales. Proporcionó un marco matemático general para que los investigadores operaran. El marco involucraba ocho aspectos principales:

  • Un conjunto de unidades de procesamiento, representado por un conjunto de enteros.
  • An activación para cada unidad, representada por un vector de funciones dependientes del tiempo.
  • An función de salida para cada unidad, representada por un vector de funciones en las activaciones.
  • A patrón de conectividad entre unidades, representadas por una matriz de números reales que indican la fuerza de conexión.
  • A Regla de propagación difundiendo las activaciones a través de las conexiones, representadas por una función en la salida de las unidades.
  • An Regla de activación para combinar entradas a una unidad para determinar su nueva activación, representada por una función sobre la activación y propagación actual.
  • A Normas de aprendizaje para modificar las conexiones basadas en la experiencia, representada por un cambio en los pesos basado en cualquier número de variables.
  • An medio ambiente que proporciona al sistema la experiencia, representada por conjuntos de vectores de activación para algunos subconjuntos de las unidades.

Gran parte de la investigación que condujo al desarrollo de PDP se realizó en la década de 1970, pero PDP se hizo popular en la década de 1980 con el lanzamiento de los libros Procesamiento distribuido en paralelo: Exploraciones en la microestructura de la cognición - Volumen 1 (fundaciones) y Volumen 2 (Modelos psicológicos y biológicos), por James L. McClelland, David E. Rumelhart y el Grupo de investigación PDP. Los libros ahora se consideran obras conexionistas seminales, y ahora es común equiparar completamente PDP y conexionismo, aunque el término "conexionismo" no se usa en los libros. Siguiendo el modelo PDP, los investigadores han teorizado sistemas basados en los principios del procesamiento distribuido paralelo.

Trabajos anteriores

Las raíces directas de PDP se adoptaron de los investigadores de las teorías del perceptrón, como Frank Rosenblatt, de las décadas de 1950 y 1960. Pero los modelos de perceptrones se volvieron muy impopulares por el libro Perceptrons de Marvin Minsky y Seymour Papert, publicado en 1969. Demostró los límites en los tipos de funciones que pueden calcular los perceptrones de una sola capa (sin capa oculta)., lo que demuestra que incluso funciones simples como la disyunción exclusiva (XOR) no se pueden manejar correctamente.

Sin embargo, cuando se publicó este libro, ya se conocían métodos para entrenar perceptrones multicapa (MLP) mediante aprendizaje profundo. El primer MLP de aprendizaje profundo fue publicado por Alexey Grigorevich Ivakhnenko y Valentin Lapa en 1965 en USSS (República Socialista Soviética de Ucrania), como Método grupal de manejo de datos. Este método emplea un entrenamiento incremental capa por capa basado en el análisis de regresión, donde las unidades inútiles en capas ocultas se eliminan con la ayuda de un conjunto de validación. El primer MLP de aprendizaje profundo entrenado por descenso de gradiente estocástico fue publicado en 1967 por Shun'ichi Amari. En experimentos informáticos realizados por Saito, estudiante de Amari, un MLP de cinco capas con dos capas modificables aprendió representaciones internas útiles para clasificar clases de patrones no linealmente separables.

La historia de las redes neuronales recurrentes (RNN) se remonta aún más a la década de 1920. Wilhelm Lenz (1920) y Ernst Ising (1925) crearon y analizaron el modelo Ising, que es esencialmente un RNN sin aprendizaje que consta de elementos de umbral similares a neuronas. En 1972, Shun'ichi Amari hizo esta arquitectura adaptativa. Este RNN de aprendizaje fue popularizado por John Hopfield en 1982.

Otros primeros investigadores defendieron modelos de estilo conexionista, por ejemplo, en las décadas de 1940 y 1950, Warren McCulloch y Walter Pitts (neurona MP), Donald Olding Hebb y Karl Lashley. McCulloch y Pitts demostraron cómo los sistemas neuronales podrían implementar la lógica de primer orden: su artículo clásico "A Logical Calculus of Ideas Immanent in Nervous Activity" (1943) es importante en este desarrollo aquí. Fueron influenciados por el importante trabajo de Nicolas Rashevsky en la década de 1930. Hebb contribuyó en gran medida a las especulaciones sobre el funcionamiento neuronal y propuso un principio de aprendizaje, el aprendizaje hebbiano, que todavía se usa en la actualidad. Lashley abogó por representaciones distribuidas como resultado de su fracaso en encontrar algo parecido a un engrama localizado en años de experimentos con lesiones.

Los libros de PDP también enfatizaron que las redes neuronales no lineales de múltiples niveles podrían usarse para una amplia gama de funciones.

Conexionismo aparte del PDP

Aunque el PDP es la forma dominante de conexionismo, otros trabajos teóricos también deberían clasificarse como conexionistas.

Muchos principios conexionistas se remontan a trabajos tempranos en psicología, como el de William James. Las teorías psicológicas basadas en el conocimiento del cerebro humano estaban de moda a finales del siglo XIX. Ya en 1869, el neurólogo John Hughlings Jackson abogó por los sistemas distribuidos de varios niveles. Siguiendo esta pista, los Principios de psicología de Herbert Spencer, 3.ª edición (1872), y el Proyecto para una psicología científica de Sigmund Freud (compuesto en 1895) propusieron teorías conexionistas o proto-conexionistas. Estas tendían a ser teorías especulativas. Pero a principios del siglo XX, Edward Thorndike estaba experimentando con el aprendizaje que postulaba una red de tipo conexionista.

Friedrich Hayek concibió de forma independiente el modelo de aprendizaje de sinapsis de Hebbian en un artículo presentado en 1920 y desarrolló ese modelo en la teoría del cerebro global constituida por redes de sinapsis de Hebbian que se construyen en sistemas más grandes de mapas y redes de memoria. El trabajo revolucionario de Hayek fue citado por Frank Rosenblatt en su artículo sobre perceptrón.

Otra forma de modelo conexionista fue el marco de red relacional desarrollado por el lingüista Sydney Lamb en la década de 1960. Las redes relacionales solo han sido utilizadas por lingüistas y nunca se unificaron con el enfoque PDP. Como resultado, ahora son utilizados por muy pocos investigadores.

También hay modelos conexionistas híbridos, en su mayoría mezclando representaciones simbólicas con modelos de redes neuronales. El enfoque híbrido ha sido defendido por algunos investigadores (como Ron Sun).

Debate entre conexionismo y computacionalismo

A medida que el conexionismo se hizo cada vez más popular a fines de la década de 1980, algunos investigadores (incluidos Jerry Fodor, Steven Pinker y otros) reaccionaron en su contra. Argumentaron que el conexionismo, tal como se desarrollaba entonces, amenazaba con destruir lo que consideraban el progreso realizado en los campos de la ciencia cognitiva y la psicología por el enfoque clásico del computacionalismo. El computacionalismo es una forma específica de cognitivismo que sostiene que la actividad mental es computacional, es decir, que la mente opera realizando operaciones puramente formales en símbolos, como una máquina de Turing. Algunos investigadores argumentaron que la tendencia al conexionismo representaba una reversión hacia el asociacionismo y el abandono de la idea de un lenguaje del pensamiento, algo que consideraban erróneo. En contraste, esas mismas tendencias hicieron que el conexionismo fuera atractivo para otros investigadores.

El conexionismo y el computacionalismo no tienen por qué estar reñidos, pero el debate de finales de los 80 y principios de los 90 llevó a la oposición entre los dos enfoques. A lo largo del debate, algunos investigadores han argumentado que el conexionismo y el computacionalismo son totalmente compatibles, aunque no se ha llegado a un consenso total sobre este tema. Las diferencias entre los dos enfoques incluyen lo siguiente:

  • Los computacionalistas presentan modelos simbólicos que son estructuralmente similares a la estructura cerebral subyacente, mientras que los conectistas se dedican a modelar "bajo nivel", tratando de asegurar que sus modelos se asemejen a estructuras neurológicas.
  • Los computacionalistas en general se centran en la estructura de símbolos explícitos (modelos mentales) y reglas sintácticas para su manipulación interna, mientras que los conectistas se centran en aprender de estímulos ambientales y almacenar esta información en una forma de conexiones entre neuronas.
  • Los computacionalistas creen que la actividad mental interna consiste en la manipulación de símbolos explícitos, mientras que los conectistas creen que la manipulación de símbolos explícitos proporciona un modelo deficiente de actividad mental.
  • Los computacionalistas a menudo presentan subsistemas simbólicos específicos de dominio diseñados para apoyar el aprendizaje en áreas específicas de cognición (por ejemplo, lenguaje, intencionalidad, número), mientras que los conectores posit uno o un pequeño conjunto de mecanismos de aprendizaje muy general.

A pesar de estas diferencias, algunos teóricos han propuesto que la arquitectura conexionista es simplemente la forma en que los cerebros orgánicos implementan el sistema de manipulación de símbolos. Esto es lógicamente posible, ya que es bien sabido que los modelos conexionistas pueden implementar sistemas de manipulación de símbolos del tipo utilizado en los modelos computacionalistas, y de hecho deben ser capaces de explicar la capacidad humana para realizar tareas de manipulación de símbolos. Se han propuesto varios modelos cognitivos que combinan arquitecturas de manipulación de símbolos y conexionistas, en particular, entre ellos la Arquitectura Cognitiva Simbólica/Conexionista Integrada (ICS) de Paul Smolensky. Pero el debate se basa en si esta manipulación de símbolos forma la base de la cognición en general, por lo que no es una reivindicación potencial del computacionalismo. No obstante, las descripciones computacionales pueden ser útiles descripciones de alto nivel de la cognición de la lógica, por ejemplo.

El debate se centró en gran medida en argumentos lógicos sobre si las redes conexionistas podrían producir la estructura sintáctica observada en este tipo de razonamiento. Esto se logró más tarde, aunque se utilizaron capacidades de enlace de variables rápidas fuera de las que se suponen estándar en los modelos conexionistas.

Parte del atractivo de las descripciones computacionales es que son relativamente fáciles de interpretar y, por lo tanto, pueden verse como una contribución a nuestra comprensión de procesos mentales particulares, mientras que los modelos conexionistas son en general más opacos, en la medida en que pueden ser describible solo en términos muy generales (como especificar el algoritmo de aprendizaje, el número de unidades, etc.), o en términos inútiles de bajo nivel. En este sentido, los modelos conexionistas pueden ejemplificar y, por lo tanto, proporcionar evidencia para una teoría amplia de la cognición (es decir, el conexionismo), sin representar una teoría útil del proceso particular que se está modelando. En este sentido, podría considerarse que el debate refleja hasta cierto punto una mera diferencia en el nivel de análisis en el que se enmarcan las teorías particulares. Algunos investigadores sugieren que la brecha de análisis es la consecuencia de mecanismos conexionistas que dan lugar a fenómenos emergentes que pueden describirse en términos computacionales.

En la década de 2000, la popularidad de los sistemas dinámicos en la filosofía de la mente ha agregado una nueva perspectiva al debate; algunos autores ahora argumentan que cualquier división entre conexionismo y computacionalismo se caracteriza de manera más concluyente como una división entre computacionalismo y sistemas dinámicos.

En 2014, Alex Graves y otros de DeepMind publicaron una serie de artículos que describían una nueva estructura de red neuronal profunda llamada Neural Turing Machine capaz de leer símbolos en una cinta y almacenar símbolos en la memoria. Redes relacionales, otro módulo de redes profundas publicado por DeepMind, puede crear representaciones similares a objetos y manipularlas para responder preguntas complejas. Las redes relacionales y las máquinas neuronales de Turing son una prueba más de que el conexionismo y el computacionalismo no tienen por qué estar reñidos.

Debate entre simbolismo y conexionismo

El Paradigma Subsimbólico de Smolensky tiene que enfrentar el desafío de Fodor-Pylyshyn formulado por la teoría clásica del símbolo para una teoría convincente de la cognición en el conexionismo moderno. Para ser una teoría alternativa adecuada de la cognición, el paradigma subsimbólico de Smolensky tendría que explicar la existencia de sistematicidad o relaciones sistemáticas en la cognición del lenguaje sin asumir que los procesos cognitivos son causalmente sensibles a la estructura constituyente clásica de las representaciones mentales. El paradigma subsimbólico, o conexionismo en general, tendría entonces que explicar la existencia de sistematicidad y composicionalidad sin depender de la mera implementación de una arquitectura cognitiva clásica. Este desafío implica un dilema: si el Paradigma Subsimbólico no pudiera contribuir en nada a la sistematicidad y composicionalidad de las representaciones mentales, sería insuficiente como base para una teoría alternativa de la cognición. Sin embargo, si la contribución del Paradigma Subsimbólico a la sistematicidad requiere procesos mentales basados en la estructura constituyente clásica de las representaciones mentales, la teoría de la cognición que desarrolla sería, en el mejor de los casos, una arquitectura de implementación del modelo clásico de la teoría del símbolo y, por lo tanto, no es una genuina teoría alternativa (conexionista) de la cognición. El modelo clásico de simbolismo se caracteriza por (1.) una sintaxis y semántica combinatorias de representaciones mentales y (2.) operaciones mentales como procesos sensibles a la estructura, basados en el principio fundamental de la estructura sintáctica y semántica constituyente de las representaciones mentales tal como se usa en El 'lenguaje del pensamiento (LOT)' de Fodor. Esto se puede usar para explicar las siguientes propiedades estrechamente relacionadas de la cognición humana, a saber, su (1.) productividad, (2.) sistematicidad, (3.) composicionalidad y (4.) coherencia inferencial.

Este desafío se ha enfrentado en el conexionismo moderno, por ejemplo, no solo por la 'Arquitectura cognitiva integrada conexionista/simbólica (ICS)' de Smolensky, sino también por Werning's y Maye& #39;s "Redes oscilatorias". Bechtel & Abrahamsen, Marcus y Maurer.

Contenido relacionado

Tahoma (tipo de letra)

Tahoma es un tipo de letra sans-serif humanista que Matthew Carter diseñó para Microsoft Corporation. Microsoft la distribuyó por primera vez, junto con la...

Macworld/iWorld

Macworld/iWorld fue una feria comercial de tecnología de la información con conferencias dedicadas a la plataforma Mac de Apple. Se llevó a cabo anualmente...

Registro de nombres de dominio

Un registro de nombres de dominio es una base de datos de todos los nombres de dominio y la información del registrante asociado en los dominios de nivel...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save