Inteligencia artificial simbólica
En inteligencia artificial, inteligencia artificial simbólica es el término para la recopilación de todos los métodos en la investigación de inteligencia artificial que se basan en representaciones simbólicas (legibles por humanos) de alto nivel de problemas, lógica y búsqueda.. La IA simbólica usó herramientas como programación lógica, reglas de producción, redes y marcos semánticos, y desarrolló aplicaciones como sistemas basados en el conocimiento (en particular, sistemas expertos), matemáticas simbólicas, probadores de teoremas automatizados, ontologías, la web semántica y sistemas automatizados. sistemas de planificación y programación. El paradigma de la IA simbólica condujo a ideas fundamentales en búsqueda, lenguajes de programación simbólicos, agentes, sistemas multiagente, la web semántica y las fortalezas y limitaciones del conocimiento formal y los sistemas de razonamiento.
La IA simbólica fue el paradigma dominante en la investigación de la IA desde mediados de la década de 1950 hasta mediados de la década de 1990. Los investigadores de las décadas de 1960 y 1970 estaban convencidos de que los enfoques simbólicos eventualmente lograrían crear una máquina con inteligencia artificial general y consideraron que este era el objetivo final de su campo. Un auge temprano, con éxitos tempranos como Logic Theorist y el programa de juego de damas de Samuel, generó expectativas y promesas poco realistas y fue seguido por el primer invierno de IA cuando se agotó la financiación. Se produjo un segundo auge (1969-1986) con el surgimiento de los sistemas expertos, su promesa de capturar la experiencia corporativa y un abrazo corporativo entusiasta. Ese auge y algunos éxitos tempranos, por ejemplo, con XCON en DEC, fueron seguidos nuevamente por una decepción posterior. Surgieron problemas con dificultades en la adquisición de conocimiento, mantenimiento de grandes bases de conocimiento y fragilidad en el manejo de problemas fuera del dominio. Siguió otro, segundo, AI Winter (1988-2011). Posteriormente, los investigadores de IA se centraron en abordar los problemas subyacentes en el manejo de la incertidumbre y en la adquisición de conocimientos. La incertidumbre se abordó con métodos formales como los modelos ocultos de Markov, el razonamiento bayesiano y el aprendizaje relacional estadístico. El aprendizaje automático simbólico abordó el problema de la adquisición de conocimiento con contribuciones que incluyen Version Space, el aprendizaje PAC de Valiant, el aprendizaje del árbol de decisiones ID3 de Quinlan, el aprendizaje basado en casos y la programación lógica inductiva para aprender relaciones.
Las redes neuronales, un enfoque subsimbólico, se habían buscado desde los primeros días y resurgirían con fuerza en 2012. Los primeros ejemplos son el trabajo de aprendizaje de perceptrones de Rosenblatt, el trabajo de retropropagación de Rumelhart, Hinton y Williams, y el trabajo en convolucional. redes neuronales por LeCun et al. en 1989. Sin embargo, las redes neuronales no se consideraron exitosas hasta alrededor de 2012: 'Hasta que Big Data se convirtió en un lugar común, el consenso general en la comunidad de IA era que el llamado enfoque de redes neuronales no tenía remedio. Los sistemas simplemente no funcionaban tan bien, en comparación con otros métodos... En 2012 se produjo una revolución, cuando varias personas, incluido un equipo de investigadores que trabajaban con Hinton, idearon una forma de utilizar la potencia de las GPU. para aumentar enormemente el poder de las redes neuronales." Durante los siguientes años, el aprendizaje profundo tuvo un éxito espectacular en el manejo de la visión, el reconocimiento de voz, la síntesis de voz, la generación de imágenes y la traducción automática. Sin embargo, desde 2020, a medida que las dificultades inherentes con el sesgo, la explicación, la comprensibilidad y la solidez se hicieron más evidentes con los enfoques de aprendizaje profundo; un número cada vez mayor de investigadores de IA ha pedido combinar lo mejor de los enfoques de redes simbólicas y neuronales y abordar áreas con las que ambos enfoques tienen dificultades, como el razonamiento de sentido común.
Historia
A continuación, se incluye una breve historia de la IA simbólica hasta la actualidad. Los períodos de tiempo y los títulos se extrajeron de la conferencia en memoria de Robert S. Engelmore de la AAAI de 2020 de Henry Kautz y del artículo más largo de Wikipedia sobre la historia de la IA, con fechas y títulos que difieren ligeramente para una mayor claridad.
El primer verano de IA: exuberancia irracional, 1948-1966
El éxito de los primeros intentos de IA se produjo en tres áreas principales: redes neuronales artificiales, representación del conocimiento y búsqueda heurística, lo que contribuyó a generar grandes expectativas. Esta sección resume la repetición de Kautz de la historia temprana de la IA.
Enfoques inspirados en la cognición o el comportamiento humano o animal
Los enfoques cibernéticos intentaron replicar los bucles de retroalimentación entre los animales y sus entornos. Ya en 1948 se construyó una tortuga robótica, con sensores, motores para conducir y dirigir, y siete tubos de vacío para el control, basada en una red neuronal preprogramada. Este trabajo puede verse como un precursor temprano del trabajo posterior en redes neuronales. aprendizaje por refuerzo y robótica situada.
Un importante programa temprano de inteligencia artificial simbólica fue el teórico de la lógica, escrito por Allen Newell, Herbert Simon y Cliff Shaw en 1955–56, ya que pudo probar 38 teoremas elementales de Whitehead y los Principia Mathematica de Russell. Newell, Simon y Shaw luego generalizaron este trabajo para crear un solucionador de problemas independiente del dominio, GPS (General Problem Solver). El GPS resolvió problemas representados con operadores formales a través de la búsqueda en el espacio de estados utilizando análisis de medios y fines.
Durante la década de 1960, los enfoques simbólicos lograron un gran éxito en la simulación del comportamiento inteligente en entornos estructurados como juegos, matemáticas simbólicas y demostración de teoremas. La investigación de IA se centró en tres instituciones en la década de 1960: la Universidad Carnegie Mellon, Stanford, MIT y (más tarde) la Universidad de Edimburgo. Cada uno desarrolló su propio estilo de investigación. Los enfoques anteriores basados en la cibernética o las redes neuronales artificiales fueron abandonados o relegados a un segundo plano.
Herbert Simon y Allen Newell estudiaron las habilidades humanas de resolución de problemas e intentaron formalizarlas, y su trabajo sentó las bases del campo de la inteligencia artificial, así como de la ciencia cognitiva, la investigación de operaciones y la ciencia administrativa. Su equipo de investigación usó los resultados de experimentos psicológicos para desarrollar programas que simulaban las técnicas que la gente usaba para resolver problemas. Esta tradición, centrada en la Universidad Carnegie Mellon, finalmente culminaría en el desarrollo de la arquitectura Soar a mediados de la década de 1980.
Búsqueda heurística
Además de los tipos de conocimiento altamente especializados y específicos de dominio que veremos más adelante utilizados en los sistemas expertos, los primeros investigadores de IA simbólica descubrieron otra aplicación más general del conocimiento. Estas se denominaron heurísticas, reglas generales que guían una búsqueda en direcciones prometedoras: '¿Cómo puede ser práctica la búsqueda no enumerativa cuando el problema subyacente es exponencialmente difícil? El enfoque defendido por Simon y Newell es emplear heurística: algoritmos rápidos que pueden fallar en algunas entradas o generar soluciones subóptimas." Otro avance importante fue encontrar una forma de aplicar estas heurísticas que garantice que se encontrará una solución, si es que la hay, a pesar de la falibilidad ocasional de las heurísticas: "El algoritmo A* proporcionó un marco general para una solución heurística completa y óptima. búsqueda guiada. A* se usa como una subrutina dentro de prácticamente todos los algoritmos de IA en la actualidad, pero aún no es una varita mágica; su garantía de integridad se compra a costa del tiempo exponencial del peor de los casos.
Trabajos iniciales sobre representación y razonamiento del conocimiento
Los primeros trabajos cubrieron ambas aplicaciones de razonamiento formal que enfatizan la lógica de primer orden, junto con intentos de manejar el razonamiento de sentido común de una manera menos formal.
Modelado de razonamiento formal con lógica: los "limpios"
A diferencia de Simon y Newell, John McCarthy sintió que las máquinas no necesitaban simular los mecanismos exactos del pensamiento humano, sino que podían tratar de encontrar la esencia del razonamiento abstracto y la resolución de problemas con lógica, independientemente de si las personas usaban el mismo algoritmos Su laboratorio en Stanford (SAIL) se centró en el uso de la lógica formal para resolver una amplia variedad de problemas, incluida la representación del conocimiento, la planificación y el aprendizaje. La lógica también fue el foco del trabajo en la Universidad de Edimburgo y en otros lugares de Europa, lo que condujo al desarrollo del lenguaje de programación Prolog y la ciencia de la programación lógica.
Modelado de conocimiento implícito de sentido común con marcos y guiones: los "scruffies"
Los investigadores del MIT (como Marvin Minsky y Seymour Papert) descubrieron que resolver problemas difíciles en el procesamiento de la visión y el lenguaje natural requería soluciones ad hoc; argumentaron que ningún principio simple y general (como la lógica) capturaría todos los aspectos del procesamiento inteligente. comportamiento. Roger Schank describió su "antilógica" se acerca como "desaliñado" (a diferencia de los paradigmas "pulcros" en CMU y Stanford). Las bases de conocimiento de sentido común (como Cyc de Doug Lenat) son un ejemplo de "desaliñado" AI, ya que deben construirse a mano, un concepto complicado a la vez.
El primer invierno de IA: sueños aplastados, 1967-1977
El primer invierno de IA fue un shock:
Durante el primer verano de AI, muchas personas pensaron que la inteligencia de la máquina podría lograrse en pocos años. The Defense Advance Research Projects Agency (DARPA) lanzó programas para apoyar la investigación de AI con el objetivo de utilizar AI para resolver problemas de seguridad nacional; en particular, para automatizar la traducción del ruso al inglés para operaciones de inteligencia y crear tanques autónomos para el campo de batalla. Los investigadores habían comenzado a darse cuenta de que el logro de la IA iba a ser mucho más difícil de lo que se suponía una década antes, pero una combinación de arrogancia y desingenudimiento llevó a muchos investigadores universitarios y de think-tank a aceptar financiación con promesas de entregas que deberían haber sabido que no podían cumplir. A mediados del decenio de 1960 no se habían creado sistemas útiles de traducción de idiomas naturales ni tanques autónomos, y se había establecido un dramático retroceso. Nuevo liderazgo de DARPA canceló los programas de financiación de AI existentes.
...
Fuera de los Estados Unidos, el terreno más fértil para la investigación de AI era el Reino Unido. El invierno de AI en el Reino Unido fue estimulado no tanto por líderes militares decepcionados como por académicos rivales que consideraron a los investigadores de AI como charlatanes y un drenaje sobre financiación de investigación. Un profesor de matemáticas aplicadas, Sir James Lighthill, fue encargado por el Parlamento para evaluar el estado de investigación de AI en la nación. The report stated that all of the problems being worked on in AI would be better handled by researchers from other disciplines —such as applied mathematics. The report also claimed that AI successes on toy problems could never scale to real-world applications due to combinatorial explosion.
El segundo verano de IA: el conocimiento es poder, 1978–1987
Sistemas basados en el conocimiento
A medida que las limitaciones de los métodos débiles e independientes del dominio se hicieron cada vez más evidentes, los investigadores de las tres tradiciones comenzaron a incorporar conocimientos en aplicaciones de IA. La revolución del conocimiento fue impulsada por la comprensión de que el conocimiento es la base de las aplicaciones de IA específicas de dominio y de alto rendimiento.
Edward Feigenbaum dijo:
- "En el conocimiento está el poder."
para describir que el alto rendimiento en un dominio específico requería conocimientos tanto generales como específicos del dominio. Ed Feigenbaum y Doug Lenat llamaron a esto El Principio del Conocimiento:
(1) El principio del conocimiento: si un programa es realizar una tarea compleja bien, debe saber mucho sobre el mundo en el que opera.
(2) Una extensión plausible de ese principio, llamado la Hipótesis de la Panta: hay dos habilidades adicionales necesarias para el comportamiento inteligente en situaciones inesperadas: caer de nuevo en el conocimiento cada vez más general, y analogizar con el conocimiento específico pero de largo alcance.
Éxito con sistemas expertos
Esta "revolución del conocimiento" condujo al desarrollo y despliegue de sistemas expertos (presentados por Edward Feigenbaum), la primera forma comercialmente exitosa de software de IA.
Ejemplos
Los sistemas expertos clave fueron:
- DENDRAL, que encontró la estructura de moléculas orgánicas de sus fórmulas químicas y lecturas de espectrómetros masivos.
- MYCIN, que diagnosticó la bacteremia – y sugirió nuevas pruebas de laboratorio, cuando fuera necesario – interpretando resultados de laboratorio, antecedentes de pacientes y observaciones del médico. "Con unas 450 reglas, MYCIN fue capaz de actuar así como algunos expertos, y considerablemente mejor que los médicos junior."
- INTERNIST y CADUCEUS que abordaron el diagnóstico de medicina interna. El internista intentó captar la experiencia del presidente de medicina interna de la Facultad de Medicina de la Universidad de Pittsburgh, mientras que CADUCEUS podría diagnosticar hasta 1000 enfermedades diferentes.
- GUIDON, que mostró cómo una base de conocimientos construida para resolver problemas de expertos podría ser reutilizada para la enseñanza.
- XCON, para configurar ordenadores VAX, un proceso laborioso que podría durar hasta 90 días. XCON redujo el tiempo a unos 90 minutos.
DENDRAL se considera el primer sistema experto que se basó en la resolución de problemas intensiva en conocimientos. Se describe a continuación, por Ed Feigenbaum, de una entrevista de Comunicaciones de la ACM, Entrevista con Ed Feigenbaum:
Una de las personas de Stanford interesadas en modelos de mente basados en ordenador fue Joshua Lederberg, ganador del Premio Nobel de genética de 1958. Cuando le dije que quería una inducción "sandbox", dijo, "tengo el único para ti". Su laboratorio estaba haciendo espectrometría masiva de aminoácidos. La pregunta fue: ¿cómo va de mirar un espectro de aminoácidos a la estructura química del aminoácido? Así es como empezamos el Proyecto DENDRAL: Yo era bueno en métodos de búsqueda heurísticos, y él tenía un algoritmo que era bueno para generar el espacio problemático químico.
No teníamos una visión de grandiosidad. Trabajamos en el fondo. Nuestro químico era Carl Djerassi, inventor del químico detrás de la píldora anticonceptiva, y también uno de los espectrometristas de masas más respetados del mundo. Carl y sus postdocs eran expertos de clase mundial en espectrometría masiva. Comenzamos a agregar en su conocimiento, inventando la ingeniería del conocimiento mientras íbamos. Estos experimentos equivalían a la titulación en DENDRAL cada vez más conocimiento. Cuanto más lo hiciste, más inteligente fue el programa. Teníamos muy buenos resultados.
La generalización fue: en el conocimiento se encuentra el poder. Esa fue la gran idea. En mi carrera esa es la enorme, "Ah ha!", y no era la forma en que AI se estaba haciendo anteriormente. Suena sencillo, pero es probablemente la generalización más poderosa de AI.
Los otros sistemas expertos mencionados anteriormente vinieron después de DENDRAL. MYCIN ejemplifica la arquitectura clásica del sistema experto de una base de conocimientos de reglas acopladas a un mecanismo de razonamiento simbólico, incluido el uso de factores de certeza para manejar la incertidumbre. GUIDON muestra cómo una base de conocimiento explícito se puede reutilizar para una segunda aplicación, la tutoría, y es un ejemplo de un sistema de tutoría inteligente, un tipo particular de aplicación basada en el conocimiento. Clancey demostró que no era suficiente simplemente usar las reglas de MYCIN para la instrucción, sino que también necesitaba agregar reglas para la gestión del diálogo y el modelado de los estudiantes. XCON es importante debido a los millones de dólares que ahorró a DEC, lo que desencadenó el auge de los sistemas expertos donde la mayoría de las principales corporaciones de los EE. UU. tenían grupos de sistemas expertos, con el objetivo de capturar la experiencia corporativa, preservarla y automatizarla:
Para 1988, el grupo AI de DEC tenía 40 sistemas de expertos desplegados, con más en camino. DuPont tenía 100 en uso y 500 en desarrollo. Casi todas las grandes corporaciones estadounidenses tenían su propio grupo Al y estaban utilizando o investigando sistemas de expertos.
El conocimiento experto en ajedrez se codificó en Deep Blue. En 1996, esto permitió que Deep Blue de IBM, con la ayuda de la IA simbólica, ganara una partida de ajedrez contra el entonces campeón mundial, Garry Kasparov.
Arquitectura de sistemas expertos y basados en conocimiento
Un componente clave de la arquitectura del sistema para todos los sistemas expertos es la base de conocimiento, que almacena hechos y reglas para la resolución de problemas. El enfoque más simple para una base de conocimiento de un sistema experto es simplemente una colección o red de reglas de producción. Las reglas de producción conectan símbolos en una relación similar a una declaración Si-Entonces. El sistema experto procesa las reglas para hacer deducciones y determinar qué información adicional necesita, es decir, qué preguntas hacer, utilizando símbolos legibles por humanos. Por ejemplo, OPS5, CLIPS y sus sucesores Jess y Drools funcionan de esta manera.
Los sistemas expertos pueden operar en un encadenamiento hacia adelante, desde la evidencia hasta las conclusiones, o hacia atrás, desde los objetivos hasta los datos necesarios y los requisitos previos. Los sistemas basados en el conocimiento más avanzados, como Soar, también pueden realizar un razonamiento de metanivel, es decir, razonar sobre su propio razonamiento en términos de decidir cómo resolver problemas y monitorear el éxito de las estrategias de resolución de problemas.
Los sistemas Blackboard son un segundo tipo de arquitectura de sistema experto o basada en el conocimiento. Modelan una comunidad de expertos que contribuyen de forma incremental, donde pueden, a resolver un problema. El problema se representa en múltiples niveles de abstracción o vistas alternativas. Los expertos (fuentes de conocimiento) ofrecen voluntariamente sus servicios cada vez que reconocen que pueden hacer una contribución. Las acciones potenciales de resolución de problemas están representadas en una agenda que se actualiza a medida que cambia la situación del problema. Un controlador decide qué tan útil es cada contribución y quién debe realizar la siguiente acción de resolución de problemas. Un ejemplo, la arquitectura de pizarra BB1 se inspiró originalmente en estudios sobre cómo los humanos planean realizar múltiples tareas en un viaje. Una innovación de BB1 fue aplicar el mismo modelo de pizarra para resolver su propio problema de control, es decir, su controlador realizó un razonamiento de metanivel con fuentes de conocimiento que monitoreaban qué tan bien avanzaba un plan o la resolución de problemas, y podía cambiar de una estrategia. a otro a medida que cambian las condiciones, como los objetivos o los tiempos. BB1 se aplicó en múltiples dominios: planificación de sitios de construcción, sistemas de tutoría inteligente y monitoreo de pacientes en tiempo real.
El segundo invierno de IA, 1988-1993
En el apogeo del auge de la IA, empresas como Symbolics, LMI y Texas Instruments vendían máquinas LISP diseñadas específicamente para acelerar el desarrollo de aplicaciones e investigaciones de IA. Además, varias compañías de inteligencia artificial, como Teknowledge e Inference Corporation, vendían caparazones de sistemas expertos, capacitación y consultoría a corporaciones.
Desafortunadamente, el auge de la IA no duró y Kautz describe mejor el segundo invierno de IA que siguió:
Se pueden ofrecer muchas razones para la llegada del segundo invierno AI. Las compañías de hardware fallaron cuando las estaciones de trabajo generales Unix mucho más rentables de Sun junto con buenos compiladores para LISP y Prolog llegaron al mercado. Many commercial deployments of expert systems were discontinued when they demonstrated too costly to maintain. Los sistemas de expertos médicos nunca se ven atrapados por varias razones: la dificultad de mantenerlos al día; el desafío para que los profesionales médicos aprendan a utilizar una variedad desconcertante de diferentes sistemas de expertos para diferentes condiciones médicas; y tal vez lo más crucial, la renuencia de los médicos a confiar en un diagnóstico por computadora sobre su instinto intestinal, incluso para dominios específicos donde los sistemas de expertos podrían superar a un médico promedio. El capital de riesgo desertó de AI prácticamente toda la noche. La conferencia internacional IJCAI auspició un enorme y lujoso espectáculo de comercio y miles de asistentes nonacademicos en 1987 en Vancouver; la principal conferencia AI al año siguiente, AAAI 1988 en San Pablo, fue un asunto pequeño y estrictamente académico.
Agregando fundamentos más rigurosos, 1993–2011
Razonamiento incierto
Se probaron tanto enfoques estadísticos como extensiones de la lógica.
Un enfoque estadístico, los modelos ocultos de Markov, ya se había popularizado en la década de 1980 para el trabajo de reconocimiento de voz. Posteriormente, en 1988, Judea Pearl popularizó el uso de Redes Bayesianas como una forma sólida pero eficiente de manejar el razonamiento incierto con su publicación del libro Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. y los enfoques bayesianos se aplicaron con éxito en sistemas expertos. Incluso más tarde, en la década de 1990, el aprendizaje relacional estadístico, un enfoque que combina la probabilidad con fórmulas lógicas, permitió combinar la probabilidad con la lógica de primer orden, por ejemplo, con Markov Logic Networks o Probabilistic Soft Logic.
También se probaron otras extensiones no probabilísticas de la lógica de primer orden para dar soporte. Por ejemplo, el razonamiento no monótono podría usarse con sistemas de mantenimiento de la verdad. Un sistema de mantenimiento de la verdad rastreaba las suposiciones y justificaciones de todas las inferencias. Permitió retirar las inferencias cuando se descubrió que las suposiciones eran incorrectas o se derivó una contradicción. Se pueden proporcionar explicaciones para una inferencia al explicar qué reglas se aplicaron para crearla y luego continuar con las inferencias y reglas subyacentes hasta los supuestos de raíz. Lofti Zadeh había introducido un tipo diferente de extensión para manejar la representación de la vaguedad. Por ejemplo, al decidir qué tan "pesado" o "alto" es un hombre, con frecuencia no hay un claro "sí" o "no" respuesta, y un predicado para pesado o alto devolvería valores entre 0 y 1. Esos valores representaban hasta qué punto los predicados eran verdaderos. Su lógica difusa proporcionó además un medio para propagar combinaciones de estos valores a través de fórmulas lógicas.
Aprendizaje automático
Se investigaron enfoques de aprendizaje automático simbólico para abordar el cuello de botella en la adquisición de conocimientos. Uno de los primeros es Meta-DENDRAL. Meta-DENDRAL utilizó una técnica de generación y prueba para generar hipótesis de reglas plausibles para probar contra espectros. El conocimiento del dominio y la tarea redujo el número de candidatos evaluados a un tamaño manejable. Feigenbaum describió Meta-DENDRAL como
... la culminación de mi sueño de los primeros a mediados de los años 60 teniendo que ver con la formación de la teoría. La concepción era que tenías un solucionador de problemas como DENDRAL que tomó algunas entradas y produjo una salida. Al hacerlo, usó capas de conocimiento para dirigir y prune la búsqueda. Ese conocimiento llegó allí porque entrevistamos a la gente. ¿Pero cómo consiguió la gente el conocimiento? Al mirar miles de espectros. Así que queríamos un programa que miraría a miles de espectros e inferir el conocimiento de la espectrometría de masas que DENDRAL podría utilizar para resolver problemas individuales de formación de hipótesis. Lo hicimos. Incluso pudimos publicar nuevos conocimientos de la espectrometría de masas en la Journal of the American Chemical Society, dando crédito sólo en una nota de pie de página que un programa, Meta-DENDRAL, en realidad lo hizo. Fuimos capaces de hacer algo que había sido un sueño: tener un programa de computadora surge con un nuevo y publicable pedazo de ciencia.
En contraste con el enfoque intensivo en conocimientos de Meta-DENDRAL, Ross Quinlan inventó un enfoque independiente del dominio para la clasificación estadística, el aprendizaje del árbol de decisiones, comenzando primero con ID3 y luego extendiendo sus capacidades a C4.5. Los árboles de decisión creados son cajas de vidrio, clasificadores interpretables, con reglas de clasificación interpretables por humanos.
También se lograron avances en la comprensión de la teoría del aprendizaje automático. Tom Mitchell introdujo el aprendizaje del espacio de versiones, que describe el aprendizaje como una búsqueda a través de un espacio de hipótesis, con límites superiores, más generales, e inferiores, más específicos, que abarcan todas las hipótesis viables consistentes con los ejemplos vistos hasta ahora. De manera más formal, Valiant introdujo el aprendizaje probablemente aproximadamente correcto (PAC Learning), un marco para el análisis matemático del aprendizaje automático.
El aprendizaje automático simbólico abarcaba más que aprender con el ejemplo. Por ejemplo, John Anderson proporcionó un modelo cognitivo de aprendizaje humano donde la práctica de habilidades da como resultado una compilación de reglas desde un formato declarativo hasta un formato procedimental con su arquitectura cognitiva ACT-R. Por ejemplo, un estudiante podría aprender a aplicar "Los ángulos suplementarios son dos ángulos cuyas medidas suman 180 grados" como varias reglas procesales diferentes. Por ejemplo, una regla podría decir que si X e Y son complementarios y conoces X, entonces Y será 180 - X. Llamó a su enfoque "compilación de conocimientos". ACT-R se ha utilizado con éxito para modelar aspectos de la cognición humana, como el aprendizaje y la retención. ACT-R también se utiliza en sistemas de tutoría inteligente, llamados tutores cognitivos, para enseñar con éxito geometría, programación informática y álgebra a niños en edad escolar.
La programación lógica inductiva fue otro enfoque del aprendizaje que permitió sintetizar programas lógicos a partir de ejemplos de entrada y salida. Por ejemplo, el MIS (Model Inference System) de Ehud Shapiro podría sintetizar programas Prolog a partir de ejemplos. John R. Koza aplicó algoritmos genéticos a la síntesis de programas para crear programación genética, que utilizó para sintetizar programas LISP. Finalmente, Zohar Manna y Richard Waldinger proporcionaron un enfoque más general para la síntesis de programas que sintetiza un programa funcional en el curso de probar que sus especificaciones son correctas.
Como alternativa a la lógica, Roger Schank introdujo el razonamiento basado en casos (CBR). El enfoque CBR descrito en su libro, Memoria dinámica, se enfoca primero en recordar casos clave de resolución de problemas para uso futuro y generalizarlos cuando sea apropiado. Cuando se enfrenta a un nuevo problema, CBR recupera el caso anterior más similar y lo adapta a las especificidades del problema actual. Otra alternativa a la lógica, los algoritmos genéticos y la programación genética se basan en un modelo evolutivo de aprendizaje, donde los conjuntos de reglas se codifican en poblaciones, las reglas gobiernan el comportamiento de los individuos y la selección de los más aptos elimina los conjuntos de reglas inadecuadas durante muchas generaciones..
El aprendizaje automático simbólico se aplicó al aprendizaje de conceptos, reglas, heurísticas y resolución de problemas. Los enfoques, además de los anteriores, incluyen:
- Aprender de la instrucción o el consejo, es decir, tomar la instrucción humana, planteada como consejo y determinar cómo ponerla en práctica en situaciones específicas. Por ejemplo, en un juego de corazones, aprender exactamente cómo para jugar una mano para "evitar tomar puntos".
- Aprendizaje de ejemplares: mejorar el rendimiento aceptando la retroalimentación de expertos en materia de temas (MES) durante el entrenamiento. Cuando falla la resolución de problemas, pedir al experto que aprenda un nuevo ejemplo para resolver problemas o aprender una nueva explicación sobre exactamente por qué un ejemplar es más relevante que otro. Por ejemplo, el programa Protos aprendió a diagnosticar casos de tinnitus interactuando con un audiólogo.
- Aprender por analogía —construir soluciones problemáticas basadas en problemas similares vistos en el pasado, y luego modificar sus soluciones para adaptarse a una nueva situación o dominio.
- Sistemas de aprendizaje de aprendices: aprendizaje de nuevas soluciones a los problemas observando la solución de problemas humanos. El conocimiento de dominio explica por qué las soluciones novedosas son correctas y cómo se puede generalizar la solución. LEAP aprendió a diseñar circuitos VLSI observando diseñadores humanos.
- Aprender por descubrimiento, es decir, crear tareas para realizar experimentos y luego aprender de los resultados. El Eurisko de Doug Lenat, por ejemplo, aprendió heurística para vencer a los jugadores humanos en el juego de rol de Traveller durante dos años consecutivos.
- Aprender macrooperadores — es decir, buscar macrooperadores útiles para ser aprendidos de secuencias de acciones básicas de solución de problemas. Los buenos macrooperadores simplifican la solución de problemas permitiendo resolver problemas a un nivel más abstracto.
Aprendizaje profundo e IA neurosimbólica 2011-ahora
Con el auge del aprendizaje profundo, el enfoque de la IA simbólica se ha comparado con el aprendizaje profundo como algo complementario, y los investigadores de IA han trazado paralelismos muchas veces entre la investigación de Kahneman sobre el razonamiento humano y la toma de decisiones –reflejada en su libro Thinking, Fast and Slow– y los llamados "AI system 1 and 2", que en principio estarían modelados por aprendizaje profundo y razonamiento simbólico, respectivamente." Desde este punto de vista, el razonamiento simbólico es más apto para el razonamiento deliberativo, la planificación y la explicación, mientras que el aprendizaje profundo es más apto para el reconocimiento rápido de patrones en aplicaciones perceptivas con datos ruidosos.
IA neurosimbólica: integración de enfoques neurales y simbólicos
La IA neurosimbólica intenta integrar arquitecturas neuronales y simbólicas de una manera que aborde las fortalezas y debilidades de cada una, de manera complementaria, para respaldar una IA robusta capaz de razonar, aprender y modelar cognitivamente. Como argumentaron Valiant y muchos otros, la construcción efectiva de modelos cognitivos computacionales ricos exige la combinación de un razonamiento simbólico sólido y modelos de aprendizaje (máquina) eficientes. Gary Marcus, de manera similar, argumenta que: "No podemos construir modelos cognitivos ricos de una manera adecuada y automatizada sin el triunvirato de la arquitectura híbrida, el conocimiento previo rico y las técnicas sofisticadas para el razonamiento", y en particular: "Para construir un enfoque sólido y basado en el conocimiento para la IA, debemos tener la maquinaria de manipulación de símbolos en nuestro conjunto de herramientas. Demasiado conocimiento útil es abstracto como para arreglárselas sin herramientas que representen y manipulen la abstracción, y hasta la fecha, la única maquinaria que conocemos que puede manipular dicho conocimiento abstracto de manera confiable es el aparato de manipulación de símbolos."
Henry Kautz, Francesca Rossi y Bart Selman también abogaron por una síntesis. Sus argumentos se basan en la necesidad de abordar los dos tipos de pensamiento discutidos en el libro de Daniel Kahneman, Thinking, Fast and Slow. Kahneman describe el pensamiento humano con dos componentes, el Sistema 1 y el Sistema 2. El Sistema 1 es rápido, automático, intuitivo e inconsciente. El sistema 2 es más lento, paso a paso y explícito. El Sistema 1 es del tipo utilizado para el reconocimiento de patrones, mientras que el Sistema 2 es mucho más adecuado para la planificación, la deducción y el pensamiento deliberativo. Desde este punto de vista, el aprendizaje profundo modela mejor el primer tipo de pensamiento, mientras que el razonamiento simbólico modela mejor el segundo tipo y se necesitan ambos.
Garcez y Lamb describen que la investigación en esta área ha estado en curso durante al menos los últimos veinte años, desde su libro de 2002 sobre sistemas de aprendizaje neurosimbólico. Todos los años desde 2005 se ha llevado a cabo una serie de talleres sobre razonamiento neurosimbólico; consulte http://www.neural-symbolic.org/ para obtener más detalles.
En su artículo de 2015, Neural-Symbolic Learning and Reasoning: Contributions and Challenges, Garcez et al. argumenta eso:
Did you mean:La integración de los paradigmas simbólicos y conectistas de la IA ha sido perseguida por una comunidad de investigación relativamente pequeña durante las últimas dos décadas y ha producido varios resultados significativos. Durante la última década, se han demostrado sistemas simbólicos neuronales capaces de superar la llamada fijación proposicional de las redes neuronales, ya que McCarthy (1988) lo puso en respuesta a Smolensky (1988); véase también (Hinton, 1990). Se mostraron redes neuronales capaces de representar lógicas modales y temporales (d'Avila Garcez y Lamb, 2006) y fragmentos de primera orden lógica (Bader, Hitzler, Hölldobler, 2008; d'Avila Garcez, Lamb, Gabbay, 2009). Además, se han aplicado sistemas simbólicos neuronales a varios problemas en las áreas de bioinformática, ingeniería de control, verificación y adaptación de software, inteligencia visual, aprendizaje de ontología y juegos de computadora.
Approaches for integration are varied. Henry Kautz 's taxonomy of neuro-symbolic architectures, along with some examples, follows:
- Simbólico neuronal - es el enfoque actual de muchos modelos neuronales en el procesamiento del lenguaje natural, donde las palabras o las fichas de subpalabra son tanto la entrada final como la salida de modelos de lenguaje grande. Ejemplos son BERT, RoBERTa y GPT-3.
- La simbólica[Neural] — es ejemplificada por AlphaGo, donde se utilizan técnicas simbólicas para llamar técnicas neuronales. En este caso el enfoque simbólico es la búsqueda de árboles de Monte Carlo y las técnicas neuronales aprenden a evaluar posiciones de juego.
- Neural habitSymbolic: utiliza una arquitectura neuronal para interpretar los datos perceptuales como símbolos y relaciones que luego se razonan simbólicamente.
- Neural:Simbólico → Neural – se basa en el razonamiento simbólico para generar o etiquetar datos de formación que posteriormente es aprendido por un modelo de aprendizaje profundo, por ejemplo, para formar un modelo neural para la computación simbólica utilizando un sistema de matemáticas simbólica tipo Macsyma para crear o etiquetar ejemplos.
- Neural_{Symbolic}—usa una red neuronal que se genera a partir de reglas simbólicas. Un ejemplo es el Teorema Neural Prover, que construye una red neuronal de un árbol de prueba AND-OR generado a partir de reglas y términos de base de conocimiento. Tensor lógico Las redes también entran en esta categoría.
- Neural[Simbólico]— permite un modelo neural para llamar directamente a un motor de razonamiento simbólico, por ejemplo, para realizar una acción o evaluar un estado.
Quedan muchas preguntas clave de investigación, como:
- ¿Cuál es la mejor manera de integrar arquitecturas neuronales y simbólicas?
- ¿Cómo deben ser representadas estructuras simbólicas dentro de las redes neuronales y extraídas de ellas?
- ¿Cómo se debe aprender y razonar el conocimiento del sentido común?
- ¿Cómo se puede manejar el conocimiento abstracto que es difícil de codificar lógicamente?
Técnicas y aportes
Esta sección proporciona una descripción general de las técnicas y contribuciones en un contexto general que conduce a muchos otros artículos más detallados en Wikipedia. Las secciones sobre aprendizaje automático y razonamiento incierto se tratan anteriormente en la sección de historia.
Lenguajes de programación de IA
El lenguaje de programación de IA clave en los EE. UU. durante el último período de auge simbólico de la IA fue LISP. LISP es el segundo lenguaje de programación más antiguo después de FORTRAN y fue creado en 1958 por John McCarthy. LISP proporcionó el primer ciclo de lectura-evaluación-impresión para respaldar el desarrollo rápido de programas. Las funciones compiladas se pueden mezclar libremente con funciones interpretadas. También se proporcionaron seguimiento de programas, pasos y puntos de interrupción, junto con la capacidad de cambiar valores o funciones y continuar desde puntos de interrupción o errores. Tuvo el primer compilador de alojamiento propio, lo que significa que el compilador en sí se escribió originalmente en LISP y luego se ejecutó de forma interpretativa para compilar el código del compilador.
Otras innovaciones clave iniciadas por LISP que se han extendido a otros lenguajes de programación incluyen:
- Colección de basura
- Mecanografía dinámica
- Funciones superiores
- Recursión
- condicionales
Los programas eran en sí mismos estructuras de datos sobre las que podían operar otros programas, lo que permitía la fácil definición de lenguajes de nivel superior.
A diferencia de los EE. UU., en Europa, el lenguaje de programación de IA clave durante ese mismo período fue Prolog. Prolog proporcionaba un almacén integrado de hechos y cláusulas que podían consultarse mediante un ciclo de lectura-evaluación-impresión. La tienda podría actuar como una base de conocimiento y las cláusulas podrían actuar como reglas o una forma restringida de lógica. Como un subconjunto de la lógica de primer orden, Prolog se basó en cláusulas de Horn con una suposición de mundo cerrado (cualquier hecho desconocido se consideró falso) y una suposición de nombre único para términos primitivos, por ejemplo, se consideró que el identificador barack_obama se refería a a exactamente un objeto. El retroceso y la unificación están integrados en Prolog.
Alain Colmerauer y Philippe Roussel son los inventores de Prolog. Prolog es una forma de programación lógica, que fue inventada por Robert Kowalski. Su historia también estuvo influenciada por PLANNER de Carl Hewitt, una base de datos asertiva con invocación de métodos dirigida por patrones. Para más detalle ver la sección sobre los orígenes de Prolog en el artículo PLANNER.
Prolog también es un tipo de programación declarativa. Las cláusulas lógicas que describen programas se interpretan directamente para ejecutar los programas especificados. No se requiere una serie de acciones explícitas, como es el caso de los lenguajes de programación imperativos.
Japón defendió a Prolog en su Proyecto de Quinta Generación, con la intención de construir hardware especial para alto rendimiento. De manera similar, las máquinas LISP se construyeron para ejecutar LISP, pero a medida que el segundo auge de la IA se derrumbó, estas empresas no pudieron competir con las nuevas estaciones de trabajo que ahora podían ejecutar LISP o Prolog de forma nativa a velocidades comparables. Vea la sección de historia para más detalles.
Smalltalk fue otro lenguaje de programación de inteligencia artificial influyente. Por ejemplo, introdujo metaclases y, junto con Flavors y CommonLoops, influyó en el Common Lisp Object System, o (CLOS), que ahora forma parte de Common Lisp, el dialecto estándar actual de Lisp. CLOS es un sistema orientado a objetos basado en Lisp que permite herencia múltiple, además de extensiones incrementales tanto para clases como para metaclases, proporcionando así un protocolo de metaobjetos en tiempo de ejecución.
Para otros lenguajes de programación de IA, consulte esta lista de lenguajes de programación para inteligencia artificial. Actualmente, Python, un lenguaje de programación multiparadigma, es el lenguaje de programación más popular, en parte debido a su extensa biblioteca de paquetes que admite ciencia de datos, procesamiento de lenguaje natural y aprendizaje profundo. Python incluye un ciclo de lectura-evaluación-impresión, elementos funcionales como funciones de orden superior y programación orientada a objetos que incluye metaclases.
Buscar
La búsqueda surge en muchos tipos de resolución de problemas, incluida la planificación, la satisfacción de restricciones y juegos como las damas, el ajedrez y el go. Los algoritmos de búsqueda de árbol de búsqueda de IA más conocidos son la búsqueda primero en amplitud, la búsqueda primero en profundidad, A* y la búsqueda Monte Carlo. Los algoritmos de búsqueda clave para la satisfacción booleana son WalkSAT, el aprendizaje de cláusulas basado en conflictos y el algoritmo DPLL. Para la búsqueda de adversarios cuando se juegan juegos, la poda alfa-beta, la ramificación y el límite y minimax fueron contribuciones tempranas.
Representación del conocimiento y razonamiento
Se han investigado múltiples enfoques diferentes para representar el conocimiento y luego razonar con esas representaciones. A continuación se muestra una descripción general rápida de los enfoques para la representación del conocimiento y el razonamiento automatizado.
Representación del conocimiento
Las redes semánticas, los gráficos conceptuales, los marcos y la lógica son enfoques para modelar el conocimiento, como el conocimiento del dominio, el conocimiento de resolución de problemas y el significado semántico del lenguaje. Las ontologías modelan conceptos clave y sus relaciones en un dominio. Las ontologías de ejemplo son YAGO, WordNet y DOLCE. DOLCE es un ejemplo de ontología superior que se puede usar para cualquier dominio, mientras que WordNet es un recurso léxico que también se puede ver como una ontología. YAGO incorpora WordNet como parte de su ontología, para alinear hechos extraídos de Wikipedia con synsets de WordNet. La ontología de la enfermedad es un ejemplo de una ontología médica que se está utilizando actualmente.
La lógica de descripción es una lógica para la clasificación automatizada de ontologías y para detectar datos de clasificación inconsistentes. OWL es un lenguaje utilizado para representar ontologías con lógica de descripción. Protégé es un editor de ontologías que puede leer ontologías OWL y luego verificar la consistencia con clasificadores deductivos como HermiT.
La lógica de primer orden es más general que la lógica de descripción. Los probadores de teoremas automatizados que se analizan a continuación pueden demostrar teoremas en lógica de primer orden. La lógica de la cláusula Horn es más restringida que la lógica de primer orden y se usa en lenguajes de programación lógica como Prolog. Las extensiones a la lógica de primer orden incluyen la lógica temporal, para manejar el tiempo; la lógica epistémica, para razonar sobre el conocimiento agente; lógica modal, para manejar posibilidad y necesidad; y lógica probabilística para manejar la lógica y la probabilidad juntas.
Demostración automática de teoremas
Ejemplos de demostradores automáticos de teoremas para lógica de primer orden son:
- Prover9
- ACL2
- Vampiro
Prover9 se puede utilizar junto con el verificador de modelos Mace4. ACL2 es un probador de teoremas que puede manejar demostraciones por inducción y es un descendiente del probador de teoremas de Boyer-Moore, también conocido como Nqthm.
Razonamiento en sistemas basados en conocimiento
Los sistemas basados en el conocimiento tienen una base de conocimiento explícita, generalmente de reglas, para mejorar la reutilización entre dominios al separar el código de procedimiento y el conocimiento del dominio. Un motor de inferencia separado procesa reglas y agrega, elimina o modifica un almacén de conocimiento.
Los motores de inferencia de encadenamiento directo son los más comunes y se ven en CLIPS y OPS5. El encadenamiento hacia atrás ocurre en Prolog, donde se usa una representación lógica más limitada, Horn Clauses. La coincidencia de patrones, específicamente la unificación, se usa en Prolog.
Se produce un tipo más flexible de resolución de problemas cuando se razona sobre qué hacer a continuación, en lugar de simplemente elegir una de las acciones disponibles. Este tipo de razonamiento de metanivel se utiliza en Soar y en la arquitectura de pizarra BB1.
Las arquitecturas cognitivas como ACT-R pueden tener capacidades adicionales, como la capacidad de recopilar conocimientos de uso frecuente en fragmentos de nivel superior.
Razonamiento de sentido común
Marvin Minsky primero propuso los marcos como una forma de interpretar situaciones visuales comunes, como una oficina, y Roger Schank extendió esta idea a guiones para rutinas comunes, como salir a cenar. Cyc ha intentado capturar conocimiento útil de sentido común y tiene "micro-teorías" para manejar tipos particulares de razonamiento específico del dominio.
La simulación cualitativa, como el QSIM de Benjamin Kuipers, se aproxima al razonamiento humano sobre la física ingenua, como lo que sucede cuando calentamos un líquido en una olla en la estufa. Esperamos que se caliente y posiblemente hierva, aunque no sepamos su temperatura, su punto de ebullición u otros detalles, como la presión atmosférica.
Del mismo modo, el álgebra de intervalos temporales de Allen es una simplificación del razonamiento sobre el tiempo y el Cálculo de conexiones regionales es una simplificación del razonamiento sobre las relaciones espaciales. Ambos se pueden resolver con solucionadores de restricciones.
Restricciones y razonamiento basado en restricciones
Los solucionadores de restricciones realizan un tipo de inferencia más limitado que la lógica de primer orden. Pueden simplificar conjuntos de restricciones espaciotemporales, como las de RCC o Álgebra temporal, además de resolver otros tipos de problemas de rompecabezas, como Wordle, Sudoku, problemas de criptoaritmética, etc. La programación lógica de restricciones se puede utilizar para resolver problemas de programación, por ejemplo, con reglas de manejo de restricciones (CHR).
Planificación automatizada
El Solucionador general de problemas (GPS, por sus siglas en inglés) presenta la planificación como la resolución de problemas y utiliza el análisis de medios y fines para crear planes. STRIPS adoptó un enfoque diferente, considerando la planificación como una prueba de teoremas. Graphplan adopta un enfoque de compromiso mínimo para la planificación, en lugar de elegir acciones secuencialmente desde un estado inicial, trabajando hacia adelante o un estado objetivo si se trabaja hacia atrás. Satplan es un enfoque de planificación en el que un problema de planificación se reduce a un problema booleano de satisfacibilidad.
Procesamiento del lenguaje natural
El procesamiento del lenguaje natural se centra en tratar el lenguaje como datos para realizar tareas como identificar temas sin comprender necesariamente el significado previsto. La comprensión del lenguaje natural, por el contrario, construye una representación de significado y la utiliza para su posterior procesamiento, como responder preguntas.
El análisis, la tokenización, la corrección ortográfica, el etiquetado de partes del discurso, la fragmentación de frases nominales y verbales son todos aspectos del procesamiento del lenguaje natural manejados durante mucho tiempo por la IA simbólica, pero mejorados desde entonces con enfoques de aprendizaje profundo. En la IA simbólica, la teoría de la representación del discurso y la lógica de primer orden se han utilizado para representar los significados de las oraciones. El análisis semántico latente (LSA) y el análisis semántico explícito también proporcionaron representaciones vectoriales de documentos. En el último caso, los componentes del vector se pueden interpretar como conceptos nombrados por los artículos de Wikipedia.
Los nuevos enfoques de aprendizaje profundo basados en modelos de Transformer ahora han eclipsado estos enfoques anteriores de IA simbólica y han logrado un rendimiento de vanguardia en el procesamiento del lenguaje natural. Sin embargo, los modelos de Transformer son opacos y aún no producen representaciones semánticas interpretables por humanos para oraciones y documentos. En su lugar, producen vectores específicos de tareas donde el significado de los componentes del vector es opaco.
Agentes y sistemas multiagente
Los agentes son sistemas autónomos incrustados en un entorno que perciben y sobre el que actúan en cierto sentido. El libro de texto estándar de Russell y Norvig sobre inteligencia artificial está organizado para reflejar arquitecturas de agentes de creciente sofisticación. La sofisticación de los agentes varía desde simples agentes reactivos hasta aquellos con un modelo del mundo y capacidades de planificación automatizadas, posiblemente un agente BDI, es decir, uno con creencias, deseos e intenciones, o alternativamente un modelo de aprendizaje por refuerzo aprendido con el tiempo para elegir. acciones, hasta una combinación de arquitecturas alternativas, como una arquitectura neurosimbólica que incluye aprendizaje profundo para la percepción.
Por el contrario, un sistema multiagente consta de varios agentes que se comunican entre sí con algún lenguaje de comunicación entre agentes, como el lenguaje de consulta y manipulación de conocimientos (KQML). No es necesario que todos los agentes tengan la misma arquitectura interna. Las ventajas de los sistemas multiagente incluyen la capacidad de dividir el trabajo entre los agentes y aumentar la tolerancia a fallas cuando los agentes se pierden. Los problemas de investigación incluyen cómo los agentes alcanzan el consenso, la resolución de problemas distribuidos, el aprendizaje de múltiples agentes, la planificación de múltiples agentes y la optimización de restricciones distribuidas.
Controversias
Las controversias surgieron desde el principio en la IA simbólica, tanto dentro del campo, por ejemplo, entre los lógicos (los 'pulcros' a favor de la lógica) y los no lógicos (los 'desaliñados' antilógicos). 34;)—y entre aquellos que abrazaron la IA pero rechazaron los enfoques simbólicos—principalmente conexionistas—y aquellos fuera del campo. Las críticas de fuera del campo fueron principalmente de filósofos, por motivos intelectuales, pero también de agencias de financiación, especialmente durante los dos inviernos de IA.
El problema del marco: desafíos de representación del conocimiento para la lógica de primer orden
Se descubrieron limitaciones en el uso de lógica simple de primer orden para razonar sobre dominios dinámicos. Se descubrieron problemas con respecto a la enumeración de las condiciones previas para que una acción tenga éxito y al proporcionar axiomas de lo que no cambió después de que se realizó una acción.
McCarthy y Hayes introdujeron el problema del marco en 1969 en el artículo "Algunos problemas filosóficos desde el punto de vista de la inteligencia artificial". Un ejemplo simple ocurre en "demostrar que una persona puede entablar una conversación con otra", como un axioma que afirma "si una persona tiene un teléfono, todavía lo tiene después de buscar un número en la guía telefónica& #34; sería necesario para que la deducción tenga éxito. Se requerirían axiomas similares para otras acciones de dominio para especificar lo que no cambió.
Un problema similar, llamado Problema de Calificación, ocurre al tratar de enumerar las condiciones previas para que una acción tenga éxito. Se pueden imaginar una infinidad de condiciones patológicas, por ejemplo, una banana en un tubo de escape podría impedir que un automóvil funcione correctamente.
El enfoque de McCarthy para solucionar el problema del marco fue la circunscripción, un tipo de lógica no monótona en la que se pueden hacer deducciones a partir de acciones que solo necesitan especificar qué cambiaría sin tener que especificar explícitamente todo lo que no cambiaría. Otras lógicas no monótonas proporcionaron sistemas de mantenimiento de la verdad que revisaron las creencias que condujeron a contradicciones.
Otras formas de manejar dominios más abiertos incluyeron sistemas de razonamiento probabilístico y aprendizaje automático para aprender nuevos conceptos y reglas. Advice Taker de McCarthy puede verse como una inspiración aquí, ya que podría incorporar nuevos conocimientos proporcionados por un ser humano en forma de afirmaciones o reglas. Por ejemplo, los sistemas experimentales de aprendizaje automático simbólico exploraron la capacidad de tomar consejos de lenguaje natural de alto nivel e interpretarlos en reglas procesables específicas del dominio.
Al igual que los problemas en el manejo de dominios dinámicos, el razonamiento de sentido común también es difícil de capturar en el razonamiento formal. Los ejemplos de razonamiento de sentido común incluyen el razonamiento implícito sobre cómo piensan las personas o el conocimiento general de los eventos, objetos y criaturas vivientes del día a día. Este tipo de conocimiento se da por sentado y no se considera digno de mención. El razonamiento de sentido común es un área abierta de investigación y desafiante tanto para los sistemas simbólicos (p. ej., Cyc ha intentado capturar partes clave de este conocimiento durante más de una década) como para los sistemas neuronales (p. ej., automóviles que se conducen solos y que no saben que no chocar contra conos o no chocar con peatones que caminan en bicicleta).
McCarthy consideraba que su tomador de consejos tenía sentido común, pero su definición de sentido común era diferente a la anterior. Definió que un programa tiene sentido común "si automáticamente deduce por sí mismo una clase suficientemente amplia de consecuencias inmediatas de cualquier cosa que se le dice y de lo que ya sabe."
IA conexionista: desafíos filosóficos y conflictos sociológicos
Los enfoques conexionistas incluyen trabajos anteriores sobre redes neuronales, como los perceptrones; trabajos de mediados a finales de los 80, como Connection Machine de Danny Hillis y los avances de Yann LeCun en redes neuronales convolucionales; a los enfoques más avanzados de la actualidad, como Transformers, GAN y otros trabajos de aprendizaje profundo.
Se han esbozado tres posiciones filosóficas entre los conexionistas:
- Implementismo—donde las arquitecturas conectistas implementen las capacidades para el procesamiento simbólico,
- El conexión radical —donde el procesamiento simbólico es rechazado totalmente, y las arquitecturas conectistas subyacen a la inteligencia y son totalmente suficientes para explicarlo,
- Conexionismo moderado—donde las arquitecturas simbólicas de procesamiento y conexión se consideran complementarias y ambos son necesarios para la inteligencia.
Olazaran, en su historia sociológica de las controversias dentro de la comunidad de redes neuronales, describió la visión del conexionismo moderado como esencialmente compatible con la investigación actual en híbridos neurosimbólicos:
La tercera y última posición que me gustaría examinar aquí es lo que yo llamo la visión moderada conexionista, una visión más ecléctica del debate actual entre el conectividad y la simbólica AI. Uno de los investigadores que ha elaborado esta posición más explícitamente es Andy Clark, filósofo de la Escuela de Ciencias Cognitivas y Computadoras de la Universidad de Sussex (Brighton, Inglaterra). Clark defendió sistemas híbridos (en parte simbólicos, en parte conectistas). Afirmó que (al menos) se necesitan dos tipos de teorías para estudiar y modelar la cognición. Por un lado, para algunas tareas de procesamiento de información (como el reconocimiento de patrones) el conectividad tiene ventajas sobre modelos simbólicos. Pero por otro lado, para otros procesos cognitivos (como el razonamiento serial, deductivo y los procesos de manipulación de símbolos generativos) el paradigma simbólico ofrece modelos adecuados, y no sólo "aproximaciones" (contrario a lo que los conectistas radicales reclamarían).
Gary Marcus ha afirmado que la animosidad en la comunidad de aprendizaje profundo contra los enfoques simbólicos ahora puede ser más sociológica que filosófica:
Pensar que simplemente podemos abandonar la manipulación de símbolos es suspender la incredulidad.
Y sin embargo, en su mayor parte, así es como la mayor parte de la IA actual procede. Hinton y muchos otros han tratado duro de desterrar símbolos por completo. La esperanza de aprendizaje profundo, aparentemente basada no tanto en la ciencia, sino en una especie de rencor histórico, es que el comportamiento inteligente surgirá puramente de la confluencia de datos masivos y de aprendizaje profundo. Cuando las computadoras clásicas y el software resuelven tareas definiendo conjuntos de reglas de manipulación de símbolos dedicadas a trabajos particulares, tales como editar una línea en un procesador de palabras o realizar un cálculo en una hoja de cálculo, las redes neuronales suelen tratar de resolver tareas mediante aproximación estadística y aprendizaje de ejemplos.
Según Marcus, Geoffrey Hinton y sus colegas han sido vehementemente "antisimbólicos":
Cuando el aprendizaje profundo surgió en 2012, fue con una especie de actitud de no presos que ha caracterizado la mayor parte de la última década. Para 2015, su hostilidad hacia todas las cosas que los símbolos habían cristalizado completamente. Dio una charla en un taller de AI en Stanford comparando símbolos con éter, uno de los mayores errores de la ciencia.
...
Desde entonces, su campaña antisimbólico sólo ha aumentado en intensidad. En 2016, Yann LeCun, Bengio y Hinton escribieron un manifiesto para el aprendizaje profundo en una de las revistas más importantes de la ciencia, Nature. Cerró con un ataque directo a la manipulación de símbolos, llamando no a la reconciliación sino a la sustitución directa. Más tarde, Hinton dijo a una reunión de líderes de la Unión Europea que invertir más dinero en enfoques de manipulación de símbolos era "un gran error", que le gustaba invertir en motores de combustión interna en la era de los coches eléctricos.
Parte de estas disputas pueden deberse a una terminología poco clara:
Judea Pearl premiada con el premio Turing ofrece una crítica del aprendizaje automático que, por desgracia, confla los términos machine learning y aprendizaje profundo. Del mismo modo, cuando Geoffrey Hinton se refiere a la IA simbólica, la connotación del término tiende a ser la de los sistemas de expertos desposeídos de cualquier capacidad de aprender. El uso de la terminología necesita aclaraciones. El aprendizaje automático no se limita a la minería de reglas de asociación, c.f. el cuerpo de trabajo sobre ML simbólico y el aprendizaje relacional (las diferencias al aprendizaje profundo son la elección de representación, lógica localista en lugar de distribuir, y la no utilización de algoritmos de aprendizaje basados en gradientes). Igualmente, la AI simbólica no se trata sólo de reglas de producción escritas a mano. Una definición adecuada de la IA se refiere a la representación y razonamiento del conocimiento, sistemas autónomos multiagentes, planificación y argumentación, así como el aprendizaje.
Robótica situada: el mundo como modelo
Otra crítica de la IA simbólica es el enfoque de la cognición incorporada:
El enfoque de cognición encarnado afirma que no tiene sentido considerar el cerebro por separado: la cognición tiene lugar dentro de un cuerpo, que está incrustado en un ambiente. Necesitamos estudiar el sistema en su conjunto; el funcionamiento del cerebro explota las regularidades en su entorno, incluyendo el resto de su cuerpo. Bajo el enfoque de cognición encarnado, la robótica, la visión y otros sensores se vuelven centrales, no periféricas.
Rodney Brooks inventó la robótica basada en el comportamiento, un enfoque de la cognición incorporada. Nouvelle AI, otro nombre para este enfoque, se considera una alternativa tanto a la IA simbólica como a la IA conexionista. Su enfoque rechazó las representaciones, ya fueran simbólicas o distribuidas, no solo como innecesarias, sino también como perjudiciales. En cambio, creó la arquitectura de subsunción, una arquitectura en capas para agentes encarnados. Cada capa logra un propósito diferente y debe funcionar en el mundo real. Por ejemplo, el primer robot que describe en Inteligencia sin representación tiene tres capas. La capa inferior interpreta los sensores de sonar para evitar objetos. La capa intermedia hace que el robot deambule cuando no hay obstáculos. La capa superior hace que el robot vaya a lugares más distantes para seguir explorando. Cada capa puede inhibir o suprimir temporalmente una capa de nivel inferior. Criticó a los investigadores de IA por definir los problemas de IA para sus sistemas, cuando: "No existe una división clara entre la percepción (abstracción) y el razonamiento en el mundo real". Llamó a sus robots "Criaturas" y cada capa estaba "compuesta por una red de topología fija de máquinas de estados finitos simples". En el enfoque de Nouvelle AI, "Primero, es de vital importancia probar las Criaturas que construimos en el mundo real; es decir, en el mismo mundo que habitamos los humanos. Es desastroso caer en la tentación de probarlos primero en un mundo simplificado, incluso con las mejores intenciones de trasladar después la actividad a un mundo no simplificado." Su énfasis en las pruebas del mundo real contrastaba con "Los primeros trabajos en IA se concentraron en juegos, problemas geométricos, álgebra simbólica, demostración de teoremas y otros sistemas formales" y el uso del mundo de los bloques en sistemas simbólicos de IA como SHRDLU.
Vistas actuales
Cada enfoque (simbólico, conexionista y basado en el comportamiento) tiene ventajas, pero ha sido criticado por los otros enfoques. La IA simbólica ha sido criticada como incorpórea, sujeta al problema de calificación y pobre en el manejo de los problemas de percepción donde sobresale el aprendizaje profundo. A su vez, la IA conexionista ha sido criticada por ser poco adecuada para la resolución deliberativa de problemas paso a paso, la incorporación de conocimientos y el manejo de la planificación. Finalmente, Nouvelle AI se destaca en los dominios de robótica reactiva y del mundo real, pero ha sido criticado por las dificultades para incorporar el aprendizaje y el conocimiento.
Las IA híbridas que incorporan uno o más de estos enfoques se consideran actualmente como el camino a seguir. Russell y Norvig concluyen que:
En general, Dreyfus vio zonas en las que AI no tenía respuestas completas y dijo que Al es por lo tanto imposible; ahora vemos muchas de estas mismas áreas sometidas a continua investigación y desarrollo que conducen a una mayor capacidad, no imposibilidad.
Contenido relacionado
Web
UML (desambiguación)
USB (desambiguación)