Aprendizaje profundo

Compartir Imprimir Citar

El aprendizaje profundo (también conocido como aprendizaje estructurado profundo o deep learning) es parte de una familia más amplia de métodos de aprendizaje automático basados ​​en redes neuronales artificiales con aprendizaje de representación. El aprendizaje puede ser supervisado, semi-supervisado o no supervisado.

Las arquitecturas de aprendizaje profundo, como las redes neuronales profundas, las redes de creencias profundas, el aprendizaje de refuerzo profundo, las redes neuronales recurrentes y las redes neuronales convolucionales, se han aplicado a campos que incluyen visión por computadora, reconocimiento de voz, procesamiento de lenguaje natural, traducción automática, bioinformática, diseño de fármacos, medicina. programas de análisis de imágenes, ciencias climáticas, inspección de materiales y juegos de mesa, donde han producido resultados comparables y, en algunos casos, superando el desempeño de expertos humanos.

Las redes neuronales artificiales (ANN) se inspiraron en el procesamiento de información y los nodos de comunicación distribuidos en los sistemas biológicos. Las ANN tienen varias diferencias con los cerebros biológicos. Específicamente, las redes neuronales artificiales tienden a ser estáticas y simbólicas, mientras que el cerebro biológico de la mayoría de los organismos vivos es dinámico (plástico) y analógico.

El adjetivo "profundo" en el aprendizaje profundo se refiere al uso de múltiples capas en la red. Los primeros trabajos mostraron que un perceptrón lineal no puede ser un clasificador universal, pero que una red con una función de activación no polinomial con una capa oculta de ancho ilimitado sí puede. El aprendizaje profundo es una variación moderna que se ocupa de un número ilimitado de capas de tamaño limitado, lo que permite una aplicación práctica y una implementación optimizada, al tiempo que conserva la universalidad teórica en condiciones moderadas. En el aprendizaje profundo, también se permite que las capas sean heterogéneas y se desvíen ampliamente de los modelos conexionistas informados biológicamente, en aras de la eficiencia, la capacidad de entrenamiento y la comprensión, de ahí la parte "estructurada".

Definición

El aprendizaje profundo es una clase de algoritmos de aprendizaje automático que utiliza múltiples capas para extraer progresivamente características de alto nivel de la entrada sin procesar. Por ejemplo, en el procesamiento de imágenes, las capas inferiores pueden identificar los bordes, mientras que las capas superiores pueden identificar los conceptos relevantes para un ser humano, como dígitos, letras o rostros.

Visión de conjunto

La mayoría de los modelos modernos de aprendizaje profundo se basan en redes neuronales artificiales, específicamente redes neuronales convolucionales (CNN), aunque también pueden incluir fórmulas proposicionales o variables latentes organizadas por capas en modelos generativos profundos, como los nodos en redes de creencias profundas y Boltzmann profundo. máquinas.

En el aprendizaje profundo, cada nivel aprende a transformar sus datos de entrada en una representación un poco más abstracta y compuesta. En una aplicación de reconocimiento de imágenes, la entrada sin procesar puede ser una matriz de píxeles; la primera capa de representación puede abstraer los píxeles y codificar los bordes; la segunda capa puede componer y codificar disposiciones de bordes; la tercera capa puede codificar una nariz y ojos; y la cuarta capa puede reconocer que la imagen contiene una cara. Es importante destacar que un proceso de aprendizaje profundo puede aprender qué características colocar de manera óptima en qué nivel por sí solo. Esto no elimina la necesidad de ajuste manual; por ejemplo, un número variable de capas y tamaños de capa pueden proporcionar diferentes grados de abstracción.

La palabra "profundo" en "aprendizaje profundo" se refiere a la cantidad de capas a través de las cuales se transforman los datos. Más precisamente, los sistemas de aprendizaje profundo tienen una profundidad sustancial en la ruta de asignación de créditos (CAP). La PAC es la cadena de transformaciones de entrada a salida. Los CAP describen conexiones potencialmente causales entre la entrada y la salida. Para una red neuronal feedforward, la profundidad de los CAP es la de la red y es el número de capas ocultas más una (ya que la capa de salida también está parametrizada). Para las redes neuronales recurrentes, en las que una señal puede propagarse a través de una capa más de una vez, la profundidad del CAP es potencialmente ilimitada.Ningún umbral de profundidad aceptado universalmente divide el aprendizaje superficial del aprendizaje profundo, pero la mayoría de los investigadores están de acuerdo en que el aprendizaje profundo implica una profundidad de CAP superior a 2. Se ha demostrado que CAP de profundidad 2 es un aproximador universal en el sentido de que puede emular cualquier función. Más allá de eso, más capas no se suman a la capacidad de aproximación de funciones de la red. Los modelos profundos (CAP > 2) pueden extraer mejores características que los modelos superficiales y, por lo tanto, las capas adicionales ayudan a aprender las características de manera efectiva.

Las arquitecturas de aprendizaje profundo se pueden construir con un método codicioso capa por capa. El aprendizaje profundo ayuda a desentrañar estas abstracciones y seleccionar qué funciones mejoran el rendimiento.

Para las tareas de aprendizaje supervisado, los métodos de aprendizaje profundo eliminan la ingeniería de características al traducir los datos en representaciones intermedias compactas similares a los componentes principales y derivan estructuras en capas que eliminan la redundancia en la representación.

Los algoritmos de aprendizaje profundo se pueden aplicar a tareas de aprendizaje no supervisadas. Este es un beneficio importante porque los datos sin etiquetar son más abundantes que los datos etiquetados. Ejemplos de estructuras profundas que se pueden entrenar sin supervisión son las redes de creencias profundas.

Interpretaciones

Las redes neuronales profundas generalmente se interpretan en términos del teorema de aproximación universal o la inferencia probabilística.

El clásico teorema de aproximación universal se refiere a la capacidad de las redes neuronales feedforward con una sola capa oculta de tamaño finito para aproximar funciones continuas. En 1989, George Cybenko publicó la primera prueba para las funciones de activación sigmoidea y Kurt Hornik la generalizó a las arquitecturas multicapa de alimentación hacia adelante en 1991. El trabajo reciente también mostró que la aproximación universal también es válida para funciones de activación no limitadas, como la unidad lineal rectificada.

El teorema de aproximación universal para redes neuronales profundas se refiere a la capacidad de las redes con un ancho limitado, pero se permite que la profundidad crezca. Lu et al. demostró que si el ancho de una red neuronal profunda con activación ReLU es estrictamente mayor que la dimensión de entrada, entonces la red puede aproximarse a cualquier función integrable de Lebesgue; Si el ancho es menor o igual a la dimensión de entrada, entonces una red neuronal profunda no es un aproximador universal.

La interpretación probabilística deriva del campo del aprendizaje automático. Presenta inferencia, así como los conceptos de optimización de entrenamiento y prueba, relacionados con el ajuste y la generalización, respectivamente. Más específicamente, la interpretación probabilística considera la no linealidad de la activación como una función de distribución acumulativa. La interpretación probabilística condujo a la introducción del abandono como regularizador en las redes neuronales. La interpretación probabilística fue introducida por investigadores como Hopfield, Widrow y Narendra y popularizada en encuestas como la de Bishop.

Historia

Algunas fuentes señalan que Frank Rosenblatt desarrolló y exploró todos los ingredientes básicos de los sistemas de aprendizaje profundo de hoy. Lo describió en su libro "Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms", publicado por Cornell Aeronautical Laboratory, Inc., Cornell University en 1962.

Alexey Ivakhnenko y Lapa publicaron el primer algoritmo de aprendizaje funcional general para perceptrones multicapa supervisados, profundos y avanzados en 1967. Un artículo de 1971 describió una red profunda con ocho capas entrenadas por el método grupal de manejo de datos. Otras arquitecturas de trabajo de aprendizaje profundo, específicamente aquellas construidas para visión por computadora, comenzaron con el Neocognitron presentado por Kunihiko Fukushima en 1980.

El término aprendizaje profundo fue introducido en la comunidad de aprendizaje automático por Rina Dechter en 1986, y en las redes neuronales artificiales por Igor Aizenberg y sus colegas en 2000, en el contexto de las neuronas de umbral booleano.

En 1989, Yann LeCun et al. aplicó el algoritmo de propagación hacia atrás estándar, que había existido como el modo inverso de diferenciación automática desde 1970, a una red neuronal profunda con el propósito de reconocer códigos postales escritos a mano en el correo. Mientras el algoritmo funcionó, el entrenamiento requirió 3 días.

En 1994, André de Carvalho, junto con Mike Fairhurst y David Bisset, publicaron los resultados experimentales de una red neuronal booleana multicapa, también conocida como red neuronal ingrávida, compuesta por un módulo de red neuronal de extracción de características autoorganizado de 3 capas (SOFT) seguido de un módulo de red neuronal de clasificación multicapa (GSN), que fueron entrenados de forma independiente. Cada capa en el módulo de extracción de características extrajo características con una complejidad creciente con respecto a la capa anterior.

En 1995, Brendan Frey demostró que era posible entrenar (durante dos días) una red que contenía seis capas completamente conectadas y varios cientos de unidades ocultas utilizando el algoritmo de despertar-dormir, desarrollado conjuntamente con Peter Dayan y Hinton. Muchos factores contribuyen a la baja velocidad, incluido el problema del gradiente de fuga analizado en 1991 por Sepp Hochreiter.

Desde 1997, Sven Behnke amplió el enfoque convolucional jerárquico de avance en la Pirámide de abstracción neuronal mediante conexiones laterales y hacia atrás para incorporar de manera flexible el contexto en las decisiones y resolver iterativamente las ambigüedades locales.

Los modelos más simples que utilizan funciones artesanales específicas de la tarea, como los filtros Gabor y las máquinas de vectores de soporte (SVM), fueron una opción popular en las décadas de 1990 y 2000, debido al costo computacional de la red neuronal artificial (ANN) y a la falta de comprensión de cómo se conecta el cerebro. sus redes biológicas.

Tanto el aprendizaje superficial como el profundo (p. ej., redes recurrentes) de ANN se han explorado durante muchos años. Estos métodos nunca superaron la tecnología del modelo de mezcla gaussiana/modelo oculto de Markov (GMM-HMM) de fabricación interna no uniforme basada en modelos generativos de habla entrenados discriminativamente. Se analizaron las principales dificultades, incluida la disminución del gradiente y la débil estructura de correlación temporal en los modelos predictivos neurales. Las dificultades adicionales fueron la falta de datos de entrenamiento y el poder de cómputo limitado.

La mayoría de los investigadores de reconocimiento de voz se alejaron de las redes neuronales para dedicarse al modelado generativo. Una excepción fue en SRI International a fines de la década de 1990. Financiado por la NSA y DARPA del gobierno de EE. UU., SRI estudió las redes neuronales profundas en el habla y el reconocimiento de hablantes. El equipo de reconocimiento de hablantes dirigido por Larry Heck informó un éxito significativo con las redes neuronales profundas en el procesamiento del habla en la evaluación de reconocimiento de hablantes del Instituto Nacional de Estándares y Tecnología de 1998. Luego, la red neuronal profunda SRI se implementó en Nuance Verifier, lo que representa la primera aplicación industrial importante de aprendizaje profundo.

El principio de elevar las funciones "sin procesar" sobre la optimización artesanal se exploró por primera vez con éxito en la arquitectura del codificador automático profundo en el espectrograma "sin procesar" o las funciones del banco de filtros lineales a fines de la década de 1990, mostrando su superioridad sobre las funciones de Mel-Cepstral que contienen etapas de transformación fija a partir de espectrogramas. Las características brutas del habla, las formas de onda, produjeron posteriormente excelentes resultados a gran escala.

Muchos aspectos del reconocimiento de voz fueron asumidos por un método de aprendizaje profundo llamado memoria a corto plazo (LSTM), una red neuronal recurrente publicada por Hochreiter y Schmidhuber en 1997. Los RNN de LSTM evitan el problema del gradiente de fuga y pueden aprender "aprendizaje muy profundo". tareas que requieren recuerdos de eventos que sucedieron miles de pasos de tiempo discretos antes, lo cual es importante para el habla. En 2003, LSTM comenzó a competir con los reconocedores de voz tradicionales en ciertas tareas. Más tarde se combinó con la clasificación temporal conexionista (CTC) en pilas de LSTM RNN. En 2015, el reconocimiento de voz de Google supuestamente experimentó un salto de rendimiento espectacular del 49 % a través de LSTM capacitado por CTC, que pusieron a disposición a través de Google Voice Search.

En 2006, las publicaciones de Geoff Hinton, Ruslan Salakhutdinov, Osindero y Teh mostraron cómo una red neuronal realimentada de muchas capas podría pre-entrenarse de manera efectiva una capa a la vez, tratando cada capa a su vez como una máquina de Boltzmann restringida no supervisada, y luego refinar. sintonizándolo usando retropropagación supervisada. Los trabajos se refirieron al aprendizaje de redes de creencias profundas.

El aprendizaje profundo es parte de los sistemas de vanguardia en varias disciplinas, en particular, la visión por computadora y el reconocimiento automático de voz (ASR). Los resultados de los conjuntos de evaluación de uso común, como TIMIT (ASR) y MNIST (clasificación de imágenes), así como una variedad de tareas de reconocimiento de voz de gran vocabulario, han mejorado constantemente. Las redes neuronales convolucionales (CNN) fueron reemplazadas para ASR por CTC para LSTM. pero tienen más éxito en la visión artificial.

El impacto del aprendizaje profundo en la industria comenzó a principios de la década de 2000, cuando las CNN ya procesaban entre el 10 % y el 20 % de todos los cheques emitidos en EE. UU., según Yann LeCun. Las aplicaciones industriales del aprendizaje profundo para el reconocimiento de voz a gran escala comenzaron alrededor de 2010.

El taller de NIPS de 2009 sobre aprendizaje profundo para el reconocimiento del habla estuvo motivado por las limitaciones de los modelos generativos profundos del habla y la posibilidad de que, dado un hardware más capaz y conjuntos de datos a gran escala, las redes neuronales profundas (DNN) pudieran volverse prácticas. Se creía que el entrenamiento previo de las DNN utilizando modelos generativos de redes de creencias profundas (DBN) superaría las principales dificultades de las redes neuronales. Sin embargo, se descubrió que reemplazar el entrenamiento previo con grandes cantidades de datos de entrenamiento para una propagación hacia atrás directa cuando se usaban DNN con capas de salida grandes y dependientes del contexto producía tasas de error dramáticamente más bajas que el modelo de mezcla gaussiana de última generación (GMM).)/Modelo oculto de Markov (HMM) y también que sistemas basados ​​en modelos generativos más avanzados.La naturaleza de los errores de reconocimiento producidos por los dos tipos de sistemas fue característicamente diferente, ofreciendo conocimientos técnicos sobre cómo integrar el aprendizaje profundo en el sistema de decodificación de voz en tiempo de ejecución altamente eficiente existente implementado por todos los principales sistemas de reconocimiento de voz. El análisis entre 2009 y 2010, que contrastó el GMM (y otros modelos de habla generativa) con los modelos DNN, estimuló la inversión industrial temprana en aprendizaje profundo para el reconocimiento de voz, lo que finalmente llevó a un uso generalizado y dominante en esa industria. Ese análisis se realizó con un rendimiento comparable (menos del 1,5 % en la tasa de error) entre las DNN discriminativas y los modelos generativos.

En 2010, los investigadores ampliaron el aprendizaje profundo de TIMIT al reconocimiento de voz de gran vocabulario mediante la adopción de grandes capas de salida de DNN basadas en estados HMM dependientes del contexto construidos por árboles de decisión.

Los avances en hardware han impulsado un interés renovado en el aprendizaje profundo. En 2009, Nvidia participó en lo que se denominó el "big bang" del aprendizaje profundo, "ya que las redes neuronales de aprendizaje profundo se entrenaron con unidades de procesamiento de gráficos (GPU) de Nvidia". Ese año, Andrew Ng determinó que las GPU podían aumentar la velocidad de los sistemas de aprendizaje profundo unas 100 veces. En particular, las GPU son adecuadas para los cálculos de matriz/vector involucrados en el aprendizaje automático. Las GPU aceleran los algoritmos de entrenamiento en órdenes de magnitud, lo que reduce los tiempos de ejecución de semanas a días. Además, se pueden utilizar optimizaciones especializadas de hardware y algoritmos para el procesamiento eficiente de modelos de aprendizaje profundo.

Revolución del aprendizaje profundo

En 2012, un equipo dirigido por George E. Dahl ganó el "Desafío de actividad molecular de Merck" utilizando redes neuronales profundas multitarea para predecir el objetivo biomolecular de un fármaco. En 2014, el grupo de Hochreiter utilizó el aprendizaje profundo para detectar efectos no deseados y tóxicos de sustancias químicas ambientales en nutrientes, productos para el hogar y medicamentos, y ganó el "Desafío de datos Tox21" de NIH, FDA y NCATS.

Se sintieron impactos adicionales significativos en el reconocimiento de imágenes u objetos entre 2011 y 2012. Aunque las CNN entrenadas por retropropagación habían existido durante décadas, y las implementaciones de GPU de NN durante años, incluidas las CNN, se necesitaban implementaciones rápidas de CNN en GPU para progresar en la visión por computadora.. En 2011, este enfoque logró por primera vez un rendimiento sobrehumano en un concurso de reconocimiento de patrones visuales. También en 2011 ganó el concurso de escritura a mano china ICDAR y en mayo de 2012 ganó el concurso de segmentación de imágenes ISBI. Hasta 2011, las CNN no jugaron un papel importante en las conferencias de visión artificial, pero en junio de 2012, un artículo de Ciresan et al. en la conferencia líder CVPRmostró cómo la agrupación máxima de CNN en GPU puede mejorar drásticamente muchos registros de referencia de visión. En octubre de 2012, un sistema similar de Krizhevsky et al. ganó la competencia ImageNet a gran escala por un margen significativo sobre los métodos superficiales de aprendizaje automático. En noviembre de 2012, el sistema de Ciresan et al. también ganó el concurso ICPR sobre análisis de imágenes médicas de gran tamaño para la detección del cáncer y, al año siguiente, también el MICCAI Grand Challenge sobre el mismo tema. En 2013 y 2014, la tasa de error en la tarea de ImageNet con aprendizaje profundo se redujo aún más, siguiendo una tendencia similar en el reconocimiento de voz a gran escala.

Luego, la clasificación de imágenes se extendió a la tarea más desafiante de generar descripciones (títulos) para las imágenes, a menudo como una combinación de CNN y LSTM.

Algunos investigadores afirman que la victoria de ImageNet en octubre de 2012 ancló el comienzo de una "revolución del aprendizaje profundo" que ha transformado la industria de la IA.

En marzo de 2019, Yoshua Bengio, Geoffrey Hinton y Yann LeCun recibieron el Premio Turing por avances conceptuales y de ingeniería que han hecho de las redes neuronales profundas un componente crítico de la informática.

Redes neuronales

Redes neuronales artificiales

Las redes neuronales artificiales (RNA) o sistemas conexionistas son sistemas informáticos inspirados en las redes neuronales biológicas que constituyen los cerebros de los animales. Dichos sistemas aprenden (mejoran progresivamente su capacidad) a realizar tareas considerando ejemplos, generalmente sin programación específica de tareas. Por ejemplo, en el reconocimiento de imágenes, pueden aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que se han etiquetado manualmente como "gato" o "sin gato" y utilizando los resultados analíticos para identificar gatos en otras imágenes. Han encontrado su mayor uso en aplicaciones difíciles de expresar con un algoritmo informático tradicional que utiliza programación basada en reglas.

Una ANN se basa en una colección de unidades conectadas llamadas neuronas artificiales (análogas a las neuronas biológicas en un cerebro biológico). Cada conexión (sinapsis) entre neuronas puede transmitir una señal a otra neurona. La neurona receptora (postsináptica) puede procesar la(s) señal(es) y luego enviar señales a las neuronas aguas abajo conectadas a ella. Las neuronas pueden tener un estado, generalmente representado por números reales, generalmente entre 0 y 1. Las neuronas y las sinapsis también pueden tener un peso que varía a medida que avanza el aprendizaje, lo que puede aumentar o disminuir la fuerza de la señal que envía aguas abajo.

Por lo general, las neuronas se organizan en capas. Diferentes capas pueden realizar diferentes tipos de transformaciones en sus entradas. Las señales viajan desde la primera (entrada) hasta la última capa (salida), posiblemente después de atravesar las capas varias veces.

El objetivo original del enfoque de red neuronal era resolver problemas de la misma manera que lo haría un cerebro humano. Con el tiempo, la atención se centró en hacer coincidir habilidades mentales específicas, lo que llevó a desviaciones de la biología, como la retropropagación o el paso de información en la dirección inversa y el ajuste de la red para reflejar esa información.

Las redes neuronales se han utilizado en una variedad de tareas, que incluyen visión por computadora, reconocimiento de voz, traducción automática, filtrado de redes sociales, juegos de mesa y videojuegos y diagnóstico médico.

A partir de 2017, las redes neuronales suelen tener de unos pocos miles a unos pocos millones de unidades y millones de conexiones. A pesar de que este número es varios órdenes de magnitud menor que el número de neuronas en un cerebro humano, estas redes pueden realizar muchas tareas a un nivel superior al de los humanos (p. ej., reconocer rostros, jugar "Go").

Redes neuronales profundas

Una red neuronal profunda (DNN) es una red neuronal artificial (ANN) con múltiples capas entre las capas de entrada y salida. Existen diferentes tipos de redes neuronales pero siempre constan de los mismos componentes: neuronas, sinapsis, pesos, sesgos y funciones. Estos componentes funcionan de manera similar a los cerebros humanos y se pueden entrenar como cualquier otro algoritmo de ML.

Por ejemplo, un DNN que está entrenado para reconocer razas de perros revisará la imagen dada y calculará la probabilidad de que el perro en la imagen sea de cierta raza. El usuario puede revisar los resultados y seleccionar qué probabilidades debe mostrar la red (por encima de cierto umbral, etc.) y devolver la etiqueta propuesta. Cada manipulación matemática como tal se considera una capa, y las DNN complejas tienen muchas capas, de ahí el nombre de redes "profundas".

Las DNN pueden modelar relaciones no lineales complejas. Las arquitecturas DNN generan modelos de composición donde el objeto se expresa como una composición en capas de primitivas. Las capas adicionales permiten la composición de características de las capas inferiores, lo que potencialmente modela datos complejos con menos unidades que una red superficial de rendimiento similar. Por ejemplo, se demostró que los polinomios multivariantes dispersos son exponencialmente más fáciles de aproximar con DNN que con redes superficiales.

Las arquitecturas profundas incluyen muchas variantes de algunos enfoques básicos. Cada arquitectura ha tenido éxito en dominios específicos. No siempre es posible comparar el rendimiento de varias arquitecturas, a menos que se hayan evaluado en los mismos conjuntos de datos.

Las DNN suelen ser redes de retroalimentación en las que los datos fluyen desde la capa de entrada a la capa de salida sin retroceder. Al principio, la DNN crea un mapa de neuronas virtuales y asigna valores numéricos aleatorios, o "pesos", a las conexiones entre ellas. Los pesos y las entradas se multiplican y devuelven una salida entre 0 y 1. Si la red no reconociera con precisión un patrón en particular, un algoritmo ajustaría los pesos. De esa manera, el algoritmo puede hacer que ciertos parámetros sean más influyentes, hasta que determine la manipulación matemática correcta para procesar completamente los datos.

Las redes neuronales recurrentes (RNN), en las que los datos pueden fluir en cualquier dirección, se utilizan para aplicaciones como el modelado de lenguaje. La memoria a corto plazo es particularmente eficaz para este uso.

Las redes neuronales profundas convolucionales (CNN) se utilizan en la visión artificial. Las CNN también se han aplicado al modelado acústico para el reconocimiento automático de voz (ASR).

Desafíos

Al igual que con las ANN, pueden surgir muchos problemas con las DNN ingenuamente entrenadas. Dos problemas comunes son el sobreajuste y el tiempo de cálculo.

Los DNN son propensos a sobreajustarse debido a las capas adicionales de abstracción, que les permiten modelar dependencias raras en los datos de entrenamiento. Los métodos de regularización como la poda unitaria de Ivakhnenko o la disminución del peso (ell _{2}-regularización) o la escasez (ell _{1}-regularización) se pueden aplicar durante el entrenamiento para combatir el sobreajuste. Alternativamente, la regularización de abandono omite aleatoriamente unidades de las capas ocultas durante el entrenamiento. Esto ayuda a excluir dependencias raras. Finalmente, los datos se pueden aumentar a través de métodos como el recorte y la rotación, de modo que los conjuntos de entrenamiento más pequeños se pueden aumentar de tamaño para reducir las posibilidades de sobreajuste.

Las DNN deben considerar muchos parámetros de entrenamiento, como el tamaño (número de capas y número de unidades por capa), la tasa de aprendizaje y los pesos iniciales. El barrido a través del espacio de parámetros para obtener parámetros óptimos puede no ser factible debido al costo en tiempo y recursos computacionales. Varios trucos, como el procesamiento por lotes (calcular el gradiente en varios ejemplos de entrenamiento a la vez en lugar de ejemplos individuales) aceleran el cálculo. Las grandes capacidades de procesamiento de las arquitecturas de muchos núcleos (como GPU o Intel Xeon Phi) han producido aceleraciones significativas en el entrenamiento, debido a la idoneidad de tales arquitecturas de procesamiento para los cálculos de matriz y vector.

Alternativamente, los ingenieros pueden buscar otros tipos de redes neuronales con algoritmos de entrenamiento más sencillos y convergentes. CMAC (controlador de articulación del modelo cerebeloso) es uno de esos tipos de redes neuronales. No requiere tasas de aprendizaje o pesos iniciales aleatorios para CMAC. Se puede garantizar que el proceso de entrenamiento convergerá en un solo paso con un nuevo lote de datos, y la complejidad computacional del algoritmo de entrenamiento es lineal con respecto al número de neuronas involucradas.

Hardware

Desde la década de 2010, los avances tanto en los algoritmos de aprendizaje automático como en el hardware informático han dado lugar a métodos más eficientes para entrenar redes neuronales profundas que contienen muchas capas de unidades ocultas no lineales y una capa de salida muy grande. Para 2019, las unidades de procesamiento gráfico (GPU), a menudo con mejoras específicas de IA, habían desplazado a las CPU como el método dominante para entrenar IA en la nube comercial a gran escala. OpenAI estimó el cómputo de hardware utilizado en los proyectos de aprendizaje profundo más grandes desde AlexNet (2012) hasta AlphaZero (2017), y encontró un aumento de 300 000 veces en la cantidad de cómputo requerido, con una línea de tendencia de tiempo de duplicación de 3,4 meses.

Se diseñaron circuitos electrónicos especiales llamados procesadores de aprendizaje profundo para acelerar los algoritmos de aprendizaje profundo. Los procesadores de aprendizaje profundo incluyen unidades de procesamiento neuronal (NPU) en teléfonos celulares Huawei y servidores de computación en la nube, como unidades de procesamiento de tensor (TPU) en Google Cloud Platform.

En 2021, J. Feldmann et al. propuso un acelerador de hardware fotónico integrado para el procesamiento convolucional paralelo. Los autores identifican dos ventajas clave de la fotónica integrada sobre sus contrapartes electrónicas: (1) transferencia de datos masivamente paralela a través de multiplexación por división de longitud de onda junto con peines de frecuencia, y (2) velocidades de modulación de datos extremadamente altas. Su sistema puede ejecutar billones de operaciones de acumulación múltiple por segundo, lo que indica el potencial de la fotónica integrada en aplicaciones de inteligencia artificial con gran cantidad de datos.

Aplicaciones

Reconocimiento automático de voz

El reconocimiento de voz automático a gran escala es el primer y más convincente caso exitoso de aprendizaje profundo. Los LSTM RNN pueden aprender tareas de "aprendizaje muy profundo" que involucran intervalos de varios segundos que contienen eventos de voz separados por miles de pasos de tiempo discretos, donde un paso de tiempo corresponde a aproximadamente 10 ms. LSTM con puertas de olvido compite con los reconocedores de voz tradicionales en ciertas tareas.

El éxito inicial en el reconocimiento de voz se basó en tareas de reconocimiento a pequeña escala basadas en TIMIT. El conjunto de datos contiene 630 hablantes de ocho dialectos principales del inglés americano, donde cada hablante lee 10 oraciones. Su pequeño tamaño permite probar múltiples configuraciones. Más importante aún, la tarea TIMIT se refiere al reconocimiento de secuencias telefónicas que, a diferencia del reconocimiento de secuencias de palabras, permite modelos de lenguaje de bigramas telefónicos débiles. Esto permite analizar más fácilmente la fuerza de los aspectos de modelado acústico del reconocimiento de voz. Las tasas de error enumeradas a continuación, incluidos estos primeros resultados y medidas como porcentaje de tasas de error telefónico (PER), se han resumido desde 1991.

MétodoPorcentaje de tasa de error telefónico(PER) (%)
RNN inicializado aleatoriamente26.1
Trífono bayesiano GMM-HMM25.6
Modelo de trayectoria oculta (generativo)24.8
DNN inicializado aleatoriamente en monofono23.4
Monofono DBN-DNN22.4
Triphone GMM-HMM con formación BMMI21.7
Monofono DBN-DNN en fbank20.7
DNN convolucional20.0
DNN convolucional w. Agrupación heterogénea18.7
Conjunto DNN/CNN/RNN18.3
LSTM bidireccional17.8
Red Maxout profunda convolucional jerárquica16.5

El debut de DNN para el reconocimiento de hablantes a fines de la década de 1990 y el reconocimiento de voz alrededor de 2009-2011 y de LSTM alrededor de 2003-2007 aceleró el progreso en ocho áreas principales:

Todos los principales sistemas comerciales de reconocimiento de voz (por ejemplo, Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, búsqueda por voz de Baidu e iFlyTek, y una gama de productos de voz de Nuance, etc.) se basan en el aprendizaje profundo.

Reconocimiento de imagen

Un conjunto de evaluación común para la clasificación de imágenes es el conjunto de datos de la base de datos MNIST. MNIST se compone de dígitos escritos a mano e incluye 60 000 ejemplos de capacitación y 10 000 ejemplos de prueba. Al igual que con TIMIT, su pequeño tamaño permite a los usuarios probar múltiples configuraciones. Se encuentra disponible una lista completa de los resultados de este conjunto.

El reconocimiento de imágenes basado en el aprendizaje profundo se ha vuelto "sobrehumano", produciendo resultados más precisos que los concursantes humanos. Esto ocurrió por primera vez en 2011 con el reconocimiento de señales de tránsito y en 2014 con el reconocimiento de rostros humanos.

Los vehículos entrenados en aprendizaje profundo ahora interpretan vistas de cámara de 360°. Otro ejemplo es el análisis novedoso de dismorfología facial (FDNA) que se utiliza para analizar casos de malformaciones humanas conectadas a una gran base de datos de síndromes genéticos.

Procesamiento de artes visuales

Estrechamente relacionado con el progreso que se ha logrado en el reconocimiento de imágenes está la creciente aplicación de técnicas de aprendizaje profundo a diversas tareas de artes visuales. Las DNN han demostrado ser capaces, por ejemplo, de

Procesamiento natural del lenguaje

Las redes neuronales se han utilizado para implementar modelos de lenguaje desde principios de la década de 2000. LSTM ayudó a mejorar la traducción automática y el modelado de idiomas.

Otras técnicas clave en este campo son el muestreo negativo y la incrustación de palabras. La incrustación de palabras, como word2vec, se puede considerar como una capa de representación en una arquitectura de aprendizaje profundo que transforma una palabra atómica en una representación posicional de la palabra en relación con otras palabras en el conjunto de datos; la posición se representa como un punto en un espacio vectorial. El uso de la incrustación de palabras como una capa de entrada de RNN permite que la red analice oraciones y frases utilizando una gramática vectorial de composición efectiva. Una gramática vectorial composicional puede considerarse como una gramática libre de contexto probabilístico (PCFG) implementada por una RNN. Los codificadores automáticos recursivos creados sobre incrustaciones de palabras pueden evaluar la similitud de las oraciones y detectar la paráfrasis.Las arquitecturas neuronales profundas brindan los mejores resultados para el análisis de distritos electorales, el análisis de opiniones, la recuperación de información, la comprensión del lenguaje hablado, la traducción automática, la vinculación de entidades contextuales, el reconocimiento de estilo de escritura, la clasificación de texto y otros.

Los desarrollos recientes generalizan la incrustación de palabras a la incrustación de oraciones.

Google Translate (GT) utiliza una gran red de memoria a corto plazo (LSTM) de extremo a extremo. Google Neural Machine Translation (GNMT) utiliza un método de traducción automática basado en ejemplos en el que el sistema "aprende de millones de ejemplos". Traduce "oraciones completas a la vez, en lugar de partes. Google Translate admite más de cien idiomas. La red codifica la "semántica de la oración en lugar de simplemente memorizar traducciones de frase a frase". GT usa el inglés como un intermedio entre la mayoría pares de idiomas

Descubrimiento de fármacos y toxicología.

Un gran porcentaje de los medicamentos candidatos no obtienen la aprobación regulatoria. Estas fallas son causadas por una eficacia insuficiente (efecto en el objetivo), interacciones no deseadas (efectos fuera del objetivo) o efectos tóxicos no anticipados. La investigación ha explorado el uso del aprendizaje profundo para predecir los objetivos biomoleculares, los objetivos no deseados y los efectos tóxicos de los productos químicos ambientales en nutrientes, productos para el hogar y medicamentos.

AtomNet es un sistema de aprendizaje profundo para el diseño racional de fármacos basado en estructuras. AtomNet se utilizó para predecir nuevas biomoléculas candidatas para objetivos de enfermedades como el virus del Ébola y la esclerosis múltiple.

En 2017, las redes neuronales gráficas se utilizaron por primera vez para predecir varias propiedades de las moléculas en un gran conjunto de datos de toxicología. En 2019, se utilizaron redes neuronales generativas para producir moléculas que se validaron experimentalmente en ratones.

Gestión de la relación con el cliente

El aprendizaje de refuerzo profundo se ha utilizado para aproximar el valor de posibles acciones de marketing directo, definidas en términos de variables RFM. Se demostró que la función de valor estimado tiene una interpretación natural como valor de por vida del cliente.

Sistemas de recomendación

Los sistemas de recomendación han utilizado el aprendizaje profundo para extraer características significativas para un modelo de factor latente para recomendaciones de revistas y música basadas en contenido. Se ha aplicado el aprendizaje profundo de múltiples vistas para aprender las preferencias de los usuarios de múltiples dominios. El modelo utiliza un enfoque híbrido colaborativo y basado en contenido y mejora las recomendaciones en múltiples tareas.

Bioinformática

Se utilizó una ANN autocodificadora en bioinformática para predecir las anotaciones de ontología génica y las relaciones gen-función.

En informática médica, el aprendizaje profundo se utilizó para predecir la calidad del sueño en función de los datos de los dispositivos portátiles y las predicciones de complicaciones de salud de los datos de registros de salud electrónicos.

Análisis de imágenes médicas

Se ha demostrado que el aprendizaje profundo produce resultados competitivos en aplicaciones médicas, como la clasificación de células cancerosas, la detección de lesiones, la segmentación de órganos y la mejora de imágenes. Las herramientas modernas de aprendizaje profundo demuestran la alta precisión en la detección de diversas enfermedades y la utilidad de su uso por parte de especialistas para mejorar la eficiencia del diagnóstico.

La publicidad móvil

Encontrar la audiencia móvil adecuada para la publicidad móvil siempre es un desafío, ya que se deben considerar y analizar muchos puntos de datos antes de que cualquier servidor de anuncios pueda crear y utilizar un segmento objetivo en la publicación de anuncios. El aprendizaje profundo se ha utilizado para interpretar grandes conjuntos de datos publicitarios de muchas dimensiones. Muchos puntos de datos se recopilan durante el ciclo de publicidad en Internet de solicitud/servicio/clic. Esta información puede formar la base del aprendizaje automático para mejorar la selección de anuncios.

Restauración de imagen

El aprendizaje profundo se ha aplicado con éxito a problemas inversos como la eliminación de ruido, la superresolución, la pintura interna y la colorización de películas. Estas aplicaciones incluyen métodos de aprendizaje como "Campos de contracción para una restauración eficaz de imágenes", que se entrena en un conjunto de datos de imágenes, y Deep Image Prior, que se entrena en la imagen que necesita restauración.

Detección de fraude financiero

El aprendizaje profundo se está aplicando con éxito a la detección de fraude financiero, detección de evasión de impuestos y lucha contra el lavado de dinero.

Militar

El Departamento de Defensa de los Estados Unidos aplicó el aprendizaje profundo para entrenar robots en nuevas tareas a través de la observación.

Ecuaciones diferenciales parciales

Las redes neuronales informadas por la física se han utilizado para resolver ecuaciones diferenciales parciales tanto en problemas directos como inversos de una manera basada en datos. Un ejemplo es el flujo de fluido de reconstrucción regido por las ecuaciones de Navier-Stokes. El uso de redes neuronales informadas por la física no requiere la generación de mallas, a menudo costosa, en la que se basan los métodos CFD convencionales.

Reconstrucción de imagen

La reconstrucción de imágenes es la reconstrucción de las imágenes subyacentes a partir de las mediciones relacionadas con la imagen. Varios trabajos demostraron el rendimiento mejor y superior de los métodos de aprendizaje profundo en comparación con los métodos analíticos para diversas aplicaciones, por ejemplo, imágenes espectrales y de ultrasonido.

Relación con el desarrollo cognitivo y cerebral humano

El aprendizaje profundo está estrechamente relacionado con una clase de teorías del desarrollo cerebral (específicamente, el desarrollo neocortical) propuestas por neurocientíficos cognitivos a principios de la década de 1990.Estas teorías del desarrollo se instanciaron en modelos computacionales, lo que las convirtió en predecesoras de los sistemas de aprendizaje profundo. Estos modelos de desarrollo comparten la propiedad de que varias dinámicas de aprendizaje propuestas en el cerebro (p. ej., una ola de factor de crecimiento nervioso) respaldan la autoorganización algo análoga a las redes neuronales utilizadas en los modelos de aprendizaje profundo. Al igual que la neocorteza, las redes neuronales emplean una jerarquía de filtros en capas en la que cada capa considera la información de una capa anterior (o del entorno operativo) y luego pasa su salida (y posiblemente la entrada original) a otras capas. Este proceso produce una pila de transductores autoorganizados, bien ajustados a su entorno operativo. Una descripción de 1995 decía: "... el cerebro del bebé parece organizarse bajo la influencia de ondas de los llamados factores tróficos.... diferentes regiones del cerebro se conectan secuencialmente, con una capa de tejido madurando antes que otra y así sucesivamente hasta que todo el cerebro madura".

Se han utilizado una variedad de enfoques para investigar la plausibilidad de los modelos de aprendizaje profundo desde una perspectiva neurobiológica. Por un lado, se han propuesto varias variantes del algoritmo backpropagation para aumentar su realismo de procesamiento. Otros investigadores han argumentado que las formas no supervisadas de aprendizaje profundo, como las que se basan en modelos generativos jerárquicos y redes de creencias profundas, pueden estar más cerca de la realidad biológica. En este sentido, los modelos de redes neuronales generativas se han relacionado con la evidencia neurobiológica sobre el procesamiento basado en muestras en la corteza cerebral.

Aunque aún no se ha establecido una comparación sistemática entre la organización del cerebro humano y la codificación neuronal en redes profundas, se han reportado varias analogías. Por ejemplo, los cálculos realizados por las unidades de aprendizaje profundo podrían ser similares a los de las neuronas y poblaciones neuronales reales. De manera similar, las representaciones desarrolladas por los modelos de aprendizaje profundo son similares a las medidas en el sistema visual de los primates, tanto a nivel de unidad individual como a nivel de población.

Actividad comercial

El laboratorio de inteligencia artificial de Facebook realiza tareas como etiquetar automáticamente las imágenes cargadas con los nombres de las personas que aparecen en ellas.

DeepMind Technologies de Google desarrolló un sistema capaz de aprender a jugar videojuegos de Atari usando solo píxeles como entrada de datos. En 2015, demostraron su sistema AlphaGo, que aprendió el juego de Go lo suficientemente bien como para vencer a un jugador profesional de Go. Google Translate utiliza una red neuronal para traducir entre más de 100 idiomas.

En 2017, se lanzó Covariant.ai, que se enfoca en integrar el aprendizaje profundo en las fábricas.

A partir de 2008, los investigadores de la Universidad de Texas en Austin (UT) desarrollaron un marco de aprendizaje automático llamado Capacitación manual de un agente a través del refuerzo evaluativo, o TAMER, que proponía nuevos métodos para robots o programas de computadora para aprender a realizar tareas al interactuar con un instructor humano. Desarrollado por primera vez como TAMER, un nuevo algoritmo llamado Deep TAMER se introdujo más tarde en 2018 durante una colaboración entre el Laboratorio de Investigación del Ejército de EE. UU. (ARL) y los investigadores de UT. Deep TAMER utilizó el aprendizaje profundo para proporcionar a un robot la capacidad de aprender nuevas tareas a través de la observación.Usando Deep TAMER, un robot aprendió una tarea con un entrenador humano, viendo transmisiones de video u observando a un humano realizar una tarea en persona. Posteriormente, el robot practicó la tarea con la ayuda de algunos consejos del entrenador, quien brindó comentarios como "buen trabajo" y "mal trabajo".

Critica y comentario

El aprendizaje profundo ha atraído críticas y comentarios, en algunos casos desde fuera del campo de la informática.

Teoría

Una crítica principal se refiere a la falta de teoría en torno a algunos métodos. El aprendizaje en las arquitecturas profundas más comunes se implementa mediante un descenso de gradiente bien entendido. Sin embargo, la teoría que rodea a otros algoritmos, como la divergencia contrastiva, es menos clara. (por ejemplo, ¿converge? Si es así, ¿qué tan rápido? ¿A qué se aproxima?) Los métodos de aprendizaje profundo a menudo se ven como una caja negra, con la mayoría de las confirmaciones hechas empíricamente, en lugar de teóricamente.

Otros señalan que el aprendizaje profundo debe verse como un paso hacia la realización de una IA fuerte, no como una solución que lo abarque todo. A pesar del poder de los métodos de aprendizaje profundo, todavía carecen de gran parte de la funcionalidad necesaria para alcanzar este objetivo por completo. El psicólogo investigador Gary Marcus señaló:

"Siendo realistas, el aprendizaje profundo es solo una parte del gran desafío de construir máquinas inteligentes. Tales técnicas carecen de formas de representar relaciones causales (...) no tienen formas obvias de realizar inferencias lógicas, y también están muy lejos de integrar conceptos abstractos conocimiento, como información sobre qué son los objetos, para qué sirven y cómo se usan normalmente. Los sistemas de IA más poderosos, como Watson (...) usan técnicas como el aprendizaje profundo como solo un elemento en un conjunto muy complicado de técnicas, que van desde la técnica estadística de la inferencia bayesiana hasta el razonamiento deductivo".

En referencia adicional a la idea de que la sensibilidad artística podría ser inherente a niveles relativamente bajos de la jerarquía cognitiva, una serie publicada de representaciones gráficas de los estados internos de redes neuronales profundas (20-30 capas) que intentan discernir dentro de datos esencialmente aleatorios las imágenes en los que fueron capacitados demuestran un atractivo visual: el aviso de investigación original recibió más de 1,000 comentarios y fue el tema de lo que fue durante un tiempo el artículo al que se accedió con más frecuencia en el sitio web de The Guardian.

Errores

Algunas arquitecturas de aprendizaje profundo muestran comportamientos problemáticos, como la clasificación segura de imágenes irreconocibles como pertenecientes a una categoría familiar de imágenes ordinarias (2014) y la clasificación errónea de perturbaciones minúsculas de imágenes clasificadas correctamente (2013). Goertzel planteó la hipótesis de que estos comportamientos se deben a limitaciones en sus representaciones internas y que estas limitaciones inhibirían la integración en arquitecturas heterogéneas de inteligencia general artificial (AGI) de múltiples componentes. Es posible que estos problemas se aborden mediante arquitecturas de aprendizaje profundo que forman estados internos homólogos a las descomposiciones de gramática de imágenes de entidades y eventos observados.Aprender una gramática (visual o lingüística) a partir de datos de entrenamiento sería equivalente a restringir el sistema al razonamiento de sentido común que opera sobre conceptos en términos de reglas de producción gramatical y es un objetivo básico tanto de la adquisición del lenguaje humano como de la inteligencia artificial (IA).

Amenaza cibernética

A medida que el aprendizaje profundo pasa del laboratorio al mundo, la investigación y la experiencia muestran que las redes neuronales artificiales son vulnerables a los ataques y el engaño. Al identificar los patrones que utilizan estos sistemas para funcionar, los atacantes pueden modificar las entradas a las ANN de tal manera que la ANN encuentre una coincidencia que los observadores humanos no reconocerían. Por ejemplo, un atacante puede realizar cambios sutiles en una imagen de modo que la ANN encuentre una coincidencia aunque la imagen no se parezca en nada al objetivo de búsqueda para un ser humano. Tal manipulación se denomina “ataque adversario”.

En 2016, los investigadores utilizaron una ANN para manipular imágenes mediante prueba y error, identificar los puntos focales de otra y, por lo tanto, generar imágenes que la engañaban. Las imágenes modificadas no se veían diferentes a los ojos humanos. Otro grupo mostró que las impresiones de imágenes manipuladas y luego fotografiadas engañaron con éxito un sistema de clasificación de imágenes. Una defensa es la búsqueda inversa de imágenes, en la que se envía una posible imagen falsa a un sitio como TinEye que luego puede encontrar otras instancias de la misma. Un refinamiento consiste en buscar usando solo partes de la imagen, para identificar imágenes de las que se pudo haber tomado esa parte .

Otro grupo mostró que ciertos espectáculos psicodélicos podían engañar a un sistema de reconocimiento facial para que pensara que las personas comunes eran celebridades, lo que podría permitir que una persona se hiciera pasar por otra. En 2017, los investigadores agregaron calcomanías a las señales de alto e hicieron que una ANN las clasificara erróneamente.

Sin embargo, las ANN pueden capacitarse aún más para detectar intentos de engaño, lo que podría llevar a atacantes y defensores a una carrera armamentista similar a la que ya define la industria de defensa contra malware. Las ANN han sido entrenadas para derrotar al software antimalware basado en ANN atacando repetidamente una defensa con malware que fue alterado continuamente por un algoritmo genético hasta que engañó al antimalware mientras conservaba su capacidad de dañar el objetivo.

En 2016, otro grupo demostró que ciertos sonidos podrían hacer que el sistema de comando de voz de Google Now abra una dirección web en particular y planteó la hipótesis de que esto podría "servir como trampolín para futuros ataques (p. ej., abrir una página web que aloja malware no autorizado).."

En el "envenenamiento de datos", los datos falsos se introducen continuamente de contrabando en el conjunto de entrenamiento de un sistema de aprendizaje automático para evitar que logre el dominio.

Confianza en el microtrabajo humano

La mayoría de los sistemas de aprendizaje profundo se basan en datos de capacitación y verificación generados y/o anotados por humanos. En la filosofía de los medios se ha argumentado que no solo el trabajo de clics mal pagado (por ejemplo, en Amazon Mechanical Turk) se implementa regularmente para este propósito, sino también formas implícitas de microtrabajo humano que a menudo no se reconocen como tales.El filósofo Rainer Mühlhoff distingue cinco tipos de "captura mecánica" de microtrabajo humano para generar datos de entrenamiento: (1) ludificación (la incorporación de tareas de anotación o computación en el flujo de un juego), (2) "atrapamiento y seguimiento" (p. ej. CAPTCHA para reconocimiento de imágenes o seguimiento de clics en las páginas de resultados de búsqueda de Google), (3) explotación de motivaciones sociales (p. ej., etiquetado de rostros en Facebook para obtener imágenes faciales etiquetadas), (4) extracción de información (p. ej., mediante el aprovechamiento de dispositivos cuantificados como rastreadores de actividad) y (5) clickwork.

Mühlhoff argumenta que en la mayoría de las aplicaciones comerciales de aprendizaje profundo para usuarios finales, como el sistema de reconocimiento facial de Facebook, la necesidad de datos de entrenamiento no se detiene una vez que se entrena una ANN. Más bien, existe una demanda continua de datos de verificación generados por humanos para calibrar y actualizar constantemente la ANN. Para este propósito, Facebook introdujo la función de que una vez que un usuario es reconocido automáticamente en una imagen, recibe una notificación. Pueden elegir si les gusta ser etiquetados públicamente en la imagen o decirle a Facebook que no son ellos en la imagen. Esta interfaz de usuario es un mecanismo para generar "un flujo constante de datos de verificación"para entrenar aún más la red en tiempo real. Como argumenta Mühlhoff, la participación de usuarios humanos para generar datos de capacitación y verificación es tan típica para la mayoría de las aplicaciones comerciales de aprendizaje profundo para usuarios finales que dichos sistemas pueden denominarse "inteligencia artificial asistida por humanos".