Visión por computador

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

La visión por computadora es un campo científico interdisciplinario que se ocupa de cómo las computadoras pueden obtener una comprensión de alto nivel a partir de imágenes o videos digitales. Desde la perspectiva de la ingeniería, busca comprender y automatizar las tareas que puede realizar el sistema visual humano.

Las tareas de visión artificial incluyen métodos para adquirir, procesar, analizar y comprender imágenes digitales y extraer datos de alta dimensión del mundo real para producir información numérica o simbólica, por ejemplo, en forma de decisiones. La comprensión en este contexto significa la transformación de imágenes visuales (la entrada de la retina) en descripciones del mundo que tienen sentido para los procesos de pensamiento y pueden provocar la acción adecuada. Esta comprensión de la imagen puede verse como la separación de la información simbólica de los datos de la imagen utilizando modelos construidos con la ayuda de la geometría, la física, la estadística y la teoría del aprendizaje.

La disciplina científica de la visión por computadora se ocupa de la teoría detrás de los sistemas artificiales que extraen información de las imágenes. Los datos de imagen pueden tomar muchas formas, como secuencias de video, vistas de varias cámaras, datos multidimensionales de un escáner 3D o un dispositivo de escaneo médico. La disciplina tecnológica de la visión artificial busca aplicar sus teorías y modelos a la construcción de sistemas de visión artificial.

Los subdominios de la visión artificial incluyen la reconstrucción de escenas, la detección de objetos, la detección de eventos, el seguimiento de video, el reconocimiento de objetos, la estimación de poses en 3D, el aprendizaje, la indexación, la estimación de movimiento, el control visual, el modelado de escenas en 3D y la restauración de imágenes.

Definición

La visión por computadora es un campo interdisciplinario que se ocupa de cómo se pueden hacer las computadoras para obtener una comprensión de alto nivel a partir de imágenes o videos digitales. Desde la perspectiva de la ingeniería, busca automatizar tareas que el sistema visual humano puede hacer. "La visión por computadora se ocupa de la extracción, el análisis y la comprensión automáticos de información útil de una sola imagen o una secuencia de imágenes. Implica el desarrollo de una base teórica y algorítmica para lograr la comprensión visual automática". Como disciplina científica, la visión por computadora se ocupa de la teoría detrás de los sistemas artificiales que extraen información de las imágenes. Los datos de imagen pueden tomar muchas formas, como secuencias de video, vistas de varias cámaras o datos multidimensionales de un escáner médico.Como disciplina tecnológica, la visión artificial busca aplicar sus teorías y modelos para la construcción de sistemas de visión artificial.

Historia

A fines de la década de 1960, la visión por computadora comenzó en universidades que eran pioneras en inteligencia artificial. Estaba destinado a imitar el sistema visual humano, como un trampolín para dotar a los robots de un comportamiento inteligente. En 1966, se creía que esto podría lograrse a través de un proyecto de verano, conectando una cámara a una computadora y haciendo que "describiera lo que veía".

Lo que distinguía a la visión por computadora del campo predominante del procesamiento de imágenes digitales en ese momento era el deseo de extraer la estructura tridimensional de las imágenes con el objetivo de lograr una comprensión completa de la escena. Los estudios realizados en la década de 1970 formaron las primeras bases de muchos de los algoritmos de visión por computadora que existen en la actualidad, incluida la extracción de bordes de imágenes, el etiquetado de líneas, el modelado poliédrico y no poliédrico, la representación de objetos como interconexiones de estructuras más pequeñas, flujo óptico y estimación de movimiento.

La siguiente década vio estudios basados en análisis matemáticos más rigurosos y aspectos cuantitativos de la visión artificial. Estos incluyen el concepto de escala-espacio, la inferencia de forma a partir de varias señales, como sombreado, textura y enfoque, y modelos de contorno conocidos como serpientes. Los investigadores también se dieron cuenta de que muchos de estos conceptos matemáticos podían tratarse dentro del mismo marco de optimización que la regularización y los campos aleatorios de Markov. En la década de 1990, algunos de los temas de investigación anteriores se volvieron más activos que otros. La investigación en reconstrucciones tridimensionales proyectivas condujo a una mejor comprensión de la calibración de la cámara. Con el advenimiento de los métodos de optimización para la calibración de cámaras, se dio cuenta de que muchas de las ideas ya se habían explorado en la teoría del ajuste de haces en el campo de la fotogrametría. Esto condujo a métodos para escasas reconstrucciones tridimensionales de escenas a partir de múltiples imágenes. Se avanzó en el problema de la correspondencia estereofónica densa y en otras técnicas estereofónicas multivisión. Al mismo tiempo, se utilizaron variaciones de corte de gráficos para resolver la segmentación de imágenes. Esta década también marcó la primera vez que se utilizaron técnicas de aprendizaje estadístico en la práctica para reconocer rostros en imágenes (ver Eigenface). Hacia fines de la década de 1990, se produjo un cambio significativo con la mayor interacción entre los campos de los gráficos por computadora y la visión por computadora. Esto incluía la representación basada en imágenes, la transformación de imágenes, la interpolación de vistas, la unión de imágenes panorámicas y la representación temprana de campos de luz.

El trabajo reciente ha visto el resurgimiento de los métodos basados en características, utilizados junto con técnicas de aprendizaje automático y marcos de optimización complejos. El avance de las técnicas de Deep Learning ha dado más vida al campo de la visión artificial. La precisión de los algoritmos de aprendizaje profundo en varios conjuntos de datos de visión por computadora de referencia para tareas que van desde la clasificación, la segmentación y el flujo óptico ha superado a los métodos anteriores.

Campos relacionados

Física del estado sólido

La física del estado sólido es otro campo que está estrechamente relacionado con la visión artificial. La mayoría de los sistemas de visión por computadora se basan en sensores de imagen, que detectan la radiación electromagnética, que generalmente se presenta en forma de luz visible o infrarroja. Los sensores están diseñados usando física cuántica. El proceso por el cual la luz interactúa con las superficies se explica mediante la física. La física explica el comportamiento de la óptica, que es una parte central de la mayoría de los sistemas de imágenes. Los sensores de imagen sofisticados incluso requieren mecánica cuántica para proporcionar una comprensión completa del proceso de formación de imágenes. Además, se pueden abordar varios problemas de medición en física utilizando la visión por computadora, por ejemplo, el movimiento en fluidos.

Neurobiología

Neurobiología, específicamente el estudio del sistema de visión biológica. Durante el último siglo, ha habido un extenso estudio de los ojos, las neuronas y las estructuras cerebrales dedicadas al procesamiento de estímulos visuales tanto en humanos como en varios animales. Esto ha llevado a una descripción tosca, aunque complicada, de cómo funcionan los sistemas de visión "reales" para resolver ciertas tareas relacionadas con la visión. Estos resultados han llevado a un subcampo dentro de la visión por computadora donde los sistemas artificiales están diseñados para imitar el procesamiento y el comportamiento de los sistemas biológicos, en diferentes niveles de complejidad. Además, algunos de los métodos basados en el aprendizaje desarrollados dentro de la visión artificial (p. ej., análisis y clasificación de características e imágenes basados en redes neuronales y aprendizaje profundo) tienen su origen en la biología.

Algunas líneas de investigación de la visión por computadora están estrechamente relacionadas con el estudio de la visión biológica, de hecho, al igual que muchas líneas de investigación de la IA están estrechamente relacionadas con la investigación de la conciencia humana y el uso del conocimiento almacenado para interpretar, integrar y utilizar información visual. El campo de la visión biológica estudia y modela los procesos fisiológicos detrás de la percepción visual en humanos y otros animales. La visión artificial, por su parte, estudia y describe los procesos implementados en software y hardware detrás de los sistemas de visión artificial. El intercambio interdisciplinario entre la visión biológica y la informática ha resultado fructífero para ambos campos.

Procesamiento de la señal

Otro campo relacionado con la visión artificial es el procesamiento de señales. Muchos métodos para el procesamiento de señales de una variable, típicamente señales temporales, pueden extenderse de forma natural al procesamiento de señales de dos variables o señales de múltiples variables en visión artificial. Sin embargo, debido a la naturaleza específica de las imágenes, existen muchos métodos desarrollados dentro de la visión artificial que no tienen equivalente en el procesamiento de señales de una variable. Junto con la multidimensionalidad de la señal, esto define un subcampo en el procesamiento de señales como parte de la visión artificial.

Navegación robótica

La navegación de robots a veces se ocupa de la planificación o deliberación de rutas autónomas para que los sistemas robóticos naveguen a través de un entorno. Se requiere una comprensión detallada de estos entornos para navegar a través de ellos. La información sobre el entorno podría ser proporcionada por un sistema de visión artificial, actuando como un sensor de visión y proporcionando información de alto nivel sobre el entorno y el robot.

Otros campos

Además de los puntos de vista mencionados anteriormente sobre la visión por computadora, muchos de los temas de investigación relacionados también se pueden estudiar desde un punto de vista puramente matemático. Por ejemplo, muchos métodos de visión artificial se basan en estadísticas, optimización o geometría. Finalmente, una parte significativa del campo está dedicada al aspecto de implementación de la visión artificial; cómo se pueden realizar los métodos existentes en varias combinaciones de software y hardware, o cómo se pueden modificar estos métodos para ganar velocidad de procesamiento sin perder demasiado rendimiento. La visión artificial también se utiliza en el comercio electrónico de moda, la gestión de inventario, la búsqueda de patentes, los muebles y la industria de la belleza.

Distinciones

Los campos más relacionados con la visión artificial son el procesamiento de imágenes, el análisis de imágenes y la visión artificial. Existe una superposición significativa en la gama de técnicas y aplicaciones que cubren. Esto implica que las técnicas básicas que se utilizan y desarrollan en estos campos son similares, lo que se puede interpretar como que existe un único campo con diferentes nombres. Por otro lado, parece ser necesario que los grupos de investigación, las revistas científicas, los congresos y las empresas se presenten o comercialicen como pertenecientes específicamente a uno de estos campos, por lo que se han elaborado diversas caracterizaciones que distinguen a cada uno de los campos de los demás. presentado. En el procesamiento de imágenes, la entrada es una imagen y la salida también es una imagen, mientras que en la visión artificial,

Los gráficos por computadora producen datos de imagen a partir de modelos 3D, la visión por computadora a menudo produce modelos 3D a partir de datos de imagen. También hay una tendencia hacia una combinación de las dos disciplinas, por ejemplo, como se explora en la realidad aumentada.

Las siguientes caracterizaciones parecen relevantes pero no deben tomarse como universalmente aceptadas:

El procesamiento de imágenes y el análisis de imágenes tienden a centrarse en imágenes 2D, cómo transformar una imagen en otra, por ejemplo, mediante operaciones de píxeles como la mejora del contraste, operaciones locales como la extracción de bordes o la eliminación de ruido, o transformaciones geométricas como la rotación de la imagen.. Esta caracterización implica que el procesamiento/análisis de imágenes no requiere suposiciones ni produce interpretaciones sobre el contenido de la imagen.
La visión artificial incluye análisis 3D a partir de imágenes 2D. Este analiza la escena 3D proyectada sobre una o varias imágenes, por ejemplo, cómo reconstruir la estructura u otra información sobre la escena 3D a partir de una o varias imágenes. La visión por computadora a menudo se basa en suposiciones más o menos complejas sobre la escena representada en una imagen.
La visión artificial es el proceso de aplicar una gama de tecnologías y métodos para proporcionar inspección automática basada en imágenes, control de procesos y guía de robots en aplicaciones industriales. La visión artificial tiende a centrarse en las aplicaciones, principalmente en la fabricación, p., robots y sistemas basados en visión para la inspección, medición o selección basadas en visión (como la selección de contenedores). Esto implica que las tecnologías de sensores de imágenes y la teoría de control a menudo se integran con el procesamiento de datos de imágenes para controlar un robot y que el procesamiento en tiempo real se enfatiza mediante implementaciones eficientes en hardware y software. También implica que las condiciones externas, como la iluminación, pueden controlarse y, a menudo, están más controladas en la visión artificial que en la visión artificial general, lo que puede permitir el uso de diferentes algoritmos.
También existe un campo llamado formación de imágenes que se centra principalmente en el proceso de producción de imágenes, pero a veces también se ocupa del procesamiento y análisis de imágenes. Por ejemplo, las imágenes médicas incluyen un trabajo sustancial en el análisis de datos de imágenes en aplicaciones médicas.
Finalmente, el reconocimiento de patrones es un campo que utiliza varios métodos para extraer información de señales en general, principalmente basados en enfoques estadísticos y redes neuronales artificiales. Una parte importante de este campo está dedicada a la aplicación de estos métodos a los datos de imagen.

La fotogrametría también se superpone con la visión por computadora, por ejemplo, la estereofotogrametría frente a la visión estéreo por computadora.

Aplicaciones

Las aplicaciones van desde tareas como los sistemas de visión de máquinas industriales que, por ejemplo, inspeccionan las botellas que pasan a toda velocidad en una línea de producción, hasta la investigación de inteligencia artificial y computadoras o robots que pueden comprender el mundo que los rodea. Los campos de visión artificial y visión artificial tienen una superposición significativa. La visión por computadora cubre la tecnología central del análisis de imágenes automatizado que se utiliza en muchos campos. La visión artificial generalmente se refiere a un proceso de combinación de análisis de imágenes automatizado con otros métodos y tecnologías para proporcionar inspección automatizada y guía de robots en aplicaciones industriales. En muchas aplicaciones de visión por computadora, las computadoras están preprogramadas para resolver una tarea en particular, pero los métodos basados en el aprendizaje se están volviendo cada vez más comunes. Los ejemplos de aplicaciones de la visión artificial incluyen sistemas para:

Inspección automática, por ejemplo, en aplicaciones de fabricación;
Ayudar a los seres humanos en las tareas de identificación, por ejemplo, un sistema de identificación de especies;
Procesos de control, por ejemplo, un robot industrial;
Detección de eventos, por ejemplo, para vigilancia visual o conteo de personas, por ejemplo, en la industria de restaurantes;
Interacción, por ejemplo, como la entrada a un dispositivo para la interacción humano-computadora;
Modelado de objetos o entornos, por ejemplo, análisis de imágenes médicas o modelado topográfico;
Navegación, por ejemplo, por un vehículo autónomo o robot móvil;
Organizar información, por ejemplo, para indexar bases de datos de imágenes y secuencias de imágenes.
Seguimiento de superficies o planos en coordenadas 3D para permitir experiencias de Realidad Aumentada.

Medicamento

Uno de los campos de aplicación más destacados es la visión artificial médica, o procesamiento de imágenes médicas, que se caracteriza por la extracción de información a partir de datos de imágenes para diagnosticar a un paciente. Un ejemplo de esto es la detección de tumores, arterioesclerosis u otros cambios malignos; las mediciones de las dimensiones de los órganos, el flujo sanguíneo, etc. son otro ejemplo. También apoya la investigación médica proporcionando nueva información: por ejemplo, sobre la estructura del cerebro o sobre la calidad de los tratamientos médicos. Las aplicaciones de la visión artificial en el área médica también incluyen la mejora de imágenes interpretadas por humanos (imágenes ultrasónicas o imágenes de rayos X, por ejemplo) para reducir la influencia del ruido.

Visión de máquina

Una segunda área de aplicación de la visión artificial es la industria, a veces denominada visión artificial, donde se extrae información con el fin de respaldar un proceso de producción. Un ejemplo es el control de calidad donde los detalles o los productos finales se inspeccionan automáticamente para encontrar defectos. Uno de los campos más frecuentes para dicha inspección es la industria de las obleas, en la que cada una de las obleas se mide e inspecciona en busca de imprecisiones o defectos para evitar que un chip de computadora llegue al mercado de una manera inutilizable. Otro ejemplo es la medición de la posición y la orientación de los detalles que debe recoger un brazo robótico. La visión artificial también se usa mucho en el proceso agrícola para eliminar los alimentos no deseados del material a granel, un proceso llamado clasificación óptica.

Militar

Las aplicaciones militares son probablemente una de las áreas más grandes para la visión artificial. Los ejemplos obvios son la detección de soldados o vehículos enemigos y la guía de misiles. Los sistemas más avanzados para la guía de misiles envían el misil a un área en lugar de a un objetivo específico, y la selección del objetivo se realiza cuando el misil alcanza el área en función de los datos de imagen adquiridos localmente. Los conceptos militares modernos, como la "conciencia del campo de batalla", implican que varios sensores, incluidos los sensores de imágenes, brindan un conjunto rico de información sobre una escena de combate que se puede usar para respaldar decisiones estratégicas. En este caso, se utiliza el procesamiento automático de los datos para reducir la complejidad y fusionar la información de múltiples sensores para aumentar la confiabilidad.

Vehículos autónomos

Una de las áreas de aplicación más nuevas son los vehículos autónomos, que incluyen sumergibles, vehículos terrestres (pequeños robots con ruedas, automóviles o camiones), vehículos aéreos y vehículos aéreos no tripulados (UAV). El nivel de autonomía varía desde vehículos totalmente autónomos (no tripulados) hasta vehículos en los que los sistemas basados en visión artificial ayudan a un conductor o piloto en diversas situaciones. Los vehículos totalmente autónomos suelen utilizar la visión artificial para la navegación, por ejemplo, para saber dónde están o mapear su entorno (SLAM), para detectar obstáculos y/o garantizar automáticamente la seguridad de la navegación. También se puede utilizar para detectar determinados eventos específicos de tareas, p., un UAV en busca de incendios forestales. Ejemplos de sistemas de apoyo son los sistemas de advertencia de obstáculos en automóviles y los sistemas para el aterrizaje autónomo de aeronaves. Varios fabricantes de automóviles han demostrado sistemas para la conducción autónoma de automóviles, pero esta tecnología aún no ha alcanzado un nivel en el que pueda comercializarse. Hay muchos ejemplos de vehículos militares autónomos que van desde misiles avanzados hasta vehículos aéreos no tripulados para misiones de reconocimiento o guía de misiles. La exploración espacial ya se está haciendo con vehículos autónomos que usan visión por computadora, por ejemplo, el Curiosity de la NASA y el rover Yutu-2 de la CNSA.

Retroalimentación táctil

Se están utilizando materiales como el caucho y el silicio para crear sensores que permiten aplicaciones como la detección de microondulaciones y la calibración de manos robóticas. El caucho se puede usar para crear un molde que se puede colocar sobre un dedo, dentro de este molde habría varios medidores de tensión. El molde de dedo y los sensores podrían colocarse encima de una pequeña hoja de goma que contiene una serie de pasadores de goma. Luego, un usuario puede usar el molde de dedo y trazar una superficie. Luego, una computadora puede leer los datos de los medidores de tensión y medir si uno o más de los pines están siendo empujados hacia arriba. Si se empuja un alfiler hacia arriba, la computadora puede reconocerlo como una imperfección en la superficie. Este tipo de tecnología es útil para recibir datos precisos de las imperfecciones en una superficie muy grande.Otra variación de este sensor de molde de dedo son los sensores que contienen una cámara suspendida en silicio. El silicio forma una cúpula alrededor de la parte exterior de la cámara e incrustados en el silicio hay marcadores de puntos que están igualmente espaciados. Luego, estas cámaras se pueden colocar en dispositivos como manos robóticas para permitir que la computadora reciba datos táctiles de alta precisión.

Otras áreas de aplicación incluyen:

Soporte de creación de efectos visuales para cine y transmisión, por ejemplo, seguimiento de cámara (matchmoving).
Vigilancia.
Detección de somnolencia del conductor
Rastreo y conteo de organismos en las ciencias biológicas

Tareas típicas

Cada una de las áreas de aplicación descritas anteriormente emplea una variedad de tareas de visión por computadora; problemas de medición o problemas de procesamiento más o menos bien definidos, que se pueden resolver utilizando una variedad de métodos. A continuación se presentan algunos ejemplos de tareas típicas de visión artificial.

Las tareas de visión por computadora incluyen métodos para adquirir, procesar, analizar y comprender imágenes digitales, y la extracción de datos de alta dimensión del mundo real para producir información numérica o simbólica, por ejemplo, en forma de decisiones. La comprensión en este contexto significa la transformación de imágenes visuales (la entrada de la retina) en descripciones del mundo que pueden interactuar con otros procesos de pensamiento y provocar la acción apropiada. Esta comprensión de la imagen puede verse como la separación de la información simbólica de los datos de la imagen utilizando modelos construidos con la ayuda de la geometría, la física, la estadística y la teoría del aprendizaje.

Reconocimiento

El problema clásico en la visión artificial, el procesamiento de imágenes y la visión artificial es determinar si los datos de la imagen contienen o no algún objeto, característica o actividad específica. En la literatura se describen diferentes variedades del problema de reconocimiento.

Reconocimiento de objetos (también llamado clasificación de objetos): se pueden reconocer uno o varios objetos o clases de objetos preespecificados o aprendidos, generalmente junto con sus posiciones 2D en la imagen o poses 3D en la escena. Blippar, Google Goggles y LikeThat proporcionan programas independientes que ilustran esta funcionalidad.
Identificación: se reconoce una instancia individual de un objeto. Los ejemplos incluyen la identificación del rostro o la huella dactilar de una persona específica, la identificación de dígitos escritos a mano o la identificación de un vehículo específico.
Detección: los datos de la imagen se escanean en busca de una condición específica. Los ejemplos incluyen la detección de posibles células o tejidos anormales en imágenes médicas o la detección de un vehículo en un sistema de peaje automático. La detección basada en cálculos relativamente simples y rápidos a veces se usa para encontrar regiones más pequeñas de datos de imagen interesantes que pueden analizarse más a fondo mediante técnicas más exigentes desde el punto de vista computacional para producir una interpretación correcta.

Actualmente, los mejores algoritmos para este tipo de tareas se basan en redes neuronales convolucionales. El desafío de reconocimiento visual a gran escala de ImageNet proporciona una ilustración de sus capacidades; este es un punto de referencia en la clasificación y detección de objetos, con millones de imágenes y 1000 clases de objetos utilizados en la competencia. El rendimiento de las redes neuronales convolucionales en las pruebas de ImageNet ahora es similar al de los humanos.Los mejores algoritmos todavía tienen problemas con objetos que son pequeños o delgados, como una pequeña hormiga en el tallo de una flor o una persona que sostiene una pluma en la mano. También tienen problemas con las imágenes distorsionadas con filtros (un fenómeno cada vez más común con las cámaras digitales modernas). Por el contrario, ese tipo de imágenes rara vez preocupan a los humanos. Los humanos, sin embargo, tienden a tener problemas con otros asuntos. Por ejemplo, no son buenos para clasificar objetos en clases detalladas, como la raza particular de perro o la especie de ave, mientras que las redes neuronales convolucionales manejan esto con facilidad.

Existen varias tareas especializadas basadas en el reconocimiento, tales como:

Recuperación de imágenes basada en contenido: encontrar todas las imágenes en un conjunto más grande de imágenes que tienen un contenido específico. El contenido se puede especificar de diferentes maneras, por ejemplo, en términos de similitud relativa a una imagen de destino (dame todas las imágenes similares a la imagen X) utilizando técnicas de búsqueda de imágenes inversas, o en términos de criterios de búsqueda de alto nivel proporcionados como entrada de texto (dame todas las imágenes que contengan muchas casas, se tomen durante el invierno y no tengan autos en ellas).

Estimación de pose: estimación de la posición u orientación de un objeto específico en relación con la cámara. Una aplicación de ejemplo para esta técnica sería ayudar a un brazo robótico a recuperar objetos de una cinta transportadora en una situación de línea de ensamblaje o recoger piezas de un contenedor.
Reconocimiento óptico de caracteres (OCR): identificación de caracteres en imágenes de texto impreso o escrito a mano, generalmente con miras a codificar el texto en un formato más adecuado para la edición o la indexación (p. ej., ASCII).
Lectura de códigos 2D: lectura de códigos 2D como matriz de datos y códigos QR.
Reconocimiento facial
Tecnología de reconocimiento de forma (SRT) en sistemas de contador de personas que diferencian a los seres humanos (patrones de cabeza y hombros) de los objetos

Análisis de movimiento

Varias tareas se relacionan con la estimación de movimiento donde se procesa una secuencia de imágenes para producir una estimación de la velocidad en cada punto de la imagen o en la escena 3D, o incluso de la cámara que produce las imágenes. Ejemplos de tales tareas son:

Egomotion: determinación del movimiento rígido 3D (rotación y traslación) de la cámara a partir de una secuencia de imágenes producida por la cámara.
Seguimiento: seguimiento de los movimientos de un conjunto (generalmente) más pequeño de puntos de interés u objetos (p. ej., vehículos, objetos, seres humanos u otros organismos) en la secuencia de imágenes. Esto tiene amplias aplicaciones en la industria, ya que la mayoría de las maquinarias de alto funcionamiento se pueden monitorear de esta manera.
Flujo óptico: para determinar, para cada punto de la imagen, cómo se mueve ese punto en relación con el plano de la imagen, es decir, su movimiento aparente. Este movimiento es el resultado tanto de cómo se mueve el punto 3D correspondiente en la escena como de cómo se mueve la cámara en relación con la escena.

Reconstrucción de escena

Dada una o (típicamente) más imágenes de una escena, o un video, la reconstrucción de la escena tiene como objetivo calcular un modelo 3D de la escena. En el caso más simple, el modelo puede ser un conjunto de puntos 3D. Los métodos más sofisticados producen un modelo de superficie 3D completo. El advenimiento de las imágenes en 3D que no requieren movimiento ni escaneo, y los algoritmos de procesamiento relacionados están permitiendo avances rápidos en este campo. La detección 3D basada en cuadrícula se puede utilizar para adquirir imágenes 3D desde múltiples ángulos. Los algoritmos ahora están disponibles para unir múltiples imágenes 3D en nubes de puntos y modelos 3D.

Restauración de imagen

El objetivo de la restauración de imágenes es eliminar el ruido (ruido del sensor, desenfoque de movimiento, etc.) de las imágenes. El enfoque más simple posible para la eliminación de ruido son varios tipos de filtros, como filtros de paso bajo o filtros medianos. Los métodos más sofisticados asumen un modelo de cómo se ven las estructuras de la imagen local, para distinguirlas del ruido. Al analizar primero los datos de la imagen en términos de estructuras de imagen locales, como líneas o bordes, y luego controlar el filtrado en función de la información local del paso de análisis, generalmente se obtiene un mejor nivel de eliminación de ruido en comparación con los enfoques más simples.

Un ejemplo en este campo es la pintura.

Métodos del sistema

La organización de un sistema de visión artificial depende en gran medida de la aplicación. Algunos sistemas son aplicaciones independientes que resuelven un problema específico de medición o detección, mientras que otros constituyen un subsistema de un diseño más grande que, por ejemplo, también contiene subsistemas para el control de actuadores mecánicos, planificación, bases de datos de información, manutención. interfaces de máquina, etc. La implementación específica de un sistema de visión por computadora también depende de si su funcionalidad está preespecificada o si alguna parte de ella se puede aprender o modificar durante la operación. Muchas funciones son exclusivas de la aplicación. Sin embargo, hay funciones típicas que se encuentran en muchos sistemas de visión artificial.

Adquisición de imágenes: una imagen digital es producida por uno o varios sensores de imagen que, además de varios tipos de cámaras sensibles a la luz, incluyen sensores de distancia, dispositivos de tomografía, radar, cámaras ultrasónicas, etc. Dependiendo del tipo de sensor, el los datos de imagen resultantes son una imagen 2D ordinaria, un volumen 3D o una secuencia de imágenes. Los valores de píxel suelen corresponder a la intensidad de la luz en una o varias bandas espectrales (imágenes grises o imágenes en color), pero también pueden estar relacionados con diversas medidas físicas, como la profundidad, la absorción o la reflectancia de ondas sónicas o electromagnéticas, o la resonancia magnética nuclear.
Preprocesamiento: antes de que se pueda aplicar un método de visión por computadora a los datos de la imagen para extraer alguna información específica, generalmente es necesario procesar los datos para garantizar que satisfagan ciertas suposiciones implícitas en el método. Los ejemplos son:
- Re-muestreo para asegurar que el sistema de coordenadas de la imagen sea correcto.
- Reducción de ruido para asegurar que el ruido del sensor no introduzca información falsa.
- Mejora del contraste para garantizar que se pueda detectar la información relevante.
- Escala la representación del espacio para mejorar las estructuras de la imagen a escalas localmente apropiadas.
Extracción de características: las características de la imagen en varios niveles de complejidad se extraen de los datos de la imagen. Ejemplos típicos de tales características son:
- Líneas, bordes y crestas.
- Puntos de interés localizados como esquinas, manchas o puntos.

Las características más complejas pueden estar relacionadas con la textura, la forma o el movimiento.

Detección/segmentación: en algún momento del procesamiento, se toma una decisión sobre qué puntos o regiones de la imagen son relevantes para el procesamiento posterior. Los ejemplos son:
- Selección de un conjunto específico de puntos de interés.
- Segmentación de una o varias regiones de la imagen que contienen un objeto de interés específico.
- Segmentación de la imagen en arquitectura de escena anidada que comprende primer plano, grupos de objetos, objetos individuales o partes de objetos sobresalientes (también conocida como jerarquía de escena de taxón espacial), mientras que la prominencia visual a menudo se implementa como atención espacial y temporal.
- Segmentación o cosegmentación de uno o varios videos en una serie de máscaras de primer plano por cuadro, manteniendo su continuidad semántica temporal.
Procesamiento de alto nivel: en este paso, la entrada suele ser un pequeño conjunto de datos, por ejemplo, un conjunto de puntos o una región de la imagen que se supone que contiene un objeto específico. El procesamiento restante trata, por ejemplo:
- Verificación de que los datos satisfacen los supuestos basados en el modelo y específicos de la aplicación.
- Estimación de parámetros específicos de la aplicación, como la pose o el tamaño del objeto.
- Reconocimiento de imágenes: clasificación de un objeto detectado en diferentes categorías.
- Registro de imágenes: comparación y combinación de dos vistas diferentes del mismo objeto.
Toma de decisiones Tomar la decisión final requerida para la solicitud, por ejemplo:
- Pasa/falla en aplicaciones de inspección automática.
- Coincidencia/no coincidencia en aplicaciones de reconocimiento.
- Marcar para una mayor revisión humana en aplicaciones médicas, militares, de seguridad y de reconocimiento.

Sistemas de comprensión de imágenes

Los sistemas de comprensión de imágenes (IUS) incluyen tres niveles de abstracción de la siguiente manera: el nivel bajo incluye primitivas de imagen como bordes, elementos de textura o regiones; el nivel intermedio incluye linderos, superficies y volúmenes; y alto nivel incluye objetos, escenas o eventos. Muchos de estos requisitos son completamente temas para futuras investigaciones.

Los requisitos de representación en el diseño de IUS para estos niveles son: representación de conceptos prototípicos, organización de conceptos, conocimiento espacial, conocimiento temporal, escalado y descripción por comparación y diferenciación.

Mientras que la inferencia se refiere al proceso de derivar hechos nuevos, no explícitamente representados, a partir de hechos actualmente conocidos, el control se refiere al proceso que selecciona cuál de las muchas técnicas de inferencia, búsqueda y coincidencia se debe aplicar en una etapa particular del procesamiento. Los requisitos de inferencia y control para IUS son: búsqueda y activación de hipótesis, emparejamiento y prueba de hipótesis, generación y uso de expectativas, cambio y enfoque de atención, certeza y fuerza de creencia, inferencia y satisfacción de objetivos.

Hardware

Hay muchos tipos de sistemas de visión por computadora; sin embargo, todos ellos contienen estos elementos básicos: una fuente de alimentación, al menos un dispositivo de adquisición de imágenes (cámara, ccd, etc.), un procesador y cables de control y comunicación o algún tipo de mecanismo de interconexión inalámbrica. Además, un práctico sistema de visión contiene software, así como una pantalla para monitorear el sistema. Los sistemas de visión para espacios interiores, como la mayoría de los industriales, contienen un sistema de iluminación y pueden colocarse en un entorno controlado. Además, un sistema completo incluye muchos accesorios, como soportes de cámara, cables y conectores.

La mayoría de los sistemas de visión por computadora usan cámaras de luz visible que ven una escena de forma pasiva a velocidades de cuadro de 60 cuadros por segundo como máximo (generalmente mucho más lento).

Algunos sistemas de visión por computadora utilizan hardware de adquisición de imágenes con iluminación activa o algo que no sea luz visible o ambos, como escáneres 3D de luz estructurada, cámaras termográficas, generadores de imágenes hiperespectrales, imágenes de radar, escáneres lidar, imágenes de resonancia magnética, sonar de barrido lateral., sonar de apertura sintética, etc. Dicho hardware captura "imágenes" que luego se procesan a menudo utilizando los mismos algoritmos de visión por computadora que se usan para procesar imágenes de luz visible.

Mientras que los sistemas tradicionales de transmisión y video de consumo funcionan a una velocidad de 30 fotogramas por segundo, los avances en el procesamiento de señales digitales y el hardware de gráficos de consumo han hecho posible la adquisición, el procesamiento y la visualización de imágenes de alta velocidad para sistemas en tiempo real del orden de cientos a miles de fotogramas por segundo. Para aplicaciones en robótica, los sistemas de video rápidos en tiempo real son de vital importancia y, a menudo, pueden simplificar el procesamiento necesario para ciertos algoritmos. Cuando se combina con un proyector de alta velocidad, la adquisición rápida de imágenes permite realizar la medición 3D y el seguimiento de características.

Los sistemas de visión egocéntricos están compuestos por una cámara portátil que automáticamente toma fotografías desde una perspectiva en primera persona.

A partir de 2016, las unidades de procesamiento de visión emergen como una nueva clase de procesador, para complementar las CPU y las unidades de procesamiento de gráficos (GPU) en esta función.

Contenido relacionado

Más resultados...