Percepción visual
La percepción visual es la capacidad de interpretar el entorno circundante a través de la visión fotópica (visión diurna), la visión del color, la visión escotópica (visión nocturna) y la visión mesópica (visión crepuscular), utilizando la luz del espectro visible reflejada por los objetos del entorno. Esto es diferente de la agudeza visual, que se refiere a la claridad con la que ve una persona (por ejemplo, "visión 20/20"). Una persona puede tener problemas con el procesamiento de la percepción visual incluso si tiene una visión 20/20.
La percepción resultante también se conoce como visión, vista o vista (adjetivos visual, óptico y ocular, respectivamente). Los diversos componentes fisiológicos involucrados en la visión se conocen colectivamente como el sistema visual y son el foco de muchas investigaciones en lingüística, psicología, ciencia cognitiva, neurociencia y biología molecular, denominadas colectivamente ciencia de la visión.
Sistema visual
En los seres humanos y otros mamíferos, la luz entra en el ojo a través de la córnea y el cristalino la enfoca sobre la retina, una membrana sensible a la luz situada en la parte posterior del ojo. La retina sirve como transductor para la conversión de la luz en señales neuronales. Esta transducción se logra mediante células fotorreceptoras especializadas de la retina, también conocidas como bastones y conos, que detectan los fotones de luz y responden produciendo impulsos neurales. Estas señales son transmitidas por el nervio óptico, desde la retina aguas arriba hasta los ganglios centrales del cerebro. El núcleo geniculado lateral, que transmite la información a la corteza visual. Las señales de la retina también viajan directamente desde la retina hasta el colículo superior.
El núcleo geniculado lateral envía señales a la corteza visual primaria, también llamada corteza estriada. La corteza extraestriada, también llamada corteza de asociación visual, es un conjunto de estructuras corticales que reciben información de la corteza estriada, así como entre sí. Descripciones recientes de la corteza de asociación visual describen una división en dos vías funcionales, una vía ventral y otra dorsal. Esta conjetura se conoce como la hipótesis de las dos corrientes.
En general, se cree que el sistema visual humano es sensible a la luz visible en el rango de longitudes de onda entre 370 y 730 nanómetros (0,00000037 a 0,00000073 metros) del espectro electromagnético. Sin embargo, algunas investigaciones sugieren que los humanos pueden percibir la luz en longitudes de onda de hasta 340 nanómetros (UV-A), especialmente los jóvenes. En condiciones óptimas, estos límites de percepción humana pueden extenderse de 310 nm (UV) a 1100 nm (NIR).
Estudiar
El principal problema de la percepción visual es que lo que la gente ve no es simplemente una traducción de los estímulos retinianos (es decir, la imagen en la retina). Por lo tanto, las personas interesadas en la percepción se han esforzado durante mucho tiempo por explicar qué hace el procesamiento visual para crear lo que realmente se ve.
Estudios tempranos
Había dos escuelas griegas antiguas importantes, que proporcionaban una explicación primitiva de cómo funciona la visión.
La primera fue la "teoría de la emisión" de la visión, que sostenía que la visión ocurre cuando los rayos emanan de los ojos y son interceptados por objetos visuales. Si un objeto se veía directamente, era por medio de "rayos" que salían de los ojos y caían de nuevo sobre el objeto. Sin embargo, también se veía una imagen refractada por medio de "rayos", que salía de los ojos, atravesaba el aire y, después de la refracción, caía sobre el objeto visible que se veía como resultado del movimiento de los rayos. del ojo Esta teoría fue defendida por eruditos que eran seguidores de la Óptica de Euclides y la Óptica de Ptolomeo.
La segunda escuela abogó por el llamado enfoque de "intromisión", que considera que la visión proviene de algo que entra en los ojos representativo del objeto. Con su principal propagador, Aristóteles (De Sensu), y sus seguidores, esta teoría parece tener algún contacto con las teorías modernas de lo que realmente es la visión, pero se quedó solo en una especulación sin ningún fundamento experimental. (En la Inglaterra del siglo XVIII, Isaac Newton, John Locke y otros llevaron adelante la teoría de la intromisión de la visión al insistir en que la visión involucraba un proceso en el cual los rayos, compuestos de materia corpórea real, emanaban de los objetos vistos y entraban en la mente del vidente. sensorio a través de la apertura del ojo.)
Ambas escuelas de pensamiento se basaron en el principio de que "lo similar solo se conoce por lo similar" y, por lo tanto, en la noción de que el ojo estaba compuesto de algún "fuego interno" que interactuaba con el "fuego externo" de la luz visible y hacía posible la visión. Platón hace esta afirmación en su diálogo Timeo (45b y 46b), al igual que Empédocles (como lo informa Aristóteles en su De Sensu, DK frag. B17).
Alhazen (965 - c. 1040) llevó a cabo muchas investigaciones y experimentos sobre la percepción visual, amplió el trabajo de Ptolomeo sobre la visión binocular y comentó los trabajos anatómicos de Galeno. Fue la primera persona en explicar que la visión ocurre cuando la luz rebota en un objeto y luego se dirige a los ojos.
Se cree que Leonardo da Vinci (1452-1519) fue el primero en reconocer las cualidades ópticas especiales del ojo. Escribió: "La función del ojo humano... fue descrita por una gran cantidad de autores de cierta manera. Pero descubrí que era completamente diferente". Su principal hallazgo experimental fue que solo hay una visión distinta y clara en la línea de visión, la línea óptica que termina en la fóvea. Aunque no usó estas palabras literalmente, en realidad es el padre de la distinción moderna entre visión foveal y periférica.
Isaac Newton (1642–1726/27) fue el primero en descubrir a través de la experimentación, al aislar colores individuales del espectro de luz que pasaba a través de un prisma, que el color de los objetos percibido visualmente aparecía debido al carácter de la luz que reflejaban los objetos, y que estos colores divididos no podían cambiarse a ningún otro color, lo cual era contrario a las expectativas científicas de la época.
Inferencia inconsciente
Hermann von Helmholtz a menudo se le atribuye el primer estudio moderno de la percepción visual. Helmholtz examinó el ojo humano y concluyó que era incapaz de producir una imagen de alta calidad. La información insuficiente parecía hacer imposible la visión. Por lo tanto, concluyó que la visión solo podía ser el resultado de alguna forma de "inferencia inconsciente", acuñando ese término en 1867. Propuso que el cerebro estaba haciendo suposiciones y conclusiones a partir de datos incompletos, basados en experiencias previas.
La inferencia requiere una experiencia previa del mundo.
Ejemplos de supuestos bien conocidos, basados en la experiencia visual, son:
- la luz viene de arriba
- los objetos normalmente no se ven desde abajo
- las caras se ven (y se reconocen) erguidas.
- los objetos más cercanos pueden bloquear la vista de los objetos más distantes, pero no al revés
- las figuras (es decir, los objetos en primer plano) tienden a tener bordes convexos
El estudio de las ilusiones visuales (casos en los que el proceso de inferencia sale mal) ha arrojado mucha luz sobre el tipo de suposiciones que hace el sistema visual.
Otro tipo de hipótesis de inferencia inconsciente (basada en probabilidades) ha sido revivida recientemente en los llamados estudios bayesianos de percepción visual. Los defensores de este enfoque consideran que el sistema visual realiza algún tipo de inferencia bayesiana para derivar una percepción de los datos sensoriales. Sin embargo, no está claro cómo los defensores de este punto de vista derivan, en principio, las probabilidades relevantes requeridas por la ecuación bayesiana. Los modelos basados en esta idea se han utilizado para describir varias funciones de percepción visual, como la percepción del movimiento, la percepción de la profundidad y la percepción de la figura y el fondo. La "teoría de la percepción totalmente empírica" es un enfoque relacionado y más nuevo que racionaliza la percepción visual sin invocar explícitamente los formalismos bayesianos.
Teoría de la gestalt
Los psicólogos de la Gestalt que trabajaron principalmente en las décadas de 1930 y 1940 plantearon muchas de las preguntas de investigación que estudian los científicos de la visión en la actualidad.
Las Leyes de Organización de la Gestalt han guiado el estudio de cómo las personas perciben los componentes visuales como patrones organizados o totalidades, en lugar de muchas partes diferentes. "Gestalt" es una palabra alemana que se traduce parcialmente como "configuración o patrón" junto con "estructura total o emergente". De acuerdo con esta teoría, hay ocho factores principales que determinan cómo el sistema visual agrupa automáticamente los elementos en patrones: proximidad, similitud, cierre, simetría, destino común (es decir, movimiento común), continuidad y buena Gestalt (patrón que es regular, sencillo y ordenado) y Experiencia Pasada.
Análisis del movimiento ocular
Durante la década de 1960, el desarrollo técnico permitió el registro continuo del movimiento de los ojos durante la lectura, en la visualización de imágenes y, más tarde, en la resolución de problemas visuales, y cuando se dispuso de cámaras con auriculares, también durante la conducción.
La imagen de la derecha muestra lo que puede suceder durante los primeros dos segundos de inspección visual. Mientras que el fondo está desenfocado, representando la visión periférica, el primer movimiento ocular se dirige a las botas del hombre (solo porque están muy cerca de la fijación inicial y tienen un contraste razonable). Los movimientos oculares cumplen la función de selección atencional, es decir, para seleccionar una fracción de todas las entradas visuales para un procesamiento más profundo por parte del cerebro.
Las siguientes fijaciones saltan de cara en cara. Incluso podrían permitir comparaciones entre caras.
Se puede concluir que la cara del icono es un icono de búsqueda muy atractivo dentro del campo de visión periférico. La visión foveal añade información detallada a la primera impresión periférica.
También se puede señalar que existen diferentes tipos de movimientos oculares: movimientos oculares de fijación (microsacádicas, deriva ocular y temblor), movimientos de vergencia, movimientos sacádicos y movimientos de persecución. Las fijaciones son puntos comparablemente estáticos donde descansa el ojo. Sin embargo, el ojo nunca está completamente quieto, sino que la posición de la mirada se desvía. Estas desviaciones se corrigen a su vez mediante microsacadas, movimientos oculares de fijación muy pequeños. Los movimientos de vergencia involucran la cooperación de ambos ojos para permitir que una imagen caiga en la misma área de ambas retinas. Esto da como resultado una sola imagen enfocada. Los movimientos sacádicos son el tipo de movimiento ocular que hace saltos de una posición a otra y se usa para escanear rápidamente una escena/imagen en particular. Por último,El movimiento de persecución es un movimiento ocular suave y se utiliza para seguir objetos en movimiento.
Reconocimiento de rostros y objetos
Existe evidencia considerable de que el reconocimiento de rostros y objetos se logra mediante sistemas distintos. Por ejemplo, los pacientes prosopagnósicos muestran déficits en el procesamiento de la cara, pero no de objetos, mientras que los pacientes agnósticos de objetos (en particular, el paciente CK) muestran déficits en el procesamiento de objetos con procesamiento facial preservado. Desde el punto de vista del comportamiento, se ha demostrado que las caras, pero no los objetos, están sujetos a efectos de inversión, lo que lleva a afirmar que las caras son "especiales". Además, el procesamiento de rostros y objetos recluta distintos sistemas neuronales. En particular, algunos han argumentado que la aparente especialización del cerebro humano para el procesamiento de rostros no refleja una verdadera especificidad de dominio, sino más bien un proceso más general de discriminación a nivel de expertos dentro de una clase determinada de estímulo.aunque esta última afirmación es objeto de un debate sustancial. Usando fMRI y electrofisiología, Doris Tsao y sus colegas describieron regiones cerebrales y un mecanismo para el reconocimiento facial en monos macacos.
La corteza inferotemporal tiene un papel clave en la tarea de reconocimiento y diferenciación de diferentes objetos. Un estudio del MIT muestra que subconjuntos de regiones de la corteza de TI están a cargo de diferentes objetos. Al cerrar selectivamente la actividad neuronal de muchas áreas pequeñas de la corteza, el animal se vuelve alternativamente incapaz de distinguir entre ciertos pares particulares de objetos. Esto muestra que la corteza TI está dividida en regiones que responden a características visuales diferentes y particulares. De manera similar, ciertos parches y regiones particulares de la corteza están más involucrados en el reconocimiento de rostros que en el reconocimiento de otros objetos.
Algunos estudios tienden a mostrar que más que la imagen global uniforme, algunas características particulares y regiones de interés de los objetos son elementos clave cuando el cerebro necesita reconocer un objeto en imagen. De esta manera, la visión humana es vulnerable a pequeños cambios particulares en la imagen, como la alteración de los bordes del objeto, la modificación de la textura o cualquier pequeño cambio en una región crucial de la imagen.
Los estudios de personas cuya vista ha sido restaurada después de una ceguera prolongada revelan que no necesariamente pueden reconocer objetos y rostros (a diferencia del color, el movimiento y las formas geométricas simples). Algunos plantean la hipótesis de que ser ciego durante la infancia impide que una parte del sistema visual necesaria para estas tareas de nivel superior se desarrolle adecuadamente. La creencia general de que un período crítico dura hasta los 5 o 6 años fue desafiada por un estudio de 2007 que encontró que los pacientes mayores podrían mejorar estas habilidades con años de exposición.
Enfoques cognitivos y computacionales
En la década de 1970, David Marr desarrolló una teoría de la visión de varios niveles, que analizaba el proceso de la visión en diferentes niveles de abstracción. Para centrarse en la comprensión de problemas específicos de la visión, identificó tres niveles de análisis: el computacional, el algorítmico y el de implementación. Muchos científicos de la visión, incluido Tomaso Poggio, han adoptado estos niveles de análisis y los han empleado para caracterizar aún más la visión desde una perspectiva computacional.
El nivel computacional aborda, con un alto nivel de abstracción, los problemas que debe superar el sistema visual. El nivel algorítmico intenta identificar la estrategia que se puede utilizar para resolver estos problemas. Finalmente, el nivel de implementación intenta explicar cómo se realizan las soluciones a estos problemas en los circuitos neuronales.
Marr sugirió que es posible investigar la visión en cualquiera de estos niveles de forma independiente. Marr describió la visión como procedente de una matriz visual bidimensional (en la retina) a una descripción tridimensional del mundo como resultado. Sus etapas de visión incluyen:
- Un boceto 2D o primario de la escena, basado en la extracción de características de los componentes fundamentales de la escena, incluidos bordes, regiones, etc. Tenga en cuenta la similitud del concepto con un boceto a lápiz dibujado rápidamente por un artista como una impresión.
- Un boceto de 2 1 ⁄ 2 D de la escena, donde se reconocen las texturas, etc. Tenga en cuenta la similitud en el concepto con el escenario en el dibujo donde un artista resalta o sombrea áreas de una escena para proporcionar profundidad.
- Un modelo 3D, donde la escena se visualiza en un mapa tridimensional continuo.
El boceto de 2 1 ⁄ 2 D de Marr supone que se construye un mapa de profundidad y que este mapa es la base de la percepción de formas en 3D. Sin embargo, tanto la percepción estereoscópica como la pictórica, así como la visualización monocular, dejan claro que la percepción de la forma 3D precede a la percepción de la profundidad de los puntos y no se basa en ella. No está claro cómo se podría, en principio, construir un mapa de profundidad preliminar, ni cómo esto abordaría la cuestión de la organización o agrupación de figuras y fondos. El papel de las restricciones organizativas perceptivas, pasadas por alto por Marr, en la producción de percepciones de forma 3D a partir de objetos 3D vistos binocularmente se ha demostrado empíricamente para el caso de objetos de alambre 3D, por ejemplo, para una discusión más detallada, consulte Pizlo (2008).
Un marco alternativo más reciente propone que la visión se compone en lugar de las siguientes tres etapas: codificación, selección y decodificación. La codificación consiste en muestrear y representar entradas visuales (p. ej., representar entradas visuales como actividades neuronales en la retina). La selección, o selección atencional, consiste en seleccionar una pequeña fracción de la información de entrada para su posterior procesamiento, por ejemplo, cambiando la mirada a un objeto o ubicación visual para procesar mejor las señales visuales en esa ubicación. La decodificación es inferir o reconocer las señales de entrada seleccionadas, por ejemplo, reconocer el objeto en el centro de la mirada como la cara de alguien. En este marco,la selección atencional comienza en la corteza visual primaria a lo largo de la vía visual, y las restricciones atencionales imponen una dicotomía entre los campos visuales central y periférico para el reconocimiento o la decodificación visual.
Transducción
La transducción es el proceso a través del cual la energía de los estímulos ambientales se convierte en actividad neuronal. La retina contiene tres capas de células diferentes: capa de fotorreceptores, capa de células bipolares y capa de células ganglionares. La capa de fotorreceptores donde se produce la transducción está más alejada del cristalino. Contiene fotorreceptores con diferentes sensibilidades llamados bastones y conos. Los conos son responsables de la percepción del color y son de tres tipos distintos etiquetados como rojo, verde y azul. Los bastones son los responsables de la percepción de los objetos con poca luz.Los fotorreceptores contienen en su interior una sustancia química especial llamada fotopigmento, que está incrustada en la membrana de las láminas; una sola vara humana contiene aproximadamente 10 millones de ellos. Las moléculas de fotopigmento constan de dos partes: una opsina (una proteína) y retinal (un lípido).Hay 3 fotopigmentos específicos (cada uno con su propia sensibilidad de longitud de onda) que responden en todo el espectro de luz visible. Cuando las longitudes de onda apropiadas (aquellas a las que es sensible el fotopigmento específico) golpean el fotorreceptor, el fotopigmento se divide en dos, lo que envía una señal a la capa de células bipolares, que a su vez envía una señal a las células ganglionares, cuyos axones forman el nervio óptico y transmite la información al cerebro. Si falta un tipo de cono en particular o es anormal, debido a una anomalía genética, se producirá una deficiencia en la visión del color, a veces llamada daltonismo.
Proceso oponente
La transducción involucra mensajes químicos enviados desde los fotorreceptores a las células bipolares a las células ganglionares. Varios fotorreceptores pueden enviar su información a una célula ganglionar. Hay dos tipos de células ganglionares: rojas/verdes y amarillas/azules. Estas neuronas se activan constantemente, incluso cuando no están estimuladas. El cerebro interpreta diferentes colores (y con mucha información, una imagen) cuando se altera la velocidad de activación de estas neuronas. La luz roja estimula el cono rojo, que a su vez estimula la célula ganglionar roja/verde. Asimismo, la luz verde estimula el cono verde, que estimula la célula ganglionar verde/roja, y la luz azul estimula el cono azul, que estimula la célula ganglionar azul/amarilla. La tasa de activación de las células ganglionares aumenta cuando recibe la señal de un cono y disminuye (inhibe) cuando recibe la señal del otro cono. El primer color en el nombre de la célula ganglionar es el color que la excita y el segundo es el color que la inhibe. es decir: un cono rojo excitaría la célula ganglionar roja/verde y el cono verde inhibiría la célula ganglionar roja/verde. Este es un proceso oponente. Si la tasa de disparo de una célula ganglionar roja/verde aumenta, el cerebro sabrá que la luz es roja, si la tasa disminuye, el cerebro sabrá que el color de la luz es verde.
Percepción visual artificial
Las teorías y observaciones de la percepción visual han sido la principal fuente de inspiración para la visión artificial (también llamada visión artificial o visión computacional). Las estructuras especiales de hardware y los algoritmos de software brindan a las máquinas la capacidad de interpretar las imágenes provenientes de una cámara o un sensor.
Por ejemplo, el Toyota 86 2022 utiliza el sistema Subaru EyeSight para la tecnología de asistencia al conductor.
Contenido relacionado
Cognitivismo (psicología)
Comunicación No-Violenta
Psicología histórico-cultural