Condicionamiento operante

Compartir Imprimir Citar

Tipo de proceso de aprendizaje asociativo para la modificación conductual

El condicionamiento operante, también llamado condicionamiento instrumental, es un proceso de aprendizaje donde se modifican las conductas mediante la asociación de estímulos con refuerzo o castigo. En él, los operantes, comportamientos que afectan el entorno de uno, están condicionados para ocurrir o no según las consecuencias ambientales del comportamiento.

El condicionamiento operante se originó en el trabajo de Edward Thorndike, cuya ley del efecto teorizó que los comportamientos surgen como resultado de si sus consecuencias son satisfactorias o incómodas. En el siglo XX, los psicólogos conductistas estudiaron el condicionamiento operante, quienes creían que gran parte, si no todo, de la mente y el comportamiento se puede explicar como resultado del condicionamiento ambiental. Los refuerzos son estímulos ambientales que aumentan los comportamientos, mientras que los castigos son estímulos que disminuyen los comportamientos. Ambos tipos de estímulos se pueden clasificar en estímulos positivos y negativos, que implican, respectivamente, la adición o eliminación de estímulos ambientales.

El condicionamiento operante difiere del condicionamiento clásico, que es un proceso en el que los estímulos se combinan con eventos biológicamente significativos para producir comportamientos involuntarios y reflejos. Por el contrario, el condicionamiento operante es voluntario y depende de las consecuencias de una conducta.

El estudio del aprendizaje animal en el siglo XX estuvo dominado por el análisis de estos dos tipos de aprendizaje, y aún se encuentran en el centro del análisis del comportamiento. También se han aplicado al estudio de la psicología social, ayudando a esclarecer ciertos fenómenos como el efecto del falso consenso.

Acondicionamiento operativo

Extinción

Reforzamiento
Aumenta el comportamiento

Castigo
Disminuir el comportamiento

Fortalecimiento positivo
Añadir estímulo appetitivo
siguiente comportamiento correcto

Refuerzo negativo

Castigos positivos
Añadir estímulo nocivo
comportamiento

Castigo negativo
Remove appetitive stimulus
comportamiento

Escape
Remove noxious estímulo
siguiente comportamiento correcto

Evitación activa
El comportamiento evita el estímulo nocivo

Historia

Edward Lee Thorndike en 1912

Ley del efecto de Thorndike

El condicionamiento operante, a veces llamado aprendizaje instrumental, fue estudiado extensamente por primera vez por Edward L. Thorndike (1874-1949), quien observó el comportamiento de los gatos que intentaban escapar de las cajas de rompecabezas hechas en casa. Un gato podía escapar de la caja con una simple respuesta, como tirar de una cuerda o empujar un poste, pero cuando se les obligaba por primera vez, los gatos tardaban mucho en salir. Con ensayos repetidos, las respuestas ineficaces ocurrieron con menos frecuencia y las respuestas exitosas ocurrieron con mayor frecuencia, por lo que los gatos escaparon cada vez más rápido. Thorndike generalizó este hallazgo en su ley del efecto, que establece que los comportamientos seguidos de consecuencias satisfactorias tienden a repetirse y es menos probable que se repitan aquellos que producen consecuencias desagradables. En resumen, algunas consecuencias fortalecen el comportamiento y algunas consecuencias debilitan el comportamiento. Al trazar el tiempo de escape contra el número de prueba, Thorndike produjo las primeras curvas de aprendizaje de animales conocidas a través de este procedimiento.

Los humanos parecen aprender muchos comportamientos simples a través del tipo de proceso estudiado por Thorndike, ahora llamado condicionamiento operante. Es decir, las respuestas se retienen cuando conducen a un resultado exitoso y se descartan cuando no lo hacen, o cuando producen efectos aversivos. Por lo general, esto sucede sin que ningún "maestro" lo planee, pero los padres han utilizado el condicionamiento operante para enseñar a sus hijos durante miles de años.

B. F. Skinner

B.F. Skinner en el Departamento de Psicología de Harvard, alrededor de 1950

B. F. Se hace referencia a Skinner (1904-1990) como el padre del condicionamiento operante, y su trabajo se cita con frecuencia en relación con este tema. Su libro de 1938 "El comportamiento de los organismos: un análisis experimental", inició su estudio de toda la vida del condicionamiento operante y su aplicación al comportamiento humano y animal. Siguiendo las ideas de Ernst Mach, Skinner rechazó la referencia de Thorndike a estados mentales no observables como la satisfacción, construyendo su análisis sobre el comportamiento observable y sus consecuencias igualmente observables.

Skinner creía que el condicionamiento clásico era demasiado simplista para describir algo tan complejo como el comportamiento humano. El condicionamiento operante, en su opinión, describía mejor el comportamiento humano al examinar las causas y los efectos del comportamiento intencional.

Para implementar su enfoque empírico, Skinner inventó la cámara de condicionamiento operante, o "Caja de Skinner", en la que sujetos como palomas y ratas estaban aislados y podían ser expuestos a estímulos cuidadosamente controlados. A diferencia de la caja del rompecabezas de Thorndike, este arreglo permitía al sujeto dar una o dos respuestas simples y repetibles, y la tasa de tales respuestas se convirtió en la principal medida de comportamiento de Skinner. Otro invento, el registrador acumulativo, producía un registro gráfico a partir del cual se podían estimar estas tasas de respuesta. Estos registros fueron los datos primarios que Skinner y sus colegas usaron para explorar los efectos sobre la tasa de respuesta de varios programas de refuerzo. Un programa de reforzamiento puede definirse como "cualquier procedimiento que entrega refuerzo a un organismo de acuerdo con alguna regla bien definida". Los efectos de los horarios se convirtieron, a su vez, en los hallazgos básicos a partir de los cuales Skinner desarrolló su explicación del condicionamiento operante. También se basó en muchas observaciones menos formales del comportamiento humano y animal.

Muchos de los escritos de Skinner están dedicados a la aplicación del condicionamiento operante al comportamiento humano. En 1948 publicó Walden Two, un relato ficticio de una comunidad pacífica, feliz y productiva organizada en torno a sus principios condicionantes. En 1957, Skinner publicó Comportamiento verbal, que amplió los principios del condicionamiento operante al lenguaje, una forma de comportamiento humano que previamente había sido analizada de manera bastante diferente por lingüistas y otros. Skinner definió nuevas relaciones funcionales como "mandos" y "tactos" para capturar algunos elementos esenciales del lenguaje, pero no introdujo nuevos principios, tratando el comportamiento verbal como cualquier otro comportamiento controlado por sus consecuencias, que incluían las reacciones de la audiencia del hablante.

Conceptos y procedimientos

Orígenes de la conducta operante: variabilidad operante

Se dice que el comportamiento operante es "emitido"; es decir, inicialmente no es provocada por ningún estímulo en particular. Por lo tanto, uno puede preguntarse por qué sucede en primer lugar. La respuesta a esta pregunta es como la respuesta de Darwin a la pregunta sobre el origen de un "nuevo" estructura corporal, a saber, variación y selección. De manera similar, el comportamiento de un individuo varía de un momento a otro, en aspectos tales como los movimientos específicos involucrados, la cantidad de fuerza aplicada o el momento de la respuesta. Las variaciones que conducen al reforzamiento se fortalecen y, si el reforzamiento es constante, la conducta tiende a permanecer estable. Sin embargo, la propia variabilidad del comportamiento puede alterarse mediante la manipulación de ciertas variables.

Modificación de la conducta operante: refuerzo y castigo

El refuerzo y el castigo son las herramientas centrales a través de las cuales se modifica el comportamiento operante. Estos términos se definen por su efecto sobre el comportamiento. Cualquiera puede ser positivo o negativo.

Fortalecimiento positivo y refuerzo negativo aumentar la probabilidad de un comportamiento que siguen, mientras castigo positivo y castigo negativo reducir la probabilidad de comportamiento que siguen.

Otro procedimiento se llama "extinción".

Extinción ocurre cuando un comportamiento previamente reforzado ya no está reforzado con refuerzo positivo o negativo. Durante la extinción el comportamiento se vuelve menos probable. El refuerzo ocasional puede conducir a un retraso aún más largo antes de la extinción del comportamiento debido al factor de aprendizaje de repetidos casos siendo necesarios para obtener refuerzo, cuando se compara con el refuerzo que se da en cada oportunidad antes de la extinción.

Hay un total de cinco consecuencias.

Fortalecimiento positivo ocurre cuando un comportamiento (respuesta) es gratificante o el comportamiento es seguido por otro estímulo que es gratificante, aumentando la frecuencia de ese comportamiento. Por ejemplo, si una rata en una caja Skinner recibe comida cuando presiona una palanca, su tasa de prensado subirá. Este procedimiento generalmente se llama simplemente refuerzo.
Refuerzo negativo (a.k.a. escape) ocurre cuando un comportamiento (respuesta) es seguido por la eliminación de un estímulo aversivo, aumentando así la frecuencia del comportamiento original. En el experimento Skinner Box, el estímulo aversivo podría ser un ruido fuerte continuamente dentro de la caja; el refuerzo negativo ocurriría cuando la rata presiona una palanca para apagar el ruido.
Castigos positivos (también denominado "castigo por estimulación contingente") ocurre cuando un comportamiento (respuesta) es seguido por un estímulo aversivo. Ejemplo: dolor de una nalgada, que a menudo resultaría en una disminución de ese comportamiento. Castigos positivos es un término confuso, por lo que el procedimiento generalmente se conoce como "castigo".
Castigo negativo (penalidad) (también llamado "castigo por retiro contingente") ocurre cuando un comportamiento (respuesta) es seguido por la eliminación de un estímulo. Ejemplo: quitar el juguete de un niño siguiendo un comportamiento indeseado por él/ella, lo que daría lugar a una disminución del comportamiento indeseable.
Extinción ocurre cuando un comportamiento (respuesta) que anteriormente se había reforzado ya no es eficaz. Ejemplo: una rata se da primero comida muchas veces para presionar una palanca, hasta que el experimentador ya no da comida como recompensa. La rata normalmente presiona la palanca menos a menudo y luego se detiene. La palanca presionada sería entonces "extinguida".

Es importante tener en cuenta que no se habla de los actores (por ejemplo, una rata) como reforzados, castigados o extinguidos; son las acciones las que se refuerzan, sancionan o extinguen. Refuerzo, castigo y extinción no son términos cuyo uso esté restringido al laboratorio. Las consecuencias que ocurren naturalmente también pueden reforzar, castigar o extinguir el comportamiento y no siempre se planean o entregan a propósito.

Horarios de refuerzo

Los programas de refuerzo son reglas que controlan la entrega del refuerzo. Las reglas especifican el tiempo en que el refuerzo estará disponible, o el número de respuestas que se darán, o ambos. Muchas reglas son posibles, pero las siguientes son las más básicas y de uso común

Horario de intervalo fijo: El refuerzo se produce después de la primera respuesta después de que haya transcurrido un tiempo fijo después del refuerzo anterior. Este cronograma produce un patrón de respuesta "romper-run"; es decir, después de la formación en este horario, el organismo generalmente pausa después del refuerzo, y luego comienza a responder rápidamente como el tiempo para los próximos enfoques de refuerzo.
Horario de intervalo variable: El refuerzo se produce después de la primera respuesta después de que haya transcurrido un tiempo variable del refuerzo anterior. Este calendario suele producir una tasa de respuesta relativamente estable que varía con el tiempo promedio entre los refuerzos.
Calendario fijo de la relación: El refuerzo se produce después de que se haya emitido un número fijo de respuestas desde el refuerzo anterior. Un organismo entrenado en este horario generalmente pausa por un tiempo después de un refuerzo y luego responde a un alto ritmo. Si el requisito de respuesta es bajo puede que no haya pausa; si el requisito de respuesta es alto, el organismo puede dejar de responder por completo.
Calendario de relación variable: El refuerzo se produce después de que se haya emitido un número variable de respuestas desde el refuerzo anterior. Este calendario suele producir una tasa de respuesta muy alta y persistente.
Refuerzo continuo: El refuerzo se produce después de cada respuesta. Los organismos suelen responder tan rápidamente como puedan, dado el tiempo necesario para obtener y consumir refuerzo, hasta que estén satisfechos.

Factores que alteran la eficacia del refuerzo y el castigo

La efectividad del refuerzo y el castigo se puede cambiar.

Satiation/Deprivation: La eficacia de un estímulo positivo o "apetitivo" se reducirá si el individuo ha recibido suficiente de ese estímulo para satisfacer su apetito. El efecto opuesto ocurrirá si el individuo se priva de ese estímulo: la eficacia de una consecuencia entonces aumentará. Un sujeto con estómago lleno no se sentiría tan motivado como un hambriento.
Immediacy: Una consecuencia inmediata es más eficaz que una demora. Si uno le da a un perro un regalo para sentarse dentro de cinco segundos, el perro aprenderá más rápido que si el tratamiento se da después de treinta segundos.
Contingencia: Para ser más eficaz, el refuerzo debe ocurrir consistentemente después de las respuestas y no en otros momentos. El aprendizaje puede ser más lento si el refuerzo es intermitente, es decir, siguiendo sólo algunos casos de la misma respuesta. Las respuestas reforzadas intermitentemente suelen ser más lentas para extinguirse que las respuestas que siempre se han reforzado.
Tamaño: El tamaño, o la cantidad, de un estímulo a menudo afecta su potencia como refuerzo. Los seres humanos y los animales participan en el análisis costo-beneficio. Si una prensa de palanca trae diez pellets de alimentos, la palanca presionada puede ser aprendida más rápidamente que si una prensa trae sólo una pellets. Un montón de cuartos de una máquina tragaperras puede mantener un jugador tirando de la palanca más de un cuarto.

La mayoría de estos factores cumplen funciones biológicas. Por ejemplo, el proceso de saciedad ayuda al organismo a mantener un ambiente interno estable (homeostasis). Cuando un organismo ha sido privado de azúcar, por ejemplo, el sabor del azúcar es un reforzador eficaz. Cuando el nivel de azúcar en la sangre del organismo alcanza o supera un nivel óptimo, el sabor del azúcar se vuelve menos efectivo o incluso aversivo.

Dar forma

La formación es un método de acondicionamiento muy utilizado en el entrenamiento de animales y en la enseñanza de seres humanos no verbales. Depende de la variabilidad y el reforzamiento operante, como se describió anteriormente. El capacitador comienza identificando el comportamiento final deseado (u "objetivo"). A continuación, el entrenador elige un comportamiento que el animal o la persona ya emite con alguna probabilidad. Luego, la forma de este comportamiento se cambia gradualmente a través de ensayos sucesivos mediante el refuerzo de comportamientos que se aproximan cada vez más al comportamiento objetivo. Cuando finalmente se emite el comportamiento objetivo, se puede fortalecer y mantener mediante el uso de un programa de refuerzo.

Refuerzo no contingente

El refuerzo no contingente es la entrega de estímulos de refuerzo independientemente del comportamiento del organismo. El refuerzo no contingente se puede utilizar en un intento de reducir una conducta objetivo no deseada reforzando múltiples respuestas alternativas mientras se extingue la respuesta objetivo. Como no se identifica ningún comportamiento medido como fortalecido, existe controversia en torno al uso del término "refuerzo" no contingente.

Control de estímulos de la conducta operante

Aunque inicialmente la conducta operante se emite sin una referencia identificada a un estímulo en particular, durante el condicionamiento operante, las operantes quedan bajo el control de los estímulos que están presentes cuando se refuerza la conducta. Estos estímulos se denominan "estímulos discriminativos". La llamada "contingencia de tres términos" es el resultado. Es decir, los estímulos discriminativos dan lugar a respuestas que producen recompensa o castigo. Ejemplo: se puede entrenar a una rata para que presione una palanca solo cuando se enciende una luz; un perro corre a la cocina cuando escucha el traqueteo de su bolsa de comida; un niño alcanza un dulce cuando lo ve en una mesa.

Discriminación, generalización & contexto

La mayor parte del comportamiento está bajo control de estímulos. Se pueden distinguir varios aspectos de esto:

Discriminación Normalmente ocurre cuando una respuesta se refuerza sólo en presencia de un estímulo específico. Por ejemplo, una paloma podría ser alimentada por pecking a una luz roja y no a una luz verde; en consecuencia, se mete en rojo y deja de pecking en verde. Se han estudiado muchas combinaciones complejas de estímulos y otras condiciones; por ejemplo, un organismo podría reforzarse en un horario de intervalos en presencia de un estímulo y en un cronograma de relación en presencia de otro.
Generalización es la tendencia a responder a estímulos similares a un estímulo discriminativo previamente entrenado. Por ejemplo, después de haber sido entrenados para peck en "rojo" una paloma también podría peck en "pink", aunque generalmente menos fuertemente.
Contexto se refiere a los estímulos que están continuamente presentes en una situación, como las paredes, mesas, sillas, etc. en una habitación, o el interior de una cámara de regulación. Los estímulos contextos pueden llegar a controlar el comportamiento como los estímulos discriminativos, aunque generalmente más débil. Los comportamientos aprendidos en un contexto pueden estar ausentes o alterados en otro. Esto puede causar dificultades para la terapia conductual, porque los comportamientos aprendidos en el entorno terapéutico pueden no ocurrir en otras situaciones.

Secuencias conductuales: refuerzo condicionado y encadenamiento

La mayoría de los comportamientos no se pueden describir fácilmente en términos de respuestas individuales reforzadas una por una. El alcance del análisis operante se amplía a través de la idea de cadenas conductuales, que son secuencias de respuestas unidas por las contingencias de tres términos definidas anteriormente. El encadenamiento se basa en el hecho, demostrado experimentalmente, de que un estímulo discriminativo no sólo establece la ocasión para un comportamiento posterior, sino que también puede reforzar un comportamiento que lo precede. Es decir, un estímulo discriminativo es también un 'reforzador condicionado'. Por ejemplo, la luz que establece la ocasión para presionar la palanca puede usarse para reforzar "dar la vuelta" en presencia de un ruido. Esto da como resultado la secuencia "ruido - giro - luz - palanca de presión - comida". Se pueden construir cadenas mucho más largas agregando más estímulos y respuestas.

Escape y evasión

En el aprendizaje de escape, un comportamiento finaliza un estímulo (aversivo). Por ejemplo, proteger los ojos de la luz solar termina con la estimulación (aversiva) de la luz brillante en los ojos. (Este es un ejemplo de refuerzo negativo, definido anteriormente.) El comportamiento que se mantiene evitando un estímulo se llama "evitación" como, por ejemplo, ponerse las gafas de sol antes de salir al aire libre. La conducta de evitación plantea la llamada "paradoja de la evitación", pues cabría preguntarse, ¿cómo puede la no ocurrencia de un estímulo servir como reforzador? Esta pregunta es abordada por varias teorías de evitación (ver más abajo).

Dos tipos de entornos experimentales se utilizan comúnmente: aprendizaje de evitación discriminado y de operante libre.

Aprendizaje de evitación discriminada

Un experimento de evitación discriminada implica una serie de pruebas en las que un estímulo neutral, como una luz, va seguido de un estímulo aversivo, como una descarga. Después de que aparece el estímulo neutral, una respuesta operante, como presionar una palanca, previene o termina el estímulo aversivo. En las primeras pruebas, el sujeto no responde hasta que se presenta el estímulo aversivo, por lo que estas primeras pruebas se denominan 'escape'. juicios A medida que avanza el aprendizaje, el sujeto comienza a responder durante el estímulo neutral y, por lo tanto, evita que ocurra el estímulo aversivo. Dichos ensayos se denominan "ensayos de evitación". Se dice que este experimento involucra condicionamiento clásico porque un CS neutral (estímulo condicionado) se empareja con el US aversivo (estímulo incondicionado); esta idea subyace en la teoría de dos factores del aprendizaje por evitación que se describe a continuación.

Aprendizaje de evitación de operante libre

En la evitación operante libre, un sujeto recibe periódicamente un estímulo aversivo (a menudo una descarga eléctrica) a menos que se produzca una respuesta operante; la respuesta retrasa el inicio del shock. En esta situación, a diferencia de la evitación discriminada, ningún estímulo previo señala el shock. Dos intervalos de tiempo cruciales determinan la tasa de aprendizaje por evitación. Este primero es el intervalo S-S (shock-shock). Este es el tiempo entre choques sucesivos en ausencia de una respuesta. El segundo intervalo es el intervalo R-S (respuesta-shock). Esto especifica el tiempo por el cual una respuesta operante retrasa el inicio de la siguiente descarga. Tenga en cuenta que cada vez que el sujeto realiza la respuesta operante, el intervalo R-S sin choque comienza de nuevo.

Teoría de la evitación de dos procesos

Esta teoría se propuso originalmente para explicar el aprendizaje de evitación discriminado, en el que un organismo aprende a evitar un estímulo aversivo escapando de una señal para ese estímulo. Están involucrados dos procesos: el condicionamiento clásico de la señal seguido del condicionamiento operante de la respuesta de escape:

a) Condicionamiento clásico del miedo. Inicialmente el organismo experimenta el emparejamiento de un CS con un US aversivo. La teoría asume que este emparejamiento crea una asociación entre el CS y el EE. UU. a través del condicionamiento clásico y, debido a la naturaleza aversiva del EE. UU., el CS llega a provocar una reacción emocional condicionada (CER): "miedo". 34; b) Reforzamiento de la respuesta operante por reducción del miedo. Como resultado del primer proceso, el CS ahora señala miedo; esta desagradable reacción emocional sirve para motivar las respuestas operantes, y las respuestas que terminan con el EC se ven reforzadas por la terminación del miedo. Tenga en cuenta que la teoría no dice que el organismo "evita" EE.UU. en el sentido de anticiparlo, sino que el organismo "escape" un estado interno aversivo que es causado por el CS. Varios hallazgos experimentales parecen ir en contra de la teoría de dos factores. Por ejemplo, el comportamiento de evitación a menudo se extingue muy lentamente, incluso cuando el emparejamiento inicial CS-US nunca vuelve a ocurrir, por lo que se puede esperar que la respuesta de miedo se extinga (ver Condicionamiento clásico). Además, los animales que han aprendido a evitar a menudo muestran poca evidencia de miedo, lo que sugiere que no es necesario escapar del miedo para mantener el comportamiento de evitación.

Operante o "un factor" teoría

Algunos teóricos sugieren que la conducta de evitación puede ser simplemente un caso especial de conducta operante mantenida por sus consecuencias. Desde este punto de vista, la idea de "consecuencias" se amplía para incluir la sensibilidad a un patrón de eventos. Así, en la evitación, la consecuencia de una respuesta es una reducción en la tasa de estimulación aversiva. De hecho, la evidencia experimental sugiere que un "shock perdido" se detecta como un estímulo, y puede actuar como un reforzador. Las teorías cognitivas de la evitación llevan esta idea un paso más allá. Por ejemplo, una rata viene a "esperar" choque si no presiona una palanca y "no espere ningún choque" si lo presiona, y el comportamiento de evitación se fortalece si se confirman estas expectativas.

Acaparamiento operante

El acaparamiento operante se refiere a la observación de que las ratas reforzadas de cierta manera pueden permitir que los gránulos de comida se acumulen en una bandeja de comida en lugar de recuperar esos gránulos. En este procedimiento, la recuperación de los gránulos instituía siempre un período de extinción de un minuto durante el cual no se disponía de gránulos de alimento adicionales pero se podían consumir los que se habían acumulado anteriormente. Este hallazgo parece contradecir el hallazgo habitual de que las ratas se comportan impulsivamente en situaciones en las que hay que elegir entre un objeto de comida más pequeño de inmediato y un objeto de comida más grande después de un tiempo. Ver horarios de refuerzo.

Correlaciones neurobiológicas

Los primeros estudios científicos que identificaron neuronas que respondían de maneras que sugerían que codificaban para estímulos condicionados provinieron del trabajo de Mahlon deLong y de R.T. Richardson. Demostraron que las neuronas del núcleo basal, que liberan acetilcolina ampliamente por toda la corteza cerebral, se activan poco después de un estímulo condicionado, o después de una recompensa primaria si no existe un estímulo condicionado. Estas neuronas son igualmente activas para refuerzos positivos y negativos, y se ha demostrado que están relacionadas con la neuroplasticidad en muchas regiones corticales. También existe evidencia de que la dopamina se activa en momentos similares. Existe evidencia considerable de que la dopamina participa tanto en el refuerzo como en el aprendizaje aversivo. Las vías de la dopamina se proyectan mucho más densamente en las regiones de la corteza frontal. Las proyecciones colinérgicas, por el contrario, son densas incluso en las regiones corticales posteriores como la corteza visual primaria. Un estudio de pacientes con enfermedad de Parkinson, una condición atribuida a la acción insuficiente de la dopamina, ilustra aún más el papel de la dopamina en el refuerzo positivo. Mostró que mientras no tomaban su medicación, los pacientes aprendían más fácilmente con consecuencias aversivas que con refuerzo positivo. Los pacientes que tomaban su medicación mostraron lo contrario, demostrando que el refuerzo positivo es la forma más efectiva de aprendizaje cuando la actividad de la dopamina es alta.

Se ha sugerido que un proceso neuroquímico que involucra a la dopamina es la base del refuerzo. Cuando un organismo experimenta un estímulo de refuerzo, se activan las vías de dopamina en el cerebro. Esta red de vías "libera un breve pulso de dopamina en muchas dendritas, transmitiendo así una señal de refuerzo global a las neuronas postsinápticas". Esto permite que las sinapsis activadas recientemente aumenten su sensibilidad a las señales eferentes (que conducen hacia el exterior), aumentando así la probabilidad de que ocurran las respuestas recientes que precedieron al refuerzo. Estas respuestas son, estadísticamente, las más probables de haber sido la conducta responsable de lograr con éxito el reforzamiento. Pero cuando la aplicación de refuerzo es menos inmediata o menos contingente (menos constante), se reduce la capacidad de la dopamina para actuar sobre las sinapsis apropiadas.

Preguntas sobre la ley del efecto

Varias observaciones parecen mostrar que la conducta operante puede establecerse sin refuerzo en el sentido definido anteriormente. El más citado es el fenómeno de la autoformación (a veces llamado "seguimiento de signos"), en el que un estímulo es seguido repetidamente por un refuerzo y, en consecuencia, el animal comienza a responder al estímulo. Por ejemplo, se enciende una tecla de respuesta y luego se presenta la comida. Cuando esto se repite varias veces, una paloma comienza a picotear la llave a pesar de que la comida llega, ya sea que el pájaro picotee o no. De manera similar, las ratas comienzan a manejar objetos pequeños, como una palanca, cuando se les presenta comida cerca. Sorprendentemente, las palomas y las ratas persisten en este comportamiento incluso cuando picotear la tecla o presionar la palanca conduce a menos comida (entrenamiento por omisión). Otro comportamiento operante aparente que aparece sin refuerzo es el contrafreeloading.

Estas observaciones y otras parecen contradecir la ley del efecto, y han llevado a algunos investigadores a proponer nuevas conceptualizaciones del reforzamiento operante (p. ej.) Una opinión más general es que la autoformación es una instancia de condicionamiento clásico; el procedimiento de automoldeado, de hecho, se ha convertido en una de las formas más comunes de medir el condicionamiento clásico. Desde este punto de vista, muchos comportamientos pueden verse influenciados tanto por contingencias clásicas (estímulo-respuesta) como por contingencias operantes (respuesta-reforzamiento), y la tarea del experimentador es averiguar cómo interactúan.

Aplicaciones

El refuerzo y el castigo son ubicuos en las interacciones sociales humanas, y se han sugerido e implementado muchas aplicaciones de los principios operantes. Los siguientes son algunos ejemplos.

Adicción y dependencia

El refuerzo positivo y negativo juega un papel central en el desarrollo y mantenimiento de la adicción y la drogodependencia. Una droga adictiva es intrínsecamente gratificante; es decir, funciona como un reforzador positivo primario del consumo de drogas. El sistema de recompensas del cerebro le asigna prominencia de incentivos (es decir, es 'querido' o 'deseado'), de modo que a medida que se desarrolla una adicción, la privación de la droga conduce al ansia. Además, los estímulos asociados con el uso de drogas, por ejemplo, ver una jeringa y el lugar de uso, se asocian con el refuerzo intenso inducido por la droga. Estos estímulos previamente neutros adquieren varias propiedades: su aparición puede inducir craving, y pueden convertirse en reforzadores positivos condicionados de uso continuado. Por lo tanto, si una persona adicta se encuentra con una de estas señales de drogas, puede reaparecer un deseo por la droga asociada. Por ejemplo, las agencias antidrogas utilizaron anteriormente carteles con imágenes de parafernalia de drogas como un intento de mostrar los peligros del consumo de drogas. Sin embargo, estos carteles ya no se utilizan debido a los efectos de la prominencia de incentivos al provocar una recaída al ver los estímulos ilustrados en los carteles.

En individuos drogodependientes, el refuerzo negativo ocurre cuando una droga se autoadministra para aliviar o "escapar" los síntomas de dependencia física (p. ej., temblores y sudoración) y/o dependencia psicológica (p. ej., anhedonia, inquietud, irritabilidad y ansiedad) que surgen durante el estado de abstinencia de la droga.

Entrenamiento de animales

Los entrenadores de animales y los dueños de mascotas aplicaban los principios y las prácticas del condicionamiento operante mucho antes de que se nombraran y estudiaran estas ideas, y el entrenamiento de animales aún proporciona uno de los ejemplos más claros y convincentes de control operante. De los conceptos y procedimientos descritos en este artículo, algunos de los más destacados son los siguientes: (a) disponibilidad de refuerzo primario (por ejemplo, una bolsa de dog yummies); (b) el uso de refuerzo secundario (por ejemplo, hacer sonar un clicker inmediatamente después de una respuesta deseada y luego dar yummy); (c) contingencia, asegurando que el refuerzo (por ejemplo, el clicker) sigue al comportamiento deseado y no a otra cosa; (d) dar forma, como hacer que un perro salte gradualmente más y más alto; (e) reforzamiento intermitente, como en la reducción gradual de la frecuencia del reforzamiento para inducir un comportamiento persistente sin saciedad; (f) encadenamiento, donde un comportamiento complejo se construye gradualmente a partir de unidades más pequeñas.

Ejemplo de entrenamiento de animales de Seaworld relacionado con el condicionamiento operante

El entrenamiento de animales tiene efectos sobre el refuerzo positivo y el refuerzo negativo. Los horarios de los refuerzos pueden desempeñar un papel importante en el caso del entrenamiento de animales.

Análisis de comportamiento aplicado

El análisis conductual aplicado es la disciplina iniciada por B. F. Skinner que aplica los principios del condicionamiento a la modificación del comportamiento humano socialmente significativo. Utiliza los conceptos básicos de la teoría del condicionamiento, incluidos el estímulo condicionado (S^C), el estímulo discriminativo (S^d), la respuesta (R) y el estímulo de refuerzo (S^rein o S^r para reforzadores, a veces S^ave para estímulos aversivos).

Los practicantes del análisis conductual aplicado (ABA, por sus siglas en inglés) utilizan estos procedimientos, y muchas variaciones y desarrollos de los mismos, para influir en una variedad de problemas y comportamientos socialmente significativos. En muchos casos, los practicantes usan técnicas operantes para desarrollar comportamientos constructivos socialmente aceptables para reemplazar comportamientos aberrantes. Las técnicas de ABA se han aplicado con eficacia en cosas tales como intervenciones conductuales intensivas tempranas para niños con trastornos del espectro autista (TEA), investigación sobre los principios que influyen en el comportamiento delictivo, prevención del VIH, conservación de los recursos naturales, educación, gerontología, salud y ejercicio., seguridad industrial, adquisición del lenguaje, tirar basura, procedimientos médicos, crianza de los hijos, psicoterapia, uso del cinturón de seguridad, trastornos mentales graves, deportes, abuso de sustancias, fobias, trastornos alimentarios pediátricos y manejo y cuidado de animales en zoológicos. Algunas de estas aplicaciones se encuentran entre las que se describen a continuación.

Comportamiento infantil: capacitación en manejo de padres

Proveer un refuerzo positivo para los comportamientos apropiados de los niños es un enfoque principal de la capacitación en manejo de padres. Por lo general, los padres aprenden a recompensar el comportamiento apropiado a través de recompensas sociales (como elogios, sonrisas y abrazos), así como recompensas concretas (como calcomanías o puntos para una recompensa mayor como parte de un sistema de incentivos creado en colaboración con el niño). Además, los padres aprenden a seleccionar comportamientos simples como enfoque inicial y recompensan cada uno de los pequeños pasos que su hijo logra para alcanzar una meta mayor (este concepto se denomina "aproximaciones sucesivas").

Economía

Tanto los psicólogos como los economistas se han interesado en aplicar los conceptos y hallazgos operantes al comportamiento de los humanos en el mercado. Un ejemplo es el análisis de la demanda del consumidor, indexada por la cantidad de un bien que se compra. En economía, el grado en que el precio influye en el consumo se denomina "elasticidad precio de la demanda". Ciertas mercancías son más elásticas que otras; por ejemplo, un cambio en el precio de ciertos alimentos puede tener un gran efecto en la cantidad comprada, mientras que la gasolina y otros consumibles cotidianos pueden verse menos afectados por los cambios de precio. En términos de análisis operante, tales efectos pueden interpretarse en términos de motivaciones de los consumidores y el valor relativo de las mercancías como reforzadores.

Juegos de azar: programación de proporción variable

Como se indicó anteriormente en este artículo, un programa de razón variable produce refuerzo después de la emisión de un número impredecible de respuestas. Este programa generalmente genera una respuesta rápida y persistente. Las máquinas tragamonedas pagan con un programa de proporción variable, y producen precisamente este tipo de comportamiento persistente de tirar de la palanca en los jugadores. El pago de proporción variable de las máquinas tragamonedas y otras formas de juego se ha citado a menudo como un factor subyacente a la adicción al juego.

Psicología militar

Los seres humanos tienen una resistencia innata a matar y son reacios a actuar de manera directa y agresiva hacia los miembros de su propia especie, incluso para salvar vidas. Esta resistencia a matar ha provocado que la infantería sea notablemente ineficaz a lo largo de la historia de la guerra militar.

Este fenómeno no se entendió hasta S.L.A. Marshall (general de brigada e historiador militar) realizó estudios de entrevistas de infantería de la Segunda Guerra Mundial inmediatamente después del combate. El conocido y controvertido libro de Marshall, Men Against Fire, reveló que solo el 15% de los soldados disparaban sus rifles con el propósito de matar en combate. Tras la aceptación de la investigación de Marshall por parte del Ejército de los EE. UU. en 1946, la Oficina de Investigación de Recursos Humanos del Ejército de los EE. UU. comenzó a implementar nuevos protocolos de entrenamiento que se asemejan a los métodos de condicionamiento operante. Las aplicaciones posteriores de tales métodos aumentaron el porcentaje de soldados capaces de matar a alrededor del 50 % en Corea y más del 90 % en Vietnam. Las revoluciones en el entrenamiento incluyeron el reemplazo de los campos de tiro emergentes tradicionales con objetivos emergentes tridimensionales con forma de hombre que se derrumbaban cuando se golpeaban. Esto proporcionó retroalimentación inmediata y actuó como un refuerzo positivo para el comportamiento de un soldado. Otras mejoras en los métodos de entrenamiento militar han incluido el curso de tiro cronometrado; entrenamiento más realista; altas repeticiones; elogios de los superiores; premios de puntería; y reconocimiento grupal. El refuerzo negativo incluye la responsabilidad de los compañeros o el requisito de volver a tomar cursos. El entrenamiento militar moderno condiciona la respuesta del cerebro medio a la presión del combate al simular de cerca el combate real, utilizando principalmente el condicionamiento clásico pavloviano y el condicionamiento operante skinneriano (ambas formas de conductismo).

El entrenamiento moderno de la mano de obra es un excelente ejemplo de comportamiento que se ha utilizado durante años en el curso de psicología introductoria enseñado a todos los cadetes en la Academia Militar de los Estados Unidos en West Point como un ejemplo clásico de condicionamiento de operante. En la década de 1980, durante una visita a West Point, B.F. Skinner identificó el entrenamiento moderno de la mano de obra militar como una aplicación casi perfecta de condicionamiento de operante.

Teniente El coronel Dave Grossman afirma sobre el condicionamiento operante y el entrenamiento militar de los EE. UU. que:

Es totalmente posible que nadie se sentó intencionadamente para utilizar técnicas de acondicionamiento o modificación del comportamiento para entrenar soldados en esta zona... Pero desde el punto de vista de un psicólogo que también es un historiador y un soldado de carrera, me ha hecho cada vez más evidente que esto es exactamente lo que se ha logrado.

Teoría del empujón

La teoría del empujón (o empujón) es un concepto de las ciencias del comportamiento, la teoría política y la economía que argumenta que las sugerencias indirectas para tratar de lograr el cumplimiento no forzado pueden influir en los motivos, incentivos y toma de decisiones de grupos e individuos, al menos como efectivamente, si no más efectivamente, que la instrucción directa, la legislación o la aplicación.

Alabanza

El concepto de elogio como medio de refuerzo del comportamiento tiene sus raíces en el modelo de condicionamiento operante de B. F. Skinner. A través de este lente, el elogio se ha visto como un medio de refuerzo positivo, en el que se hace más probable que ocurra un comportamiento observado al elogiar dicho comportamiento de manera contingente. Cientos de estudios han demostrado la eficacia de los elogios en la promoción de comportamientos positivos, especialmente en el estudio del uso de elogios por parte de maestros y padres en el niño para promover un mejor comportamiento y rendimiento académico, pero también en el estudio del rendimiento laboral. También se ha demostrado que los elogios refuerzan comportamientos positivos en personas adyacentes que no son elogiadas (como un compañero de clase del receptor de los elogios) a través del refuerzo indirecto. El elogio puede ser más o menos efectivo para cambiar el comportamiento dependiendo de su forma, contenido y entrega. Para que el elogio produzca un cambio de comportamiento positivo, debe estar supeditado al comportamiento positivo (es decir, solo debe administrarse después de que se promulgue el comportamiento objetivo), debe especificar los detalles del comportamiento que se va a reforzar y debe entregarse con sinceridad y con credibilidad

Al reconocer el efecto de los elogios como una estrategia de refuerzo positivo, numerosas intervenciones conductuales y cognitivas conductuales han incorporado el uso de elogios en sus protocolos. El uso estratégico de los elogios se reconoce como una práctica basada en la evidencia tanto en la gestión del aula como en las intervenciones de capacitación para padres, aunque los elogios a menudo se incluyen en la investigación de intervenciones en una categoría más amplia de refuerzo positivo, que incluye estrategias como la atención estratégica y las recompensas conductuales.

Se han realizado varios estudios sobre el efecto que tienen la terapia cognitivo-conductual y la terapia conductual operante en diferentes afecciones médicas. Cuando los pacientes desarrollaron técnicas cognitivas y conductuales que cambiaron sus comportamientos, actitudes y emociones; la severidad de su dolor disminuyó. Los resultados de estos estudios mostraron una influencia de las cogniciones en la percepción del dolor y el impacto presentado explicó la eficacia general de la terapia cognitivo-conductual (TCC) y la terapia operante-conductual (OBT).

Videojuegos

La mayoría de los videojuegos están diseñados en torno a un ciclo de compulsión, agregando un tipo de refuerzo positivo a través de un programa de frecuencia variable para que el jugador siga jugando. Esto puede conducir a la patología de la adicción a los videojuegos.

Como parte de una tendencia en la monetización de los videojuegos durante la década de 2010, algunos juegos ofrecían cajas de botín como recompensas o como artículos que se podían comprar con fondos del mundo real. Las cajas contienen una selección aleatoria de elementos del juego. La práctica se ha vinculado a los mismos métodos que las máquinas tragamonedas y otros dispositivos de juego reparten recompensas, ya que sigue un programa de tasa variable. Si bien existe la percepción general de que las cajas de botín son una forma de juego, la práctica solo se clasifica como tal en unos pocos países. Sin embargo, los métodos para usar esos artículos como moneda virtual para juegos de apuestas en línea o intercambios por dinero del mundo real han creado un mercado de juegos de azar que está bajo evaluación legal.