Reforzamiento

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Consecuencia que afecta al comportamiento futuro de un organismo

En la teoría del refuerzo, se argumenta que el comportamiento humano es el resultado de "consecuencias contingentes" a las acciones humanas La publicación impulsa la idea de que "obtienes lo que refuerzas" Esto significa que el comportamiento, cuando se le dan los tipos correctos de refuerzos, puede cambiar el comportamiento de los empleados para mejor y el comportamiento negativo puede eliminarse.

El modelo de autorregulación tiene tres aspectos principales del comportamiento humano, que son la autoconciencia, la autorreflexión y la autorregulación. Los refuerzos tradicionalmente se alinean con la autorregulación. El comportamiento puede verse influenciado por la consecuencia, pero el comportamiento también necesita antecedentes. Hay cuatro tipos de refuerzo: refuerzo positivo, refuerzo negativo, extinción y castigo. El refuerzo positivo es la aplicación de un reforzador positivo. El refuerzo negativo es la práctica de eliminar algo negativo del espacio del sujeto como una forma de alentar el comportamiento antecedente de ese sujeto.

La extinción implica un comportamiento que no requiere ninguna consecuencia contingente. Si algo (bueno o malo) no se refuerza, en teoría debería desaparecer. Por último, el castigo es una imposición de consecuencias aversivas sobre un comportamiento no deseado. El castigo por remoción es un ejemplo común o la remoción de un beneficio luego de un desempeño deficiente. Si bien el refuerzo no requiere que un individuo perciba conscientemente un efecto provocado por el estímulo, aún requiere un esfuerzo consciente para trabajar hacia la meta deseada.

Estímulos gratificantes, que están asociados con "querer" y "me gusta" (deseo y placer, respectivamente) y la conducta apetitiva, funcionan como reforzadores positivos; la afirmación contraria también es cierta: los reforzadores positivos proporcionan un estímulo deseable. El refuerzo no requiere que un individuo perciba conscientemente un efecto provocado por el estímulo. Por lo tanto, el reforzamiento ocurre solo si hay un fortalecimiento observable en el comportamiento. Sin embargo, también existe el refuerzo negativo, que se caracteriza por quitar un estímulo indeseable. Cambiar el trabajo de alguien puede servir como un refuerzo negativo para alguien que tiene problemas de espalda (por ejemplo, cambiar el trabajo de un trabajador a un puesto de oficina).

Generalmente, el término "refuerzo" se refiere a una mejora del comportamiento, pero este término también se usa a veces para denotar una mejora de la memoria; por ejemplo, "refuerzo posterior al entrenamiento" se refiere a la provisión de un estímulo (como comida) después de una sesión de aprendizaje en un intento de aumentar la amplitud, el detalle y la duración retenidos de los recuerdos individuales o la memoria general que se acaba de formar. El estímulo que mejora la memoria también puede ser uno cuyos efectos sean directamente emocionales en lugar de solo indirectamente, como ocurre con el fenómeno de la "memoria de flash", en el que un estímulo emocionalmente muy intenso puede incentivar el recuerdo de un conjunto de circunstancias de una situación mucho más allá del subconjunto de aquellas circunstancias que causaron el estímulo emocionalmente significativo, como cuando las personas de edad apropiada pueden recordar dónde estaban y qué estaban haciendo cuando se enteraron del asesinato de John F. Kennedy o de los ataques terroristas del 11 de septiembre.

El refuerzo es una parte importante del condicionamiento operante o instrumental.

Terminología

En las ciencias del comportamiento, los términos "positivo" y "negativo" se refieren, cuando se usan en su sentido técnico estricto, a la naturaleza de la acción realizada por el condicionante en lugar de a la evaluación de la operante que responde de esa acción y su(s) consecuencia(s). "Positivo" las acciones son aquellas que añaden un factor, ya sea agradable o desagradable, al entorno, mientras que las "negativas" las acciones son aquellas que eliminan o retienen del medio ambiente un factor de cualquier tipo. A su vez, el sentido estricto de "refuerzo" se refiere solo al condicionamiento basado en la recompensa; la introducción de factores desagradables y la eliminación o retención de factores placenteros se denominan "castigo", que cuando se usa en su sentido estricto contrasta con "refuerzo". Por lo tanto, el "refuerzo positivo" se refiere a la adición de un factor agradable, "castigo positivo" se refiere a la adición de un factor desagradable, "refuerzo negativo" se refiere a la eliminación o retención de un factor desagradable, y "castigo negativo" se refiere a la eliminación o retención de un factor agradable.

Este uso está en desacuerdo con algunos usos no técnicos de las combinaciones de cuatro términos, especialmente en el caso del término "refuerzo negativo", que a menudo se usa para denotar lo que el lenguaje técnico describiría como & #34;castigo positivo" en que el uso no técnico interpreta "refuerzo" como subsumiendo tanto la recompensa como el castigo y "negativo" como refiriéndose a la evaluación de la operante que responde del factor que se está introduciendo. Por el contrario, el lenguaje técnico usaría el término "refuerzo negativo" para describir el fomento de un comportamiento determinado mediante la creación de un escenario en el que un factor desagradable está o estará presente, pero involucrarse en el comportamiento da como resultado escapar de ese factor o prevenir su ocurrencia, como en los experimentos de Martin Seligman con perros. 39; procesos de aprendizaje relacionados con la evitación de descargas eléctricas.

Introducción

B. F. Skinner fue un investigador muy conocido e influyente que articuló muchas de las construcciones teóricas del reforzamiento y el conductismo. Skinner definió los reforzadores de acuerdo con el cambio en la fuerza de la respuesta (tasa de respuesta) en lugar de criterios más subjetivos, como lo que es placentero o valioso para alguien. En consecuencia, las actividades, los alimentos o los elementos que se consideran placenteros o placenteros pueden no ser necesariamente reforzantes (porque no producen un aumento en la respuesta que los precede). Los estímulos, escenarios y actividades solo se ajustan a la definición de reforzadores si el comportamiento que precede inmediatamente al reforzador potencial aumenta en situaciones similares en el futuro; por ejemplo, un niño que recibe una galleta cuando la pide. Si la frecuencia del "comportamiento de solicitud de cookies" aumenta, se puede considerar que la cookie refuerza el "comportamiento de solicitud de cookies". Sin embargo, si el "comportamiento de solicitud de cookies" no aumenta la cookie no se puede considerar reforzante.

El único criterio que determina si un estímulo es reforzante es el cambio en la probabilidad de un comportamiento después de la administración de ese refuerzo potencial. Otras teorías pueden centrarse en factores adicionales, como si la persona esperaba que un comportamiento produjera un resultado determinado, pero en la teoría del comportamiento, el refuerzo se define por una mayor probabilidad de una respuesta.

El estudio del refuerzo ha producido una enorme cantidad de resultados experimentales reproducibles. El reforzamiento es el concepto y procedimiento central en la educación especial, el análisis conductual aplicado y el análisis experimental del comportamiento, y es un concepto central en algunos modelos médicos y psicofarmacológicos, en particular la adicción, la dependencia y la compulsión.

Breve historia

La investigación de laboratorio sobre el refuerzo generalmente data del trabajo de Edward Thorndike, conocido por sus experimentos con gatos que escapan de cajas de rompecabezas. Varios otros continuaron esta investigación, en particular B. F. Skinner, quien publicó su trabajo seminal sobre el tema en The Behavior of Organisms, en 1938, y elaboró esta investigación en muchas publicaciones posteriores. En particular, Skinner argumentó que el refuerzo positivo es superior al castigo para moldear el comportamiento. Aunque el castigo puede parecer justo lo contrario del refuerzo, Skinner afirmó que difieren enormemente, diciendo que el refuerzo positivo da como resultado una modificación duradera del comportamiento (a largo plazo), mientras que el castigo cambia el comportamiento solo temporalmente (a corto plazo) y tiene muchos efectos secundarios perjudiciales.

Muchos investigadores ampliaron posteriormente nuestra comprensión del reforzamiento y cuestionaron algunas de las conclusiones de Skinner. Por ejemplo, Azrin y Holz definieron el castigo como una “consecuencia del comportamiento que reduce la probabilidad futura de ese comportamiento”, y algunos estudios han demostrado que el refuerzo positivo y el castigo son igualmente efectivos para modificar el comportamiento. La investigación sobre los efectos del refuerzo positivo, el refuerzo negativo y el castigo continúan hoy en día, ya que esos conceptos son fundamentales para la teoría del aprendizaje y se aplican a muchas aplicaciones prácticas de esa teoría.

Condicionamiento operante

Acondicionamiento operativo

Extinción

Reforzamiento
Aumenta el comportamiento

Castigo
Disminuir el comportamiento

Fortalecimiento positivo
Añadir estímulo appetitivo
siguiente comportamiento correcto

Refuerzo negativo

Castigos positivos
Añadir estímulo nocivo
comportamiento

Castigo negativo
Remove appetitive stimulus
comportamiento

Escape
Remove noxious estímulo
siguiente comportamiento correcto

Evitación activa
El comportamiento evita el estímulo nocivo

El término condicionamiento operante fue introducido por B. F. Skinner para indicar que, en su paradigma experimental, el organismo es libre de operar en el entorno. En este paradigma, el experimentador no puede desencadenar la respuesta deseable; el experimentador espera que ocurra la respuesta (que sea emitida por el organismo) y luego se entrega un reforzador potencial. En el paradigma del condicionamiento clásico, el experimentador desencadena (provoca) la respuesta deseable presentando un estímulo desencadenante reflejo, el Estímulo Incondicional (UCS), al que empareja (precede) con un estímulo neutral, el Estímulo Condicional (CS).

Refuerzo es un término básico en el condicionamiento operante. Para conocer el aspecto de castigo del condicionamiento operante, consulte castigo (psicología).

Refuerzo positivo

El refuerzo positivo ocurre cuando se presenta un evento o estímulo deseable como consecuencia de un comportamiento y aumenta la posibilidad de que este comportamiento se manifieste en entornos similares.

Ejemplo: Cada vez que una rata pulsa un botón, recibe un regalo. Si la rata comienza a presionar el botón con más frecuencia, el tratamiento sirve para reforzar positivamente este comportamiento.
Ejemplo: Un padre le da caramelos a su hija cuando tidia sus juguetes. Si aumenta la frecuencia de recoger los juguetes, el caramelo es un refuerzo positivo (para reforzar el comportamiento de la limpieza).
Ejemplo: Una empresa realiza un programa de recompensas en el que los empleados ganan premios dependiendo del número de artículos vendidos. Los premios que reciben los empleados son el refuerzo positivo si aumentan las ventas.
Ejemplo: Un maestro elogia a su estudiante cuando recibe un buen grado. El elogio que recibe el estudiante es el refuerzo positivo en caso de mejorar las calificaciones del estudiante.
Ejemplo: Un supervisor concede una recompensa monetaria al empleado que supera las expectativas más. La recompensa monetaria es el refuerzo positivo del buen comportamiento: superando las expectativas.

El tratamiento de instrucción de alta probabilidad (HPI) es un tratamiento psicológico conductista basado en la idea del refuerzo positivo.

Refuerzo negativo

El refuerzo negativo ocurre cuando la tasa de un comportamiento aumenta porque se elimina o se evita que suceda un evento o estímulo aversivo. El refuerzo negativo se produce a partir de un ciclo de retroalimentación negativa. El gerente quiere que se detengan los comportamientos ineficaces. Esto implica amenazar con castigos si las personas no logran la meta. La Ley del efecto de Thorndike dice que el comportamiento seguido de una consecuencia negativa tenderá a disminuir en frecuencia.

Ejemplo: Un niño limpia su habitación, y este comportamiento es seguido por el padre que deja de "tragar" o pide al niño repetidamente que lo haga. Aquí, el azote sirve para reforzar negativamente el comportamiento de la limpieza porque el niño quiere eliminar ese estímulo aversivo del azote.
Ejemplo: Una empresa tiene una política que si un empleado completa su trabajo asignado para el viernes, pueden tener sábado libre. Trabajar el sábado es el estímulo aversivo; los empleados tienen incentivos para aumentar la productividad para evitar el estímulo aversivo.
Ejemplo: Un individuo sale temprano para trabajar para vencer el tráfico y evitar llegar tarde. El comportamiento se marcha temprano para el trabajo, y el estímulo aversivo que el individuo desea quitar es llegar tarde al trabajo.

Extinción

La extinción ocurre cuando se ignora un comportamiento dado (es decir, se sigue sin consecuencias), donde desaparecerá con el tiempo si el comportamiento no recibe ninguna reacción continuamente. El comportamiento después de la extinción se dispara primero y luego declina con el tiempo. La extinción no tiene que ser deliberada para tener un efecto en el comportamiento de un sujeto; los siguientes ejemplos demuestran escenarios en los que se puede aplicar intencionalmente o no:

Ejemplo: Un niño pequeño ignora a los matones burlarse de ellos. Los matones no reciben una reacción del niño y pierden interés en intimidarlos.
Ejemplo: A worker has not received any recognition for their above and beyond hard work. Entonces dejan de trabajar tan duro.
Ejemplo: Un gato se mantuvo meowing para la comida en la noche. Los dueños no alimentarían al gato, así que el gato dejó de meowing por la noche.

Refuerzo versus castigo

Los reforzadores sirven para aumentar los comportamientos mientras que los castigadores sirven para disminuir los comportamientos; por lo tanto, los reforzadores positivos son estímulos que el sujeto trabajará para alcanzar, y los reforzadores negativos son estímulos que el sujeto trabajará para deshacerse o terminar. La siguiente tabla ilustra la suma y resta de estímulos (agradables o aversivos) en relación con el refuerzo frente al castigo.

	Estimulo de recompensa (agradable)	Aversive (unpleasant) stimulus
Añadiendo/presentando	Fortalecimiento positivo	Castigos positivos
Remoción y retirada	Castigo negativo	Refuerzo negativo

Por ejemplo, ofrecerle dulces a un niño si limpia su habitación es un refuerzo positivo. Azotar a un niño si rompe una ventana es un castigo positivo. Quitarle los juguetes a un niño por portarse mal es un castigo negativo. Darle a un niño un descanso de sus tareas si se desempeña bien en una prueba es un refuerzo negativo. "Positivo y negativo" no llevan el significado de "bueno y malo" en este uso.

Otras ideas y conceptos

Distinguir entre positivo y negativo puede ser difícil y no siempre ser necesario; centrarse en ¿Qué? está siendo eliminado o añadido y cómo está siendo eliminado o añadido determinará la naturaleza del refuerzo.
El refuerzo negativo no es castigo. Los dos, como se ha explicado anteriormente, difieren en el aumento (reforzamiento negativo) o la disminución (publicación) de la probabilidad futura de respuesta. En el refuerzo negativo, el estímulo eliminado después de una respuesta es un estímulo aversivo; si este estímulo se presenta contingente en una respuesta, también puede funcionar como un castigo positivo.
La forma de un estímulo está separada de su función en términos de si reforzará o castigará el comportamiento. Un evento que puede castigar el comportamiento de algunos puede servir para reforzar el comportamiento de otros. Ejemplo: Un niño es repetidamente detenido por actuar en la escuela, pero la frecuencia del mal comportamiento aumenta. Así pues, la detención puede ser un refuerzo (podría ser positiva o negativa); tal vez el niño reciba ahora una atención de un maestro o tal vez ahora evite ir a casa donde a menudo son abusados.
Algunos refuerzos pueden ser simultáneamente positivos y negativos, como un drogadicto tomando drogas para la euforia agregada (un sentimiento positivo) y eliminando los síntomas de abstinencia (que sería una sensación negativa). O, en una habitación cálida, una corriente de aire externo sirve como refuerzo positivo porque es agradablemente fresco y como refuerzo negativo porque elimina el aire caliente incómodo.
El fortalecimiento en el mundo empresarial es esencial para impulsar la productividad. Los empleados están constantemente motivados por la capacidad de recibir un estímulo positivo, como una promoción o un bono. Los empleados también son impulsados por un refuerzo negativo. Esto se puede ver cuando los empleados se ofrecen sábados libres si completan la carga semanal para el viernes.
Aunque el refuerzo negativo tiene un efecto positivo a corto plazo para un lugar de trabajo (es decir, fomenta una acción financieramente beneficiosa), la dependencia excesiva de un refuerzo negativo dificulta la capacidad de los trabajadores para actuar de manera creativa y comprometida creando crecimiento a largo plazo.
Refuerzo positivo y negativo aumento comportamiento. La mayoría de las personas, especialmente los niños, aprenderán a seguir la instrucción mediante una mezcla de refuerzo positivo y negativo.
Los recursos limitados pueden hacer que una persona no pueda proporcionar un refuerzo constante.

Reforzadores primarios y secundarios

Un reforzador primario, a veces llamado reforzador incondicionado, es un estímulo que no requiere emparejarse con un estímulo diferente para funcionar como reforzador y lo más probable es que tenga obtuvo esta función a través de la evolución y su papel en las especies' supervivencia. Ejemplos de reforzadores primarios incluyen comida, agua y sexo. Algunos reforzadores primarios, como ciertas drogas, pueden imitar los efectos de otros reforzadores primarios. Si bien estos reforzadores primarios son bastante estables a lo largo de la vida y entre individuos, el valor de refuerzo de los diferentes reforzadores primarios varía debido a múltiples factores (p. ej., genética, experiencia). Así, una persona puede preferir un tipo de alimento mientras que otra lo evita. O una persona puede comer mucha comida mientras que otra come muy poco. Entonces, aunque la comida es un reforzador primario para ambos individuos, el valor de la comida como reforzador difiere entre ellos.

Un reforzador secundario, a veces llamado reforzador condicionado, es un estímulo o situación que ha adquirido su función como reforzador después de emparejarse con un estímulo que funciona como reforzador.. Este estímulo puede ser un reforzador primario u otro reforzador condicionado (como el dinero). Un ejemplo de refuerzo secundario sería el sonido de un clicker, como se usa en el entrenamiento con clicker. El sonido del clicker se ha asociado con elogios o golosinas y, posteriormente, el sonido del clicker puede funcionar como un refuerzo. Otro ejemplo común es el sonido de los aplausos: no hay nada intrínsecamente positivo en escuchar ese sonido, pero hemos aprendido que está asociado con elogios y recompensas.

Cuando intente distinguir los reforzadores primarios y secundarios en ejemplos humanos, use la "prueba del hombre de las cavernas". Si el estímulo es algo que un hombre de las cavernas encontraría naturalmente deseable (por ejemplo, un caramelo), entonces es un reforzador primario. Si, por otro lado, el hombre de las cavernas no reaccionaría (por ejemplo, un billete de un dólar), es un reforzador secundario. Al igual que con los reforzadores primarios, un organismo puede experimentar satisfacción y privación con reforzadores secundarios.

Otros términos de refuerzo

Un refuerzo generalizado es un refuerzo condicionado que ha obtenido la función de refuerzo emparejando con muchos otros refuerzos y funciones como refuerzo bajo una amplia variedad de operaciones motivadoras. (Un ejemplo de esto es dinero porque está emparejado con muchos otros refuerzos).
En el muestreo de refuerzo, se presenta un estímulo potencialmente reforzado pero poco familiar a un organismo sin tener en cuenta ningún comportamiento previo.
El refuerzo socialmente mediado (reforzamiento directo) implica la entrega de refuerzo que requiere el comportamiento de otro organismo.
El principio Premack es un caso especial de refuerzo elaborado por David Premack, que afirma que una actividad muy preferida puede ser utilizada eficazmente como refuerzo para una actividad menos preferida.
La jerarquía de refuerzo es una lista de acciones, ordenando las consecuencias más deseables a menos deseables que pueden servir de refuerzo. Una jerarquía de refuerzo se puede utilizar para determinar la frecuencia relativa y la conveniencia de diferentes actividades, y a menudo se emplea cuando se aplica el principio Premack.
Los resultados contingentes son más propensos a reforzar el comportamiento que las respuestas no contingentes. Los resultados contingentes son aquellos directamente vinculados a un comportamiento causal, tal luz girando sobre ser contingente en voltear un interruptor. Note that contingent outcomes are no necesario para demostrar el refuerzo, pero la contingencia percibida puede aumentar el aprendizaje.
Los estímulos contiguos son estímulos estrechamente asociados por el tiempo y el espacio con comportamientos específicos. Reducen la cantidad de tiempo necesario para aprender un comportamiento al mismo tiempo que aumenta su resistencia a la extinción. Dar a un perro un pedazo de comida inmediatamente después de sentarse es más contiguo con (y por lo tanto más probable reforzar) el comportamiento que un retraso de varios minutos en la entrega de alimentos después del comportamiento.
El refuerzo no contingente se refiere a la entrega independiente de estímulos identificados como refuerzos para algunos comportamientos de ese organismo. Sin embargo, esto normalmente implica la entrega temporal de estímulos identificados como mantener el comportamiento aberrante, que disminuye la tasa del comportamiento objetivo. Como no se identifica ningún comportamiento medido como ser fortalecido, hay controversia alrededor del uso del término "reforzamiento" no contingente.

Naturales y artificiales

En su artículo de 1967, Reforzamiento arbitrario y natural, Charles Ferster propuso clasificar el reforzamiento en eventos que aumentan la frecuencia de una operante como consecuencia natural del comportamiento mismo, y eventos que se supone que afectan la frecuencia. por su requerimiento de mediación humana, como en una economía simbólica donde los sujetos son "recompensados" por cierto comportamiento con una ficha arbitraria de un valor negociable.

En 1970, Baer and Wolf crearon un nombre para el uso de reforzadores naturales llamados "trampas de comportamiento". Una trampa de comportamiento requiere solo una respuesta simple para entrar en la trampa, sin embargo, una vez que se ingresa, no se puede resistir la trampa para crear un cambio de comportamiento general. Es el uso de una trampa conductual que aumenta el repertorio de una persona, al exponerla al refuerzo natural de esa conducta. Las trampas de comportamiento tienen cuatro características:

Están "baited" con refuerzos prácticamente irresistibles que "lure" al estudiante a la trampa
Sólo una respuesta de bajo nivel ya en el repertorio es necesario para entrar en la trampa
Las contingencias interrelacionadas del refuerzo dentro de la trampa motivan a la persona a adquirir, ampliar y mantener habilidades académicas/sociales específicas
Pueden permanecer efectivos durante largos períodos de tiempo porque la persona muestra pocos, si los hay, efectos de satiación

Como se puede ver en lo anterior, el refuerzo artificial se crea de hecho para construir o desarrollar habilidades y, para generalizar, es importante que se introduzca una trampa de comportamiento para "capturar" la habilidad y utilizar el refuerzo natural para mantenerla o aumentarla. Esta trampa del comportamiento puede ser simplemente una situación social que generalmente resultará de un comportamiento específico una vez que haya cumplido un cierto criterio (por ejemplo, si usa reforzadores comestibles para entrenar a una persona para que salude y sonría a las personas cuando las conoce, después de eso se ha desarrollado la habilidad, el reforzador natural de otras personas sonriendo, y tener interacciones más amistosas reforzará naturalmente la habilidad y los comestibles pueden desvanecerse).

Horarios de refuerzo intermitente

Gran parte del comportamiento no se refuerza cada vez que se emite, y el patrón de refuerzo intermitente afecta fuertemente la rapidez con la que se aprende una respuesta operante, cuál es su velocidad en un momento dado y cuánto tiempo continúa cuando cesa el refuerzo. Las reglas más simples que controlan el reforzamiento son el reforzamiento continuo, donde se refuerza cada respuesta, y la extinción, donde no se refuerza ninguna respuesta. Entre estos extremos, los "programas de refuerzo" más complejos; especificar las reglas que determinan cómo y cuándo una respuesta será seguida por un reforzador.

Programas específicos de reforzamiento inducen patrones específicos de respuesta de manera confiable, independientemente de la especie que se investiga (incluidos los humanos en algunas condiciones). Sin embargo, las propiedades cuantitativas del comportamiento bajo un cronograma dado dependen de los parámetros del cronograma y, a veces, de otros factores ajenos al cronograma. El orden y la previsibilidad de la conducta bajo programas de reforzamiento fueron evidencia de la afirmación de B. F. Skinner de que mediante el uso del condicionamiento operante podía obtener 'control sobre la conducta', de una manera que traducía las disputas teóricas del comparativo contemporáneo. psicología obsoleta. La confiabilidad del control de horarios apoyó la idea de que un análisis experimental conductista radical del comportamiento podría ser la base para una psicología que no se refiriera a los procesos mentales o cognitivos. La confiabilidad de los horarios también condujo al desarrollo del análisis de comportamiento aplicado como un medio para controlar o alterar el comportamiento.

Muchas de las posibilidades más simples, y algunas de las más complejas, fueron investigadas extensamente por Skinner usando palomas, pero se siguen definiendo e investigando nuevos horarios.

Horarios simples

Un gráfico que muestra la diferente tasa de respuesta de los cuatro simples horarios de refuerzo, cada marca de escotilla designa un refuerzo que se da

Calendario de cuotas – el refuerzo depende solamente del número de respuestas que el organismo ha realizado.
Reforzamiento continuo (CRF) – un calendario de refuerzo en el que cada ocurrencia de la respuesta instrumental (respuesta deseada) es seguido por el refuerzo.
- Ejemplo de laboratorio: cada vez que una rata presiona un bar, recibe un pellets de comida.
- Ejemplo del mundo real: cada vez que un perro se defeca fuera de su propietario le da un regalo; cada vez que una persona pone $1 en una máquina de caramelo y pulsa los botones que reciben una barra de caramelo.

Los programas simples tienen una sola regla para determinar cuándo se entrega un solo tipo de reforzador para una respuesta específica.

Relación fija (FR) – los horarios ofrecen refuerzo después de cada nRespuesta. Un cronograma FR 1 es sinónimo de un calendario del FCI.
- Ejemplo: FR 2 = cada segunda respuesta deseada se refuerza el sujeto.
- Ejemplo de laboratorio: FR 5 = comportamiento de represión de la barra de rata se refuerza con la comida después de cada 5 barpresas en una caja Skinner.
- Ejemplo del mundo real: FR 10 = El distribuidor de coches usado obtiene un bono de $1000 por cada 10 coches vendidos en el lote.
Cuadro de relación variable (VR) - reforzado en promedio cada nrespuesta, pero no siempre nRespuesta.
- Ejemplo de laboratorio: VR 4 = primer pellets entregado en 2 prensas de barras, segunda pellets entregado en 6 prensas de barras, tercera pellet 4 prensas de barra (2 + 6 + 4 = 12; 12 / 3= 4 prensas de barra para recibir pellets).
- Ejemplo del mundo real: máquinas tragaperras (porque, aunque la probabilidad de golpear el jackpot es constante, el número de prensas de palanca necesarias para golpear el jackpot es variable).
Intervalos fijos (FI) – reforzado después n cantidad de tiempo.
- Ejemplo: FI 1-s = refuerzo previsto para la primera respuesta después de 1 segundo.
- Ejemplo de laboratorio: FI 15-s = el comportamiento de la barra de la rata se refuerza para la primera barra de prensa después de 15 segundos pasa desde el último refuerzo.
- Ejemplo del mundo real: FI 30-min = ciclo de lavadora de 30 minutos.
Intervalo variable (VI) - reforzado en promedio n cantidad de tiempo, pero no siempre exactamente n cantidad de tiempo.
- Ejemplo: VI 4-min = primer pellets entregado después de 2 minutos, segundo entregado después de 6 minutos, tercero se entrega después de 4 minutos (2 + 6 + 4 = 12; 12 / 3 = 4). El refuerzo se entrega en promedio después de 4 minutos.
- Ejemplo de laboratorio: VI 10-s = el comportamiento de la barra de la rata se refuerza para la primera prensa de la barra después de un promedio de 10 segundos pasa desde el último refuerzo.
- Ejemplo del mundo real: VI 30-min = Ir a pescar - usted puede pescar un pez después de 10 minutos, luego tiene que esperar una hora, luego tiene que esperar 20 minutos.
Tiempo fijo (FT) – Proporciona un estímulo de refuerzo en un tiempo fijo desde la última entrega de refuerzo, independientemente de si el sujeto ha respondido o no. En otras palabras, es un horario no contingente.
- Ejemplo de laboratorio: FT 5-s = rata recibe comida cada 5 segundos independientemente del comportamiento.
- Ejemplo del mundo real: FT 30-d = una persona recibe un cheque de anualidad cada mes independientemente del comportamiento entre cheques
Tiempo variable (VT) – Proporciona refuerzo en un tiempo variable promedio desde el último refuerzo, independientemente de si el sujeto ha respondido o no.

Los programas simples se utilizan en muchos procedimientos de refuerzo diferencial:

Fortalecimiento diferencial del comportamiento alternativo (DRA) - Procedimiento de acondicionamiento en el que se reduce una respuesta no deseada al colocarla en la extinción o, menos comúnmente, proporcionar castigo a los contingentes, al tiempo que proporciona un refuerzo contingente en una respuesta deseable. Un ejemplo sería un maestro que asista a un estudiante sólo cuando levantan la mano, mientras ignoran al estudiante cuando él o ella llama.
Fortalecimiento diferencial de otro comportamiento (DRO) – También conocido como procedimientos de entrenamiento de omisión, un procedimiento instrumental de condicionamiento en el que un refuerzo positivo se entrega periódicamente sólo si el participante hace algo más que la respuesta objetivo. Un ejemplo sería reforzar cualquier acción de la mano que no sea la recolección de la nariz.
Reforzamiento diferencial del comportamiento incompatible (DRI) – Se utiliza para reducir un comportamiento frecuente sin castigarlo reforzando una respuesta incompatible. Un ejemplo sería reforzar el aplauso para reducir la recolección de nariz
Fortalecimiento diferencial de la baja tasa de respuesta (DRL) – Se utiliza para fomentar bajas tasas de respuesta. Es como un horario de intervalo, excepto que las respuestas prematuras reajustan el tiempo requerido entre el comportamiento.
- Ejemplo de laboratorio: DRL 10-s = una rata se refuerza para la primera respuesta después de 10 segundos, pero si la rata responde antes de 10 segundos no hay refuerzo y la rata tiene que esperar 10 segundos de esa respuesta prematura sin otra respuesta antes de presionar la barra conducirá al refuerzo.
- Ejemplo del mundo real: "Si me pides un chip de patata no más de una vez cada 10 minutos, te lo daré. Si pides más a menudo, no te daré ninguno".
Reforzamiento diferencial de alta tasa (DRH) – Se utiliza para aumentar las altas tasas de respuesta. Es como un programa de intervalos, excepto que se requiere un número mínimo de respuestas en el intervalo para recibir refuerzo.
- Ejemplo de laboratorio: DRH 10-s/FR 15 = una rata debe presionar un bar 15 veces dentro de un aumento de 10 segundos para ser reforzado.
- Ejemplo del mundo real: "Si Lance Armstrong va a ganar el Tour de Francia tiene que pedalear x número de veces durante el Sí.- Carrera de horas".

Efectos de diferentes tipos de horarios simples

Relación fija: la actividad se ralentiza después de la entrega del refuerzo, luego las tasas de respuesta aumentan hasta la próxima entrega del refuerzo (pausa de refuerzo posterior).
Relación variable: velocidad rápida y estable de respuesta; más resistente a la extinción.
Intervalo fijo: la respuesta aumenta hacia el final del intervalo; la mala resistencia a la extinción.
Intervalo variable: resultados de actividad estables, buena resistencia a la extinción.
Los horarios de ratio producen tasas más altas de respuesta que los horarios de intervalos, cuando las tasas de refuerzo son similares.
Los horarios variables producen tasas más altas y mayor resistencia a la extinción que la mayoría de los horarios fijos. Esto también se conoce como el Efecto de Extinción de Reforzamiento Parcial (PREE).
El programa de relación variable produce tanto la tasa más alta de respuesta como la mayor resistencia a la extinción (por ejemplo, el comportamiento de los jugadores en máquinas tragaperras).
Los horarios fijos producen "pausas de refuerzo post" (PRP), donde las respuestas cesarán brevemente después del refuerzo, aunque la pausa es una función del próximo requisito de respuesta en lugar del refuerzo previo.
- El PRP de un cronograma de intervalos fijos es seguido con frecuencia por una velocidad de respuesta "en forma de scallop", mientras que los horarios de ratio fijos producen una respuesta más "angular".
  - scallop de intervalo fijo: el patrón de respuesta que se desarrolla con el programa de refuerzo de intervalo fijo, el rendimiento en un intervalo fijo refleja la precisión del sujeto en el tiempo de lectura.
Los organismos cuyos calendarios de refuerzo están "afinados" (es decir, que requieren más respuestas o una mayor espera antes del refuerzo) pueden experimentar "tracción de ratio" si se adelgazan demasiado rápido. Esto produce un comportamiento similar al visto durante la extinción.
- Tensión de ratio: la interrupción de la respuesta que ocurre cuando un requisito de respuesta de ratio fijo se aumenta demasiado rápidamente.
- Ratio run: alta y constante tasa de respuesta que completa cada requisito de relación. Por lo general, el requisito de la relación más alta hace que ocurran pausas posteriores a la ejecución.
Los calendarios de refuerzo parciales son más resistentes a la extinción que los calendarios de refuerzo continuos.
- Los horarios de ratio son más resistentes que los horarios de intervalos y los horarios variables más resistentes que los fijos.
- Los cambios momentarios en el valor de refuerzo conducen a cambios dinámicos en el comportamiento.

Horarios compuestos

Los programas compuestos combinan dos o más programas simples diferentes de alguna manera usando el mismo reforzador para el mismo comportamiento. Hay muchas posibilidades; entre los más utilizados se encuentran:

Calendarios alternativos – Un tipo de cronograma compuesto donde están en vigor dos o más horarios simples y cualquier horario que se complete los primeros resultados en el refuerzo.
Calendarios conjuntivos – Un cronograma complejo de refuerzo donde dos o más horarios simples están en vigor independientemente unos de otros, y los requisitos en todos los horarios simples deben cumplirse para el refuerzo.
Múltiples horarios – Dos o más horarios se alternan con el tiempo, con un estímulo que indica que está en vigor. El refuerzo se entrega si se cumple el requisito de respuesta mientras se cumple un calendario.
- Ejemplo: FR4 cuando se le da un silbido y FI6 cuando se le da un anillo de campana.
Calendarios mixtos – Cualquiera de dos, o más, los horarios pueden ocurrir sin ningún estímulo indicando cuál está en vigor. El refuerzo se entrega si se cumple el requisito de respuesta mientras se cumple un calendario.
- Ejemplo: FI6 y luego VR3 sin ninguna advertencia de estímulo del cambio en el calendario.
Administrar dos calendarios de refuerzo al mismo tiempo
Calendarios periódicos – Un procedimiento complejo de refuerzo en el que el participante puede elegir cualquiera de dos o más simples listas de refuerzo que estén disponibles simultáneamente. Los organismos son libres de cambiar de una y otra vez entre las alternativas de respuesta en cualquier momento.
- Ejemplo del mundo real: cambiar canales en una televisión.
Calendario de la cadena concurrente de refuerzo – Un procedimiento complejo de refuerzo en el que se permite al participante elegir durante el primer enlace que de varios horarios simples de refuerzo estarán en vigor en el segundo enlace. Una vez que se ha tomado una decisión, las alternativas rechazadas no están disponibles hasta el comienzo del próximo juicio.
Calendarios entrelazados – Un calendario único con dos componentes donde el progreso en un componente afecta el progreso en el otro componente. En un programa interbloqueante de FR 60 FI 120-s, por ejemplo, cada respuesta resta tiempo del componente de intervalo de tal manera que cada respuesta es "igual" para eliminar dos segundos del programa FI.
Calendarios encadenados – El refuerzo se produce después de que se hayan completado dos o más calendarios sucesivos, con un estímulo indicando cuándo se ha completado un calendario y el siguiente ha comenzado
- Ejemplo: En un horario FR 10 en presencia de una luz roja, una paloma se mete un disco verde 10 veces; luego, una luz amarilla indica que un horario FR 3 está activo; después de que la paloma se mete un disco amarillo 3 veces, una luz verde que indica un horario VI 6-s está en vigor; si este fuera el horario final en la cadena, la paloma se reforzaría para pecking un disco verde en un horario VI 6; sin embargo, todos los requisitos de cadena
Calendarios del tándem – El refuerzo se produce cuando se han completado dos o más requisitos de calendario sucesivos, sin ningún estímulo indicando cuándo se ha completado un calendario y el siguiente ha comenzado.
- Ejemplo: VR 10, después de completar el horario se cambia sin previo aviso a FR 10, después de que se cambia sin previo aviso a FR 16, etc. Al final de la serie de horarios, finalmente se da un refuerzo.
Calendarios de orden superior – la terminación de un horario se refuerza según un segundo calendario; por ejemplo, en FR2 (FI10 segundos), dos horarios de intervalo fijo sucesivos requieren la terminación antes de reforzar una respuesta.

Horarios superpuestos

El término psicológico programas superpuestos de refuerzo se refiere a una estructura de recompensas donde dos o más programas simples de refuerzo operan simultáneamente. Los reforzadores pueden ser positivos, negativos o ambos. Un ejemplo es una persona que llega a casa después de un largo día de trabajo. El comportamiento de abrir la puerta principal es recompensado con un gran beso en los labios por parte del cónyuge de la persona y un rasgón en los pantalones del perro de la familia que salta con entusiasmo. Otro ejemplo de programas de refuerzo superpuestos es una paloma en una jaula experimental picoteando un botón. Los picoteos entregan una tolva de grano cada 20 picoteos y acceso al agua cada 200 picoteos.

Los programas de reforzamiento superpuestos son un tipo de programa compuesto que evolucionó a partir del trabajo inicial sobre programas simples de reforzamiento de B. F. Skinner y sus colegas (Skinner y Ferster, 1957). Demostraron que los reforzadores podían administrarse en horarios y, además, que los organismos se comportaban de manera diferente bajo diferentes horarios. En lugar de que se entregue un reforzador, como comida o agua, cada vez como consecuencia de algún comportamiento, se podría entregar un reforzador después de más de una instancia del comportamiento. Por ejemplo, se le puede pedir a una paloma que pique diez veces un interruptor de botón antes de que aparezca la comida. Este es un "programa de razón". Además, se podría entregar un reforzador después de un intervalo de tiempo después de un comportamiento objetivo. Un ejemplo es una rata a la que se le da una bolita de comida inmediatamente después de la primera respuesta que ocurre después de que hayan transcurrido dos minutos desde la última vez que se presionó la palanca. Esto se denomina "programa de intervalos".

Además, los programas de proporción pueden brindar refuerzo después de un número fijo o variable de comportamientos por parte del organismo individual. Del mismo modo, los programas de intervalos pueden brindar refuerzo después de intervalos de tiempo fijos o variables después de una sola respuesta del organismo. Los comportamientos individuales tienden a generar tasas de respuesta que difieren según cómo se crea el programa de refuerzo. Gran parte de la investigación posterior en muchos laboratorios examinó los efectos sobre los comportamientos de los refuerzos de programación.

Si a un organismo se le ofrece la oportunidad de elegir entre dos o más programas simples de refuerzo al mismo tiempo, la estructura de refuerzo se denomina "programa de refuerzo concurrente". Brechner (1974, 1977) introdujo el concepto de programas superpuestos de refuerzo en un intento de crear una analogía de laboratorio de las trampas sociales, como cuando los humanos sobreexplotan sus pesquerías o derriban sus selvas tropicales. Brechner creó una situación en la que se superponían programas de refuerzo simples. En otras palabras, una sola respuesta o grupo de respuestas de un organismo llevó a múltiples consecuencias. Los programas concurrentes de reforzamiento se pueden considerar como "o" horarios, y los horarios superpuestos de refuerzo se pueden considerar como "y" horarios. Brechner y Linder (1981) y Brechner (1987) ampliaron el concepto para describir cómo los horarios superpuestos y la analogía de la trampa social podrían usarse para analizar la forma en que la energía fluye a través de los sistemas.

Los programas de refuerzo superpuestos tienen muchas aplicaciones en el mundo real además de generar trampas sociales. Se pueden crear muchas situaciones individuales y sociales humanas diferentes mediante la superposición de programas de refuerzo simples. Por ejemplo, un ser humano podría tener adicciones simultáneas al tabaco y al alcohol. Se pueden crear o simular situaciones aún más complejas superponiendo dos o más horarios simultáneos. Por ejemplo, un estudiante de último año de secundaria podría tener la opción de ir a la Universidad de Stanford o a la UCLA, y al mismo tiempo tener la opción de ingresar al Ejército o a la Fuerza Aérea, y al mismo tiempo la opción de aceptar un trabajo en una compañía de Internet o un trabajo en una empresa de software. Esa es una estructura de refuerzo de tres programas de refuerzo concurrentes superpuestos.

Los programas de reforzamiento superpuestos pueden crear las tres situaciones de conflicto clásicas (conflicto de acercamiento-acercamiento, conflicto de acercamiento-evitación y conflicto de evitación-evitación) descritas por Kurt Lewin (1935) y pueden operacionalizar otras situaciones lewinianas analizadas por su análisis de campo de fuerza.. Otros ejemplos del uso de programas superpuestos de reforzamiento como herramienta analítica son su aplicación a las contingencias de control de rentas (Brechner, 2003) y el problema del vertido de desechos tóxicos en el sistema de drenaje pluvial del condado de Los Ángeles (Brechner, 2010).

Horarios concurrentes

En el condicionamiento operante, los programas de refuerzo concurrentes son programas de refuerzo que están disponibles simultáneamente para un sujeto animal o un participante humano, de modo que el sujeto o el participante pueden responder en cualquier programa. Por ejemplo, en una tarea de elección forzada de dos alternativas, una paloma en una caja de Skinner se enfrenta a dos llaves que picotean; Las respuestas de picoteo se pueden hacer en cualquiera de los dos, y el refuerzo de alimentos puede seguir a un picoteo en cualquiera de los dos. Los horarios de refuerzo dispuestos para picotazos en las dos teclas pueden ser diferentes. Pueden ser independientes o pueden estar vinculados de modo que el comportamiento en una clave afecte la probabilidad de refuerzo en la otra.

No es necesario que las respuestas en los dos horarios sean físicamente distintas. En una forma alternativa de organizar horarios concurrentes, introducido por Findley en 1958, ambos horarios se organizan en una sola tecla u otro dispositivo de respuesta, y el sujeto puede responder en una segunda tecla para cambiar entre los horarios. En tal "Findley concurrente" procedimiento, un estímulo (p. ej., el color de la tecla principal) indica qué programación está en vigor.

Los horarios simultáneos a menudo inducen una rápida alternancia entre las claves. Para evitar esto, un "retraso de cambio" se presenta comúnmente: cada programa se desactiva durante un breve período después de que el sujeto cambia a él.

Cuando ambos programas simultáneos son intervalos variables, se encuentra una relación cuantitativa conocida como ley de correspondencia entre las tasas de respuesta relativas en los dos programas y las tasas de refuerzo relativas que entregan; esto fue observado por primera vez por R.J. Herrnstein en 1961. La ley de emparejamiento es una regla para el comportamiento instrumental que establece que la tasa relativa de respuesta en una alternativa de respuesta particular es igual a la tasa relativa de refuerzo para esa respuesta (tasa de comportamiento = tasa de refuerzo). Los animales y los humanos tienden a preferir la elección de horarios.

Dar forma

La formación es el refuerzo de aproximaciones sucesivas a una respuesta instrumental deseada. Al entrenar a una rata para que presione una palanca, por ejemplo, al principio se refuerza el simple hecho de girar hacia la palanca. Entonces, solo se refuerza el giro y el paso hacia él. Los resultados de un conjunto de comportamientos inician el proceso de formación del siguiente conjunto de comportamientos, y los resultados de ese conjunto preparan el proceso de formación del siguiente conjunto, y así sucesivamente. A medida que avanza el entrenamiento, la respuesta reforzada se vuelve progresivamente más parecida al comportamiento deseado; cada comportamiento subsiguiente se convierte en una aproximación más cercana al comportamiento final.

Shaping se usa como una intervención para varios comportamientos deseados para personas con autismo y otras discapacidades del desarrollo. Cuando el modelado se combina con otras prácticas basadas en la evidencia, como el entrenamiento complejo en comunicación funcional (FCT), puede producir resultados positivos para el individuo. Cuando el modelado se combina con un programa de refuerzos con eficiencia, el comportamiento objetivo aumenta.

El modelado también se utiliza para rechazar alimentos. El rechazo a la comida es cuando un individuo tiene una aversión parcial o total a los alimentos. Esto puede ser tan mínimo como un quisquilloso para comer o grave y puede afectar a las personas. salud. El modelado se ha utilizado para tener una mayor tasa de éxito en la aceptación de alimentos.

Encadenamiento

El encadenamiento implica vincular conductas discretas en una serie, de modo que cada resultado de cada conducta sea tanto el refuerzo (o consecuencia) de la conducta anterior como el estímulo (o antecedente) de la conducta siguiente. Hay muchas formas de enseñar el encadenamiento, como el encadenamiento hacia adelante (comenzando desde el primer comportamiento de la cadena), el encadenamiento hacia atrás (comenzando desde el último comportamiento) y el encadenamiento total de tareas (en el que se enseña todo el comportamiento de principio a fin, en lugar de que como una serie de pasos). Un ejemplo es abrir una puerta cerrada. Primero se inserta la llave, luego se gira y luego se abre la puerta.

El encadenamiento hacia adelante enseñaría al sujeto primero a insertar la llave. Una vez que se domina esa tarea, se les dice que inserten la llave y se les enseña a girarla. Una vez que se domina esa tarea, se les dice que realicen las dos primeras y luego se les enseña a abrir la puerta. El encadenamiento hacia atrás implicaría que el maestro primero inserte y gire la llave, y luego se le enseñe al sujeto a abrir la puerta. Una vez que se aprende, el maestro inserta la llave y se le enseña al sujeto a girarla, luego abre la puerta como el siguiente paso. Finalmente, se le enseña al sujeto a insertar la llave, y ellos giran y abren la puerta. Una vez que se domina el primer paso, se ha enseñado toda la tarea. El encadenamiento total de tareas implicaría enseñar la tarea completa como una sola serie, incitando a través de todos los pasos. Las indicaciones se desvanecen (reducen) en cada paso a medida que se dominan.

Los comportamientos desafiantes observados en personas con autismo y otras discapacidades relacionadas se han manejado y mantenido con éxito mediante estudios previos utilizando un programa de refuerzos encadenados. El entrenamiento en comunicación funcional es una intervención que a menudo utiliza programas encadenados de refuerzo para promover de manera efectiva la respuesta de comunicación funcional apropiada y deseada. El propósito de los procedimientos de encadenamiento cuando se usa junto con el entrenamiento de comunicación funcional es disminuir los comportamientos desafiantes o inapropiados con formas funcionales o más apropiadas de expresar al individuo.

Comunicación persuasiva y teoría del refuerzo

Comunicación persuasiva: La persuasión influye en cualquier persona como piensan, actúan y sienten. La habilidad persuasiva habla de cómo la gente entiende la preocupación, posición y necesidades de la gente. La persuasión puede clasificarse en persuasión informal y persuasión formal.
Persuasión oficiosa: Esto habla de la forma en que una persona interactúa con colegas y clientes. La persuasión informal se puede utilizar en equipo, memos y e-mails.; Ejemplo: "Noté que ayudaste a Joe mientras tu equipo estaba siendo atendido por el equipo de mantenimiento." O; "Escuché su explicación a ese último cliente sobre cómo obtener, utilizar y las ventajas de tener una tarjeta de crédito. Creo que podemos añadirla a nuestro negocio".
Persuasión formal: Este tipo de persuasión se utiliza por escrito carta de cliente, propuesta y también para presentación formal a cualquier cliente o colegas.
Proceso de persuasión: La persuasión se relaciona con la influencia de las personas con sus habilidades, experiencia, conocimiento, liderazgo, cualidades y capacidades de equipo. La persuasión es un proceso interactivo mientras se hace el trabajo por otros. Estos son ejemplos para los que puede utilizar habilidades de persuasión en tiempo real. Entrevista: puedes probar tus mejores talentos, habilidades y experiencia. Clientes: guiar a sus clientes para el logro de los objetivos o metas. Memos: expresar sus ideas y opiniones a los colaboradores para la mejora de las operaciones. La identificación de la resistencia y la actitud positiva son los papeles vitales de la persuasión.

La persuasión es una forma de interacción humana. Tiene lugar cuando un individuo espera alguna respuesta particular de uno o más individuos y deliberadamente se dispone a asegurar la respuesta mediante el uso de la comunicación. El comunicador debe darse cuenta de que diferentes grupos tienen diferentes valores.

En situaciones de aprendizaje instrumental, que involucran comportamiento operante, el comunicador persuasivo presentará su mensaje y luego esperará a que el receptor dé una respuesta correcta. Tan pronto como el receptor da la respuesta, el comunicador intentará arreglar la respuesta mediante alguna recompensa o refuerzo apropiado.

En situaciones de aprendizaje condicional, donde hay un comportamiento de respuesta, el comunicador presenta su mensaje para obtener la respuesta que desea del receptor, y el estímulo que originalmente sirvió para obtener la respuesta se convierte en el elemento de refuerzo o recompensa en el condicionamiento..

Modelos matemáticos

Se ha trabajado mucho en la construcción de un modelo matemático de refuerzo. Este modelo se conoce como MPR, abreviatura de principios matemáticos de refuerzo. Peter Killeen ha realizado descubrimientos clave en el campo con su investigación sobre las palomas.

Críticas

La definición estándar de refuerzo conductual ha sido criticada como circular, ya que parece argumentar que la fuerza de la respuesta aumenta con el refuerzo, y define el refuerzo como algo que aumenta la fuerza de la respuesta (es decir, la fuerza de la respuesta aumenta con cosas que aumentan la fuerza de la respuesta).). Sin embargo, el uso correcto de refuerzo es que algo es un reforzador debido a su efecto sobre el comportamiento, y no al revés. Se vuelve circular si uno dice que un estímulo en particular fortalece el comportamiento porque es un reforzador, y no explica por qué un estímulo produce ese efecto en el comportamiento. Se han propuesto otras definiciones, como F.D. Sheffield's 'conducta consumatoria supeditada a una respuesta', pero estos no se utilizan ampliamente en psicología.

Cada vez más, la comprensión del papel que juegan los reforzadores se aleja cada vez más de un "fortalecimiento" efecto a una "señalización" efecto. Es decir, la opinión de que los reforzadores aumentan la respuesta porque señalan las conductas que probablemente den como resultado un refuerzo. Si bien en la mayoría de las aplicaciones prácticas, el efecto de cualquier reforzador dado será el mismo independientemente de si el reforzador está señalando o fortaleciendo, este enfoque ayuda a explicar una serie de fenómenos de comportamiento, incluidos los patrones de respuesta en los programas de refuerzo intermitente (vieiras de intervalo fijo) y el efecto de resultados diferenciales.

Historia de los términos

En la década de 1920, el fisiólogo ruso Ivan Pavlov pudo haber sido el primero en usar la palabra refuerzo con respecto al comportamiento, pero (según Dinsmoor) usó su afín ruso aproximado con moderación, e incluso entonces se refirió al fortalecimiento de una respuesta ya aprendida pero debilitada. No lo usó, como lo es hoy, para seleccionar y fortalecer nuevos comportamientos. La introducción de Pavlov de la palabra extinción (en ruso) se aproxima al uso psicológico actual.

En el uso popular, refuerzo positivo a menudo se usa como sinónimo de recompensa, con las personas (no el comportamiento) siendo "reforzadas", pero esto es contrario al uso técnico consistente del término, ya que es una dimensión del comportamiento, y no la persona, lo que se fortalece. El refuerzo negativo a menudo es utilizado por la gente común e incluso por científicos sociales ajenos a la psicología como sinónimo de castigo. Esto es contrario al uso técnico moderno, pero fue B. F. Skinner quien lo utilizó por primera vez de esta manera en su libro de 1938. En 1953, sin embargo, siguió a otros al emplear así la palabra castigo, y reformuló refuerzo negativo para la eliminación de estímulos aversivos.

Hay algunos dentro del campo del análisis del comportamiento que han sugerido que los términos "positivo" y "negativo" constituyen una distinción innecesaria al discutir el refuerzo, ya que a menudo no está claro si los estímulos se eliminan o se presentan. Por ejemplo, Iwata plantea la pregunta: "... ¿un cambio de temperatura se caracteriza con mayor precisión por la presentación de frío (calor) o la eliminación de calor (frío)?" Por lo tanto, el refuerzo podría conceptualizarse como una condición anterior al cambio reemplazada por una condición posterior al cambio que refuerza el comportamiento que siguió al cambio en las condiciones del estímulo.

Aplicaciones

El refuerzo y el castigo son ubicuos en las interacciones sociales humanas, y se han sugerido e implementado muchas aplicaciones de los principios operantes. Los siguientes son algunos ejemplos.

Adicción y dependencia

El refuerzo positivo y negativo juega un papel central en el desarrollo y mantenimiento de la adicción y la drogodependencia. Una droga adictiva es intrínsecamente gratificante; es decir, funciona como un reforzador positivo primario del consumo de drogas. El sistema de recompensas del cerebro le asigna prominencia de incentivos (es decir, es 'querido' o 'deseado'), de modo que a medida que se desarrolla una adicción, la privación de la droga conduce al ansia. Además, los estímulos asociados con el uso de drogas, por ejemplo, ver una jeringa y el lugar de uso, se asocian con el refuerzo intenso inducido por la droga. Estos estímulos previamente neutros adquieren varias propiedades: su aparición puede inducir craving, y pueden convertirse en reforzadores positivos condicionados de uso continuado. Por lo tanto, si una persona adicta se encuentra con una de estas señales de drogas, puede reaparecer un deseo por la droga asociada. Por ejemplo, las agencias antidrogas utilizaron anteriormente carteles con imágenes de parafernalia de drogas como un intento de mostrar los peligros del consumo de drogas. Sin embargo, estos carteles ya no se utilizan debido a los efectos de la prominencia de incentivos al provocar una recaída al ver los estímulos ilustrados en los carteles.

En individuos drogodependientes, el refuerzo negativo ocurre cuando una droga se autoadministra para aliviar o "escapar" los síntomas de dependencia física (p. ej., temblores y sudoración) y/o dependencia psicológica (p. ej., anhedonia, inquietud, irritabilidad y ansiedad) que surgen durante el estado de abstinencia de la droga.

Entrenamiento de animales

Un pollo montando un skateboard

Los entrenadores de animales y los dueños de mascotas aplicaban los principios y las prácticas del condicionamiento operante mucho antes de que se nombraran y estudiaran estas ideas, y el entrenamiento de animales aún proporciona uno de los ejemplos más claros y convincentes de control operante. De los conceptos y procedimientos descritos en este artículo, algunos de los más destacados son: disponibilidad de refuerzo inmediato (por ejemplo, la siempre presente bolsa de dog yummies); contingencia, asegurando que el refuerzo sigue al comportamiento deseado y no a otra cosa; el uso de refuerzo secundario, como hacer sonar un clicker inmediatamente después de una respuesta deseada; dar forma, como hacer que un perro salte gradualmente más y más alto; refuerzo intermitente, reduciendo la frecuencia de esos deliciosos para inducir un comportamiento persistente sin saciedad; encadenamiento, donde un comportamiento complejo se ensambla gradualmente.

Comportamiento infantil: capacitación en manejo de padres

Proveer un refuerzo positivo para los comportamientos apropiados de los niños es un enfoque principal de la capacitación en manejo de padres. Por lo general, los padres aprenden a recompensar el comportamiento apropiado a través de recompensas sociales (como elogios, sonrisas y abrazos), así como recompensas concretas (como calcomanías o puntos para una recompensa mayor como parte de un sistema de incentivos creado en colaboración con el niño). Además, los padres aprenden a seleccionar comportamientos simples como enfoque inicial y recompensan cada uno de los pequeños pasos que su hijo logra para alcanzar una meta más grande (este concepto se llama "aproximaciones sucesivas"). También pueden usar recompensas indirectas, como gráficos de progreso. Proporcionar un refuerzo positivo en el aula puede ser beneficioso para el éxito de los estudiantes. Al aplicar el refuerzo positivo a los estudiantes, es crucial hacerlo individualizado según las necesidades de ese estudiante. De esta manera, el estudiante entiende por qué está recibiendo el elogio, puede aceptarlo y eventualmente aprender a continuar con la acción que obtuvo mediante el refuerzo positivo. Por ejemplo, el uso de recompensas o tiempo de recreo adicional podría aplicarse más a algunos estudiantes, mientras que otros podrían aceptar el cumplimiento al recibir calcomanías o marcas de verificación que indiquen elogios.

Economía

Tanto los psicólogos como los economistas se han interesado en aplicar los conceptos y hallazgos operantes al comportamiento de los humanos en el mercado. Un ejemplo es el análisis de la demanda del consumidor, indexada por la cantidad de un bien que se compra. En economía, el grado en que el precio influye en el consumo se denomina "elasticidad precio de la demanda". Ciertas mercancías son más elásticas que otras; por ejemplo, un cambio en el precio de ciertos alimentos puede tener un gran efecto en la cantidad comprada, mientras que la gasolina y otros artículos esenciales pueden verse menos afectados por los cambios de precio. En términos de análisis operante, tales efectos pueden interpretarse en términos de motivaciones de los consumidores y el valor relativo de las mercancías como reforzadores.

Juegos de azar: programación de proporción variable

Como se indicó anteriormente en este artículo, un programa de razón variable produce refuerzo después de la emisión de un número impredecible de respuestas. Este programa generalmente genera una respuesta rápida y persistente. Las máquinas tragamonedas pagan con un programa de proporción variable, y producen precisamente este tipo de comportamiento persistente de tirar de la palanca en los jugadores. Debido a que las máquinas están programadas para pagar menos dinero del que ingresan, el usuario persistente de máquinas tragamonedas invariablemente pierde a largo plazo. Las máquinas tragamonedas y, por lo tanto, el refuerzo de proporción variable, a menudo se han culpado como un factor subyacente a la adicción al juego.

Gestión del comportamiento en las organizaciones

Una alternativa a los esquemas tradicionales de incentivos de pago por desempeño que tiene sus raíces en la teoría del refuerzo, conocida como O.B. Mod Approach, se ha propuesto como un enfoque práctico para gestionar los comportamientos relacionados con el desempeño de los miembros de una organización. O.B. Modificación. y su "reforzar para el rendimiento" Se ha demostrado empíricamente que la base produce mejoras en el rendimiento tanto en las organizaciones de fabricación como en las de servicios, aunque las mejoras varían según el tipo de reforzador en ambos contextos.

Teoría del empujón

La teoría del empujón (o empujón) es un concepto de las ciencias del comportamiento, la teoría política y la economía que argumenta que el refuerzo positivo y las sugerencias indirectas para tratar de lograr el cumplimiento no forzado pueden influir en los motivos, incentivos y toma de decisiones de grupos e individuos. al menos con la misma eficacia, si no más, que la instrucción directa, la legislación o la aplicación.

Alabanza

El concepto de elogio como un medio de refuerzo del comportamiento en humanos tiene sus raíces en el modelo de condicionamiento operante de B. F. Skinner. A través de este lente, el elogio se ha visto como un medio de refuerzo positivo, en el que se hace más probable que ocurra un comportamiento observado al elogiar dicho comportamiento de manera contingente. Cientos de estudios han demostrado la eficacia de los elogios en la promoción de comportamientos positivos, especialmente en el estudio del uso de elogios por parte de maestros y padres en el niño para promover un mejor comportamiento y rendimiento académico, pero también en el estudio del rendimiento laboral. También se ha demostrado que los elogios refuerzan comportamientos positivos en personas adyacentes que no son elogiadas (como un compañero de clase del receptor de los elogios) a través del refuerzo indirecto. El elogio puede ser más o menos efectivo para cambiar el comportamiento dependiendo de su forma, contenido y entrega. Para que el elogio produzca un cambio de comportamiento positivo, debe estar supeditado al comportamiento positivo (es decir, solo debe administrarse después de que se promulgue el comportamiento objetivo), debe especificar los detalles del comportamiento que se va a reforzar y debe entregarse con sinceridad y con credibilidad

Al reconocer el efecto de los elogios como una estrategia de refuerzo positivo, numerosas intervenciones conductuales y cognitivas conductuales han incorporado el uso de elogios en sus protocolos. El uso estratégico de los elogios se reconoce como una práctica basada en la evidencia tanto en la gestión del aula como en las intervenciones de capacitación para padres, aunque los elogios a menudo se incluyen en la investigación de intervenciones en una categoría más amplia de refuerzo positivo, que incluye estrategias como la atención estratégica y las recompensas conductuales.

Manipulación

Braiker identificó las siguientes formas en que los manipuladores controlan a sus víctimas:

Refuerzo positivo: incluye elogio, encanto superficial, simpatía superficial (lagrimas de cocodrilo), apologización excesiva, dinero, aprobación, regalos, atención, expresiones faciales como una risa forzada o sonrisa, y reconocimiento público.
Refuerzo negativo: puede implicar la eliminación de una situación negativa
Refuerzo intermitente o parcial: El refuerzo negativo parcial o intermitente puede crear un clima efectivo de miedo y duda. El refuerzo positivo parcial o intermitente puede alentar a la víctima a persistir – por ejemplo en la mayoría de las formas de juego, el jugador es probable que gane de vez en cuando pero todavía perder dinero en general.
Castigo: incluye azotar, gritar, el tratamiento silencioso, intimidación, amenazas, juramento, chantaje emocional, el viaje de culpa, señuelo, llanto y el juego de la víctima.
Aprendizaje traumático de un solo juicio: usando abuso verbal, ira explosiva u otro comportamiento intimidante para establecer dominio o superioridad; incluso un incidente de tal comportamiento puede condicionar o entrenar a las víctimas para evitar perturbar, confrontar o contradecir al manipulador.

Vínculo traumático

El vínculo traumático se produce como resultado de ciclos continuos de abuso en los que el refuerzo intermitente de la recompensa y el castigo crea vínculos emocionales poderosos que son resistentes al cambio.

La otra fuente indicó que “Las condiciones necesarias para un vínculo traumático son que una persona debe dominar a la otra y que el nivel de abuso aumenta crónicamente y luego disminuye. La relación se caracteriza por períodos de comportamiento permisivo, compasivo e incluso afectuoso por parte de la persona dominante, puntuados por episodios intermitentes de abuso intenso. Para mantener la ventaja, el victimario manipula el comportamiento de la víctima y limita las opciones de la víctima para perpetuar el desequilibrio de poder. Cualquier amenaza al equilibrio entre dominación y sumisión puede encontrarse con un ciclo creciente de castigo que va desde la intimidación hirviente hasta los arrebatos de violencia intensa. El victimario también aísla a la víctima de otras fuentes de apoyo, lo que reduce la probabilidad de detección e intervención, perjudica la capacidad de la víctima para recibir retroalimentación autorreferencial compensatoria y fortalece el sentido de dependencia unilateral... Los efectos traumáticos Algunas de estas relaciones abusivas pueden incluir el deterioro de la capacidad de la víctima para una autoevaluación precisa, lo que lleva a un sentimiento de inadecuación personal y un sentido subordinado de dependencia de la persona dominante. Las víctimas también pueden encontrar una variedad de consecuencias sociales y legales desagradables por su afiliación emocional y conductual con alguien que perpetró actos agresivos, incluso si ellos mismos fueron los destinatarios de la agresión.

Videojuegos

La mayoría de los videojuegos están diseñados en torno a algún tipo de ciclo de compulsión, agregando un tipo de refuerzo positivo a través de un programa de frecuencia variable para que el jugador siga jugando, aunque esto también puede conducir a la adicción a los videojuegos.

Como parte de una tendencia en la monetización de los videojuegos en la década de 2010, algunos juegos ofrecían "cajas de botín" como recompensas o comprables por fondos del mundo real que ofrecían una selección aleatoria de elementos del juego, distribuidos por rareza. La práctica se ha vinculado a los mismos métodos que las máquinas tragamonedas y otros dispositivos de juego reparten recompensas, ya que sigue un programa de tasa variable. Si bien existe la percepción general de que las cajas de botín son una forma de juego, la práctica solo se clasifica como tal en algunos países como juego y legal. Sin embargo, los métodos para usar esos artículos como moneda virtual para juegos de azar en línea o para intercambiar dinero del mundo real han creado un mercado de juegos de azar que está bajo evaluación legal.

Cultura del miedo en el lugar de trabajo

Ashforth analizó los aspectos potencialmente destructivos del liderazgo e identificó lo que denominó pequeños tiranos: líderes que ejercen un estilo de gestión tiránico, lo que genera un clima de miedo en el lugar de trabajo. El refuerzo negativo parcial o intermitente puede crear un clima efectivo de miedo y duda. Cuando los empleados tienen la sensación de que los acosadores son tolerados, el resultado puede ser un clima de miedo.

Las diferencias individuales en la sensibilidad a la recompensa, el castigo y la motivación se han estudiado bajo las premisas de la teoría de la sensibilidad al refuerzo y también se han aplicado al desempeño en el lugar de trabajo.

Contenido relacionado

Más resultados...