fbpx

Estímulos positivos para modificar la conducta: el reforzamiento intermintente

Los que tengáis un perro como mascota seguro que sabéis que la mejor forma de que aprendan trucos básicos, como sentarse o dar la patita, es ofrecerle un premio cada vez que realice correctamente la acción. Y los seres humanos, como animales que somos (algunos más que otros) no íbamos a ser menos, aprendemos mejor con recompensas.

Esto, que parece tan obvio, fue planteado y comprobado experimentalmente por Brrhus Frederic Skinner, quién con su Teoría de reforzamiento intentó explicar la conducta humana como respuesta. Los estímulos reforzadores pueden ser tanto negativos como positivos y ambos tienen la misma finalidad: modificar la conducta.

Los reforzadores positivos son todos aquellos que aparecen como consecuencia de una conducta beneficiosa, ojo, no tienen por qué ser siempre reforzadores externos, un reforzamiento positivo también es comer cuando se tiene hambre. Por otro lado, los reforzadores negativos, al contrario de lo que puede parecer, no son castigos o estímulos aversivos, sino lo contrario, es eliminar algo que sea considerado negativo.

Tal y como comentábamos Skinner intentó explicar la conducta humana como respuesta, su experimento más conocido es la “Caja de Skinner”, una caja muy sencilla con básicamente tres elementos:

  • Un dispensador de comida
  • Una palanca que al pulsarla ofreciera la recompensa en forma de comida
  • Un tipo de señal que indica cuando pulsar la palanca.

Y dentro de la caja un animal, normalmente una rata, una paloma o un mono.

(Si deslizas la imagen puedes ver la caja de Skinner)

Al principio, cada vez que el animal pulsaba la palanca éste obtenía la recompensa en forma de alimento, y observó que los animales lo hacían hasta saciarse, pero después paraban, es decir, el comportamiento no perduraba y se extinguía rápido. Lo siguiente que probó fue ofrecer la recompensa cada determinado tiempo o número de pulsaciones, y en ambos casos se observaba que, aunque el comportamiento no duraba mucho, los animales pulsaban más veces la palanca.

Finalmente empezó a ofrecer la recompensa de forma variable, es decir, aunque se encendiese la luz y el animal pulsase la palanca podía o no caer comida, o caer comida sin necesidad de que se encendiese la luz o de pulsar la palanca, y lo que observó en este caso fue que los animales no paraban de pulsar la palanca, es decir, el comportamiento se volvía muy difícil de extinguir, se trata de un sistema de reforzamiento intermitente.

Con este experimento probó que los animales son capaces de volverse adictos aun sistema de recompensa variable, en el que no sabes si vas a obtener la recompensa o no, pero ¿qué pasa con los humanos? Vamos a hacer un ejercicio ¿qué máquina conocéis, a la que estemos expuestos los seres humanos, que contenga estos tres elementos también? Luces, una palanca y una recompensa….

Exacto, probablemente todos estéis pensando en las máquinas tragaperras, y es que básicamente funcionan como una caja de Skinner: Una recompensa intermitente (dinero), que si a alguien le ha caído alguna vez a ti también te puede tocar, y si dejas de pulsar la palanca puede venir otra persona y obtener ella la recompensa, una palanca, y luces que te indican cuando accionar la palanca. Todos sabemos que el uso de estas máquinas genera más pérdidas de dinero que ganancias, pero ¿por qué sigue usándolas la gente?

La solución como siempre la tiene la neurociencia, volvemos a hablar como en otros muchos posts de nuestra buena amiga la dopamina. Robert Sapolsky fue el encargado de encontrar una “justificación” biológica a lo que Skinner había descrito. Para ello utilizó un mono entrenado para que, al ver una señal pulsase 10 veces un botón que le ofrecía una recompensa en forma de alimento al que medía los niveles de dopamina en el cerebro a lo largo de todo el experimento, y para su sorpresa observó que los niveles de dopamina se elevaban antes de llevar a cabo la acción, es decir, cuando observa la señal, no al obtener la recompensa, lo que demostraba que la dopamina es la encargada de producir la conducta a la recompensa ¿Y qué pasa si la recompensa es variable? Pues que los niveles de dopamina subían hasta más del doble, la dopamina mantiene al mono adicto, igual que mantiene a los jugadores de máquinas tragaperras enganchados.

Esta estrategia de recompensa variables también la utilizan sagas de videojuegos muy conocidos como el Candy Crush, donde al meterte a diario obtienes un “regalo” (Spoiler en todos los videojuegos hay reforzamiento intermitente)

Y el amor tampoco se queda fuera de esta estrategia, ahora ya sabéis que esa persona que te habla un día si, dos no, luego una semana seguida y luego desaparece durante tres, probablemente esté haciéndoos -sin saberlo, o no- reforzamiento intermitente (o como lo llamo con mis amigos “hacer la de la paloma”), y por eso seguís estando enganchados y os gusta más que la persona que os ofrece la recompensa a diario. Así que ya sabéis, “voy a dejarte de hablar, pa’ llamar tu atención.”

Únete a la comunidad