¿Qué es una recompensa?
En esencia algo que acerca el cuerpo a una situación ideal.
El agua es una recompensa cuando tu cuerpo se está deshidratando, la comida es una recompensa cuando se te está agotando la energía, …
El agua y la comida se denominan recompensas primarias porque satisfacen directamente nuestras necesidades biológicas.
De manera más general, sin embargo, el comportamiento humano está guiado por recompensas secundarias: cosas que presagian recompensas primarias, por ejemplo, un rectángulo metálico no le dice gran cosa cerebro, pero como ha aprendido que simboliza una fuente entonces, distinguir este signo es una recompensa cuando tienes sed.
En el caso de los humanos, descubrimos que la recompensa puede residir incluso en conceptos muy abstractos como saber que nuestra comunidad nos valora, y contrariamente a los animales, a menudo, ponemos estas recompensas por encima de las necesidades biológicas, y así cuando nos enfrentamos a una variedad de posibilidades, integramos los datos internos y externos para maximizar la recompensa.
Toma de decisiones
Siempre tenemos que tomar decisiones en las que el camino escogido proporcionará una recompensa con posterioridad. La gente va a la universidad durante años porque valora el concepto de sacarse un título, se matan a trabajar en un puesto que no les gusta por la futura esperanza de un ascenso, y llevan a cabo dolorosos ejercicios físicos con la meta de “estar en forma”.Comparar opciones diferentes significa asignar un valor a cada una en una moneda única de la recompensa anticipada y luego escoger cuál tiene un valor mayor.
Consideremos el siguiente escenario: dispongo de un poco de tiempo libre, intento de decidir qué hacer y tengo que comprar comestibles, pero también sé que necesito ir a un café y trabajar en la solicitud de una subvención para mi laboratorio porque se acerca la fecha límite, también quiero pasar un rato con mi hijo en el parque.
¿Cómo me enfrento a este menú de opciones?
Viaje en el tiempo
Naturalmente sería fácil poder comparar directamente estas experiencias viviéndolas todas y luego rebobinar y escoger mi camino basándome en cuál ha dado mejor resultado, pero no puedo viajar en el tiempo. ¿o sí?Viajar en el tiempo es algo que el ser humano hace sin cesar.
Cuando nos enfrentamos a una decisión, nuestro cerebro simula resultados distintos para generar una ficción de cuál podría ser nuestro futuro.
Mentalmente podemos desconectar del momento actual y viajar a un mundo que todavía no existe.
Ahora bien, simular un escenario en mi mente no es más que el primer paso.
Al decidir entre escenarios imaginados intento valorar cuál será la recompensa de esos posibles futuros.
Cuando simulo llenar la despensa de comestibles, experimento una sensación de alivio por haberme organizado y evitado la incertidumbre.
La subvención me produce otro tipo de recompensa, no solo tendré dinero para el laboratorio, sino que recibiré los elogios del director del departamento y me sentiré recompensado por haber progresado en mi carrera profesional.
Imaginarme en el parque con mi hijo me inspira alegría y una sensación de recompensa en términos de proximidad familia.
La decisión final la alcanzaré valorando cada futuro en relación con los demás en la moneda única de mis sistemas de recompensa.
La elección no es fácil, pues cada uno de estas evaluaciones tiene muchos matices: la simulación de ir a comprar va acompañada de una sensación de tedio; el hecho de solicitar la subvención lleva aparejado cierta frustración; ir al parque provoca un sentimiento de culpa por no estar trabajando.
Mi cerebro habitualmente bajo el radar de la conciencia simula todas las opciones al mismo tiempo y vas comprobando qué relación instintiva provoca cada una de ellas.
Así es como decido
¿Cómo simuló con precisión esos futuros?¿Cómo puedo llegar a predecir que me encontraré en cada uno de estos recorridos?
La respuesta es que es imposible: no hay manera de saber si mis predicciones serán exactas.
Toda mi simulación se basa tan solo en mis experiencias anteriores y en mis modelos actuales de cómo funciona el mundo.
Al igual que todos los componentes del reino animal lo único que podemos hacer es ir por el mundo con esperanza de descubrir al azar qué provoca una recompensa futura y qué no.
En cambio, la labor fundamental del cerebro es predecir.
Para hacerlo razonablemente bien, tenemos que seguir aprendiendo de cada una de nuestras experiencias.
Así que, en este caso, otorgo un valor a cada una de estas opciones basándome en mis experiencias pasadas.
Valorando experiencias
Utilizando los estudios de Hollywood que tenemos en nuestra mente, viajamos en el tiempo hasta nuestros futuros imaginarios para ver qué valor les asignamos.Y así es como tomo mis decisiones, comparando futuros posibles.
Así es como convierto opciones rivales en una moneda única de recompensa futura.
Consideremos el valor de la recompensa pronosticada para cada acción como una evaluación interna que indica lo buena que será cualquier cosa.
Como ir a comprar me proporcionará comida, le otorgamos un valor de 10 unidades de recompensa.
Solicitar la subvención es difícil pero necesario para mi carrera, de manera que le concedo 25 unidades de recompensa.
Me encanta pasar un rato con mi hijo, así que al ir al parque le concedo 50 unidades de recompensa.
Pero aquí surge un detalle inesperado: el mundo es complicado, por lo que nuestras evaluaciones internas nunca se escriben con tinta permanente.
La evaluación de todo lo que nos rodea es cambiante, porque muy a menudo nuestras predicciones no encajan con lo que ocurre en realidad.
La clave de un aprendizaje eficaz reside en no perder de vista este error de predicción: la diferencia entre el resultado esperado de una elección y el resultado que ya ha ocurrido.
En el caso de hoy, mi cerebro cuenta con la predicción de la recompensa que supondría ir al parque.
Si nos topamos con unos amigos y pasamos un rato aún mejor de lo que esperaba eso aumenta la valoración que le daré al ir a al parque la próxima vez que tome la decisión.
Por otro lado, si los columpios están rotos y llueve bajar a mi valoración para la próxima vez.
¿Cómo funciona todo esto?
En el cerebro existe un diminuto y antiguo sistema cuya misión es actualizar su valoración del mundo.Este sistema está compuesto de diminutos grupos de células de su cerebro medio que hablan el idioma de un neurotransmisor llamado dopamina.
Cuando sus expectativas y la realidad no coinciden el sistema de dopamina en el cerebro medio envía una señal que reevalúa el precio de mercado.
Esta señal indica al resto del sistema si las cosas han resultado mejor de lo esperado (un aumento de la dopamina) o peor (una disminución de la dopamina).
Esta señal de error de predicción permite que el resto del cerebro ajuste sus expectativas para, la próxima vez, procurar acercarse más a la realidad.
La dopamina actúa como un corrector del error: es un tasador químico que siempre funciona para que sus valoraciones estén lo más actualizadas posible.
De este modo puede priorizar sus decisiones basándose en hipótesis optimizadas del futuro.
Fundamentalmente, el cerebro está afinado para detectar resultados inesperados, y esa sensibilidad es lo que explica la capacidad de los animales para adaptarse y aprender.
No debe sorprendernos por tanto que la arquitectura cerebral participa en el aprendizaje a partir de la experiencia sea más o menos la misma en todas las especies, desde las abejas hasta los humanos, lo que sugiere que el cerebro descubrió el principio básico de aprender a partir de la recompensa hace mucho tiempo.
Extracto parcial del capítulo 4 del libro “El sonido de una decisión”
Autor: David Eagleman
Ed.: Anagrama