In life, many decision-making problems are complicated because agents - biological and artificial alike - typically can not directly observe all aspects of their environments. Moreover, consequences of the agents’ actions in terms of reward gain typically unfold over time. The aim of this dissertation is to computationally characterize how humans tackle such problems from two perspectives. The first perspective is to identify if decisions are governed in a model-free or a model-based fashion; while for model-free strategies it is sufficient to have access to some instantaneous reward-related information or the reward history, model-based strategies require representations of the statistical regularities of the environment. The second perspective is to identify if decisions are governed in a purely exploitative or a combined exploitative-explorative fashion; while purely exploitative strategies only seek to harness the knowledge about the environment, combined explorative-exploitative strategies also seek to accumulate knowledge about the environment. In Chapter 1 of this dissertation, I present an agent-based modeling framework suitable to decompose correlates of human sequential decision making under uncertainty with respect to both perspectives. This framework capitalizes on partially observable Markov decision processes terminology, heuristics, belief states and dynamic programming, as well as standard statistical inference approaches to connect models and data. In Chapters 2 and 3, I put the agent-based modeling framework into use and investigate human participants’ strategies in novel bandit and multistep tasks, respectively. In both tasks, I provide behavioral evidence for model-based strategies. Further, I demonstrate that the model-based strategy conforms to a combined explorative-exploitative agenda in the bandit task. By contrast, I show that in the multistep task, the model-based strategy conforms to a purely exploitative agenda, which is neurally enabled by the orchestrated activity in a distributed network of cortical and subcortical brain regions. In Chapter 4, I embed these findings within the broader discussion they contribute to, outline how the arbitration between different strategies could be organized and describe possible extensions of the agent-based modeling framework. In summary, by adopting an agent-based modeling framework, this dissertation provides evidence for a predominantly model-based nature of human sequential decision making under uncertainty. In addition, by showing that exploitation is not always complemented by exploration, this dissertation highlights that humans can flexibly adjust their strategies, thereby meeting the ever-changing demands of life.
Viele Entscheidungsprobleme im Leben sind dadurch kompliziert, dass sowohl biologische als auch künstliche Agenten typischerweise nicht alle Aspekte der Umgebung unmittelbar observieren können. Zudem entfalten sich die Konsequenzen von Aktionen hinsichtlich des Belohnungsgewinns erst im Laufe der Zeit. Das Ziel dieser Dissertation ist es aus zwei Blickwinkeln komputational zu erfassen, wie Menschen solche Probleme angehen. Der erste Blickwinkel versucht zu identifizieren, ob Entscheidungen auf Basis einer modellfreien oder modellbasierten Art getroffen werden; während es für modellfreie Strategien ausreichend ist Zugang zu momentanen belohnungsbezogenen Informationen oder zur Belohnungsgeschichte zu haben, benötigen modellbasierte Strategien Repräsentationen von den statistischen Regelmäßigkeiten der Umgebung. Der zweite Blickwinkel versucht zu identifizieren, ob Entscheidungen auf Basis einer rein exploitativen oder kombiniert exploitativ-explorativen Art getroffen werden; während rein exploitative Strategien nur darauf abzielen, sich das Wissen über die Umgebung zu Nutze zu machen, zielen kombinierte explorativ-exploitative Strategien auch darauf ab, Wissen über die Umgebung anzusammeln. In Kapitel 1 dieser Dissertation stelle ich ein agentenbasiertes Modellierungsframework vor, das ermöglicht, Korrelate humaner sequentieller Entscheidungsfindung unter Unsicherheit in Bezug auf beide Blickwinkel zu zerlegen. Dieses Framework basiert auf der Terminologie partiell-observierbarer Markov Entscheidungsprozesse, Heuristiken, Bayes’scher Zustandsrepräsentation und dynamischer Programmierung sowie klassischen statistischen Inferenzansätzen um Modelle und Daten zu verknüpfen. In Kapiteln 2 und 3 setze ich das agentenbasierte Modellierungsframework ein um die Strategien humaner Teilnehmer in neuartigen Bandit- beziehungsweise Mehrschritt-Aufgaben zu untersuchen. In beiden Aufgaben erbringe ich Nachweise für den Einsatz modellbasierte Strategien auf der Verhaltensebene. Des Weiteren demonstriere ich, dass die modellbasierte Strategie in der Bandit-Aufgabe einer kombinierten explorativ-exploitativen Agenda entspricht. Im Gegensatz dazu zeige ich, dass die modellbasierte Strategie in der Mehrschritt-Aufgabe einer rein exploitativen Agenda entspricht, die neuronal durch die orchestrierte Aktivität eines verteilten Netzwerks kortikaler und subkortikaler Hirnregionen unterstützt wird. In Kapitel 4 bette ich diese Ergebnisse in die breitere Diskussion ein, stelle dar, wie eine Auswahl verschiedener Strategien erfolgen könnte und beschreibe mögliche Erweiterungen des agentenbasierten Modellierungsframeworks. Zusammenfassend zeigt diese Dissertation durch die Anwendung eines agentenbasierten Modellierungsframeworks, dass die sequentielle Entscheidungsfindung unter Unsicherheit bei Menschen vorwiegend modellbasierter Natur ist. Durch den Nachweis, dass exploitative Strategien nicht immer durch explorative Strategien ergänzt werden, hebt die Dissertation darüber hinaus hervor, dass Menschen ihre Strategien flexibel anpassen können, um den sich ständig ändernden Anforderungen des Lebens gerecht zu werden.