dc.contributor.author
Winkelmann, Stefanie
dc.date.accessioned
2018-06-08T00:05:02Z
dc.date.available
2013-07-16T10:57:22.253Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/11428
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-15626
dc.description.abstract
For several decades, the theory of Markov decision processes has been
successfully used to model situations of controlled stochastic dynamics in
various application areas. Beside the original setting which assumes the
controlled process to be completely observable at all times, there exist
several variants of Markov control theory for cases of incomplete state
information. All these variants underlie special restrictions: The time scale
of the process has to be discrete, the state space is assumed to exhibit a
special ordered structure or the type of dynamics is in some sense predefined.
In this thesis we develop a novel model of Markov control with incomplete
state information which is applicable to all kinds of continuous-time dynamics
on a discrete state space. The observation of the process and the choice of
actions take place at discrete points in time which themselves are subject to
the control of the decision maker. Each observation produces a fixed amount of
information costs which are included in the considered cost criteria. The
chosen action determines the stochastic dynamics of the process within the
next time period of hidden progress. The resulting combined optimization of
observation times and interaction is extensively studied in this thesis. Given
the new setting, we redefine the two criteria of discounted costs and average
costs in an appropriate way. Both criteria are analyzed subsequently. Their
relation to the cost criteria considered in the original Markov control theory
is established and the impact of the control parameters and of the information
cost parameter is explored. One main result is the reformulation of the
Bellman equation which delivers the basis for an efficient numerical
calculation of the optimal control policy. The corresponding value function of
optimal costs is discovered to be monotone and continuous with respect to the
information cost parameter and to coincide with the value function of the
original setting when considering vanishing information costs. The proposed
model not only permits a coherent and productive theoretical analysis, but
also forms the basis for an interesting real-world application. We consider
the dynamics of HIV and use the developed theory to calculate optimal
therapeutic strategies for resource-rich and resource-poor settings. We
discover, among other things, that a decrease of diagnostic costs in resource-
poor settings would significantly enhance the medical success of cost optimal
therapies. This thesis provides a comprehensible framework for analyzing
situations of controlled dynamics which are not permanently observable. The
framework is based on the two fundamental assumptions that a state test always
delivers instantaneous and perfect information and that the action can only be
adapted after such a test. A question of interest is how far these assumptions
can be eased in order to generalize the control model. Finding an answer to
this question proves to be a topic of future research.
de
dc.description.abstract
Seit einigen Jahrzehnten wird die Theorie der Markov-Kontroll-Prozesse
erfolgreich genutzt, um Situationen von kontrollierter stochastischer Dynamik
für vielen Anwendungsbereiche zu modellieren. Neben der ursprünglichen
Theorie, die von einer vollständigen Beobachtbarkeit des Prozesses ausgeht,
existieren verschiedene Ansätze für die Modellierung von unvollständiger
Zustandsinformation. Die Ansätze unterliegen alle gewissen Einschränkungen:
Der Zeitindex wird als diskret vorausgesetzt, der betrachtete Zustandsraum
muss eine spezielle Struktur aufweisen oder die Art der Dynamik ist in einem
bestimmten Sinne vordefiniert. In dieser Arbeit wird eine neuartiges Markov-
Kontroll-Modell für den Fall unvollständiger Zustandsinformation entwickelt,
das für jegliche kontinuierliche Dynamik auf diskretem Zustandsraum anwendbar
ist. Die Beobachtung des Prozesses sowie die Wahl der Kontrollaktionen finden
an einzelnen diskreten Zeitpunkten statt, die selbst wiederum der Kontrolle
des Entscheiders unterliegen. Jede Beobachtung verursacht fixe Kosten, und
diese Informationskosten fließen in die betrachteten Kostenkriterien ein. Die
gewählte Aktion bestimmt die Entwicklung des Prozesses bis zum Zeitpunkt der
nächsten Beobachtung. Das Problem der kombinierten Optimierung von
Beobachtungszeitpunkten und Interaktion wird in dieser Arbeit umfassend
erforscht. Auf Grundlage des neuen Modells werden die üblichen Kostenkriterien
(diskontierte Kosten und langfristige Durchschnittskosten) in geeignetem Sinne
formuliert und umfassend analysiert. Dabei werden ihre strukturellen
Eigenschaften betrachtet, der Zusammenhang zu den Kostenkriterien aus der
ursprünglichen Theorie wird erklärt und die Bedeutung der Kontrollparameter
und der Informationskosten wird untersucht. Ein Hauptergebnis ist die
Umformulierung der Bellman-Gleichung als Basis für eine effiziente numerische
Berechnung der optimalen Kontrollstrategie. Außerdem wird gezeigt, dass die
zugehörige Wertefunktion optimaler Kosten monoton und stetig in den
Informationskosten ist und für verschwindende Informationskosten mit der
Wertefunktion der ursprünglichen Theorie übereinstimmt. Das Modell ermöglicht
nicht nur eine stimmige und ergebnisreiche theoretische Analyse, sondern ist
außerdem Ausgangspunkt für ein interessantes Anwendungsbeispiel. Betrachtet
wird die Dynamik des HI-Virus, und die neue Theorie wird genutzt, um optimale
therapeutische Strategien für verschiedene Wirtschaftssituationen zu
berechnen. Dabei stellt sich unter anderem heraus, dass eine Senkung der
Diagnosekosten in ressourcen-armen Ländern zu einer deutlichen Erhöhung des
medizinischen Erfolgs von kostenoptimalen Therapien führen würde. Diese Arbeit
bietet ein anschauliches Modell für die Modellierung von Markov-Kontroll-
Prozessen mit beschränkter Zustandsinformation. Das Modell basiert auf den
zwei Annahmen, dass eine Beobachtung des Prozesses stets sofortige, perfekte
Information liefert und dass die Kontrollaktion nur nach einer solchen
Beobachtung angepasst werden kann. Von Interesse ist die Frage, in wieweit
diese Annahmen abgeschwächt werden können, um so das Kontrollmodell weiter zu
verallgemeinern. Die Beantwortung dieser Frage wird Gegenstand zukünftiger
Forschung sein.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Markov decision process
dc.subject
dynamic programming
dc.subject
Bellman equation
dc.subject
optimal control
dc.subject
partial observability
dc.subject
information costs
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
dc.title
Markov Decision Processes with Information Costs
dc.contributor.contact
klink@math.fu-berlin.de
dc.contributor.firstReferee
Prof. Dr. Christof Schütte
dc.contributor.furtherReferee
Prof. Dr. Michael Dellnitz
dc.date.accepted
2013-07-05
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000094689-8
dc.title.subtitle
Theory and Application
dc.title.translated
Markov-Kontroll-Prozesse mit Informationskosten
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000094689
refubium.mycore.derivateId
FUDISS_derivate_000000013704
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access