dc.contributor.author
Dibak, Manuel
dc.date.accessioned
2021-12-22T08:39:36Z
dc.date.available
2021-12-22T08:39:36Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/33178
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-32900
dc.description.abstract
Simulations of molecular systems have led to significant discoveries in molecular biology.
The high accuracy of these simulations enables us to understand biological functions on a
molecular scale.
In connection with experimental results, they have proved to be a powerful tool to investigate
biological functions.
While the applications for such simulations are countless, in practice it is only possible to
simulate small systems due to computational limitations; reaching biologically relevant time- and
length-scales is still beyond feasibility, even for the most powerful computers.
This constraint is commonly known as the sampling problem.
With the progress in hardware development slowing down, demand for new methods that enable
reaching relevant scales is high.
This thesis aims to provide new tools that help molecular simulations reach biologically relevant scales. It
is split into two parts:
The first part provides new methods for rate computations in reactive systems, which can consist
e.g. of a protein-ligand binding, oligomerization, or protein-protein
association.
The first method combines Markov state models of
molecular kinetics with particle-based reaction-diffusion (PBRD) to generate a coarse-grained
simulation of interacting molecules.
This method conserves the characteristic kinetics of the interactions - at atomistic detail -
observed in molecular dynamics simulations of the interacting molecules in close proximity.
Furthermore, a method is introduced to provide realistic parameters for PBRD simulations.
In particular, it enables for tuning the microscopic parameters of PBRD simulations such that
experimentally obtained rates are reproduced in the dilute limit.
This provides a well-defined starting point to study effects such as crowding, which are common at
the cellular scale.
The second part provides new methods based on Markov chain Monte Carlo. These can be utilized to
speed up the generation of equilibrium samples from the Boltzmann distribution and thus enabling
faster computation of stationary observables.
In biological systems, it is often observed that high barriers in the free energy landscape
dramatically slow down the sampling process.
To speed up computations, a whole range of methods has been developed.
The latest advancements are facilitated by the recent rise of machine
learning research, which provides new promising tools to approach the sampling
problem from completely different angles.
In this spirit a new method is introduced that aims for directly proposing transitions between
regions of high populations in phase space, thus directly jumping over energetic barriers.
These long-range moves are proposed by a neural network trained to generate high-efficiency moves,
allowing for circumventing the slow transitions across energy barriers altogether.
A second proposed method is based on the recently developed Boltzmann Generators and aims to
combine these with parallel tempering in order to speed up sampling significantly. To this end, a
machine learning technique is employed which generates samples close to the Boltzmann distribution
at different temperatures. In both of these methods, the convergence to the correct distribution
is ensured by enforcing detailed balance.
en
dc.description.abstract
Simulationen molekularer Systeme haben zu bedeutenden Entdeckungen in der Molekularbiologie
geführt. Die hohe Genauigkeit dieser Simulationen ermöglicht es, biologische Prozesse auf
molekularer Ebene zu verstehen. In Verbindung mit Experimenten haben sie sich als
leistungsfähiges Werkzeug zur Untersuchung biologischer Funktionen erwiesen. Während die
Anwendungen für solche Simulationen zahllos sind, ist es in der Praxis aufgrund von beschränkter
Rechenleistung nur möglich, kleine Systeme zu simulieren. Das Erreichen biologisch relevanter
Zeit- und Längenskalen ist selbst für die leistungsstärksten Computer noch nicht möglich. Diese
Einschränkung wird allgemein als Samplingproblem bezeichnet. Da sich die Fortschritte in der
Hardwareentwicklung verlangsamen, ist die Nachfrage nach neuen Methoden, die es ermöglichen,
relevante Größenordnungen zu erreichen, groß. Diese Dissertation zielt darauf ab, neue Werkzeuge
bereitzustellen, die molekularen Simulationen helfen, biologisch relevante Größenordnungen zu
erreichen. Sie ist in zwei Teile aufgeteilt:
Der erste Teil stellt neue Methoden zur Berechnung von Raten in reaktiven Systemen vor, in diesem
Kontext bestehen diese z.B. aus Protein-Ligand-Bindung, Oligomerisierung oder
Protein-Protein-Assoziation.
Die erste Methode kombiniert Markov-Modelle von molekularer Kinetik mit
partikelbasierter Reaktionsdiffusion (PBRD), um die wechselwirkenden Moleküle auf gröberen Skalen
zu simulieren.
Diese Methode bewahrt die charakteristische Kinetik der Wechselwirkungen im atomaren Detail,
die in Molekulardynamiksimulationen der Moleküle in unmittelbarer Nähe beobachtet wird.
Darüber hinaus wird eine Methode vorgestellt, um
realistische Parameter für PBRD-Simulationen zu berechnen.
Insbesondere ermöglicht dies, die mikroskopischen Parameter von PBRD-Simulationen so abzustimmen,
dass experimentell ermittelte Raten im verdünnten Limit reproduziert werden.
Dies bietet einen wohldefinierten Startpunkt, um Effekte wie Crowding zu untersuchen, die auf
zellulärer Ebene üblich sind.
Der zweite Teil bietet neue Methoden basierend auf Monte-Carlo Methoden.
Diese ermöglichen es, das Erzeugen von Gleichgewichtsproben aus der Boltzmann-Verteilung zu
beschleunigen und somit stationäre Observablen effizienter zu berechnen.
In biologischen Systemen wird oft beobachtet, dass hohe Barrieren in der freien
Energie das Erzeugen von Stichproben dramatisch verlangsamt.
Um dies zu beschleunigen, wurden eine ganze Reihe von Methoden entwickelt.
Die jüngsten Entwicklungen in der Forschung zum maschinellen Lernen bietet neue
vielversprechende Ansätze, um das Sampling von stationären Observablen aus ganz anderen
Blickwinkeln zu betrachten.
In diesem Sinne wird eine neue Methode eingeführt, die darauf abzielt, direkt Übergänge zwischen
Regionen mit hoher Population im Phasenraum vorzuschlagen und damit energetische Barrieren direkt
zu überspringen.
Diese weitreichenden Vorschläge werden von
einem neuronalen Netzwerk erzeugt, das darauf trainiert ist, hocheffiziente Vorschläge zu
erzeugen.
Ein zweites Verfahren basiert auf den kürzlich entwickelten
Boltzmann-Generatoren und zielt darauf ab, diese mit Parallel Tempering zu kombinieren.
Dazu wird maschinelles Lernen
verwendet, um Proben nahe der Boltzmann-Verteilung bei verschiedenen Temperaturen zu erzeugen.
Bei beiden Verfahren wird die Konvergenz zur korrekten Verteilung durch die Einhaltung des
detaillierten Gleichgewichts sichergestellt.
de
dc.format.extent
XV, 130 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Molecular Dynamics
en
dc.subject
Statistical Physics
en
dc.subject
Markov chain Monte Carlo
en
dc.subject
Machine Learning
en
dc.subject.ddc
500 Natural sciences and mathematics::530 Physics::530 Physics
dc.title
Enhanced sampling methods for molecular systems: multiscale and data-driven techniques
dc.contributor.gender
male
dc.contributor.firstReferee
Noé, Frank
dc.contributor.furtherReferee
Eisert, Jens
dc.date.accepted
2021-12-10
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-33178-7
refubium.affiliation
Physik
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access