Simulations of molecular systems have led to significant discoveries in molecular biology. The high accuracy of these simulations enables us to understand biological functions on a molecular scale. In connection with experimental results, they have proved to be a powerful tool to investigate biological functions. While the applications for such simulations are countless, in practice it is only possible to simulate small systems due to computational limitations; reaching biologically relevant time- and length-scales is still beyond feasibility, even for the most powerful computers. This constraint is commonly known as the sampling problem. With the progress in hardware development slowing down, demand for new methods that enable reaching relevant scales is high. This thesis aims to provide new tools that help molecular simulations reach biologically relevant scales. It is split into two parts:
The first part provides new methods for rate computations in reactive systems, which can consist e.g. of a protein-ligand binding, oligomerization, or protein-protein association. The first method combines Markov state models of molecular kinetics with particle-based reaction-diffusion (PBRD) to generate a coarse-grained simulation of interacting molecules. This method conserves the characteristic kinetics of the interactions - at atomistic detail - observed in molecular dynamics simulations of the interacting molecules in close proximity. Furthermore, a method is introduced to provide realistic parameters for PBRD simulations. In particular, it enables for tuning the microscopic parameters of PBRD simulations such that experimentally obtained rates are reproduced in the dilute limit. This provides a well-defined starting point to study effects such as crowding, which are common at the cellular scale.
The second part provides new methods based on Markov chain Monte Carlo. These can be utilized to speed up the generation of equilibrium samples from the Boltzmann distribution and thus enabling faster computation of stationary observables. In biological systems, it is often observed that high barriers in the free energy landscape dramatically slow down the sampling process. To speed up computations, a whole range of methods has been developed. The latest advancements are facilitated by the recent rise of machine learning research, which provides new promising tools to approach the sampling problem from completely different angles. In this spirit a new method is introduced that aims for directly proposing transitions between regions of high populations in phase space, thus directly jumping over energetic barriers. These long-range moves are proposed by a neural network trained to generate high-efficiency moves, allowing for circumventing the slow transitions across energy barriers altogether. A second proposed method is based on the recently developed Boltzmann Generators and aims to combine these with parallel tempering in order to speed up sampling significantly. To this end, a machine learning technique is employed which generates samples close to the Boltzmann distribution at different temperatures. In both of these methods, the convergence to the correct distribution is ensured by enforcing detailed balance.
Simulationen molekularer Systeme haben zu bedeutenden Entdeckungen in der Molekularbiologie geführt. Die hohe Genauigkeit dieser Simulationen ermöglicht es, biologische Prozesse auf molekularer Ebene zu verstehen. In Verbindung mit Experimenten haben sie sich als leistungsfähiges Werkzeug zur Untersuchung biologischer Funktionen erwiesen. Während die Anwendungen für solche Simulationen zahllos sind, ist es in der Praxis aufgrund von beschränkter Rechenleistung nur möglich, kleine Systeme zu simulieren. Das Erreichen biologisch relevanter Zeit- und Längenskalen ist selbst für die leistungsstärksten Computer noch nicht möglich. Diese Einschränkung wird allgemein als Samplingproblem bezeichnet. Da sich die Fortschritte in der Hardwareentwicklung verlangsamen, ist die Nachfrage nach neuen Methoden, die es ermöglichen, relevante Größenordnungen zu erreichen, groß. Diese Dissertation zielt darauf ab, neue Werkzeuge bereitzustellen, die molekularen Simulationen helfen, biologisch relevante Größenordnungen zu erreichen. Sie ist in zwei Teile aufgeteilt:
Der erste Teil stellt neue Methoden zur Berechnung von Raten in reaktiven Systemen vor, in diesem Kontext bestehen diese z.B. aus Protein-Ligand-Bindung, Oligomerisierung oder Protein-Protein-Assoziation. Die erste Methode kombiniert Markov-Modelle von molekularer Kinetik mit partikelbasierter Reaktionsdiffusion (PBRD), um die wechselwirkenden Moleküle auf gröberen Skalen zu simulieren. Diese Methode bewahrt die charakteristische Kinetik der Wechselwirkungen im atomaren Detail, die in Molekulardynamiksimulationen der Moleküle in unmittelbarer Nähe beobachtet wird. Darüber hinaus wird eine Methode vorgestellt, um realistische Parameter für PBRD-Simulationen zu berechnen. Insbesondere ermöglicht dies, die mikroskopischen Parameter von PBRD-Simulationen so abzustimmen, dass experimentell ermittelte Raten im verdünnten Limit reproduziert werden. Dies bietet einen wohldefinierten Startpunkt, um Effekte wie Crowding zu untersuchen, die auf zellulärer Ebene üblich sind.
Der zweite Teil bietet neue Methoden basierend auf Monte-Carlo Methoden. Diese ermöglichen es, das Erzeugen von Gleichgewichtsproben aus der Boltzmann-Verteilung zu beschleunigen und somit stationäre Observablen effizienter zu berechnen. In biologischen Systemen wird oft beobachtet, dass hohe Barrieren in der freien Energie das Erzeugen von Stichproben dramatisch verlangsamt. Um dies zu beschleunigen, wurden eine ganze Reihe von Methoden entwickelt. Die jüngsten Entwicklungen in der Forschung zum maschinellen Lernen bietet neue vielversprechende Ansätze, um das Sampling von stationären Observablen aus ganz anderen Blickwinkeln zu betrachten. In diesem Sinne wird eine neue Methode eingeführt, die darauf abzielt, direkt Übergänge zwischen Regionen mit hoher Population im Phasenraum vorzuschlagen und damit energetische Barrieren direkt zu überspringen. Diese weitreichenden Vorschläge werden von einem neuronalen Netzwerk erzeugt, das darauf trainiert ist, hocheffiziente Vorschläge zu erzeugen. Ein zweites Verfahren basiert auf den kürzlich entwickelten Boltzmann-Generatoren und zielt darauf ab, diese mit Parallel Tempering zu kombinieren. Dazu wird maschinelles Lernen verwendet, um Proben nahe der Boltzmann-Verteilung bei verschiedenen Temperaturen zu erzeugen. Bei beiden Verfahren wird die Konvergenz zur korrekten Verteilung durch die Einhaltung des detaillierten Gleichgewichts sichergestellt.