dc.contributor.author
Klein, Leon Immanuel
dc.date.accessioned
2025-10-06T11:36:18Z
dc.date.available
2025-10-06T11:36:18Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/49613
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-49335
dc.description.abstract
Generating equilibrium samples from the Boltzmann distribution of biomolecular systems, such as proteins, remains a fundamental challenge in computational biochemistry and statistical physics. Conventional approaches, including molecular dynamics and Markov chain Monte Carlo, rely on iterative sample generation and can become prohibitively expensive for large systems or long timescales, limiting their utility in applications like drug discovery.
This dissertation investigates how machine learning models, particularly normalizing flows, can accelerate this sampling. Normalizing flows are invertible deep‐generative models that produce novel configurations while providing exact likelihoods. We introduce several normalizing flow architectures that embed the intrinsic rotational, translational, and permutation symmetries of molecular systems into both their structure and training objectives. We prove that these equivariant flows generate samples whose distributions inherit the same symmetries as the target Boltzmann distribution.
Moreover, we introduce equivariant optimal transport flow matching, a novel training objective for equivariant continuous normalizing flows that leverages the symmetry of the target energy for simulation‐free training and yields near-optimal transport paths at inference.
We propose two complementary sampling strategies for the different models: independent sample generation with so called Boltzmann Generators, enabling importance reweighting against known energy functions for unbiased observable estimation, and long‐range, proposal‐based moves within Markov chain Monte Carlo methods, achieving time jumps up to six orders of magnitude over standard molecular dynamics.
Additionally, and somewhat orthogonally, we also leverage our models to generate force estimates for training machine learned coarse‐grained force fields.
Our methods are validated on both many‐particle systems (e.g., Lennard‐Jones clusters) and small peptides (alanine dipeptide and di‐ and tetrapeptides), showing accurate reproduction of free‐energy landscapes, high effective sample sizes, and transferability across temperatures and small peptide sequences. These advances suggest a promising path toward scalable, machine learning driven sampling tools that can significantly reduce the computational burden of molecular simulations, paving the way for faster, more efficient exploration in drug discovery and beyond.
en
dc.description.abstract
Die Erzeugung von Samples aus der Gleichgeweichts Boltzmann-Verteilung biomolekularer Systeme, wie beispielsweise Proteinen, stellt nach wie vor eine grundlegende Herausforderung in der computergestützten Biochemie und statistischen Physik dar. Herkömmliche Ansätze, darunter Molekulardynamik und Markov chain Monte Carlo, basieren auf iterativer Generierung und können für große Systeme oder lange Zeiträume unerschwinglich aufwendig werden, was ihre Nützlichkeit in Anwendungen wie der Arzneimittelentwicklung einschränkt.
In dieser Dissertation untersuchen wir, wie Machine Learning Modelle, insbesondere Normalizing Flows, das Boltzmann‐Sampling beschleunigen können. Normalizing Flows sind invertierbare generative Modelle, die neue Konfigurationen erzeugen und gleichzeitig exakte Wahrscheinlichkeiten liefern. Wir stellen mehrere Normalizing Flows Architekturen vor, die die intrinsischen Rotations-, Translations- und Permutationssymmetrien molekularer Systeme sowohl in ihrer Architektur als auch in ihren Trainingszielen verankern. Wir beweisen, dass diese equivarianten Flows Konfigurationen erzeugen, deren Verteilungen dieselben Symmetrien aufweisen wie die Boltzmann-Verteilung.
Darüber hinaus führen wir equivariant optimal transport flow matching ein, ein neuartiges Trainingsziel für equivariante Continuous Normalizing Flows, das die Symmetrie der Zielenergie für simulationsfreies Training ausnutzt und nahezu optimale Transportpfade bei der Inferenz liefert.
Wir schlagen zwei komplementäre Sampling-Strategien für die verschiedenen Modelle vor: Einerseits die unabhängige Sample-Generierung mit sogenannten Boltzmann Generatoren, die eine Neugewichtung gegen die Energiefunktion ermöglicht und so unverzerrte Schätzungen von Observablen erlaubt. Andererseits langfristige, vorschlagsbasierte Zeitschritte innerhalb von Markov chain Monte Carlo Methoden, die bis zu sechs Größenordnungen größere Zeitschritte gegenüber standard Molekulardynamik erreichen.
Zusätzlich nutzen wir unsere Modelle auch, um Kräfte für das Training von coarse-grained Kraftfeldmodellen zu generieren.
Unsere Methoden wurden sowohl an Vielteilchensystemen (z. B. Lennard-Jones Klustern) als auch an kleinen Peptiden (Alanin-Dipeptid sowie Di- und Tetrapeptiden) validiert und zeigen eine genaue Reproduktion der freien Energielandschaften, hohe effektive Stichprobengrößen und Übertragbarkeit über Temperaturen und kleine Peptidsequenzen hinweg. Diese Fortschritte deuten auf einen vielversprechenden Weg hin zu skalierbaren Sampling-Tools, die den Rechenaufwand für Molekularsimulationen erheblich reduzieren können und damit den Weg für eine schnellere und effizientere Erforschung in der Arzneimittelentwicklung und darüber hinaus ebnen.
de
dc.format.extent
171 Seiten
dc.rights.uri
https://creativecommons.org/licenses/by/4.0/
dc.subject
Normalizing Flows
en
dc.subject
Boltzmann Distribution
en
dc.subject
Generative Models
en
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::000 Informatik, Informationswissenschaft, allgemeine Werke
dc.title
Efficient Generation of Molecular Boltzmann Distributions with Machine Learning Methods
dc.contributor.gender
male
dc.contributor.firstReferee
Noe, Frank
dc.contributor.furtherReferee
Olsson, Simon
dc.date.accepted
2025-08-15
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-49613-2
dc.title.translated
Effiziente Erzeugung molekularer Boltzmann-Verteilungen mit Methoden des maschinellen Lernens
ger
refubium.affiliation
Mathematik und Informatik
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access
dcterms.accessRights.proquest
accept