Computer simulations can give essential insights into the dynamics of biomolecular systems but raise significant big data challenges still to be sorted out. To overcome the challenge of large data sets combined with the complexity of biomolecular interactions, I implemented a set of robust algorithms, as part of this doctoral thesis, inspired by graph theory that allows us to use large data sets from atomistic molecular dynamics (MD) simulations and derive simple graphical representations of the hydrogen bond (H-bond) networks of lipid membrane models, proteins in different intermediate states, and of the response of the proteins to mutations. These representations are valuable for the interpretation of data from experiments and computations. Our algorithms facilitate highly efficient analyses of dynamic H-bond networks at the lipid membrane interface. We introduce the implementation of a Connected Components algorithm to cluster lipid molecules and a Depth First Search (DFS) algorithm that allows us to characterize the topology of dynamic H-bond clusters sampled by lipid headgroups in MD simulations. With the algorithm we developed, we identify the transient sampling of four main types of lipid H-bond clusters: linear, star, circular and extensive networks combining these topologies. Water bridges between lipid headgroups are dynamic with lifetimes lasting for a few picoseconds. Our algorithms are further extended to study conformational dynamics in proteins. An example is SecA, a protein motor that couples Adenosine triphosphate (ATP) binding and hydrolysis with the pre-protein substrate's translocation through the membrane embedded SecYEG protein translocon. However, the exact mechanism of SecA’s conformational coupling remains unclear. We present a methodology of applying graph-based approaches to characterize the dynamics of the SecA protein motor by computing long-distance H-bond pathways that inter-connect the nucleotide-binding pocket and the pre-protein binding site, shortest-distance routes and centrality measures that reveal amino acids with a central role in the total connectivity of the protein graph. A key finding enabled by the graph-based approach developed as part of this doctoral thesis is that mutations near the nucleotide-binding site associate with modified dynamics at the pre-protein binding domain. Water molecules participate in extended H-bonded water chains contributing to long-distance conformational coupling. Our methodologies are also applied to protein VASA, a DEAD-box enzyme involved in the cell cycle with ATP and Ribonucleic Acid (RNA) binding sites and explore the conformational coupling between the two binding sites and Channelrhodopsin’s C1C2 lipid-protein H-bond molecular dynamics. Lastly, our algorithms are applied to the Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-COV-2) protein S crystal structures. Protein S undergoes conformational changes and symmetry loss of core H-bonded clusters as it transitions from the closed to the pre-fusion conformation. Our study has identified N501 as a central residue of the H-bond network that interconnects the spike protein S to Angiotensin-Converting Enzyme 2 (ACE2), and that subsequently became mutated into TYR in a new COVID-19 variant.
Computersimulationen können wesentliche Einblicke in die Dynamik biomolekularer Systeme geben, werfen aber auch erhebliche Herausforderungen in Bezug auf große Datenmengen auf, die noch zu bewältigen sind. Um die Herausforderung großer Datenmengen in Verbindung mit der Komplexität biomolekularer Wechselwirkungen zu bewältigen, habe ich im Rahmen dieser Doktorarbeit eine Reihe robuster Algorithmen implementiert, die von der Graphentheorie inspiriert sind und es uns ermöglichen, große Datenmengen aus atomistischen Molekulardynamiksimulationen (MD-Simulationen) zu verwenden und einfache grafische Darstellungen der Wasserstoffbrückenbindungen (H-Bindungen) von Lipidmembranmodellen, Proteinen in verschiedenen Zwischenzuständen und der Reaktion der Proteine auf Mutationen abzuleiten. Diese Darstellungen sind wertvoll für die Interpretation von Daten aus Experimenten und Berechnungen. Unsere Algorithmen ermöglichen hocheffiziente Analysen von dynamischen H-Bindungsnetzwerken an der Grenzfläche von Lipidmembranen. Wir stellen die Implementierung eines Algorithmus für verbundene Komponenten zum Clustern von H-gebundenen Lipidmolekülen und einen DFS-Algorithmus (Depth First Search) vor, der es uns ermöglicht, die Topologie von dynamischen H-Bindungsclustern zu charakterisieren, die von Lipidkopfgruppen in MD-Simulationen gesampelt werden. Mit dem von uns entwickelten Algorithmus identifizieren wir die vorübergehenden Probenahmen von vier Haupttypen von Lipid-H-Bindungsclustern: lineare, sternförmige, zirkuläre und umfangreiche Netzwerke, die diese Topologien kombinieren. Wasserbrücken zwischen Lipid-Kopfgruppen sind dynamisch und haben eine Lebensdauer in einer Größenordnung von Pikosekunden. Unsere Algorithmen werden weiter ausgebaut, um die Konformationsdynamik von Proteinen zu untersuchen. Ein Beispiel ist SecA, ein Proteinmotor, der die Bindung und Hydrolyse von Adenosintriphosphat (ATP) mit der Translokation des Präproteinsubstrats durch das in die Membran eingebettete SecYEG-Protein-Translokon verbindet. Der genaue Mechanismus der SecA-Konformationskopplung bleibt jedoch unklar. Wir stellen eine Methode zur Anwendung graphbasierter Ansätze vor, um die Dynamik des SecA-Proteinmotors zu charakterisieren, indem wir die langen H-Bindungen, die die Nukleotid-Bindungstasche und die Prä-Protein-Bindungsstelle miteinander verbinden, sowie die kürzesten Entfernungen und Zentralitätsmaße berechnen, die die Aminosäuren mit einer zentralen Rolle in der Gesamtkonnektivität des Proteingraphen aufzeigen. Eine wichtige Erkenntnis, die durch den im Rahmen dieser Doktorarbeit entwickelten graphbasierten Ansatz ermöglicht wurde, ist, dass Mutationen in der Nähe der Nukleotid-Bindungsstelle mit einer veränderten Dynamik im Bereich der Prä-Proteinbindung einhergehen. Wassermoleküle sind an langen H-gebundenen Wasserketten beteiligt und tragen zur Konformationskopplung über längere Distanzen bei. Unsere Methoden werden auch auf das Protein VASA angewandt, ein am Zellzyklus beteiligtes DEAD-Box-Enzym mit ATP- und RNA-Bindungsstellen, und untersuchen die Konformationskopplung zwischen den beiden Bindungsstellen und die molekulare Dynamik der C1C2-Lipid-Protein-H-Bindung von Kanalrhodopsin. Zudem werden unsere Algorithmen auf die SARS-COV-2-Protein-S-Kristallstrukturen angewendet. Protein S unterliegt Konformationsänderungen und dem Verlust der Symmetrie der H-gebundenen Kerncluster, wenn es von der geschlossenen in die Präfusionskonformation übergeht. In unserer Studie wurde N501 als zentraler Rest des H-Bindungsnetzwerks identifiziert, das das Spike-Protein S mit dem Angiotensin Converting Enzym 2 (ACE2) verbindet, und das anschließend in einer neuen COVID-19-Variante zu TYR mutiert wurde.