dc.contributor.author
Singh, Kanishka
dc.date.accessioned
2024-07-19T08:50:12Z
dc.date.available
2024-07-19T08:50:12Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/43426
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-43143
dc.description.abstract
The discovery of useful molecules and new molecular phenomena is one of the
cornerstones of human progress. Until the last two centuries, this process was largely driven by empirical evidence and serendipitous discovery. The understanding of physical phenomena at the macro level, driven by Newtonian mechanics, electromagnetism, and thermodynamics, and at the micro level, driven by quantum mechanics, has allowed for a more targeted approach to the discovery of new functional molecules for various applications. Despite these advances, the pace at which such molecules are discovered lags behind the rate of demand for green catalysts, sustainable materials, and effective medicines. A significant factor influencing this is the vastness of the chemical space of molecules. It has been approximated that within this chemical space, there exist approximately 1060 organic molecules (with a molecular weight less than 500, containing atoms H, C, N, and S). This count will be several magnitudes higher if larger molecules and extended structures are taken into account. Cataloging the properties of these molecules is not currently possible with our computational existing capabilities, but it is essential to find better materials and more effective drugs. As a result, the search for methods that can help speed up the assessment of the properties of molecules and accelerate the discovery of new molecules is an issue of paramount importance in modern chemistry. Machine Learning (ML) algorithms for predicting chemical properties represent an important step in this direction. Not only are ML algorithms capable of learning accurate structure-property relationships, but they are also faster than experiments or quantum chemical simulations. Furthermore, some ML methods leverage the structure-property relationships learned from data to generate novel molecules with desired properties, providing a cost-efficient way to identify useful molecules for laboratory synthesis.
The spectrum of a molecule is one such important molecular property that helps
scientists identify different molecules without destroying them. Amongst the various
techniques of spectroscopy, X-ray Absorption Spectroscopy (XAS) is a well established technique that provides information about the structure and composition of various materials. The identification of materials using XAS, however, is not straightforward and requires using a combination of experimental data and quantum-chemical calculations performed on large computing clusters. These computational evaluations are resource-intensive and one often needs several such calculations to achieve successful molecular identification. Access to methods that can accelerate the prediction of spectra through structure-property relationships in spectroscopy can greatly enhance the ability to identify compounds synthesized in laboratories. Therefore, a major part of this dissertation is dedicated to employing and understanding ML methods that speed up the prediction of spectra by learning structure-property relationships from data. This work lays a foundation for future applications, where ML models can be used in experimental setups to identify molecules from spectra without human intervention, thereby helping accelerate the synthesis and identification of novel compounds. One downside of ML applications is the lack of model interpretability, which decreases the trust of the end-users. Investigations in this dissertation focus on devising a technique that helps humans understand why ML models make certain predictions, thereby helping build trust between the ML model and its end user.
The creation of chemical data for ML applications itself usually requires quantum
chemical calculations that involve solving the Schrödinger equation. The time dependent Schrödinger equation (TDSE) helps understand the behavior of quantum systems and allows for the calculation of time-dependent properties of molecules. The area of research that concerns itself with techniques for solving the TDSE is termed quantum dynamics. Using computer simulations of numerical methods for solving this equation, researchers have modeled several quantum dynamical systems, which have improved our understanding of photo-catalysis (reactions driven by light), surface phenomena such as chemisorption, and chemical reaction pathways.
The second part of this dissertation focuses on using ML methods to solve the
TDSE.
The TDSE, which is a partial differential equation (PDE) in space and time, is
one of the many fundamental equations that help model the behavior of physical
systems. Some other notable PDEs that play an important role in physics and engineering are the Navier-Stokes equation for modeling fluids, the Heat equation in thermodynamics, and the wave equation in acoustics. Numerical techniques for
solving PDEs are based on the discretization of the coordinate space into finite elements. As the size and dimensions of the grids increase, these methods become computationally expensive. As a result, solving PDEs such as the TDSE for large molecular systems is computationally demanding or even impossible. Advances in ML for solving PDEs aim at accelerating the solution of PDEs through a data-driven approach. In the second part of this thesis, ML models were trained on simulation data from quantum dynamical systems. Once trained, these models are capable of providing accurate descriptions of the behavior of systems that were not seen during training. A key advantage of such methods is their ability to generate novel simulations accurately and at high speed. As a proof of concept, the work in this dissertation shows how this speed can be exploited for downstream applications in quantum dynamics.
en
dc.description.abstract
Die Entdeckung funktionaler Moleküle und neuer molekularer Phänomene ist einer
der Eckpfeiler des menschlichen Fortschritts. Bis vor zwei Jahrhunderten wurde
dieser Prozess weitgehend durch empirische Beweise und zufällige Entdeckungen
vorangetrieben. Das durch die Newtonsche Mechanik, den Elektromagnetismus
und die Thermodynamik geförderte Verständnis physikalischer Phänomene auf der
Makroebene und das durch die Quantenmechanik ermöglichte Verständnis auf der
Mikroebene haben ein gezielteres Vorgehen bei der Entdeckung neuer funktioneller Moleküle für verschiedene Anwendungen ermöglicht. Trotz dieser Fortschritte bleibt das Tempo neuer Entdeckungen solcher Moleküle hinter dem Bedarf an umweltfreundlichen Katalysatoren, nachhaltigen Materialien und wirksamen Medikamenten zurück. Ein wichtiger Faktor, der dies beeinflusst, ist die enorme Anzahl der existierenden Molekülstrukturen. Schätzungen zufolge gibt es etwa 1060 organische Moleküle (mit einem Molekulargewicht von weniger als 500 und den Atomen H,C, N und S ). Diese Zahl ist noch deutlich höher, wenn größere Moleküle und weitere mögliche Strukturen berücksichtigt werden. Die vollständige Katalogisierung der Eigenschaften dieser Moleküle ist mit den derzeit verfügbaren Methoden nicht möglich, aber für die Suche nach besseren Materialien und wirksameren Arzneimitteln ist sie unerlässlich. Daher ist die Suche nach Methoden, die eine schnellere Einschätzung der Eigenschaften von Molekülen ermöglichen und damit die Entdeckung neuer Moleküle beschleunigen können derzeit von größter Bedeutung. Algorithmen des maschinellen Lernens (ML) zur Vorhersage chemischer Eigenschaften sind ein wichtiger Schritt in diese Richtung. ML-Algorithmen sind nicht nur in der Lage, genaue Struktur-Eigenschafts-Beziehungen zu lernen, sondern sie sind auch schneller als Experimente oder quantenchemische Simulationen. Darüber hinaus nutzen einige ML-Methoden die aus den Daten erlernten Struktur-Eigenschafts-Beziehungen, um neuartige Molekülstrukturen mit den gewünschten Eigenschaften zu erzeugen. Dies stellt eine kosteneffiziente Möglichkeit zur Identifizierung neuer funktionaler Moleküle dar, die anschließend im Labor synthetisiert werden können.
Das Spektrum eines Moleküls ist eine wichtige molekulare Eigenschaft, die Wissenschaftlern hilft, die Eigenschaften von Molekülen zu identifizieren, ohne sie zu zerstören. Unter den verschiedenen Techniken der Spektroskopie ist die Röntgenabsorptionsspektroskopie (X-ray absorption spectroscopy, XAS) eine etablierte Technik, die Informationen über die Struktur und Zusammensetzung verschiedener Materialien liefert. Die Identifizierung von Materialien anhand von XAS ist jedoch nicht einfach und erfordert eine Kombination aus experimentellen Methoden und quantenchemischen Berechnungen, die auf großen Computerclustern durchgeführt werden. Die rechnerischen Auswertungen sind ressourcenintensiv und können mehrere Iterationen erfordern, um zu einer erfolgreichen molekularen Identifizierung zu gelangen. Der Zugang zu Methoden, die die Vorhersage von Struktur-Eigenschafts-Beziehungen in der Spektroskopie beschleunigen, kann die Fähigkeit zur Identifizierung von in synthetischen Verbindungen erheblich verbessern. Daher ist ein großer Teil dieser Arbeit der Anwendung von ML-Methoden gewidmet, die die effiziente Vorhersage von Spektren durch das Lernen von Struktur-Eigenschafts-Beziehungen
aus Daten ermöglichen. Diese Arbeit legt den Grundstein für künftige Anwendungen, bei denen ML-Modelle in Versuchsaufbauten verwendet werden können, um Moleküle aus Spektren ohne menschliches Eingreifen zu identifizieren und so die Synthese und Identifizierung neuer Verbindungen zu beschleunigen. Ein Nachteil von ML-Anwendungen ist die mangelnde Interpretierbarkeit der Modelle, was das Vertrauen der Endnutzer und manchmal auch die Genauigkeit der ML-Modelle beeinträchtigt. Weitere Untersuchungen im Rahmen dieser Arbeit konzentrieren sich auf die Entwicklung einer Technik, die den Menschen hilft zu verstehen, warum ML-Modelle bestimmte Vorhersagen treffen, und so dazu beiträgt, das Vertrauen der Endnutzer in die ML-Modelle zu stärken.
Die Erstellung chemischer Daten selbst für ML erfordert normalerweise quantenchemische Berechnungen, bei denen die Schrödinger-Gleichung gelöst wird. Der zweite Teil dieser Arbeit konzentriert sich auf die Verwendung von ML zur Lösung der zeitabhängigen Schrödinger-Gleichung (time-dependent Schrödinger equation, TDSE), die nicht nur zum Verständnis des Verhaltens von Quantensystemen beiträgt, sondern auch die Berechnung zeitabhängiger Eigenschaften von Molekülsystemen ermöglicht. Das Forschungsgebiet, das sich mit Techniken zur Lösung der TDSE beschäftigt, wird als Quantendynamik bezeichnet. Durch die Anwendung numerischer Methoden zur Lösung dieser Gleichung haben Forschende verschiedene quantendynamische Systeme modelliert, die unser Verständnis der Photokatalyse (durch Licht ausgelöste Reaktionen), von Oberflächenphänomenen wie der Chemisorption und von chemischen Reaktionswegen maßgeblich verbessert haben.
Die TDSE ist eine partielle Differentialgleichung (partial differential equation, PDE)
in Raum und Zeit und ist eine der vielen grundlegenden Gleichungen, die dazu beitragen, das Verhalten von chemischen Systemen zu modellieren. Einige andere nennenswerte PDEs, die in der Physik und im Ingenieurwesen eine wichtige Rolle spielen, sind die Navier-Stokes-Gleichung für die Modellierung von Flüssigkeiten, die Wärmeleitungsgleichung in der Thermodynamik und die Wellengleichung in der
Akustik. Numerische Verfahren zur Lösung von PDEs beruhen auf der Diskretisierung des Koordinatenraums in eine endliche Zahl von Elementen. Mit ansteigender Größe und Dimension des Gitters werden diese Methoden zunehmend rechenintensiv. Infolgedessen ist die Lösung von PDEs wie der TDSE für große molekulare Systeme sehr aufwändig oder sogar unmöglich. Die Anwendung von ML für die Lösung von PDEs zielt darauf ab, sie durch einen datengetriebenen Ansatz zu beschleunigen. Im zweiten Teil dieser Arbeit wurden ML-Modelle auf Simulationsdaten von quantendynamischen Systemen trainiert. Die so trainierten Modelle sind anschließend in der Lage, genaue Beschreibungen des Verhaltens von Systemen zu liefern, die während des Trainings nicht gesehen wurden. Ein entscheidender Vorteil solcher Methoden ist ihre Fähigkeit, neue Simulationen mit hoher Genauigkeit und Geschwindigkeit zu berechnen. In dieser Arbeit wird gezeigt, wie diese Methode für nachgelagerte Anwendungen in der Quantendynamik genutzt werden kann.
de
dc.format.extent
xvii, 87, 29 Seiten
dc.rights.uri
https://creativecommons.org/licenses/by/4.0/
dc.subject
Theoretical chemistry
en
dc.subject
Machine Learning
en
dc.subject
Spectroscopy
en
dc.subject
Quantum Dynamics
en
dc.subject.ddc
500 Natural sciences and mathematics::540 Chemistry and allied sciences::541 Physical and theoretical chemistry
dc.title
Machine Learning applications in spectroscopy and dynamics
dc.contributor.gender
male
dc.contributor.firstReferee
Bande, Annika
dc.contributor.furtherReferee
Paulus, Beate
dc.date.accepted
2024-03-07
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-43426-6
refubium.affiliation
Biologie, Chemie, Pharmazie
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access
dcterms.accessRights.proquest
accept