Carbohydrates are one of the most abundant biomolecules on earth. These molecules range from single monomers such as glucose, measuring 180 Da, that serve as a basic energy source of plants and animals, to hundreds or even thousands of monomers joined together to form gigantic polymeric structures such as cellulose that are a staggering >15 kDa forming the structural backbones of plant cell walls. In addition to providing energy and structure, carbohydrates also serve fundamental biological functions such as cell-cell signaling, cell recognition, and signaling pathways. Extracting carbohydrates from nature is a tedious biochemical and enzymatic process often resulting in mixtures of compounds. The chemical synthesis of carbohydrates provides the opportunity to obtain defined chemical structures to aid in understanding the specific roles, their functional relationships, and advancing the field of carbohydrate research.
However, the mechanism behind the formation of the glycosidic bond, and critically the control over the stereoselectivity, is one of the central challenges in organic chemistry dating back to the seminal paper of Fischer in 1893. This bond formation joins two monomers into a disaccharide. Many factors including the temperature, nature of solvent, water content, reaction time, and stoichiometry potentially influence the yield and stereochemical outcome of the reaction. To date no a systematic study of these factors has been pursued. Compounding the problem is the irreproducibility of the reaction, which stems from the sensitivity and lack of control over the reaction conditions. Flow chemistry and automation provides significant promise in control and reproducibility of chemical reactions.
Hence, in this thesis, a fully automated flow chemical platform was built for the exhaustive study of glycosylation reactions, systematically interrogating the factors and reaction conditions influencing the yield and stereochemical outcome of glycosylation. The thesis, divided into six chapters, introduces the challenges in understanding the mechanism of glycosylation, before describing the tools utilized to address the challenges, an automated flow chemical platform for studying chemical glycosylation and the development of Random Forest based machine learning model for predicting the stereoselectivity of glycosylation reaction.
Chapter 1 introduces the problem of understanding the glycosylation mechanism, the identity of the various factors affecting the selectivity of glycosylation, and the relevant flow chemical approach to obtain greater control over the reaction. Chapter 2 introduces methodologies details and the design of the automated flow platform for interrogating and controlling glycosylations. The detailed application of this machine, along with systematic interrogation of various factors influencing the stereochemical outcome, is described in Chapter 3. This systematic study led to a high degree of stereoselective control of a model glycosylation and allowed for our comprehensive empirical understanding of the glycosylation mechanism. Additionally, for the first time, more than 300 reproducible data points systematically populating the relevant chemical space were generated. This allowed for the application of Random Forest based machine learning algorithm for creating a model capable of predicting the stereoselectivity of glycosylations, described in detail in Chapter 4 of this thesis. The research concluded in Chapter 5 and an outlook on the immediate future work is suggested. All the experimental data described in this thesis is given in Chapter 6.
Kohlenhydrate sind die am weitesten verbreiteten Biomoleküle auf der Erde. Diese Moleküle können von einem einzigen Monomer wie Glucose, welche als grundlegende Energiequelle für Pflanzen und Tiere dient, bis hin zu Hunderten oder Tausenden Monomeren reichen, welche riesige Polymerstrukturen wie Zellulose bilden, die das strukturelle Rückenrad der pflanzlichen Zellwand darstellen. Kohlenhydrate sind neben den Funktionen als Energielieferant und Strukturelement auch in grundlegende biologische Funktionen wie zelluläre Signale, Zellerkennung und Signalwege involviert. Die Gewinnung von Kohlenhydraten aus der Natur ist ein langwieriger, komplizierter biochemischer Prozess und führt sehr oft zu einer Mischung von Verbindungen. Die chemische Synthese von Kohlenhydraten bietet die Möglichkeit, eine definierte chemische Struktur von hoher Reinheit zu erhalten, was es ermöglicht, die einzelnen biologischen Funktionsbeziehungen zu verstehen und den Bereich der Kohlenhydratforschung weiter zu entwickeln.
Das Kontrollieren der Glykosylierung, der Reaktion die zwei Zuckerbausteine unter Bildung einer glykosidischen Bindung verknüpft, und damit der Stereoselektivität ist eine der Herausforderungen in der modernen organischen Chemie, und basiert auf den bahnbrechenden Erkenntnissen von Emil Fischer im Jahr 1893. Viele Faktoren wie Temperatur, Lösungsmittel, Wassergehalt, Reaktionszeit und Stöchiometrie beeinflussen die Ausbeute der Reaktion und die stereochemische Zusammensetzung des Produkts. Bisher wurden keine umfassenden systematischen Untersuchungen aller dieser Faktoren durchgeführt. Eine große Herausforderung ist die Reproduzierbarkeit der Glykosylierung, die auf die Sensibilität der Reaktion und mangelnde Kontrolle über die Reaktionsbedingungen durch den Experimentator zurückzuführen ist. Durchflusschemie und Automatisierung bieten hier erhebliche Möglichkeiten die Kontrolle und damit die Reproduzierbarkeit chemischer Reaktionen zu optimieren.
Daher wurde in dieser Dissertation eine vollautomatische durchflusschemische Plattform für die umfassende Untersuchung von Glykosylierungsreaktionen entwickelt, in der systematisch die Reaktionsbedingungen variiert und deren Einfluss auf Ausbeute und stereochemischen Zusammensetzung des Produkts untersucht werden können. In dieser sechs Kapitel umfassenden Arbeit werden die Herausforderungen beim Verständnis des Glykosylierungsmechanismus vorgestellt, und die zur Bewältigung verwendeten Werkzeuge beschrieben. Dazu gehören die automatisierte durchflusschemische Plattform zur Untersuchung der chemischen Glykosylierung und die Entwicklung eines zufälligen „Random Forest“ basierten Modells für maschinelles Lernen, das der Vorhersage der stereochemischen Zusammensetzung des Produkts dient.
Kapitel 1 erörtert die Herausforderungen beim Verständnis des Glykosylierungs-mechanismus, und die verschiedenen Faktoren, die das Ergebnis der Glykosylierung beeinflussen, um damit im durchflusschemischen Ansatz eine größere Kontrolle über die Reaktion erhalten zu können. Kapitel 2 stellt die Methodik und das Design der automatisierten Flow-Plattform für Glykosylierungen vor. Die detaillierte Anwendung dieser Maschine wird in Kapitel 3 beschrieben, zusammen mit systematischen Fragen zu den verschiedenen Faktoren, die die stereochemische Zusammensetzung des Produkts beeinflussen. Durch diese systematische Studie konnte ein sehr hohes Maß an Kontrolle über die Modell-Glykosylierung und ein umfassendes empirisches Verständnis des Reaktionsmechanismus erworben werden. Außerdem wurden zum ersten Mal mehr als 300 reproduzierbare Datenpunkte systematisch im chemischen Raum erstellt. Dies ermöglichte es, mittels einem „Random Forest“ basierten maschinellen Lernalgorithmus ein Modell zu erstellen, das die stereochemische Zusammensetzung des Produkts vorhersagen kann, welches in Kapitel 4 dieser Arbeit detailliert beschrieben wird. Eine Zusammenfassung und ein Ausblick finden sich in Kapitel 5. Alle in dieser Arbeit beschriebenen experimentellen Daten sind in Kapitel 6 aufgeführt.