In den vergangenen Jahren ist die Zahl an frei verfügbaren Bioaktivitäts- Datenbanken stetig gestiegen. Bekannte Beispiele sind ChEMBL, PubChem BioAssay und BindingDB. Jedoch sind Datenqualität und -integrität in diesen Datenbanken nicht immer gewährleistet. Da die Qualität jedoch ein entscheidendes Kriterium für die Implementierung neuer in-silico-Vorhersagealgorithmen ist, ist diese Dissertation diesem Thema gewidmet und zeigt auf, wie unter Verwendung von eigens erstellten spezifischen, integrativen Datenquellen die Vorhersagerate verschiedener in-silico Methoden verbessert werden kann. Hierfür wurden die Informationen aus den zuvor genannten Datenbanken integriert, überprüft und normalisiert. Sie wurden anschließend als Datengrundlage für verschiedene chemoinformatische Methoden verwendet, um das Verständnis der Interaktion kleiner organischer Moleküle mit deren Biomolekülen zu verbessern und grundlegende Bindungsmechanismen aufzuklären. Um in diesem Kontext einen Mehrwert gegenüber den bereits bekannten Datenbanken zu generieren, wurde eine spezialisierte Text-Mining-Pipeline entwickelt, die es ermöglicht, Interaktionen zwischen kleinen organischen Molekülen und deren Biomolekülen zu identifizieren. Durch ein in die Pipeline eingebettetes Struktur-Synonym- Mapping, sowie einen manuellen Validierungsschritt wurde größtmöglicher Wert auf Datenintegrität gelegt. Dadurch konnte sichergestellt werden, dass der Datensatz frei von Redundanzen ist. Die anschließende Normalisierung der Interaktions-Daten erfolgte durch verschiedene Iterationsschritte, um die vorhandenen Strukturinformationen zu vereinheitlichen. Basierend auf den so generierten Daten wurde im folgenden Schritt der Wirkmechanismus der kleinen organischen Strukturen identifiziert und zugewiesen. Dies ist unerlässlich, um zwischen Agonist und Antagonist unterscheiden zu können. In beiden Fällen wird das gleiche Biomolekül gebunden, jedoch in verschiedenen Bindungstaschen und mit unterschiedlichen biologischen Reaktionen. Daher ist diese Unterteilung f ̈ur die Vorhersage der Interaktionen und den damit verbundenen Wirkmechanismus notwendig. Um die Interaktionsdaten krankheitsspezifisch analysieren zu können, wurden diese Informationen auf Stoffwechselwege projiziert und interpretiert. Dadurch können in einem frühen Stadium unerwünschte Nebenwirkungen identifiziert werden. Diese Daten wurden im weiteren Verlauf der Dissertation zur Vorhersage von neuen Interaktionen bzw. zur Aufkärung von Nebenwirkungen bekannter Medikamente verwendet. Um die Vorhersagequalität zu verbessern, wurden verschiedene chemoinformatische Methoden miteinander kombiniert. Mithilfe dieses integrativen Ansatzes ist es in dieser Arbeit gelungen, Nebenwirkungen durch unerwünschte Interaktionen mit anderen Biomolekülen ( Off-Targets“) aufzuklären bzw. neue Zielmoleküle zu identifizieren und deren genauen Bindungsmechanismus zu beschreiben.
In the last years the number of publicly available bioactivity databases, such as ChEMBL, PubChem BioAssay and BindingDB, has raised awareness about the topics of data curation, quality and integrity. To increase the efficiency of drug development process, the vast information on chemical compounds presented in those databases need to be optimized. However, the quality is a decisive criterion for the implementation of new in-silico algorithms. This thesis has devoted this issue and shows how various in-silico methods can be improved by using specific integrative data sources. Therefor information of the mentioned databases were integrated, validated and normalized to use them as data resource for various chemoinformatics methods. With this it is possible to improve the analysis of the interaction between small molecules with their biomolecules and elucidate their fundamental mechanism of actions. In order to generate additional information to the databases, a specialized text mining pipeline has been developed. This offers the possibility to identify interactions between small molecules and their biomolecules. An embedded structure synonym mapping into the pipeline was programed. Further a manual validation step focusing on data integrity was placed. This is important to ensure that the database will be free of redundancies. The subsequent normalization of interaction data was carried out by several iterations to unify the existing structural information. Based on the data generated by this pipeline, the underlying binding mechanism of the small structures has been identified and assigned. This is essential to distinguish between agonist and antagonist. In both cases, the same biomolecule is bound in various binding pockets and with different biological reactions. Therefore, this subdivision is necessary for the prediction of interaction and the associated mechanism of action. In order to analyze the interaction data, this information has been projected to metabolic pathways. Thereby it is possible to interpret those interaction in a disease related content and undesirable side effects may be identified in an early stage. These data were used in following chapters of the thesis for predicting new interactions and the elucidation of side effects of known drugs. To improve the forecast quality, different chemoinformatics methods were combined. This integrated approach was successfully used in this work for the identification of new drug targets and for the description of their exact binding mechanism. Finally it was possible to explain side effects due to unwanted interactions with other biomolecules ( Off-Targets“).