Structural variations (SVs) are a phenomenon that have a tremendous impact on all species. SVs are the result of fundamental rearrangement mechanisms but can lead to severe human diseases like cancer. Rearrangement events also provide means that enable bacteria to adapt to environmental pressures where they can also happen across species boundaries in events called horizontal gene transfer (HGT). The incorporation of foreign genes from a donor into an acceptor genome can be investigated on the genomic level, the activity and protein expression changes, however, are better revealed on the proteomic level. This thesis contributes four computational methods for the detection of complex SVs of various types and sizes including HGT events from genomic next-generation sequencing (NGS) data and proteomic shotgun mass-spectrometry (MS) data. Concerning HGT events, our methods address the questions of what organisms are involved in the transfer, what genes are exactly transferred and to what position, and what are the implications on proteomic level. First, we present the generic SV detection tool Gustaf. Gustaf improves the size and type resolution compared to previous SV detection methods. A further specific advantage is the characterisation of translocations and dispersed duplications as a combination of simple, delocalised variants that have to be inferred from separate SV calls. With this basis for a more in-depth focus on HGT detection, we developed two mapping-based methods, Daisy and DaisyGPS. Daisy facilitates Gustaf and further SV detection strategies to precisely identify the transferred region within the donor and its insertion site in the acceptor genome. DaisyGPS uses metagenomic profiling strategies to identify suitable acceptor and donor references. In contrast to previous approaches based on sequence composition patterns or phylogenetic disagreements, our methods provide a detection based on sequence comparison and hence offer novel means of evidence. In the last project, we present a method for HGT detection, called Hortense, that is based on proteomic MS data. Hortense extends a standard database peptide search with a thorough cross-validation to ensure HGT properties, and is the first dedicated proteomics HGT detection method. Results from Hortense can also serve as supporting evidence and functional confirmation for HGT events proposed by our genomic-based methods. Taken together, the three HGT methods provide a full view of the transfer event that was not be possible before or with one of the methods alone.
Strukturvariationen (SVs) haben eine immense Bedeutung im Genom sämtlicher Spezies. Sie sind das Ergebnis fundamentaler Rekonstruktionsmechanismen und verleihen gleichzeitig Bakterien die Fähigkeit, sich an ihre Umgebung anzupassen. In Bakterien gibt es zudem das Phänomen des horizontalen Gentransfers (HGT), bei dem Gene über Speziesgrenzen hinweg von einem Donor-Individuum zu einem anderen Akzeptor übertragen werden. Die Integration eines neuen Gens kann auf genomischer Ebene untersucht werden. Die Aktivität und Expression hingegen lässt sich nur auf Proteinebene bestimmen. In dieser Doktorarbeit werden bioinformatische Methoden zur Detektion von komplexen SVs unterschiedlichen Typs und Größe anhand von Next- generation Se- quencing Daten und proteomischen Massenspektrometriedaten mit einem Fokus auf HGT-Events vorgestellt. Bei einem HGT-Event muss zunächst bestimmt werden, zwischen welchen Organismen der Transfer stattgefunden hat und welche Gene aus dem Donor an welcher Stelle im Akzeptor eingefügt wurden. Anschließend kann man untersuchen, ob das transferierte potentielle Protein auch funktionell ist. Als erstes wird das SV-Detektionstool Gustaf vorgestellt, welches eine bessere Auflösung bezogen auf Größe und Typ von SVs im Vergleich zu vorherigen Methoden ermöglicht. Einen besonderen Vorteil bietet Gustaf in der Charakterisierung von komplexen Translokationen und Duplikationen als Kombination von simpleren, im Genom voneinander entfernten Varianten. Mit dieser generischen Methode als Basis wurden zwei mapping-basierte Methoden, Daisy und DaisyGPS, zur HGT-Detektion entwickelt. Daisy verwendet Gustaf und weitere SV-Detektionsstrategien um die transferierte Region im Donorgenom und ihre Insertionsstelle im Akzeptorgenom präzise zu bestimmen. DaisyGPS verwendet etablierte Strategien für die metagenomische Bestimmung von Mikroorganismen in einer Probe, um eine passende Akzeptor- und Donorreferenz zu identifizieren. Daisy und DaisyGPS basieren auf Sequenzvergleichen und heben sich damit von den bisher existierenden Methoden ab, welche HGTs anhand von Sequenzkompositionsmustern und phylogenetischen Inkonsistenzen bestimmen. Im letzten Projekt wird die proteomische Methode Hortense vorgestellt. Hortense erweitert die Standarddatenbanksuche von Spektren um eine umfassende Kreuzvalidierung, um definierte Eigenschaften eines HGT-Proteins sicher zu stellen. Alle drei Methoden zur HGT-Detektion ermöglichen eine ganzheitliche Analyse von HGT-Events, welche vorher oder nur mit einer einzelnen der drei Methoden nicht möglich wäre.