Tuberculosis is a major threat to global health responsible for over a million deaths worldwide every year. It is essential to detect and interrupt transmissions to stop the spread of this infectious disease. With the rising use of next-generation sequencing, its application in the surveillance of Mycobacterium tuberculosis has become increasingly important in the last years. The main goal of molecular surveillance is the identification of patient-patient transmission and cluster detection. Whole genome sequencing based base-by-base distance measures have become an integral complement to epidemiological investigation of infectious disease outbreaks. Current approaches are based on single reference sequences and therefore cannot make use of the full diversity of available M. tuberculosis genome data and introduce bias towards the chosen reference. Furthermore, they provide inadequate results for comparative analysis of isolates since their resolution is too limited. In this thesis I present bioinformatic methods for the improvement of molecular surveillance of M. tuberculosis. I introduce seq-seq-pan, a framework for adding or removing new genomes from a set of aligned genomes and using these to construct a computational pan-genome. This method is based on sequential whole genome alignment and is optimized for generating a representative linear presentation of the aligned set of genomes, that enables its usage for annotation and in downstream analyses. I present PANPASCO, a pan-genome mapping based distance method that compares high quality variants for each individual pair of samples. It is highly sensitive to differences between cases including variants located in regions of lineage specific reference genomes. This approach allows the comparison of a high number of diverse samples in one analysis. I apply these methods to a large international dataset of drug-resistant M. tuberculosis for the detection of transmission clusters. I show their capability of improving surveillance and detection of international transmission and the benefits of including publicly available whole genome sequencing of M. tuberculosis for interpretation of national surveillance results. Furthermore, I compare transmission inference methods to answer the important question of 'who infected whom' in M. tuberculosis outbreaks.
Tuberkulose ist eine große Bedrohung für die globale Gesundheit, die jedes Jahr weltweit für über eine Million Todesfälle verantwortlich ist. Es ist wichtig, Übertragungen zu erkennen und zu unterbrechen, um die Ausbreitung dieser Infektionskrankheit zu stoppen. Mit dem zunehmenden Einsatz von NGS hat ihre Anwendung in der Überwachung von M. tuberculosis in den letzten Jahren an Bedeutung gewonnen. Das Hauptziel der molekularen Überwachung ist die Identifizierung von Patienten-Patienten-Übertragungen. Distanzberechnung basierend auf Vollgenomsequenzierung sind zu einer integralen Ergänzung von epidemiologischen Untersuchungen von Ausbrüchen von Infektionskrankheiten geworden. Aktuelle Ansätze basieren auf einzelnen Referenzsequenzen und verursachen daher eine Verzerrung in Richtung der gewählten Referenz. Außerdem liefern sie unzureichende Ergebnisse für den Vergleich von Isolaten, da ihre Auflösung zu begrenzt ist. In dieser Arbeit stelle ich bioinformatische Methoden zur Verbesserung der molekularen Überwachung von M. tuberculosis vor. Ich stelle Seq-Seq-Pan vor, ein Framework für das Hinzufügen oder Entfernen neuer Genome aus einem Set alignierter Genome und deren Verwendung zur Konstruktion eines Pan-Genoms. Diese Methode basiert auf der sequentiellen Alignierung der gesamten Genome und ist optimiert für die Erstellung einer linearen Darstellung des Sets von alignierten Genomen, die dessen Verwendung für die Annotation in nachfolgenden Analysen ermöglicht. Ich stelle PANPASCO vor, eine Methode zur Distanzberechnung basierend auf einem Pan-genom, die qualitativ hochwertige Varianten für jedes einzelne Probenpaar vergleicht. Die Methode ist sehr empfindlich gegenüber Unterschieden zwischen Fällen, einschließlich Varianten, die sich in Regionen von linienspezifischen Referenzgenomen befinden. Dieser Ansatz ermöglicht den Vergleich einer großen Anzahl verschiedener Proben. Ich wende diese Methoden auf einen großen internationalen Datensatz von medikamentenresistenten Proben zur Detektion von Übertragungsclustern an. Ich zeige die Verbesserung der Erkennung von internationalen Übertragungen und die Vorteile der Einbeziehung von öffentlich zugänglichen Vollgenomsequenzen von M. tuberculosis zur Interpretation der nationalen Überwachungsergebnisse. Darüber hinaus vergleiche ich Übertragungsinferenzmethoden, um eine wichtige Frage bei M. tuberculosis-Ausbrüchen zu beantworten: "Wer hat wen angesteckt?"