In vertebrate species, the main mechanisms of defence against various types of pathogens are divided into the innate and the adaptive immune system. While the former relies on generic mechanisms, for example to detect the presence of bacterial cells, the latter features mechanisms that allow the individual to acquire defenses against specific, potentially novel features of pathogens and to maintain them throughout life. In a simplified sense, the adaptive immune system continuously generates new defenses against all kinds of structures randomly, carefully selecting them not to be reactive against the hosts own cells. The underlying generative mechanism is a unique somatic recombination process modifying the genes encoding the proteins responsible for the recognition of such foreign structures, the so-called antigen receptors. With the advances of high throughput DNA sequencing, we have gained the ability to capture the repertoire of different antigen receptor genes that an individual has acquired by selectively sequencing the recombined loci from a cell sample. This enables us to examine and explore the development and behaviour of the adaptive immune system in a new way, with a variety of potential medical applications. The main focus of this thesis is on two computational problems related to immune repertoire sequencing. Firstly, we developed a method to properly annotate the raw sequencing data that is generated in such experiments, taking into account various sources of biases and errors that either generally occur in the context of DNA sequencing or are specific for immune repertoire sequencing experiments. We will describe the algorithmic details of this method and then demonstrate its superiority in comparison with previously published methods on various datasets. Secondly, we developed a machine learning based workflow to interpret this data in the sense that we attempted to classify such recombined genes functionally using a previously trained model. We implemented alternative models within this workflow, which we will first describe formally and then assess their performances on real data in the context of a binary functional feature in T cells, namely whether they have differentiated into cytotoxic or helper T cells.
Die Fähigkeit von Wirbeltieren, Pathogene abzuwehren, basiert auf einer Reihe von Mechanismen, die sich in zwei Bereiche unterteilen lassen: Das adaptive und das angeborene Immunsystem. Während angeborene Immunität auf generischen Mechanismen beruht, welche z.B. das Vorhandensein von Bakterienzellen anhand von allgemeinen Parametern erkennen, sind die adaptiven Mechanismen in der Lage, neue Wege zu erlernen, bisher unbekannte Pathogene zu erkennen und zu bekämpfen. Vereinfacht gesagt werden immer neue Strategien auf zufällige Weise generiert, wobei das einzige Kriterium ist, dass sie nicht gegen den Wirtsorganismus selbst reaktiv sind. Der dem adaptiven Charakter zugrundeliegende Prozess ist eine einzigartige, somatische Rekombination der Gene, welche für die Proteine kodieren, die diese pathogenen Strukturen erkennen: die Antigen-Rezeptoren. Durch die mittlerweile verfügbaren Hochdurchsatz-DNA-Sequenziermethoden ist es uns heute möglich, das Repertoire an Antigen-Rezeptor Genen, welches ein Individuum im Laufe der Zeit gebildet hat, ausgehend von einer Zell-Probe sichtbar zu machen (Immun-Repertoire- Sequenzierung). Dies ermöglicht uns, das adaptive Immunsystem auf eine neue Art und Weise zu untersuchen, woraus sich eine Reihe möglicher medizinischer Anwendungen ergeben. Im Kontext der Immun-Repertoire-Sequenzierung wurde im Rahmen dieser Arbeit zunächst eine Methode entwickelt, um die Rohdaten, die bei dieser Methode anfallen möglichst fehlerfrei zu annotieren. Hierbei wurde ein besonderes Augenmerk auf die verschiedenen technischen Fehlerquellen gelegt, sowohl auf solche, die allgemein im Kontext von DNA-Sequenzierung auftreten, als auch auf solche, die spezifisch für die Immun-Repertoire- Sequenzierung sind. Die Methode wird in dieser Arbeit zunächst inhaltlich beschrieben, bevor anschließend im Rahmen einer Evaluation ihre Überlegenheit im Vergleich zu zuvor veröffentlichten Methoden dargestellt wird. Des Weiteren wurde ein auf maschinellem Lernen basierter Workflow entworfen, um die annotierten Daten zu interpretieren. Ziel hierbei ist es, unter Verwendung eines zuvor trainierten Modells eine gemessene Gensequenz funktional zu klassifizieren. Innerhalb des Workflows wurden verschiedene Modelle implementiert, welche in dieser Arbeit zunächst formal beschrieben werden. Anhand von realen Daten aus dem Kontext eines binären Merkmals von T-Zellen, der erfolgten Differenzierung in T-Helferzellen und zytotoxische T-Zellen, werden anschließend die Fähigkeiten der Modelle, korrekte Klassifikationen vorzunehmen, evaluiert.