Regular emergence of novel pathogens is one of the greatest threats to global health. DNA and RNA sequencing enable detection of new viruses and microbes, but standard approaches for computational analysis of sequencing data rely on predefined lists of known agents. New pathogens, with genomes highly divergent from available references, remain difficult to recognize. This problem can be alleviated by training classifiers predicting whether a given sequencing read originates from a possibly novel pathogen. I show that deep neural networks invariant to DNA reverse-complementarity markedly outperform alternatives based on other machine learning algorithms and homology detection by sequence alignment. This holds for both bacteria and viruses. I introduce new methods enabling analysis and visualization of the learned patterns, as well as identification of sequences, genes and genomic regions associated with high pathogenic potential. Modified ResNet architectures combined with real-time mapping of short reads can accurately recognize both known and novel threats as the sequencer is running. Analogous models also work for short fragments of long reads, corresponding to just 0.5 s of sequencing time. I then describe a manually curated database of fungal pathogen genomes facilitating detection of novel threats with both machine learning and alternative approaches. I use learned numerical representations of the genomes in the database to visualize the relationship between taxonomy and the pathogenic phenotype. Finally, I employ the developed neural architectures to classify reads sampled from mixtures of different novel bacteria, viruses, and fungi. The methods presented here are implemented in the DeePaC and DeePaC-Live packages. They can be easily reused for training, evaluation, and deployment of deep neural networks for DNA and RNA sequences. Although the main focus is placed on identification of emerging pathogens from sequencing data, presented approaches could also be used to screen synthetic sequences and detect engineered threats. The trained networks are capable of predicting abstract, complex traits directly from sequences, without directly relying on close taxonomic matches. In the future, similar 'phenotype models' could find many alternative applications in rapid diagnostics, public health and synthetic biology.
Das regelmäßige Auftreten neuer Krankheitserreger ist eine der größten Bedrohungen für die globale Gesundheit. DNA- und RNA-Sequenzierung ermöglichen den Nachweis neuer Viren und Mikroben, aber die Standardansätze für die computergestützte Analyse von Sequenzierungsdaten beruhen auf vordefinierten Listen bekannter Erreger. Neue Pathogene, deren Genome stark von den verfügbaren Referenzen abweichen, bleiben schwer zu erkennen. Dieses Problem kann durch das Training von Klassifikatoren gemildert werden, die vorhersagen, ob ein bestimmter Sequenzierungs-Read von einem möglicherweise neuen Krankheitserreger stammt. In dieser Arbeit zeige ich, dass tiefe neuronale Netze, die invariant gegenüber der DNA-Rückwärtskomplementarität sind, Alternativen, die auf anderen Algorithmen des maschinellen Lernens und der Homologieerkennung durch Sequenzabgleich basieren, deutlich übertreffen. Dies gilt sowohl für Bakterien als auch für Viren. Ich stelle neue Methoden vor, die eine Analyse und Visualisierung der gelernten Muster sowie die Identifizierung von Sequenzen, Genen und genomischen Regionen mit hohem pathogenen Potenzial ermöglichen. Modifizierte ResNet-Architekturen in Kombination mit Echtzeit-Alignierungen von kurzen Reads können sowohl bekannte als auch neuartige Bedrohungen bei laufendem Sequenziervorgang genau erkennen. Ähnliche Modelle funktionieren auch für kurze Fragmente langer Reads, die nur 0,5 s Sequenzierungszeit entsprechen. Anschließend beschreibe ich eine manuell kuratierte Datenbank mit Genomen pathogener Pilze, welche die Erkennung neuartiger Bedrohungen sowohl durch maschinelles Lernen als auch durch alternative Ansätze erleichtert. Ich verwende die erlernten numerischen Repräsentationen der Genome in der Datenbank, um die Beziehung zwischen der Taxonomie und dem pathogenen Phänotyp zu visualisieren. Schließlich setze ich die entwickelten neuronalen Architekturen ein, um Reads zu klassifizieren, die aus Mischungen verschiedener neuartiger Bakterien, Viren und Pilze stammen. Die vorgestellten Methoden sind in den Paketen DeePaC und DeePaC-Live implementiert. Sie können leicht für das Training, die Bewertung und den Einsatz von tiefen neuronalen Netzen für DNA- und RNA-Sequenzen wiederverwendet werden. Obwohl der Schwerpunkt auf der Identifizierung neu auftretender Krankheitserreger anhand von Sequenzierungsdaten liegt, könnten die vorgestellten Ansätze auch für das Screening synthetischer Sequenzen und die Erkennung manipulierter Bedrohungen verwendet werden. Die trainierten Netze sind in der Lage, abstrakte und komplexe Eigenschaften direkt aus Sequenzen vorherzusagen, ohne dabei auf enge taxonomische Übereinstimmungen angewiesen zu sein. In Zukunft könnten ähnliche "Phänotypmodelle" viele alternative Anwendungen in der Schnelldiagnostik, der öffentlichen Gesundheit und der synthetischen Biologie finden.