dc.contributor.author
Loka, Tobias Pascal
dc.date.accessioned
2020-02-21T09:56:06Z
dc.date.available
2020-02-21T09:56:06Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/26717
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-26474
dc.description.abstract
Next-generation sequencing (NGS), in particular Illumina sequencing, is the current stateof-
the-art DNA sequencing technology. However, when it comes to time-critical analysis,
Illumina sequencing lacks sufficiently short turnaround times due to the sequential paradigm
of data acquisition and analysis. For clinical application and infectious disease outbreaks, a
significant reduction of time needed from sample arrival to analysis outcome is crucial to
optimally treat patients and to prevent further spread of disease. At the same time, nucleotidelevel
analysis is required to enable (sub-)species level classification and determination of
organism-specific properties such as, for example, antimicrobial resistances. To accelerate
the generation of NGS analysis results, the real-time read aligner HiLive was developed that
performs read alignment while sequencing. Still, HiLive delivers results only at the end of
the sequencing process and lacks sufficient resolution and scalability.
In this thesis, a novel real-time alignment algorithm is introduced that was implemented in
HiLive2. Unlike its predecessor, HiLive2 provides results at any desired stage of sequencing
at full nucleotide-level resolution. The novel approach is based on an FM-index and is
more scalable with respect to reference database size and sample size. HiLive2 enables
high-quality downstream analysis as shown by performing variant calling based on realtime
alignments of human sequencing data. Further, PathoLive is presented, a pipeline
for real-time pathogen identification from metagenomic datasets. Based on the output of
HiLive2, PathoLive performs a weighted ranking of identified species. Thereby, sequences
that typically do not occur in samples from non-infected human individuals are assumed to be
of high clinical significance and therefore highlighted in the results. PathoLive also provides
an intuitive and interactive visualization that significantly facilitates the interpretation of
results. In a case study of a real-world sample from Sudan, PathoLive enables the correct
identification of Crimean–Congo hemorrhagic fever virus based on only a few dozen related
reads. Besides analytical challenges, samples from human individuals are problematic with
respect to data protection as reads from a human host can be used for the identification of the
patient. To address this issue, PriLive was developed that enables the irrevocable removal
of human sequences from Illumina sequencing data during the ongoing sequencing process.
This enables a much higher level of data protection than conventional post hoc host removal
approaches as the human sequences are at no time available in full length.
en
dc.description.abstract
‘Next-Generation Sequencing’, im Speziellen die Illumina Sequenzierung, ist die derzeit
meistgenutzte DNA-Sequenziertechnologie. Jedoch sind für zeitkritische Analysen aufgrund
des sequentiellen Paradigmas der Datenerzeugung und -analyse die Durchlaufzeiten zu
hoch. In der klinischen Anwendung und bei Ausbrüchen von Infektionskrankheiten ist es
entscheidend, die Zeit vom Probeneingang zum Analyseergebnis zu verkürzen um Patienten
optimal zu behandeln und einer weitere Krankheitsausbreitung zu verhindern. Gleichzeitig
ist eine Analyse auf Nukleotidebene erforderlich um eine Spezies-Level-Klassifizierung
und die Bestimmung spezifischer Eigenschaften, wie z.B. antimikrobiellen Resistenzen, zu
ermöglichen. Um eine frühere Verfügbarkeit von Analyse-Ergebnissen zu erreichen wurde
die Echtzeit-Alignierungssoftware HiLive entwickelt, welche DNA-Sequenzen während der
Sequenzierung aligniert. Jedoch lieferte HiLive die Ergebnisse bislang nur am Ende eines
Sequenzierlaufs und hatte keine ausreichende Auflösung und Skalierbarkeit.
In dieser Arbeit präsentiere ich einen neuen Echtzeit-Alignierungsalgorithmus, der in HiLive2
implementiert wurde. HiLive2 basiert auf dem FM-index, kann zu jedem Zeitpunkt der
Sequenzierung Ergebnisse liefern und erreicht eine höhere Skalierbarkeit der Größe von
Referenzdatenbank und Datensatz. Durch die Detektion von Varianten basierend auf den
Echtzeit-Alignierungen von humanen Sequenzierdaten zeige ich, dass HiLive2 qualitativ
hochwertige Folgeanalysen ermöglicht. Außerdem stelle ich PathoLive vor, eine Pipeline
zur Echtzeit-Identifizierung von Krankheitserregern aus metagenomischen Datensätzen.
Basierend auf den Ergebnissen von HiLive2 führt PathoLive eine gewichtete Einstufung der
identifizierten Organismen durch. Dabei werden Sequenzen, die auch in Proben von gesunden Menschen vorkommen, in den Ergebnissen weniger stark berücksichtigt. PathoLive bietet eine intuitive und interaktive Visualisierung, welche die Interpretation der Ergebnisse erleichtert. Ich zeige, dass PathoLive basierend auf nur wenigen Dutzend Sequenzen die Identifizierung des Krim-Kongo-Hämorrhagisches-Fieber-Virus in einer Probe aus dem Sudan ermöglicht. Neben den analytischen Herausforderungen sind Patientenproben im Hinblick auf den Datenschutz problematisch, da die Daten des humanen Wirts zur Identifizierung des Patienten verwendet werden könnten. Für diese Problematik präsentiere ich PriLive, welches noch während des Sequenzierlaufs das Entfernen humaner Sequenzen aus den Rohdaten ermöglicht. Hierdurch kann ein deutlich höheres Datenschutzniveau erreicht werden als mit herkömmlichen post hoc Ansätzen, da die humanen Sequenzen auch während des Sequenzierungsprozesses zu keinem Zeitpunkt in voller Länge vorliegen.
de
dc.format.extent
vi, 115 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Next-Generation Sequencing
en
dc.subject
Real-time analysis
en
dc.subject
Data protection
en
dc.subject
Genomic Privacy
en
dc.subject
Short read alignment
en
dc.subject
Pathogen identification
en
dc.subject
Illumina sequencing
en
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
Advanced Strategies for Alignment-based Real-time Analysis and Data Protection in Next-Generation Sequencing
dc.contributor.gender
male
dc.contributor.firstReferee
Renard, Bernhard Y.
dc.contributor.furtherReferee
Friedel, Caroline
dc.date.accepted
2019-12-16
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-26717-2
dc.title.translated
Fortschrittliche Strategien für alignierungs-basierte Echtzeit-Analyse und Datenschutz in Next-Generation Sequencing
de
refubium.affiliation
Mathematik und Informatik
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access