dc.contributor.author
Holtgrewe, Manuel
dc.date.accessioned
2018-06-07T21:39:03Z
dc.date.available
2015-11-11T14:25:40.670Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/8214
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-12413
dc.description.abstract
Recent technical advances in high-throughput sequencing technologies and their
commercial availability at low costs have paved the way for revolutionary
opportunities in the life sciences. One milestone was reaching the $1000
genome, allowing to determine the genetic makeup of hundreds of human
individuals within a week for less than $1000 each. This ongoing revolution of
the life sciences creates new challenges for the software and algorithms that
are processing this data. In my thesis, I consider a typical software pipeline
for determining the genome of a human individual. For the preprocessing
pipeline step, I describe a method for error correction and consider the
comparison of such methods. For the read mapping step, I provide a formal
definition of read mapping and I present a software package implementing a
benchmark for read mapping, based on my formal definition. I then describe the
implementation, parallelisation, and engineering of a fully sensitive read
mapper and evaluate its performance. For the variant calling step, I present a
method for the prediction of insertion breakpoints and the assembly of large
insertions. Of course, such a pipeline is not limited to the processing of
human data but it is also applicable to data from other mammals or organisms
with smaller and less complex genomes. The presented work is available as an
efficient open source C++ implementation, either as parts of the SeqAn library
or as programs using SeqAn.
de
dc.description.abstract
Die technischen Fortschritte der letzten Jahre im Bereich der
Hochdurchsatzsequenzierung und die kommerzielle Verfügbarkeit dieser Technik
haben den Weg für revolutionäre Möglichkeiten in den Lebenswissenschaften
geebnet. Ein Meilenstein dabei war das Erreichen des sogenanten 1000 Dollar
Genoms. Es ist heute möglich, das Erbgut von hunderten von Menschen in unter
einer Woche für weniger als je 1000 Dollar auszulesen. Diese Revolution der
Lebenswissenschaften stellt auch neue Herausforderungen an die Software und
Algorithmen für die Verarbeitung dieser Daten. In meiner Arbeit betrachte ich
eine typischen Pipeline um ein menschliches Genom zu dekodieren. Für den
Vorverarbeitungsschritt beschreibe ich eine Methode zur Fehlerkorrektur und
vergleiche verschiedene solcher Methoden. Für den Read Mapping Schritt
entwickle ich zunächst eine for- male Definition von Read Mapping und stelle
dann ein Softwarepaket vor, dass den Vergleich von Read Mappern, basierend auf
der formalen Definition, erlaubt. Danach beschreibe ich die Imple- mentierung,
Parallelisierung, und das Engineering eines vollsensitiven Read Mappers. Für
den Schritt der Variantenanalyse präsentiere ich eine Methode für die
Vorhersage von Bruchpunkten und eine Methode für das gezielte Assemblieren von
langen Insertionen. Eine solche Pipeline kann selbstverständlich auch für
genomische Daten von anderen Säugetie- ren oder Lebewesen mit kürzerem,
weniger komplexen Genom einsetzt werden. Die vorgestellte Arbeit ist als
effiziente, quelloffene C++ Implementierung verfügbar, zum Teil als
Bestandteil der SeqAn Bibliothek und zum Teil als Programme auf der Grundlage
von SeqAn.
de
dc.format.extent
XV, 233 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
high throughput sequencing
dc.subject
genomic variant detection
dc.subject
structural variant
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.title
Engineering Algorithms for Personal Genome Pipelines
dc.contributor.firstReferee
Prof. Dr. Knut Reinert
dc.contributor.furtherReferee
Prof. Dr. Alexander Goesmann
dc.date.accepted
2015-10-20
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000100491-8
dc.title.translated
Engineering von Algorithmen zur Bestimmung persönlicher Genome
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000100491
refubium.mycore.derivateId
FUDISS_derivate_000000018007
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access