dc.contributor.author
Kopp, Wolfgang
dc.date.accessioned
2018-06-07T21:11:40Z
dc.date.available
2017-06-12T08:40:14.940Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/7515
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-11714
dc.description.abstract
In this thesis, we discuss methods for analyzing the non-coding sequence of
the genome (e.g promoters) with respect to the identification and enrichment
of transcription factor binding sites (TFBSs), as they are related to gene
regulation. The identification of pu- tative TFBSs is based on the log-
likelihood ratio between a TF motif, which describes the binding affinity of a
TF towards the DNA, and a background model, which is im- plemented by an
order-d Markov models with d ≥ 0, in conjunction with a pre-defined log-
likelihood ratio threshold. Chapter 2 reviews algorithms for computing the
false positive probability of calling motif hits for a given threshold. As
putative TFBSs can self-overlap one another, which affects the enrichment test
of the number of TFBSs, we discuss the quantification of overlapping TFBS
predictions in Chapter 3. In Chapter 4, we discuss a compound Poisson model
for modeling the distribution of the number of TFBSs in both strands of the
DNA sequence, which represents an extension of Pape et al. [36]. The main
advance of our model regards the use of newly derived princi- pal overlapping
hit probabilities, which are motivated by the discussion of principal periods
in Reinert et al. [41], as well as by facilitating the use higher-order Markov
models for the background. In Chapter 5 we discuss a novel Markov model which
is utilized to determine the probability of a TFBS occurrence that does not
overlap a previ- ous TFBS occurrences, termed clump start probability, which
mark the beginning of a clump. The resulting clump start probability then
serves as an important building block for the subsequent Chapter 6. Finally,
in Chapter 6 we present a novel combinatorial model for the distribution of
the number of motif hit. To that end, we efficiently sum up the probabilities
of all realizations of placing x TFBSs in a finite-length sequence of length
N. We systematically compared the accuracy of the combinatorial model, the
compound Poisson model and the binomial model. An implementation of the algo-
rithms that were discussed in this thesis is provided as an R package that is
available at https://github.com/wkopp/mdist.
de
dc.description.abstract
In dieser Dissertation beschäftigen wir uns mit der statistischen Analyse von
nicht- kodierenden Segmenten des Genoms. Insbesondere betrachten wir Verfahren
zur Identifikation und Anreicherungsanalyse von
Transkriptionsfaktorbindungsstellen (TFBSen) in DNA Segmenten (z.B. in
Promotoren), da das Binden von Transkriptionsfaktoren regulatorisch auf die
Geneexpression benachbarter Gene wirkt. Die Identifikation von TFBSen basiert
auf dem Log-likelihood Verhältnis zwischen einem bekanntem Tran-
skriptionsfaktormotiv, welches die DNA Bindungsaffinität des
Transkriptionsfaktors beschreibt, und einem Hintergrundmodel, z.B. einem
Markov Model der Ordnung d, unter Verwendung eines festgelegten Schwellwerts.
Kapitel 2 beschreibt die Berech- nung der falsch-positiv Wahrscheinlichkeit
für den gewählten Schwellwert. Da die Iden- tifikation von TFBSen zu selbst-
überlappenden Vorhersagen führen kann, welche die Anreicherungsanalyse
beeinflussen, behandeln wir in Kapitel 3 die Quantifizierung der selbst-
überlappenden Vorhersagen. In Kapitel 4 behandeln wir die Compound Poisson
Verteilung als analytisches Model für die Anreicherungsanalyse welche selbst-
überlap- pende TFBSen auf beiden DNA-Strängen berücksichtigt und eine direkte
Weiteren- twicklung von Pape et al. [36] darstellt. Der zentrale Fortschritt
in diesem Kapi- tel wurde durch die Verwendung der neuer
Überlappwahrscheinlichkeiten und durch die Verwendung von DNA-
Hintergrundmodellen höherer Ordnung geleistet. In Kapi- tel 5 führen wir eine
Markov Model ein, welches die Wahrscheinlichkeit einer TFBS, die nicht von
einer vorhergehenden TFBSen überlappt wird, modelliert. Jene TFBSen markieren
immer den Beginn eines oder mehrerer selbst-überlappender TFBS Vorher- sagen
(auch motif clumps benannt). Das Ergebnis von Kapitel 5 spielt eine wichtige
Hilfsrolle für das darauffolgende Kapitel 6. Schließlich stellen wir ein neues
kombi- natorischen Model für die Anreicherungsanalyse in Kapitel 6 vor,
welches effizient die Wahrscheinlichkeiten aller möglich Kombinationen x
TFBSen in einer endlichen Se- quenz der Länge N zu platzieren aufsummiert.
Vergleiche mit dem Compound Pois- son Model zeigten, dass das kombinatorische
Model insbesondere für niedrige Log- likelihood-Schwellwerte wesentlich
genauere Ergebnisse erzielt. Eine Implementierung der diskutierten Methoden
ist als R Paket unter https://github.com/wkopp/mdist verfügbar.
de
dc.format.extent
216 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
transcription factor binding sites
dc.subject
motif match statistics
dc.subject
self-overlapping match statistics
dc.subject
number of motif matches
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Statistical methods for motif hit enrichment in DNA sequences
dc.contributor.contact
wolfgangkopp@gmx.net
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Sven Rahmann
dc.date.accepted
2017-04-25
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000104837-9
dc.title.translated
Statistische Methoden für Motivanreicherung in DNA Sequenzen
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000104837
refubium.mycore.derivateId
FUDISS_derivate_000000021621
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access