In this thesis, we discuss methods for analyzing the non-coding sequence of the genome (e.g promoters) with respect to the identification and enrichment of transcription factor binding sites (TFBSs), as they are related to gene regulation. The identification of pu- tative TFBSs is based on the log- likelihood ratio between a TF motif, which describes the binding affinity of a TF towards the DNA, and a background model, which is im- plemented by an order-d Markov models with d ≥ 0, in conjunction with a pre-defined log- likelihood ratio threshold. Chapter 2 reviews algorithms for computing the false positive probability of calling motif hits for a given threshold. As putative TFBSs can self-overlap one another, which affects the enrichment test of the number of TFBSs, we discuss the quantification of overlapping TFBS predictions in Chapter 3. In Chapter 4, we discuss a compound Poisson model for modeling the distribution of the number of TFBSs in both strands of the DNA sequence, which represents an extension of Pape et al. [36]. The main advance of our model regards the use of newly derived princi- pal overlapping hit probabilities, which are motivated by the discussion of principal periods in Reinert et al. [41], as well as by facilitating the use higher-order Markov models for the background. In Chapter 5 we discuss a novel Markov model which is utilized to determine the probability of a TFBS occurrence that does not overlap a previ- ous TFBS occurrences, termed clump start probability, which mark the beginning of a clump. The resulting clump start probability then serves as an important building block for the subsequent Chapter 6. Finally, in Chapter 6 we present a novel combinatorial model for the distribution of the number of motif hit. To that end, we efficiently sum up the probabilities of all realizations of placing x TFBSs in a finite-length sequence of length N. We systematically compared the accuracy of the combinatorial model, the compound Poisson model and the binomial model. An implementation of the algo- rithms that were discussed in this thesis is provided as an R package that is available at https://github.com/wkopp/mdist.
In dieser Dissertation beschäftigen wir uns mit der statistischen Analyse von nicht- kodierenden Segmenten des Genoms. Insbesondere betrachten wir Verfahren zur Identifikation und Anreicherungsanalyse von Transkriptionsfaktorbindungsstellen (TFBSen) in DNA Segmenten (z.B. in Promotoren), da das Binden von Transkriptionsfaktoren regulatorisch auf die Geneexpression benachbarter Gene wirkt. Die Identifikation von TFBSen basiert auf dem Log-likelihood Verhältnis zwischen einem bekanntem Tran- skriptionsfaktormotiv, welches die DNA Bindungsaffinität des Transkriptionsfaktors beschreibt, und einem Hintergrundmodel, z.B. einem Markov Model der Ordnung d, unter Verwendung eines festgelegten Schwellwerts. Kapitel 2 beschreibt die Berech- nung der falsch-positiv Wahrscheinlichkeit für den gewählten Schwellwert. Da die Iden- tifikation von TFBSen zu selbst- überlappenden Vorhersagen führen kann, welche die Anreicherungsanalyse beeinflussen, behandeln wir in Kapitel 3 die Quantifizierung der selbst- überlappenden Vorhersagen. In Kapitel 4 behandeln wir die Compound Poisson Verteilung als analytisches Model für die Anreicherungsanalyse welche selbst- überlap- pende TFBSen auf beiden DNA-Strängen berücksichtigt und eine direkte Weiteren- twicklung von Pape et al. [36] darstellt. Der zentrale Fortschritt in diesem Kapi- tel wurde durch die Verwendung der neuer Überlappwahrscheinlichkeiten und durch die Verwendung von DNA- Hintergrundmodellen höherer Ordnung geleistet. In Kapi- tel 5 führen wir eine Markov Model ein, welches die Wahrscheinlichkeit einer TFBS, die nicht von einer vorhergehenden TFBSen überlappt wird, modelliert. Jene TFBSen markieren immer den Beginn eines oder mehrerer selbst-überlappender TFBS Vorher- sagen (auch motif clumps benannt). Das Ergebnis von Kapitel 5 spielt eine wichtige Hilfsrolle für das darauffolgende Kapitel 6. Schließlich stellen wir ein neues kombi- natorischen Model für die Anreicherungsanalyse in Kapitel 6 vor, welches effizient die Wahrscheinlichkeiten aller möglich Kombinationen x TFBSen in einer endlichen Se- quenz der Länge N zu platzieren aufsummiert. Vergleiche mit dem Compound Pois- son Model zeigten, dass das kombinatorische Model insbesondere für niedrige Log- likelihood-Schwellwerte wesentlich genauere Ergebnisse erzielt. Eine Implementierung der diskutierten Methoden ist als R Paket unter https://github.com/wkopp/mdist verfügbar.