dc.contributor.author
Pape, Utz J.
dc.date.accessioned
2018-06-07T18:03:13Z
dc.date.available
2009-10-12T07:35:09.736Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/4591
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-8791
dc.description
1\. Introduction I Count Statistics 2\. DNA Motifs 3\. Word Count Statistics
4\. Generating Functions 5\. TF Count Statistics 6\. cis-regulatory modules
(CRMs) II Applications 7\. Count Statistics 8\. Co-Occurrences and Co-
Operativity 9\. Simiarlity of DNA Motifs 10\. Clustering of PFMs 11\. Quality
of Representation 12\. Conclusions
dc.description.abstract
Transcription factors (TFs) play a key role in gene regulation. They interact
with specific binding sites or motifs on the DNA sequence and regulate
expression of genes downstream of these binding sites. In silico prediction of
potential binding of a TF to a binding site is an important task in
computational biology. From a statistical point of view, the DNA sequence is a
long text consisting of four different letters ('A','C','G', and 'T'). The
binding of a TF to the sequence corresponds to the occurence of a word in the
sequence, e.g. 'AACCTC'. Hence, word count statistics can be applied to
problems such as number of binding sites and distances between binding sites.
The major problem in word count statistics are dependencies between sequence
positions. These dependencies arise due to possible overlaps of words. So far,
exact formulae to compute the count distribution of clustered occurrences only
exist based on generating functions. We newly derive a recursive formula and
use it to obtain a normal approximation. In fact, a TF does not bind to one
single word but allows mismatches and substitutions. This is captured in a
statistical model called Position Frequency Matrix (PFM). A PFM assigns a
score to each position of the word and letter. If the summed score reaches a
certain threshold, the TF is assumed to bind to that sequence region. In fact,
one can transform this representation to a set of words which are bound by the
TF. Unfortunately, enumeration of the set of words takes exponential costs. In
addition, the set of words grows enourmously for longer binding sites (around
500,000 for a binding site of length 15). Hence, word count statistics and its
approximations become inefficient and very inaccurate. Therefore, the need for
new statistics and efficient algorithms arises. Instead of enumerating all
words, we use a statistical representation - the PFM - and model dependencies
explicitly. In fact, probabilities for overlaps are dependencies of the summed
scores between two positions. Hence, we reduce the problem to computing the
two dimensional convolution of the score distributions for each possible
overlap and derive an exact formula for the variance of PFM counts.
Furthermore, we found an accurate approximation for the distribution of the
number of occurrences using a compound Poisson distribution. Our approximation
outperforms all alternative approaches. In addition, we give Poisson
statistics for the number of occurrences without overlaps such that other
standard word count statistics (like distances between occurences) can be
applied. Third, we develop statistics to compute the significance of co-
occurrences and co-operativity among sets of TFs. Fourth, we use the variance
to define a natural measure of similarity between DNA motifs. We explicitly
state formulae for PFMs. Compared to standard approaches, it shows higher
correlation with empirical data. It also allows to cluster sets of TFs and
gives results comparable with more sophisticated clustering algorithms.
Finally, we use this similarity measure to compute the representation quality
of PFMs for a set of experimentally verified binding sites. Besides a
threshold optimization method which significantly improves the quality of PFMs
in Transfac and Jaspar, we can indeed select DNA motifs, which violate PFM
assumptions and, therefore, cannot be reasonbly represented as PFMs.
de
dc.description.abstract
Transkriptionsfaktoren (TF) spielen eine entscheidende Rolle in der Regulation
von Genen. Sie interagieren mit spezifischen Bindestellen oder Motifen auf der
DNA Sequenz. Daher ist eine wichtige Aufgabe der Bioinformatik, potentielle
Bindestellen von TF in silico vorherzusagen. Nimmt man einen statistischen
Standpunkt ein, dann ist die DNA Sequenz ein langer Text bestehend aus vier
verschiedenen Buchstaben 'A', 'C', 'G' und 'T' für die vier verschiedenen
Basen. Bindet ein TF an eine Bindestelle, so ist dies gleichbedeutend damit,
dass das Wort, welches die Bindestelle beschreibt, in dem Text vorkommt. Daher
kann man für verschiedene Statistiken auf schon bekannte zurückgreifen und
somit Fragen nach der Wahrscheinlichkeit eine bestimmte Anzahl von Wörtern zu
beobachten oder der Distanz zwischen zwei Vorkommen beantworten. Jedoch tritt
bei der Herleitung solcher Statistiken immer wieder das gleiche Problem auf:
Die Wörter können überlappen. Daher entstehen Abhängigkeiten zwischen den
zugrunde liegenden Zufallsvariablen. Dadurch gibts es z.B. bisher noch keine
exakte Formel - die nicht auf erzeugenden Funktionen beruht - zum Berechnen
der Wahrscheinlichkeit eine bestimmte Anzahl von nicht-überlappenden Wörtern
zu sehen. Wir leiten diese Formel her und erhalten dadurch auch eine
Normalverteilungs-Approximation. Leider bindet ein TF aber nicht nur ein an
einzelnes Wort, sondern normalerweise gibt es innerhalb des Wortes Position,
die Variationen zu lassen. Daher werden TF meist in dem statistischen Modell
PFM dargestellt. Dieses Modell weist jedem Buchstaben auf jeder Position ein
Gewicht zu. Wenn die Summe aller Gewichte für eine gegebene Sequenz der Länge
des Motifs einen Schwellenwert übersteigt, so ist diese Sequenz eine
Bindestelle. Daher kann man auch alle derartigen Wörter aufzählen und erhält
so eine Menge von Wörtern, die ein Motif beschreibt. Allerding kann diese
Menge sehr gross werden. Z.B. für ein Motif der Länge 15 ist die Anzahl
normalerweise um die 500.000. Abgesehen davon, dass das Aufzählen der Wörter
exponentielle Laufzeit hat, kommen auch die bekannten Statistiken bei einer so
grossen Anzahl von Wörtern an ihre Grenzen. Das heisst, sie sind nur sehr
aufwändig zu berechnen und die Näherungsergebnisse sind nicht sehr genau.
Daher werden neue Statistiken und effiziente Algorithmen benötigt. Wir haben
solche Statistiken entwickelt. Dabei nutzen wir aus, dass wir die
Wahrscheinlichkeit für überlappende Bindestellen ausrechnen können ohne die
Wörter aufzuzählen. Genauer gesagt, benutzen wir das PFM Modell um eine zwei-
dimensionale Gewichtsverteilung zu berechnen. Von dieser können wir besagte
Wahrscheinlichkeit ablesen. Von diesem Ergebnis ausgehend, leiten wir die
exakte Varianz der Anzahl von Vorkommen her. Ausserdem können wir die
Verteilung der Vorkommen durch eine zusammengesetzte Poisson Verteilung
beschreiben. Simulationen zeigen, dass dies die beste bekannte Approximation
ist. Auch können wir für nicht überlappende Vorkommen entsprechende
Statistiken auf Basis einer Poisson Verteilung berechnen. Erweiterung auf
mehrere verschiedene DNA Motife führt zur Berechnung der Signifikanz von
gemeinsamen Vorkommen und der Kooperation von TF. Zusätzlich führen wir die
Kovarianz als Maß für die Ähnlichkeit von DNA Motifen ein. Dadurch erhalten
wir ein natürliches und vor allem generelles Ähnlichkeitsmaß, das nicht von
einem speziellen Modell ausgeht. Explizite Formeln leiten wir für das PFM
Modell her und Vergleich mit Simulationen und anderen Maßen zeigt, dass unser
Maß tatsächlich die von uns definierte Ähnlichkeit am Besten wiedergibt. Ein
verwandtes Maß verwenden wir zum Gruppieren von Klassen von TF. Auch hier
zeigt ein Vergleich mit optimierten Gruppierungsalgorithmen, dass wir
vergleichbar gute Ergebnisse erhalten. Schließlich nutzen wir die Ähnlichkeit,
um herauszufinden, wie gut ein DNA Motif mit einem bestimmten Modell
dargestellt werden kann. Hierfür berechnen wir die Kovarianz zwischen den
experimentell verifizierten Sequenzen und dem Modell. Dies entspricht der
Representations-Qualität von DNA Motif Modellen. Wiederum leiten wir für PFMs
explizite Formeln her. Darauf basierend zeigen wir, dass die Qualität auch
dafür genutzt werden kann, Modellparameter (in unserem Fall der Schwellenwert)
zu optimieren. Außerdem zeigen wir, dass die Qualität für Motife, die den
Annahmen des PFM Modells nicht entsprechen, auch signifikant niedriger ist.
de
dc.format.extent
VII, 232 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Count Statistics
dc.subject
Compound Poisson Distribution
dc.subject
Co-Operativity
dc.subject
Co-Occurrences
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::006 Spezielle Computerverfahren
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
dc.title
Statistics for transcription factor binding sites
dc.contributor.contact
utz.pape@molgen.mpg.de
dc.contributor.inspector
Dr. Roland Krause
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Sven Rahmann
dc.contributor.furtherReferee
Prof. Dr. Dr. h.c. Peter Deuflhard
dc.date.accepted
2008-10-10
dc.date.embargoEnd
2009-10-09
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000005801-7
dc.title.translated
Statistik für Transkriptionsfaktor Bindestellen
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000005801
refubium.mycore.derivateId
FUDISS_derivate_000000004570
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access