dc.contributor.author
Klein, Holger
dc.date.accessioned
2018-06-07T23:52:55Z
dc.date.available
2010-06-08T10:41:46.478Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/11132
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-15330
dc.description.abstract
Motivation and Thesis Structure Transcriptional Regulation Gene regulation
deals with the processes, that enable an organism to create a large variety of
cells and cell states from the same genome. A cell uses different genes under
divergent conditions, for example in two phases of the cell cycle. In metazoan
organisms completely different cell types, like a liver and a brain cell, are
encoded in the same genome. However, the set of genes needed in both cases
differs. A crucial step at which a cell regulates the production of proteins
and other gene products is transcriptional regulation. The molecular machinery
that transcribes the gene assembles at the transcriptional start site, the
point from where an RNA copy of the gene is transcribed. The RNA is
subsequently processed and often later on used as a blueprint for protein
translation. The assembly of the transcriptional apparatus is governed by
transcription factors: proteins that recognize and bind to the DNA and support
tethering of the transcriptional apparatus to the transcriptional start site.
We present a concise overview about the molec- ular biology of transcription
in Section 2.1. To date the known target spectrum of transcription factors
ranges from very specific factors with only a tiny number of targets under
distinct conditions to ubiquituous factors, which influence the transcription
of a large fraction of genes in a large variety of cell types and conditions.
The estimated fraction of different transcription factors encoded in the human
genome varies between 6 and 8%, leading to more than 2,500 different
transcription factors. The number of transcription factors expressed per human
tissue is between 150 and 350. Transcription Factor Interactions and
Regulatory Regions Aggregates of several transcription factors can act
synergistically or antagonistically. Using combinations of transcription
factors is beneficial to an organism, not only because of the many possible
interactions which allow for fine-grained regulation, but also because a
partial redundance of transription factors makes the transcriptional response
more stable. The transcriptional network is dynamic, and the number of
possible combinations of factor-factor and factor-DNA interactions in a
complete organism is enormous due to the size of the genome, the number of
different transcription factors, and the large number of different cell states
and cell types. We summarize details about transcription factor interactions
in Section 2.2. Transcription factors bind to two major classes of regulatory
regions — promoters and enhancers. On the genomic sequence the promoters are
located close to the regulated gene. Enhancers can be far away; in this case
the interaction with the transcriptional machinery is possible because of
bending and looping of the DNA. The promoters harbor binding sites for general
transcription factors which drive a low level of transcription, as well as for
specific factors, that modulate the expression strength dependent on various
factors. Enhancers usually influence specific expression. For properties of
regulatory regions we refer the reader to Section 3.3.1. We present an
overview of the large variety of experimental methods for the detection of
transcription factor binding sites, transcription factor interactions and the
detection of regulatory regions in Sections 2.3.1 and 2.3.3. Computational
Methods Already the knowledge of the first binding motifs of transcription
factors led researchers to search for more potential binding sites in other
parts of the genome with in silico methods. Over time this lead to the
development of copious methods for the prediction of transcription factor
binding sites. A general problem of these methods lies in the nature of
transcription factor binding sites. They are short and degenerate, which means
that a high number of occurrences of a matching DNA motif is present by
chance, rather than for a functional reason. We explain the general ideas and
the problems that arise in Section 3.1. The prediction of transcription factor
interactions is a difficult problem. Available methods make use of expression
data, experimental binding data, overrepresented sequence motifs, or predicted
transcription factor binding sites and apply a large variety of statistical
methods. We summarize these methods in Section 3.2.2. Also for the prediction
of regulatory regions one has the choice between many different tools. Partly
they are sequence based only and deploy low level features like GC content or
higher level features such as binding motifs. Other tools additionally utilise
experimental data. We review various approaches in Section 3.3. Working
Hypothesis The underlying assumption of the present work is, that in
regulatory regions, binding sites of interacting transcription factors co-
occur more often than expected by chance. The prediction of individual
transcription factor binding sites is hampered by a large number of false
positive results. Nevertheless we expect our assumption to be true also for
predicted binding sites, even if the signal that emanates is weakened. To that
end we develop two new methods, one for the prediction of transcription factor
interactions, and one for the prediction of regulatory regions based on
commonness of transcription factor binding site combinations. A Co-occurrence
Score for Transcription Factor Binding Sites For the prediction of functional
transcription factor interactions, we develop a counting method, which applies
a sliding window over annotated transcription factor binding sites. The
counting procedure is able to deal with overlapping windows, homotypic
clusters, and overlapping binding sites. For the detection of overrepresented
TFBS pairs, we calculate as a co-occurrence score the log odds score of
observed over expected number TFBS pairs. We estimate the number of expected
pairs using a label permutation procedure with subsequent recountings. We
describe our method in Section 4. We assess the counting procedure and the co-
occurrence score on artificially generated datasets with defined number of co-
occurrences in Section 6.1 and show, that the method is able to detect low
TFBS pair enrichments. We apply the method to yeast regulatory regions in
Section 6.2, and find that a large number of overrepresented TFBS pairs in
fact belong to transcription factors known to interact. Moreover we examine
the similarity of binding sites of interacting pairs and reasons for
underrepresentation of TFBS pairs. In Section 6.5 we compare the co-occurrence
score with the costat method by Pape et al.. Subsequently we apply the method
to vertebrate data in Chapter 6. Despite the much higher complexity of the
regulatory network of vertebrates compared to yeast, we still find many known
inter- actions among the top scoring pairs. This is the case for a genome wide
study in human in Section 6.3, as well as for genes expressed in human
embryonic kidney cells (Section 6.4.2), and tissue specific gene sets from
mouse (Section 6.4.3). Binding Site Graphs for the Prediction of Regulatory
Regions Many tools for the pre- diction of regulatory regions explicitly or
implicitly apply sequence properties like the GC content or the presence of
CpG islands for the detection of regulatory regions. We aim to design a
method, which is less dependent on low level features and hence makes use of
the knowledge about over- and underrepresented TFBS pairs in known regulatory
regions to measure the regulatory potential. We represent the predicted
binding sites in a sequence to be characterised as the vertices in a graph.
Subsequent assignment of co-occurrence scores as edge weights for all vertex
pairs leads to a binding site graph. The co-occurrence scores originate from
known regulatory regions and are calculated with the method from Section 4.
Using this graph, we now can calculate various edge-weight based scores for
the input sequence, which we call regulatory potentials and which represent
the level of abundance of transcription factor combinations typical for
regulatory regions. We present our approach in Chapter 5. In Chapter 7 we
apply the methods to known regulatory regions. We show the performance of one
of the scores on the well examined regulatory regions of the murine PAX6 gene
and known human enhancer regions from the VISTA set. In Section 7.2 we assess
the reliability of our method for genome-wide prediction of regulatory regions
based on test sets, consisting of promoter and enhancer regions as positive
sets and an artificial, shuffled sequence set and an intergenic set as
negative sets. We find, that although the biggest factor playing a role in the
prediction of regulatory function again is the GC content of a candidate
sequence, our method should be used to filter out false positive predictions
of regulatory function based on GC content. In Chapter 8 we summarize and
discuss our findings.
de
dc.description.abstract
Transkriptionelle Regulation und Transkriptionsfaktor-Interaktionen
Transkriptionsfaktoren, welche die Rate der Transkription von Genen durch
Bindung an spezifische Motive auf der DNA und durch Interaktion mit der
Transkriptionsmaschinerie regulieren, erfüllen ihren Aufgaben im Zellkern in
Kombination mit anderen Transkriptionsfaktoren. Diese Interaktionen können
auf der einen Seite sehr spezifisch sein, so daß ein bestimmter Faktor einen
bestimmten anderen Faktor benötigt, um seine Funktion auszuführen. Auf der
anderen Seite kann die Bandbreite an Interaktionspartnern eines Faktors sehr
groß sein, wobei die Funktion verschiedener Komplexe redundant sein, oder sich
mit wechselnden Partnern verändern kann. Für viele Transkriptionsfaktoren
sind Bindemotive bekannt, so daß eine bioinformatische Vorhersage von
potentiellen Bindungsstellen möglich ist. Wegen verschiedener anderer Ebe-
nen der Regulation ist diese ist im Normalfall jedoch fehlerbehaftet und
führt zu einer großen Menge falsch-positiver Vorhersagen. In der vorliegenden
Arbeit nutzen wir vorhergesagte Transkriptionsfaktor-Bindungsstellen (TFBS),
um zunächst anhand von häufig beobachteten TFBS-Kombinationen in bekannten
regulatorischen Regionen mögliche Interaktionspartner von
Transkriptionsfaktoren zu identifizieren. In einem weiteren Schritt nutzen wir
das gewonnene Wissen über gehäuftes Auftreten der TFBS-Kombinationen, um mit
Hilfe von Bindungsstellen-Graphen DNA- Sequenzen bezüglich ihres
regulatorischen Potentials zu charakterisieren. Arbeitshypothese Die unserer
Arbeit zugrunde liegende Annahme ist, daß die vorhergesagten Bindungsstellen
interagierender Transkriptions-Faktoren häufiger in Nähe zueinander
auftreten, als durch Zufall zu erwarten wäre. Wir rechnen mit einer
erschwerten Detektion interagierender Faktoren durch die hohe Falsch-
Positiven-Rate bei der Vorhersage individueller Bindungsstellen, gehen jedoch
davon aus, daß die vorhandene Information auf der DNA groß genug ist.
Grundlegende Methoden Wir behandeln die biologischen Grundlagen der
transkriptionellen Regulation, und experimentelle Methoden zur Ermittlung von
Transkriptionsfaktor-Bindungsstellen, Transkriptionsfaktor-Interaktionen und
regula- torischen Regionen in Kapitel 2. In Abschnitt 3.1 erläutern wir den
bioinformatischen Weg von der Beschreibung einer experimentell ermittelten
Transkriptionsfaktor-Bindungsstelle zu der Suche nach weiteren potentiellen
Bindungsstellen eines Faktors. Abschnitt 3.2.2 enthält einen Überblick über
verschiedene Ansätze zur Vorhersage von Transkriptionsfaktor-Interaktionen.
In Abschnitt 3.3 stellen wir gängige Methoden zur Detektion von
regulatorischen Regionen vor. Vorhersage von Transkriptionsfaktor-
Interaktionen Wir beschreiben unsere Methode zur Vorhersage von
Transkriptionsfaktor-Interaktionen in Kapitel 4. Sie besteht im einzelnen aus
einer Zählmethode, welche auf einem sich über die Sequenz bewegenden
Fenster, und speziellen Behandlungsweisen für homotypische Bindungsstellen-
Häufungen und überlappende Bindungsstellen basiert. Zur Identifikation von
überrepräsentierten Bindungsstellen-Kombinationen berechnen wir die co-
occurrence score als log-odds score der beobachteten und durch Zufall
erwarteten Anzahl an Bindungsstellen-Paaren. In Kapitel 6 testen wir unsere
Vorhersagemethode zunächst auf künstlich generierten Datensätzen (Abschnitt
6.1) und können zeigen, daß die Methode auch TFBS-Paare identifizieren kann,
die nur schwach überrepräsentiert sind. Die Anwendung der Methode in
Abschnitt 6.2 auf Promotor-Sequenzen aus der Bäckerhefe ergibt unter den am
stärksten überrepräsentierten Kombinationen einen sehr großen Anteil
bereits in der Literatur beschriebener Interaktionen. Darüberhinaus
untersuchen wir die Ähnlichkeit der Bindungsstellen interagierender
Transkriptionsfaktoren. In Abschnitt 6.5 vergleichen wir die co-occurrence
score mit der costat-Methode, die in Pape et al. [253] vorgestellt wurde.
Anschließend untersuchen wir potentielle Transkriptionsfaktor-Interaktionen in
Vertebraten. Trotz der weitaus größeren Komplexität des regulatorischen
Netzwerkes in Vertebraten finden wir unter den Transkriptionsfaktor-Paaren mit
den höchsten co-occurrence scores eine große Zahl bereits bekannter
Interaktionen – dies sowohl in einer genomweiten Untersuchung auf humanen
Promotor-Sequenzen (Abschnitt 6.3), als auch in den Promotoren von HEK-
exprimierten Genen (Abschnitt 6.4.2) und gewebspezifisch exprimierten Genen in
Maus (Abschnitt 6.4.3). Vorhersage von Regulatorischen Regionen Die meisten
Methoden zur Vorhersage regulatorischer Regionen nutzen explizit oder implizit
Sequenzeigenschaften wie den GC-Gehalt oder CpG-Inseln. Unser Ziel ist es,
eine Methode zu entwickeln, die weniger von Merkmalen auf niedriger Ebene
abhängt, und nutzen aus diesem Grund Informationen über Über- und
Unterrepräsentation von Bindungsstellen-Paaren in bekannten regulatorischen
Regionen, um das regulatorische Potential einer DNA-Sequenz zu beschreiben.
Wir stellen vorhergesagte Bindungsstellen in einem Stück Sequenz durch Knoten
in einem Bindungsstellen-Graphen dar. Zunächst werden alle Knoten mit allen
anderen durch Kanten verbunden, die als Gewicht die den Endpunkten
entsprechende co-occurrence score zugewiesen bekommen. Die co-occurrence
scores stammen aus der vorher in Abschnitt 4 beschriebenen Methode und wurden
auf bekannten regulatorischen Regionen des entsprechenden Organismus
berechnet. Basierend auf diesem Bindungsstellen-Graphen berechnen wir
verschiedene Kantengewicht-basierte regulatorische Potentiale, die die
Häufigkeit des Auftretens Promotor-typischer Bindungsstellen-Kombinationen
beschreiben. Wir beschreiben diesen Ansatz ausführlich in Kapitel 5. In
Kapitel 7 wenden wir die Methoden auf bekannten regulatorischen Regionen an.
Wir berechnen regulatorische Potentiale für die gut untersuchten
regulatorischen Regionen des Pax6 Gens in Maus und für Enhancer-Regionen aus
dem VISTA-Datensatz. In Abschnitt 7.2 bewerten wir die Zuverlässigkeit
unserer Methode für genomweite Vorhersagen regulatorischer Regionen basierend
auf verschiedenen Test-Datensätzen. Diese enthalten echte Promoter- und
Enhancer-Sequenzen in verschiedenen Positiv-Sets, und künstliche und
intergenische Regionen als Negativ-Set. Unsere Ergebnisse zeigen, dass die
unterschiedlichen Scores in der Lage sind, nicht-regulatorische von
regulatorischen Sequenzen zu unterscheiden. Obwohl der Faktor mit dem größten
Einfluß auf die Vorhersage regulatorischer Funktion nach wie vor der GC-Gehalt
ist, ermöglichen es die regulatorischen Potentiale, wegen hohem GC-Gehalts
falsch-positive Vorhersagen einer Sequenz herauszufiltern. In Kapitel 8 fassen
wir die Arbeit zusammen und diskutieren die Ergebnisse im Überblick.
de
dc.format.extent
IV, 174 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
transcription factor binding sites
dc.subject
transcription factor interaction
dc.subject
prediction of regulatory regions
dc.subject
binding site graph
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::576 Genetik und Evolution
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::005 Computerprogrammierung, Programme, Daten
dc.subject.ddc
500 Naturwissenschaften und Mathematik::500 Naturwissenschaften::500 Naturwissenschaften und Mathematik
dc.title
Co-occurrence of transcription factor binding sites
dc.contributor.contact
holger.klein@molgen.mpg.de
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Hanspeter Herzel
dc.date.accepted
2010-05-12
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000017589-6
dc.title.translated
Gemeinsames Auftreten von Transkriptionsfaktor-Bindungsstellen
en
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000017589
refubium.mycore.derivateId
FUDISS_derivate_000000007609
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access