dc.contributor.author
Göke, Jonathan
dc.date.accessioned
2018-06-07T18:06:09Z
dc.date.available
2012-07-10T10:06:59.236Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/4613
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-8813
dc.description.abstract
Mammalian organisms consist of several hundred different cell types. Although
every cell has the same repertoire of genes only a subset will be expressed to
enable cell type-specific functions. Regulation of gene expression is organised
in a highly connected manner through the binding of transcription factors at
specific DNA sequences (Chan et al., 2011; Lee et al., 2002; Davidson, 2006).
These cis-regulatory elements can be found in close proximity to the
transcription start site (promoters) or can be many kilo bases distant
(enhancers). Most of our knowledge of transcriptional regulation was obtained
from studies of promoters, since enhancers are much harder to identify and
study (Heintzman and Ren, 2009). However, enhancers are crucial for cellular
differentiation and embryonic development (Rada-Iglesias et al., 2011). This
thesis deals with the analysis of such long-distance regulatory elements. The
first chapter reviews the basics of molecular genetics and gives an overview
of computational and experimental methods for identification of gene regulatory
elements. In Chapter 2, genome-wide binding data of transcription factors and
co-factors is integrated to study the influence of combinatorial binding at
long-distance enhancers on transcription and evolution of gene regulation. In
Chapter 3, a novel alignment-free method, N2, is presented, which measures the
pairwise sequence similarity of regulatory sequences, analogous to alignments
for protein-coding sequences. N2 is applied to tissue-specific mammalian
developmental enhancers. In contrast to Chapter 3 which is restricted to the
case of pairwise sequence comparison, Chapter 4 aims at analysing large-scale
enhancer data sets. The N2-based word statistics are utilised to study
sequence-specific properties of developmental enhancers. First, a motif finding
algorithm is presented (ALF-M). Second, N2 is used as a kernel function to
classify and predict regulatory potential of DNA sequences. Finally, N2 is
used to study the heterogeneity of tissue-specific enhancer data sets. The
results from Chapter 2 were published in 2011 (Göke et al., 2011), results
from Chapter 3 were published in 2012 (Göke et al., 2012). In summary, this
thesis presents new insights into the combinatorial regulation of gene
expression in embryonic stem cells and provides a novel method for sensitive
pairwise comparison of enhancers and in-depth analysis of large-scale data
sets of regulatory elements.
de
dc.description.abstract
Der Menschliche Organismus besteht aus vielen hundert verschiedenen Zelltypen.
Jede Zelle besitzt das gleiche Repertoire an Genen, von denen jedoch nur ein
Teil exprimiert wird. Die große Vielfalt an verschiedenen Zellen wird durch
zelltypspezifische Regulation der Genexpression ermöglicht. Die Information,
wann und wo ein Gen aktiv ist, ist in der DNA kodiert und kann durch DNA-
bindende Proteine, den Transkriptionsfaktoren, gelesen werden. Die DNA-
Bindestellen können direkt neben einem Gen liegen (Promoter), aber auch viele
tausend Basenpaare entfernt sein (Enhancer). Enhancer spielen eine wichtige
Rolle in der Zelldifferenzierung und der Embryonalentwicklung und sind
entscheidend daran beteiligt, dass sich die große Vielfalt von Zelltypen im
ausgewachsenen Organismus bilden kann. Diese Dissertation beschäftigt sich mit
der Analyse von solchen Enhancern, regulatorischen Sequenzen die weit entfernt
von Genen deren Expression steuern. Zunächst wird eine Einführung in die
Grundlagen der molekularen Genetik und Genregulation gegeben (Kapitel 1). Im
zweiten Kapitel werden genomweite Datensätze von DNA-Bindestellen von
Transkriptionsfaktoren in embryonalen Stammzellen integriert um den Einfluss
der Kombination von DNA-bindenden Proteinen auf die Transkription und auf die
Evolution von regulatorischen Sequenzen zu analysieren. Anschließend (Kapitel
3) wird eine neue, nicht-alignment-basierende Methode (N2) vorgestellt, welche
die paarweise Ähnlichkeit von regulatorischen Sequenzen messen kann, analog zu
Alignments von Protein-kodierenden Genen. N2 wird auf gewebespezifische
regulatorische Sequenzen angewendet und es wird gezeigt, dass Enhancer-
Sequenzen die in demselben Gewebe aktiv sind eine höhere N2-Ähnlichkeit
aufweisen. Kapitel 4 verwendet die Wort-Statistiken auf denen N2 basiert um
große Datensätze regulatorischer Sequenzen zu analysieren. Die vielfältigen
Möglichkeiten die, N2 bietet, werden anhand von aktuellen Forschungsfragen
(Sequenzmotif-Identifizierung, Klassifizierung, Clusteranalyse) aufgezeigt.
Abschließend (Kapitel 5) werden die Ergebnisse in einem gemeinsamen Kontext
zusammengefasst. Die Ergebnisse aus Kapitel 2 wurden im Dezember 2011
veröffentlicht (Göke et al.,2011), die Ergebnisse aus Kapitel 3 wurden im
Januar 2012 veröffentlicht (Göke et al.,2012). Zusammengefasst verschafft
diese Arbeit neue Erkenntnisse in die kombinatorische Regulation der
Genexpression und präsentiert eine neue Methode für den paarweisen Vergleich
von Enhancern, die abschließend auf die Analyse großer Datensätze angewendet
wird.
de
dc.format.extent
XII, 137 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
gene regulation
dc.subject
computational biology
dc.subject
alignment-free sequence comparison
dc.subject
word statistics
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke
dc.title
Analysis of long-distance gene regulatory elements
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. James Adjaye
dc.date.accepted
2012-07-06
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000038262-2
dc.title.translated
Analyse von weit entfernten genregulatorischen Elementen
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000038262
refubium.mycore.derivateId
FUDISS_derivate_000000011488
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access