Mammalian organisms consist of several hundred different cell types. Although every cell has the same repertoire of genes only a subset will be expressed to enable cell type-specific functions. Regulation of gene expression is organised in a highly connected manner through the binding of transcription factors at specific DNA sequences (Chan et al., 2011; Lee et al., 2002; Davidson, 2006). These cis-regulatory elements can be found in close proximity to the transcription start site (promoters) or can be many kilo bases distant (enhancers). Most of our knowledge of transcriptional regulation was obtained from studies of promoters, since enhancers are much harder to identify and study (Heintzman and Ren, 2009). However, enhancers are crucial for cellular differentiation and embryonic development (Rada-Iglesias et al., 2011). This thesis deals with the analysis of such long-distance regulatory elements. The first chapter reviews the basics of molecular genetics and gives an overview of computational and experimental methods for identification of gene regulatory elements. In Chapter 2, genome-wide binding data of transcription factors and co-factors is integrated to study the influence of combinatorial binding at long-distance enhancers on transcription and evolution of gene regulation. In Chapter 3, a novel alignment-free method, N2, is presented, which measures the pairwise sequence similarity of regulatory sequences, analogous to alignments for protein-coding sequences. N2 is applied to tissue-specific mammalian developmental enhancers. In contrast to Chapter 3 which is restricted to the case of pairwise sequence comparison, Chapter 4 aims at analysing large-scale enhancer data sets. The N2-based word statistics are utilised to study sequence-specific properties of developmental enhancers. First, a motif finding algorithm is presented (ALF-M). Second, N2 is used as a kernel function to classify and predict regulatory potential of DNA sequences. Finally, N2 is used to study the heterogeneity of tissue-specific enhancer data sets. The results from Chapter 2 were published in 2011 (Göke et al., 2011), results from Chapter 3 were published in 2012 (Göke et al., 2012). In summary, this thesis presents new insights into the combinatorial regulation of gene expression in embryonic stem cells and provides a novel method for sensitive pairwise comparison of enhancers and in-depth analysis of large-scale data sets of regulatory elements.
Der Menschliche Organismus besteht aus vielen hundert verschiedenen Zelltypen. Jede Zelle besitzt das gleiche Repertoire an Genen, von denen jedoch nur ein Teil exprimiert wird. Die große Vielfalt an verschiedenen Zellen wird durch zelltypspezifische Regulation der Genexpression ermöglicht. Die Information, wann und wo ein Gen aktiv ist, ist in der DNA kodiert und kann durch DNA- bindende Proteine, den Transkriptionsfaktoren, gelesen werden. Die DNA- Bindestellen können direkt neben einem Gen liegen (Promoter), aber auch viele tausend Basenpaare entfernt sein (Enhancer). Enhancer spielen eine wichtige Rolle in der Zelldifferenzierung und der Embryonalentwicklung und sind entscheidend daran beteiligt, dass sich die große Vielfalt von Zelltypen im ausgewachsenen Organismus bilden kann. Diese Dissertation beschäftigt sich mit der Analyse von solchen Enhancern, regulatorischen Sequenzen die weit entfernt von Genen deren Expression steuern. Zunächst wird eine Einführung in die Grundlagen der molekularen Genetik und Genregulation gegeben (Kapitel 1). Im zweiten Kapitel werden genomweite Datensätze von DNA-Bindestellen von Transkriptionsfaktoren in embryonalen Stammzellen integriert um den Einfluss der Kombination von DNA-bindenden Proteinen auf die Transkription und auf die Evolution von regulatorischen Sequenzen zu analysieren. Anschließend (Kapitel 3) wird eine neue, nicht-alignment-basierende Methode (N2) vorgestellt, welche die paarweise Ähnlichkeit von regulatorischen Sequenzen messen kann, analog zu Alignments von Protein-kodierenden Genen. N2 wird auf gewebespezifische regulatorische Sequenzen angewendet und es wird gezeigt, dass Enhancer- Sequenzen die in demselben Gewebe aktiv sind eine höhere N2-Ähnlichkeit aufweisen. Kapitel 4 verwendet die Wort-Statistiken auf denen N2 basiert um große Datensätze regulatorischer Sequenzen zu analysieren. Die vielfältigen Möglichkeiten die, N2 bietet, werden anhand von aktuellen Forschungsfragen (Sequenzmotif-Identifizierung, Klassifizierung, Clusteranalyse) aufgezeigt. Abschließend (Kapitel 5) werden die Ergebnisse in einem gemeinsamen Kontext zusammengefasst. Die Ergebnisse aus Kapitel 2 wurden im Dezember 2011 veröffentlicht (Göke et al.,2011), die Ergebnisse aus Kapitel 3 wurden im Januar 2012 veröffentlicht (Göke et al.,2012). Zusammengefasst verschafft diese Arbeit neue Erkenntnisse in die kombinatorische Regulation der Genexpression und präsentiert eine neue Methode für den paarweisen Vergleich von Enhancern, die abschließend auf die Analyse großer Datensätze angewendet wird.