Abstract Transcription factors (TFs) constitute key components of cellular transcriptional networks regulating such diverse processes as cell differentiation and proliferation. A regulatory code established via DNA-amino acid interactions thereby allows TFs to identify their short target sites even within the vast genomes of higher eukaryotes. TF-DNA interactions are highly degenerate, permitting a given TF to bind not only to a single sequence but to a broad variety of sites with varying strength. This promiscuity renders the accurate prediction of target genes for TFs a challenging task. Traditional computational solutions to the problem divide the sequence space into binding and non-binding sites. However, the emergence of large scale experimental binding data has highlighted the need for alternative approaches capable of accounting for the gradual binding strength of individual TF-DNA interactions. The goal of this thesis is to develop a new method (called TRAP) that predicts the binding affinity of a transcription factor to a DNA sequence based on a biophysical model, which avoids binary separation between binding and non- binding sites. Correlating TRAP predictions with measured TF binding affinities thereby resulted in the derivation of a biophysically motivated prescription for generically setting the TRAP parameters. This prescription holds not only for TFs from yeast but also from higher organisms including Drosophila and human. The TRAP approach is shown to be both conceptually and practically more powerful than traditional hit based methods and to outperform alternative affinity based approaches that rely on a standard biophysical model. In order to detect the regulatory association between TFs and entire groups of genes TRAP was embedded into a statistical framework called PASTAA, which analyzes the enrichment of potential TF target genes in user-defined gene sets by applying a series of hypergeometric tests. Using PASTAA for the analysis of sets of tissue specific genes not only recovered a more comprehensive number of experimentally known TF-tissue associations than alternative approaches but also allowed to draw a number of important biological conclusions. For instance, binding signals for tissue specific TFs were found to cluster in proximal promoters largely upstream of the respective transcription start site. The results of the analysis were found to be remarkably robust against changes in the sequence space as well as expression data.
Zusammenfassung Transkriptionsfaktoren (TFs) bilden Schlüsselkomponenten zellulärer regulatorischer Netzwerke, indem sie die Expression sowohl zelltypspezifischer als auch breit exprimierter Gene regulieren. Die Interaktion zwischen den Aminosäuren des jeweiligen Faktors und der DNA bildet die Grundlage für das sequenzspezifische Bindeverhalten der TFs, wobei ein gegebener Faktor eine Vielzahl von unterschiedlichen DNA Sequenzen binden kann, allerdings mit abweichender Affinität. Die Vielfältigkeit der Bindemuster und die enorme Länge eukaryotischer Genome machen die Vorhersage des Bindeverhaltens der TFs zu einem schwierigen Unterfangen. Traditionelle Methoden versuchen das Problem zu lösen, indem sie eine Unterteilung des Sequenzraums in Bindestellen und nicht gebundene Stellen vornehmen. Daß solche Modelle eine starke Vereinfachung darstellen, wird nicht zuletzt durch genomeweite Bindedaten belegt, die ein kontinuierliches Bindeverhalten von TFs aufzeigen. Der erste Teil dieser Dissertation widmet sich deshalb der Entwicklung eines biophysikalischen Modells (genannt TRAP), das eine binäre Unterteilung zwischen Bindestellen (Hits) und ungebundenen Stellen vermeidet und stattdessen hoch und niedrig affine Sequenzen berücksichtigt. Wie gezeigt wird, können die Parameter des Modells durch eine physikalisch motivierte Vorschrift bestimmt werden, die für alle untersuchten Organismen von Hefe bis zu Mensch gilt. Die konzeptionelle, sowie praktische Überlegenheit von TRAP gegenüber traditionellen Hit-basierten, sowie alternativen affinitätsbezogenen Methoden, wird dargestellt. Um TFs zu detektieren, die für die Regulation ganzer Gengruppen verantwortlich sind, wurde TRAP im Folgenden durch ein statistisches Verfahren erweitert, das mittels einer Reihe hypergeometrischer Tests prüft, ob eine Anreicherung potentieller Zielgene eines gegebenen TFs innerhalb einer benutzerdefinierten Gengruppe existiert. Die Anwendung dieser Methode (genannt PASTAA) auf Gruppen gewebespezifischer Gene ermöglichte die Identifizierung einer umfassenden Anzahl experimentell bekannter TF-Gewebe- Assoziationen. PASTAA war hierbei erheblich erfolgreicher als verschiedene alternative Methoden. Darüber hinaus ließen die Resultate eine Reihe interessanter, biologischer Schlussfolgerungen zu, wie z.B., daß hochaffine Bindestellen gewebespeziefischer TFs bevorzugt in proximalen Promotoren, upstream vom Transkriptionsstart vorkommen. Die Analyse war dabei robust gegenüber der Auswahl an Promotersequenzen und der Herkunft der Expressionsdaten.