One of the key questions in molecular biology is how cells with the same genetic code are able to differentiate into a large variety of cell types. The differentiation of the cell is controlled through the regulation of gene expression - a cellular mechanism that activates only a specific part of the genetic information. One of the main factors of the gene regulatory mechanisms are specific proteins called transcription factors (TFs). TFs bind with sequence preferences to regulatory regions in the DNA to control the expression of their target genes. They usually do not act alone but in a combinatorial manner, thus regulating cell-type-specific gene expression. This combinatorial cooperation of TFs is critical for the achievement of the cell type specificity of the cell. But, the experimental techniques that are able to detect the combinatorial cooperation of TFs on the DNA are sparse. The aim of this thesis is to predict co-occurrence of TFs in the regulatory genomic regions using estimated binding affinity of TFs to DNA. In detail, transcription factors are represented by ranked lists of their target genes, and then several rank based statistics are applied to detect significant associations between TF pairs. In the second part, tissue-specific co- occurrence of TFs is assessed, which is of much larger interest than general TF co-occurrence. Including additional information about tissue specificity of the corresponding genomic regions led to introducing a third dimension (or third ranked lists) for the association measure. Thus, the problem of the association of two TFs in tissue-specific promoters is translated into a 3-way contingency table. Then, the significance of the association of the two TFs can be assessed with the corresponding statistical tests. However, the choice of the correct null model in the table has a major impact on the obtained results. Since there is no general rule how to choose the underlying null model in the analysis of the TF co-occurrence we developed a new strategy to select the most appropriate model. These results were previously published (Myšicková and Vingron, 2012). We then use the newly available experimental results of the DNA accessibility assessed by DNase-seq technique over many different cell types. This novel data set requires a new method to find associated TFs. Here, we define a log ratio of two p-values of Fisher’s exact test: the first one is derived from cell-type-specific open DNase- hypersensitive sites (CTS-DHSs); the second one is derived from ubiquitous open DHSs. Thus, TF pairs with a large log ratio are strongly associated in the CTS-DHSs but not associated in the ubiquitous DHSs. With this approach we ensured that the predicted associated TF pairs co-occur in a cell-type- specific manner. With both methods, we are able to predict a large number of co-occurring TF pairs in various human tissues. The predicted co-occurring TF pairs are in significant agreement with other computational studies and are enriched for known protein-protein interactions. In addition, roughly one third of the predicted TFs have a known regulatory function in the related tissue or cell type. Thus, these results indicate that our predicted co- occurring TF pairs are very likely to be functional in the corresponding cell types. In summary, this study provides new insights into the combinatorial gene regulation by transcription factors and presents new application of the rank-based methods to predict associated transcription factor pairs in cell type-specific manner.
Eine der wichtigsten Fragen in der Molekularbiologie ist, wie die Zellen eines höheren Organismus mit einer identischen genetischen Information in eine große Vielfalt von unterschiedlichen Zelltypen differenzieren. Die Zelldifferenzierung wird durch die zellspezifische Regulierung von Genen gesteuert. Dabei wird nur ein bestimmter Teil der genetischen Information aktiviert, sodass nur die benötigte Proteine produziert werden. Eine der wichtigsten Komponenten in der Genregulation sind die Transkriptionsfaktoren. Diese DNA-bindende Proteine können die Expression ihrer Zielgene steuern. Die Transkriptionsfaktoren agieren jedoch selten einzeln, sondern wirken mit anderen Faktoren zusammen, um eine hohe kombinatorische Vielfältigkeit zu erreichen. Das kombinatorische Zusammenspiel zwischen Transkriptionsfaktoren experimentell nachzuweisen ist jedoch sehr kompliziert. Das Ziel dieser Arbeit ist es, das kombinatorische Auftreten von Transkriptionsfaktorpaaren in den regulatorischen Abschnitten der DNA vorherzusagen. Als Grundlage dafür werden die zugrundeliegende DNA-Sequenz und die berechnete Bindungsaffinität der Faktoren zu der Sequenz verwendet. Für die Vorhersage wird jeder Transkriptionsfaktor als eine Liste der regulatorischen Abschnitte repräsentiert, die gemäß der Bindungsaffinität geordnet ist. Mit Hilfe dieser Listen können rangbasierte Maße für die Assoziationsbestimmung verwendet werden. Im zweiten Teil der Arbeit wird das gemeinsame Vorkommen der Transkriptionsfaktorpaare in zelltypspezifischer Weise vorhergesagt. Durch die Zelltypinformation wird in die Analyse eine dritte Dimension eingeführt. Um die assoziierten Transkriptionsfaktorpaare in den gewebespezifischen Promotoren zu finden, werden die dreidimensionale Kontingenztabellen und die dazugehörigen statistische Tests verwendet. Diese Ergebnisse wurden 2012 veröffentlicht (Myšicková and Vingron, 2012). Als nächstes werden die assoziierten Transkriptionsfaktorpaare in den zelltypspezifisch offenen regulatorischen Abschnitten vorhergesagt, die mit Hilfe der DNase I-Verdauung und Sequenzierung (DNase-seq) bestimmt wurden. Die neuartigen DNase-seq Daten erfordern eine neue Methode, um die assoziierten Paare zu finden. Dazu wird ein Verhältnis von zwei p-Werten des exakten Fisher-Tests definiert: der erste p-Wert wird von den zelltypspezifisch offenen Abschnitten und der zweite p-Wert von den ubiquitär offenen Abschnitten abgeleitet. Transkriptionsfaktorpaare mit einem signifikant hohen Verhältnis treten wahrscheinlicher gemeinsam in den zelltypspezifischen Abschnitten auf als in den ubiquitären Abschnitten. Die vorhergesagten zelltypspezifischen Transkriptionsfaktorpaare stimmen mit Vorhersagen von anderen Methoden überein. Zudem sind sie angereichert mit bekannten Protein-Protein- Interaktionen. Ferner hat etwa ein Drittel der Faktoren eine bekannte Funktion in dem jeweiligen Zelltyp. Dies deutet darauf hin, dass die vorhergesagten Transkriptionsfaktorpaare tatsächlich eine regulatorische Funktion in dem jeweiligen Zelltyp haben. Zusammengefasst liefert diese Arbeit neue Erkenntnisse über die kombinatorische Genregulation durch Transkriptionsfaktoren und präsentiert neue Anwendung der rangbasierten Methoden zur Vorhersage assoziierter Transkriptionsfaktorpaare in zelltypspezifischer Weise.