Modern technological advances have been producing a huge amount of highthroughput genome-/proteome-wide data which are to be analyzed for inferring biological knowledge. Computational and statistical analyses are an appropriate and efficient way for such large-scale data analysis. In this thesis we investigate genome-wide transcriptional systems by data integration, which is also a prerequisite for systems biology. Computational and statistical methodologies are developed and applied to heterogeneous genome- wide data sources in a model organism, emph{Saccharomyces cerevisiae}. We aim to discover strong functional signals and related mechanisms from noise-prone genome-scale transcriptional data. First, our analysis starts with groups of genes bound by common transcription factors, called transcriptional modules. They are derived from protein-DNA interaction data and coupled to gene expression and functional annotation data in order to identify functional signals. Standard methods applied to various large-scale gene expression data show that those identified functional modules can be condition-invariant or condition-specific. Second, we extend our module analysis to prioritization of gene regulatory interactions in functional modules identified on a large scale. Our simple integrative approach to such prioritization yields a statistically significant increase of prediction accuracy for two types of reference datasets compared with an original analysis of genome-wide protein-DNA interactions data alone. In addition, our predictions include those regulatory interactions that were not predicted by other algorithms with as good prediction accuracy. Finally, in view of ubiquitous combinatorial regulation by multiple transcription factors, we turn our attention to different sets of target genes in different conditions regulated by pairs of regulators. We develop a method to identify condition- specific co-factors of those regulators that significantly change their target genes in different conditions. We apply the method to genome-wide protein-DNA interactions data generated in diverse cellular conditions. Our predictions include novel cooperative regulator pairs as well as known ones with evidences from gene expression, protein-protein interactions, and conserved motifs data. Further analysis shows that such condition-specific combinatorial regulation occurs more abundantly than expected by chance. In conclusion, our analyses successfully reveal meaningful biological findings and generate concrete hypotheses from heterogeneous genome-wide yeast data. Therefore, this work is expected to contribute as a first step to guiding experimentalists and studying more detailed biological mechanisms.
In dieser Arbeit verwenden wir für die Untersuchung genomweiter Transkriptionssysteme Methoden der integrierten Datenanalyse. Es werden einige solche Methoden entwickelt und auf genomweite heterogene Datensätze des Modellorganismus Saccharomyces cerevisiae angewandt. Unser Ziel ist es, ausgeprägte funktionell interpretierbare Signale und die damit verbundenen Mechanismen aus stark verrauschten genomweiten Transkriptionsdaten nachzuweisen. Unsere Analyse beginnt mit Gengruppen, die durch gemeinsame Transkriptionsfaktoren reguliert werden, den sog. Transkriptionsmodulen. Diese werden mittels genomweiter Protein- DNA-Interaktionsdaten identifiziert und werden dann mit Genexpressions- und Annotationsdaten kombiniert um funktionelle Signale zu identifizieren. Durch Anwendung von Standardmethoden auf unterschiedliche large-scale Genexpressionsdatensätze wird gezeigt, dass die auf diese Weise identifizierten funktionellen Module sowohl konditionsinvariant als auch konditionsspezifisch sein können. Im zweiten Schritt erweitern wir diese Modulanalyse, um eine Priorisierung der genetischen Regulationswechselwirkungen in diesen funktionellen Modulen zu erzielen. Mittels einer von uns entwickelten einfachen integrativen Methode für diese Priorisierung erzielen wir eine statistisch signifikante Erhöhung der Vorhersagegenauigkeit für zwei Arten von Referenzdatenstäzen im Vergleich zu einer allein auf genomweiten Protein-DNA-Interaktionsdaten basierenden Analyse. Zusätzlich prognostiziert unsere Methode bei änlicher Vorhersagegenauigkeit regulatorische Interaktionen, die mit anderen Algorithmen nicht vorhergesagt wurden. Zum Schluss wenden wir uns - im Anbetracht der Allgegenwärtigkeit kombinatorischer Regulation durch multiple Transkriptionsfaktoren - verschiedenen Gensätzen zu, welche unter verschiedenen Konditionen durch Paare von Transkriptionsfaktoren reguliert werden. Wir entwickeln eine Methode um konditionsspezifische Kofaktoren jener Regulatoren zu identifizieren, welche unter verschiedenen experimentellen Bedingungen den Satz ihrer Zielgene signifikant ändern. Wir wenden diese Methode auf genomweite Protein-DNA- Interaktionsdaten aus verschiedenen experimentellen Bedingungen an. Unsere Vorhersage enthält sowohl neue als auch schon bekannte kooperative Regulatorpaare, die durch Genexpressions-, Protein-Protein-Interaktions-Daten und konservierten Sequenzmotiven unterstuetzt werden. In einer weiteren Analyse zeigen wir, dass solche konditionsspezifischen kombinatorischen Regulatoren öfter auftreten als man es rein zufällig erwarten würde. Zusammenfassend können wir sagen, dass wir mittels unserer Analysen biologisch relevante Aussagen und konkrete Hypothesen aufgrund heterogener genomweiter Datensätze aus Hefeexperimenten formulieren können. Daher hoffen wir mit dieser Arbeit unsere experimentelle Kollegen zur Überprüfung dieser Hypothesen, sowie zur Untersuchung detaillierterer biologischer Mechanismen zu motivieren.