This thesis is concerned with revealing regulation of gene expression in its cellular context of the upstream signaling pathway and known regulatory targets. Our source of data are perturbation experiments, which are performed on pathway components and induce changes in gene expression. In such a way, they connect the signaling pathway to its downstream target genes. The approaches developed in the thesis tackle various problems in the process of revealing context-specific regulatory networks. In Chapter 2 we develop a method for differential expression analysis, which utilizes given examples of differentially expressed genes. High-throughput gene expression experiments allow for a comparison between two different experimental conditions. The measurements need to be analyzed in order to determine sets of genes that are up-, or down-regulated, or unchanged in a chosen condition. Researcher's expertise can suggest examples of genes which may belong to one of these sets. For example, consider genes which are believed to be activated by a certain transcription factor. It is expected, but not sure, that these genes are down- regulated after their believed activator is knocked out. Established differential expression analysis tools do not take such imprecise examples into account. We put forward a novel methodology that incorporates such imprecise knowledge. We use partially supervised mixture modeling that separates one-dimensional expression data into clusters of differentially expressed and unchanged genes, and utilizes imprecise examples to find these clusters. The approach is implemented by two partially supervised mixture modeling methods: a newly introduced belief-based modeling, and soft-label modeling, a method proved efficient in other applications. Our results show that both belief-based and soft-label methods better corect for misleading examples than a semi-supervised method. We compare our methodology with other approaches for differential expression analysis and prove that incorporating imprecise examples yields better results. We present numerous applications of our partially supervised methodology. In chapter 3 we propose a framework that uses perturbation experiments to systematically reconstruct regulatory relationships downstream of a given pathway. The experimental design component of this framework, called MEED, aims to minimize the number of experiments required in this process. To avoid ambiguity in the identification of regulatory relationships, the choice of experiments maximizes diversity between expression profiles of genes regulated through different mechanisms. The framework takes advantage of expert knowledge about the pathways under study, formalized in a predictive logical model. By considering model- predicted dependencies between experiments, MEED is able to suggest a whole set of experiments that can be performed simultaneously. Our framework was applied to investigate interconnected signaling pathways in yeast. In comparison with other approaches, MEED suggested the most informative experiments for unambiguous identification of transcriptional regulation in this system. The approach presented in chapter 4 is designed for quantifying deregulation, i.e., changes of regulatory relations between two cell populations. Extant deregulation analysis approaches do not take the cellular context of these changes into account. We study re-wiring of regulatory networks based on cell population-specific perturbation data and knowledge about signaling pathways and their target genes. The approach combines ideas introduced in the previous chapters. The known TF targets are utilized as examples of up- or down-regulated genes in the partially supervised differential expression analysis of the perturbation data (chapter 2). Information about the topology of the signaling pathways active in the two cell populations is formalized in two simple models. Next, the models are used for reconstruction of regulatory relations as described in chapter 3. We quantify deregulation by merging regulatory signal from the two cell populations into one score. This joint approach, called JODA, proves advantageous over separate analysis of the cell populations and analysis without incorporation of knowledge. Using JODA, we show wide-spread re-wiring of gene regulatory network upon DNA damage in Human cells.
Die vorliegende Doktorarbeit befasst sich mit der Aufklärung der Regulierung von Genexpression im Kontext von bekannten zellulären Signalwegen und regulierten Genen. Wir analysieren Daten von experimentellen Interventionen, die auf Signalkomponenten zielen. Solche Experimente verursachen Änderungen in der Genexpression der durch den Signalweg regulierten Genen. Die in dieser Doktorarbeit entwickelten Ansätze lösen verschiedene Probleme im Bereich der Kontext-spezifischen Genregulierung. In Kapitel 2 entwickeln wir eine Methode zur differentiellen Expressionsanalyse der Interventionsdaten, die vorgegebene Beispiele differentieller Gene nutzt. Hochdurchsatz-Genexpressionsexperimente ermöglichen einen Vergleich zweier experimenteller Bedingungen. Die Messungen werden einer Analyse unterzogen, um die Gruppen von Genen zu bestimmen, die unter einer der Bedingungen hoch- oder herunterreguliert werden, oder deren Expression gleich bleibt. Mittels Expertenwissen können bestimmte Gene diesen verschiedenen Gruppen zuordnen werden. Zum Beispiel erwartet man, dass Gene, die von einem transkriptionellen Aktivator reguliert werden, nach dem Ausschalten dieses Aktivators herunterreguliert werden. Etablierte Methoden zur differentiellen Expressionsanalyse ignorieren solch unpräzise Beispiele, unsere schließt sie systematisch mit ein. Wir benutzen ‚partially supervised’ Mischmodellierung, die eindimensionale Expressionsdaten in Gruppen von differentiell regulierten und unveränderten Genen aufteilt und dabei von unpräzisen Beispielen profitiert. Diese Ansatz wird von zwei Methoden realisiert: einer neuen ‚belief based’ Mischmodellierung, die wir hier vorstellen, und der früher entwickelte ‚soft-label’ Mischmodellierung.Tests zeigen, dass sowohl die belief-based als auch die soft-label-Methode falsche Beispiele besser korrigieren als die ‚semi-supervised’ Mischmodellierung. Wir vergleichen unsere Methodik auch mit alternativen Ansätzen zur differentiellen Expressionsanalyse und zeigen, dass die Aufnahme von unpräzisem Wissen bessere Ergebnisse erzeugt. Wir präsentieren verschiedene Anwendungen unserer partiell kontrollierten Methodik. In Kapitel 3 befassen wir uns mit der Planung von Interventionsexperimenten für einen gegebenen Signalweg. Für die systematische Rekonstruktion der Genregulation durch einen Signalweg werden informative experimentelle Daten benötigt. Wir stellen einen allgemeinen Ansatz für diese Rekonstruktion vor. MEED, eine experimentelle Design-Komponente unseres Ansatzes, schlägt eine möglichst kleine Anzahl von gezielten Interventionsexperimenten in dem Signalweg vor. Um Mehrdeutigkeit in der Identifizierung der Regulierungsverhältnisse zu vermeiden, maximiert die Auswahl der Experimente den Unterschied zwischen Expressionsprofilen von Genen, die durch verschiedene Mechanismen reguliert werden. Mittels eines prädiktiven logischen Modells bezieht dieser Ansatz auch Expertenwissen über die Signalwege mit ein. MEED berücksichtigt prognostizierte Abhängigkeiten zwischen Experimenten und kann so einen ganzen Satz Experimente vorschlagen, die gleichzeitig durchgeführt werden können. Wir wenden unseren Ansatz auf verbundene Signalwege in der Hefe Saccharomyces cerevisiae an. Im Vergleich zu anderen Methoden schlägt MEED die informativsten Experimente für unzweideutige Identifizierung von transkriptioneller Regulation in diesem System vor. In Kapitel 4 stellen wir eine Anwendung zur Deregulationsanalyse vor, d.h., zum Vergleich von Änderungen in der Genregulierung zwischen zwei Zellpopulationen. Vorhandene Deregulationsstudien lassen verfügbares Wissen über den zellulären Kontext dieser Änderungen außer acht. Wir untersuchen Deregulation mittels zellpopulationsspezifische Interventionsdaten, und mittels zusätzlichen Wissens, das für beide Zellpopulationen über der Signalweg-Topologien und Gene, die von diesem Signalweg reguliert werden, gegeben ist. Unser Ansatz verbindet Ideen aus den vorherigen Kapiteln. Die bekannten regulierten Gene werden als Beispiele von differentiellen Genen in der partiell kontrollierten differentiellen Expressionsanalyse der Interventionsdaten (Kapitel 2) benutzt. Die Signalweg-Topologien werden als einfache Modelle formalisiert und in der Rekonstruktion der Genregulierung wie in Kapitel 3 genutzt. Wir quantifizieren Deregulation durch die Zusammenfassung von Regulierungssignalen der zwei Zellpopulationen in einen Wert. Unser Ansatz, JODA, stellt sich als vorteilhaft gegenüber separater Analyse der Zellpopulationen, sowie Analyse ohne Aufnahme von verfügbarem Wissen heraus. Mittels JODA charakterisieren wir weit verbreitete Veränderungen der regulatorischen Netzwerke, die durch DNA Schäden in menschlichen Zellen verursacht sind.