To equalize gene dosage between sexes, the long non-coding RNA Xist mediates chromosome-wide gene silencing of one X Chromosome in female mammals - a process known as X chromosome inactivation (XCI). The efficiency of gene silencing is highly variable across genes, with some genes even escaping XCI in somatic cells. A gene’s susceptibility to Xist-mediated silencing appears to be determined by a complex interplay of epigenetic and genomic features. However, the underlying rules remain poorly understood. To advance the understanding of Xist-mediated silencing pathways, chromosome-wide gene silencing dynamics at the level of nascent transcriptome were quantified using allele-specific Precision nuclear Run-On sequencing. We have developed a Random Forest machine learning model that is able to predict the measured silencing dynamics based on a large set of epigenetic and genomic features and tested its predictive power experimentally. We introduced a forest-guided clustering approach to uncover the combinatorial rules that control Xist-mediated gene silencing. Results suggest that the genomic distance to the Xist locus, followed by gene density and distance to LINE elements are the prime determinants of silencing velocity. Moreover, a series of features associated with active transcriptional elongation and chromatin 3D structure are enriched at efficiently silenced genes. Generally, silenced genes seem to be separated into two distinct groups, associated with different silencing pathways: one group that requires an AT-rich sequence context and the Xist repeat-A for silencing, which is known to activate the SPEN pathway, and another group where genes are pre-marked by polycomb complexes and tend to rely on the repeat-B in Xist for silencing, known to recruit polycomb complexes during XCI. Our machine learning approach can thus uncover the complex combinatorial rules underlying gene silencing during X chromosome inactivation.
Eines der beiden X chromosome in weiblichen Säugetieren muss inaktiviert, um die Dosierung von X- Chromosomalen Genen zwischen den Geschlechtern auszugegleichen. Dieser Prozess wird X Chromosom Inaktivierung (XCI) genannt und wird maßgeblich von der langen nicht-kodierenden RNA Xist gesteuert. Die Inaktivierung von unterschiedlichen Genen erfolgt unterschiedlich schnell. Manche Gene sind sogar in der Lage der Inaktivierung zu entgehen und sind somit weiterhin in somatischen Zellen aktiv. Die Dynamiken mit denen Gene inaktiviert werden, werden durch ein komplexes Zusammenspiel von epige- netischen und genomischen Faktoren bestimmt. Dieses Zusammenspiel wurde bis jetzt jedoch noch nicht hinreichend untersucht um aussagekräftige Rückschlüsse zu ziehen. Für ein besseres Verständnis dieses Zusammenspiels, wurde mit Hilfe allel spezifischer Precision nuclear Run-On Sequenzierung die Inaktivie- rungsdynamik Chromosomen weit gemessen. Diese Messungen, wie auch eine Vielzahl von epigenetischen und genomischen Faktoren, haben uns in die Lage versetzt, mit Hilfe eines Random Forest Modells, Chro- mosomen weite Inaktivierungsdynamiken vorherzusagen, welche durch zusätzliche Experimente validiert werden konnten. Um zu analysieren welche Faktoren in diesem Prozess zusammenspielen, haben wir einen Random Forest-gestützten Clustering Ansatz implementiert. Die Ergebnisse legen nahe, dass der genomische Abstand zum Xist Genlocus, sowie die Gendichte und der Abstand zu LINE Elementen, die Hauptfaktoren für die Inaktivierungsgeschwindigkeit sind. Darüber hinaus wird eine Reihe von Faktoren, wie zum Beispiel die aktive Transkription oder die 3D Struktur des Chromatins, mit schneller Inaktivierung in Verbindung gebracht. Im Allgemeinen lassen sich inaktivierte Gene in zwei unterschiedliche Gruppen unterteilen, die mit unterschiedlichen Inaktivierungspfaden in Verbindung gebracht werden können. Die eine Gruppe benötigt einen AT-reichen Sequenz Kontext und das Xist Repeat-A Element, das welches den SPEN-Pfad aktiviert, während die andere Gruppe eine Anreicherung an Polycomb-Komplexen benötigt und auf das Xist Repeat-B Element zurückgreift, welches Polycomb-Komplexe während des XCI Prozesses rekrutiert. Diese Ergebnisse zeigen, dass unser Ansatz, basierend auf maschinellem Lernen, die komplexen kombinatorischen Regeln identifizieren kann, die der Inaktivierung von Genen während des XCI Prozesses zugrunde liegen.