dc.contributor.author
Barros de Andrade e Sousa, Lisa
dc.date.accessioned
2021-08-12T09:25:38Z
dc.date.available
2021-08-12T09:25:38Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/29198
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-28944
dc.description.abstract
To equalize gene dosage between sexes, the long non-coding RNA Xist mediates chromosome-wide gene silencing of one X Chromosome in female mammals - a process known as X chromosome inactivation (XCI). The efficiency of gene silencing is highly variable across genes, with some genes even escaping XCI in somatic cells. A gene’s susceptibility to Xist-mediated silencing appears to be determined by a complex interplay of epigenetic and genomic features. However, the underlying rules remain poorly understood. To advance the understanding of Xist-mediated silencing pathways, chromosome-wide gene silencing dynamics at the level of nascent transcriptome were quantified using allele-specific Precision nuclear Run-On sequencing. We have developed a Random Forest machine learning model that is able to predict the measured silencing dynamics based on a large set of epigenetic and genomic features and tested its predictive power experimentally. We introduced a forest-guided clustering approach to uncover the combinatorial rules that control Xist-mediated gene silencing. Results suggest that the genomic distance to the Xist locus, followed by gene density and distance to LINE elements are the prime determinants of silencing velocity. Moreover, a series of features associated with active transcriptional elongation and chromatin 3D structure are enriched at efficiently silenced genes. Generally, silenced genes seem to be separated into two distinct groups, associated with different silencing pathways: one group that requires an AT-rich sequence context and the Xist repeat-A for silencing, which is known to activate the SPEN pathway, and another group where genes are pre-marked by polycomb complexes and tend to rely on the repeat-B in Xist for silencing, known to recruit polycomb complexes during XCI. Our machine learning approach can thus uncover the complex combinatorial rules underlying gene silencing during X chromosome inactivation.
en
dc.description.abstract
Eines der beiden X chromosome in weiblichen Säugetieren muss inaktiviert, um die Dosierung von X- Chromosomalen Genen zwischen den Geschlechtern auszugegleichen. Dieser Prozess wird X Chromosom Inaktivierung (XCI) genannt und wird maßgeblich von der langen nicht-kodierenden RNA Xist gesteuert. Die Inaktivierung von unterschiedlichen Genen erfolgt unterschiedlich schnell. Manche Gene sind sogar in der Lage der Inaktivierung zu entgehen und sind somit weiterhin in somatischen Zellen aktiv. Die Dynamiken mit denen Gene inaktiviert werden, werden durch ein komplexes Zusammenspiel von epige- netischen und genomischen Faktoren bestimmt. Dieses Zusammenspiel wurde bis jetzt jedoch noch nicht hinreichend untersucht um aussagekräftige Rückschlüsse zu ziehen. Für ein besseres Verständnis dieses Zusammenspiels, wurde mit Hilfe allel spezifischer Precision nuclear Run-On Sequenzierung die Inaktivie- rungsdynamik Chromosomen weit gemessen. Diese Messungen, wie auch eine Vielzahl von epigenetischen und genomischen Faktoren, haben uns in die Lage versetzt, mit Hilfe eines Random Forest Modells, Chro- mosomen weite Inaktivierungsdynamiken vorherzusagen, welche durch zusätzliche Experimente validiert werden konnten. Um zu analysieren welche Faktoren in diesem Prozess zusammenspielen, haben wir einen Random Forest-gestützten Clustering Ansatz implementiert. Die Ergebnisse legen nahe, dass der genomische Abstand zum Xist Genlocus, sowie die Gendichte und der Abstand zu LINE Elementen, die Hauptfaktoren für die Inaktivierungsgeschwindigkeit sind. Darüber hinaus wird eine Reihe von Faktoren, wie zum Beispiel die aktive Transkription oder die 3D Struktur des Chromatins, mit schneller Inaktivierung in Verbindung gebracht. Im Allgemeinen lassen sich inaktivierte Gene in zwei unterschiedliche Gruppen unterteilen, die mit unterschiedlichen Inaktivierungspfaden in Verbindung gebracht werden können. Die eine Gruppe benötigt einen AT-reichen Sequenz Kontext und das Xist Repeat-A Element, das welches den SPEN-Pfad aktiviert, während die andere Gruppe eine Anreicherung an Polycomb-Komplexen benötigt und auf das Xist Repeat-B Element zurückgreift, welches Polycomb-Komplexe während des XCI Prozesses rekrutiert. Diese Ergebnisse zeigen, dass unser Ansatz, basierend auf maschinellem Lernen, die komplexen kombinatorischen Regeln identifizieren kann, die der Inaktivierung von Genen während des XCI Prozesses zugrunde liegen.
de
dc.format.extent
vii, 159 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
X-Chromosome Inactivation
en
dc.subject
Interpretable Machine Learning
en
dc.subject
Explainable AI
en
dc.subject
Random Forest
en
dc.subject
Forest-guided Clustering
en
dc.subject.ddc
500 Naturwissenschaften und Mathematik::500 Naturwissenschaften::500 Naturwissenschaften und Mathematik
dc.title
Using interpretable machine learning to understand gene silencing dynamics during X-Chromosome inactivation
dc.contributor.gender
female
dc.contributor.firstReferee
Marsico, Annalisa
dc.contributor.furtherReferee
Schulz, Marcel
dc.date.accepted
2020-12-18
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-29198-3
refubium.affiliation
Mathematik und Informatik
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access
dcterms.accessRights.proquest
accept