Pausing of transcribing RNA polymerase II (Pol II) has emerged as a general feature of gene expression in human cells. Many transcription factors, DNA sequences and chromatin characteristics have been implicated in inducing transcriptional pausing. However, it is unclear what are the relative contributions of these factors on the observed Pol II pausing. Furthermore, research in metazoans has mainly focused on Pol II promoter-proximal pausing, leaving the causes of pausing outside of this region unknown.
To reliably detect real transcriptional pausing sites and advance the understanding of the causes of this phenomenon, we developed a pausing detection algorithm for nucleotide-resolution Pol II occupancy data. We scrutinized the characteristics and potential shortcomings of Native Elongating Transcript sequencing (NET-seq), which is one of the high-resolution methods of Pol II profiling, and we used our observations to improve the NET-seq processing pipeline. Leveraging the improved processing pipeline and the developed pausing detection algorithm revealed widespread genome-wide Pol II pausing at a nucleotide resolution in human cells.
Next, we set out to identify the determinants of Pol II pausing in an unbiased manner based on the underlying DNA sequence. To predict the predisposition of a genomic site to evoke Pol II pausing, we applied a range of machine learning approaches using previously identified high-confidence pausing sites. For each of the sites, we created a large number of features, including both factors that were previously linked to transcriptional pausing and factors that were not yet implicated in invoking pausing. Our analysis revealed DNA sequence properties underlying widespread Pol II pausing including a new pausing motif. Interestingly, key sequence determinants of RNA polymerase pausing are shared by human cells and bacteria. Our study indicates that transcriptional pausing in human cells is sequence-induced and that the determinants of Pol II pausing might be evolutionary conserved.
Ein allgemeines Merkmal der Genexpression in menschlichen Zellen ist das Pausieren der RNA Polymerase II (Pol II). Verschiedene Aspekte wie Transkriptionsfaktoren, DNA Sequenzen und Eigenschaften des Chromatins werden mit dem Prozess in Verbindung gebracht. Der relative Beitrag dieser Faktoren zur Entstehung der beobachteten Pausen ist unbekannt. Darüber hinaus hat sich die bisherige Forschung bei Metazoen hauptsächlich auf Pol II Pausen während der frühen Elongationsphase, im promoter-proximalen Bereich, konzentriert. Die Ursachen für das Pausieren außerhalb dieser Regionen sind unbekannt. Um das Verständnis der Ursachen von Transkriptionspausen zu verbessern, haben wir einen Algorithmus entwickelt, der Pol II Signale verarbeitet und Pausen präzise bis auf ein einzelnes Nukleotid lokalisiert. Die Pol II Signalmessungen werden mithilfe von NET-seq (Native Elongating Transcript Sequencing), einer hochauflösenden Methode, erstellt. Bei der Untersuchung der Methode identifizierten wir systematische Fehler in den Messdaten, welche zur Anpassung bei der Datenverarbeitung führte. Diese algorithmischen Verbesserungen zeigten, dass Pol II Pausen in menschlichen Zellen weit verbreitet sind und verteilt über das gesamte Genom, an einzelnen Nukleotiden, beobachtet werden können. Für eine unvoreingenommene Identifizierung der Sequenzspezifischen Faktoren, die zum Pausieren der Pol II beitragen, wurden eine Reihe von Methoden des maschinellen Lernens angewandt. Mit hoher Sicherheit detektierte Transkriptionspausen wurden genutzt, um Prädispositionen in DNA-Abschnitten zu lernen und vorherzusagen. Für jedes dieser Beispiel Regionen werden beschreibende Merkmale erstellt. Darunter befinden sich Faktoren, die zuvor mit Transkriptionspausen in Verbindung gebracht wurden, sowie Merkmale ohne bekannte Assoziation. Unsere Analyse identifiziert ein neues DNA Sequenzmotiv und andere relevante Sequenzeigenschaften, welche dem pausieren der Pol II zugrunde liegen. Interessanterweise sind die identifizierten Sequenzeigenschaften sowohl in menschlichen Zellen als auch in Bakterien zu finden. Unsere Studie deutet darauf hin, dass Transkriptionspausen in menschlichen Zellen sequenzabhängig und evolutionär konserviert sind.