dc.contributor.author
Krakau, Sabrina
dc.date.accessioned
2020-01-15T11:47:21Z
dc.date.available
2020-01-15T11:47:21Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/26406
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-26166
dc.description.abstract
Protein-RNA interactions play an important role in all post-transcriptional regulatory processes. High throughput detection of protein-RNA interactions has been facilitated by the emerging CLIP-seq (crosslinking and immunoprecipitation combined with high-throughput sequencing) techniques. Enrichments in mapped reads as well as base transitions or deletions at crosslink sites can be used to infer binding regions. Single-nucleotide resolution techniques (iCLIP and eCLIP) have been achieved by capturing high fractions of cDNAs which are truncated at protein-RNA crosslink sites. Increasing numbers of datasets and derivatives of these protocols have been published in recent years, requiring tailored computational analyses. Existing methods unfortunately do not explicitly model the specifics of truncation patterns and possible biases caused by background binding or crosslinking sequence preferences.
We present PureCLIP, a hidden Markov model based approach, which simultaneously performs peak calling and individual crosslink site detection. It is capable of incorporating external data to correct for non-specific background signals and, for the first time, for the crosslinking biases. We devised a comprehensive evaluation based on three strategies. Firstly, we developed a workflow to simulate iCLIP data, which starts from real RNA-seq data and known binding regions and then mimics the experimental steps of the iCLIP protocol, including the generation of background signals. Secondly, we used experimental iCLIP and eCLIP datasets, using the proteins’ known predominant binding regions. And thirdly, we assessed the agreement of called sites between replicates, assuming target-specific signals are reproducible between replicates.
On both simulated and real data, PureCLIP is consistently more precise in calling crosslink sites than other state-of-the-art methods. In particular when incorporating input control data and crosslink associated motifs (CL-motifs) PureCLIP is up to 13% more precise than other methods and we show that it has an up to 20% higher agreement across replicates. Moreover, our method can optionally merge called crosslink sites to binding regions based on their distance and we show that the resulting regions reflect the known binding regions with high-resolution.
Additionally, we demonstrate that our method achieves a high precision robustly over a range of different settings and performs well for proteins with different binding characteristics. Lastly, we extended the method to include individual CLIP replicates and show that this can boost the precision even further. PureCLIP and its documenta- tion are publicly available at https://github.com/skrakau/PureCLIP.
en
dc.description.abstract
Interaktionen zwischen Proteinen und RNAs spielen eine wichtige Rolle in allen posttranskriptionalen regulatorischen Prozessen. Die in den letzten Jahren entwickelten CLIP-seq-Technologien haben die Hochdurchsatz-Detektion von Protein-RNA-Interaktionen möglich gemacht. Anreicherungen alignierter Reads sowie Transitionen oder Deletionen einzelner Basen können dabei genutzt werden, um auf die Binderegionen rückzuschließen. Durch die Erfassung des hohen Anteils von cDNAs, die an der Protein-RNA-Crosslink-Stelle trunkiert wurden, kann des Weiteren eine Auflösung bis hin zu einzelnen Nukleotiden erreicht werden.
Die steigende Anzahl publizierter Datensätze sowie Weiterentwicklungen der Verfahren erfordern maßgeschneiderte, computergestützte Analysemethoden. Existierende Methoden sind bislang nicht in der Lage, die Besonderheiten der cDNA-Trunkierungsmuster und mögliche Biase durch unspezifische Hintergrund-Binde-Ereignisse oder Crosslink-Sequenz-Präferenzen zu modellieren.
In dieser Arbeit stellen wir PureCLIP vor, eine neue Methode basierend auf einem Hidden Markov Model, welche simultan die Detektion von Peaks und individuellen Crosslink-Positionen durchführt. Zusätzlich können externe Daten zur Korrektur unspezifischer Hintergrundsignale und des Crosslink-Bias integriert werden. Um die Methode zu evaluieren haben wir drei Strategien entworfen. Zunächst haben wir einen Workflow für die Simulation von iCLIP-Daten entwickelt, welcher, ausgehend von echten RNA-seq-Daten und bekannten Binderegionen, die experimentellen Schritte des iCLIP-Protokolls einschließlich der Generierung von Hintergrundsignalen imitiert. Als zweites haben wir experimentelle iCLIP- und eCLIP-Datensätze von Proteinen verwendet, deren prädominante Binderegionen bekannt sind. Schließlich haben wir als drittes die Übereinstimung von detektierten Bindestellen zwischen Replikaten zur Evaluation verwendet, unter der Annahme, dass Protein-spezifische Signale zwischen den Replikaten reproduzierbar sind.
Sowohl auf simulierten als auch auf experimentellen Daten zeigt sich, dass PureCLIP präziser in der Detektion von Crosslink-Positionen ist als andere Methoden. Insbesondere durch die Integration von Input-Kontrolldaten und Crosslink-assoziierten Motiven ist PureCLIP bis zu 13% präziser als andere Methoden und erreicht eine um bis zu 20% höhere Übereinstimmung zwischen Replikaten. Unsere Methode kann außerdem detektierte Crosslink-Positionen auf Basis ihrer Distanz zu Binderegionen zusammenfassen. Wir zeigen auch hier, dass die resultierenden Regionen bekannte Binderegionen mit einer hohen Präzision wiedergeben.
Darüber hinaus demonstrieren wir, dass unsere Methode für zahlreiche unterschiedliche Konfigurationen und auch für Proteine mit unterschiedlichen Bindeeigenschaften eine hohe Präzision erreicht. Als Letztes haben wir die Methode dahingehend erweitert, dass mehrere Replikate gleichzeitig integriert werden können und zeigen, dass dadurch die Präzision weiter gesteigert werden kann. PureCLIP und die zugehörige Dokumentation sind öffentlich verfügbar unter https://github.com/skrakau/PureCLIP.
de
dc.format.extent
VIII, 167 Seiten
dc.rights.uri
https://creativecommons.org/licenses/by-sa/4.0/
dc.subject
protein-rna interaction
en
dc.subject
Hidden Markov Model
en
dc.subject
Bioinformatics
en
dc.subject
Statistical Modelling
en
dc.subject.ddc
500 Naturwissenschaften und Mathematik::500 Naturwissenschaften::500 Naturwissenschaften und Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::576 Genetik und Evolution
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.title
Statistical models to capture protein-RNA interaction footprints from truncation-based CLIP-seq data
dc.contributor.gender
female
dc.contributor.firstReferee
Marsico, Annalisa
dc.contributor.furtherReferee
Backofen, Rolf
dc.date.accepted
2019-11-01
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-26406-0
dc.title.translated
Statistische Modelle zur Detektion von Protein-RNA Interaktionen aus trunkierungsbasierten CLIP-seq Daten
de
refubium.affiliation
Mathematik und Informatik
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access