Der Erfolg neuer Sequenzierungstechnologien und deren routinemäßiger Einsatz zur Aufklärung genetischer Krankheiten hat dazu geführt, dass sehr viel mehr Sequenzvarianten detektiert werden als früher. Die gefundenen Varianten müssen genauer auf ihr Krankheitspotential untersucht und priorisiert werden. Diese Aufgabe ist manuell nicht zu bewältigen, weshalb diverse in silico Verfahren zur Sequenzvariantenanalyse entwickelt wurden, die jedoch meist nur nicht- synonyme Varianten untersuchen können. In Whole Exome Sequencing Projekten ist ein Großteil der gefundenen Varianten aber intronisch oder synonym. Die Mutationsdatenbank HGMD (Human Gene Mutation Database) enthält zur Zeit gut 134.000 Mutationen, von denen nur etwa 55% in die Kategorien missense oder nonsense fallen. MutationTaster ist ein web-basiertes Computerprogramm zur Vorhersage des Krankheitspotentials von DNA-Sequenzvarianten. Es kann sowohl intronische als auch exonische synonyme und nicht-synonyme Einzelbasenaustausche und InDels (<12bp) analysieren. In diversen Tests werden unter anderem der Grad der evolutionären Konservierung auf Protein-Ebene und DNA-Ebene, die Auswirkungen einer DNA-Veränderung auf das Protein (z.B. ein frame-shift oder Aminosäureaustausch), und der mögliche Einfluss auf bekannte Proteindomänen untersucht. Die Genotypen aus dem 1000-Genom-Projekt (1000G) und HapMap werden genutzt, um harmlose Polymorphismen zu identifizieren, mit Hilfe der Daten von NCBI ClinVar werden bekannte Krankheitsmutationen identifiziert. Die externen, lokal installierten Computerprogramme NNSplice und polyadq detektieren Veränderungen im Spleißmuster und Poly(A)-Signal. Basierend auf den Testergebnissen prognostiziert der integrierte Bayes Klassifikator das Krankheitspotential der fraglichen Sequenzveränderung. Der Klassifikator wurde mit mehr als 6.000.000 harmlosen Polymorphismen aus dem 1000G und mehr als 100.000 Krankheitsmutationen aus HGMD trainiert. Die anschließende Kreuzvalidierung ergab Durchschnittswerte für accuracy, Sensitivität und Spezifität von 90,5%, 90,5% und 90,9%. Im direkten Vergleich mit ähnlichen Vorhersageprogrammen (PolyPhen-2, SIFT und PROVEAN) schnitt MutationTaster bei der Vorhersage von 1.300 Polymorphismen und 1.300 bekannten Krankheitsmutationen mit einer accuracy von 88,0% am besten ab (PolyPhen-2 84,5%, SIFT 84,7%, PROVEAN 83,7%). Einzelanfragen an MutationTaster erfolgen über chromosomale Positionen oder Transkript-basiert über intuitiv zu bedienende Webschnittstellen. Für die schnelle und bequeme Analyse von NGS- Ergebnissen im VCF-Format steht eine speziell für diesen Zweck entwickelte QueryEngine zur Verfügung. Im benutzerfreundlichen web interface können eine VCF-Datei hochgeladen und diverse Filteroptionen eingestellt werden. Die Varianten werden parallel analysiert (500.000 Veränderungen / Stunde) und die Ergebnisse können anschließend im Browser sortiert, gefiltert und inspiziert oder auch heruntergeladen werden. MutationTaster ist frei verfügbar unter http://www.mutationtaster.org.
The advent of Next Generation Sequencing (NGS) has led to a dramatically increased demand for in silico solutions that predict the disease-causing potential of the DNA variants identified. Most of the huge number of variants discovered by deep sequencing projects are either synonymous or intronic. In the past, these have often been neglected because their potential functional impact at the protein level tends to be less obvious than that of missense or nonsense variants. Accordingly, most of the tools available to predict the biophysical and clinical consequences of DNA sequence alterations have focused on the latter. However, only 55% of the 134,000 disease mutations currently listed by the Human Gene Mutation Database (HGMD), fall into this category. The web-based mutation prediction tool, MutationTaster, analyses DNA sequence alterations and, uniquely, has incorporated tests for synonymous as well as for non-coding variants. It is able to analyse intronic and exonic single base exchanges and InDels up to 12bp. MutationTaster evaluates evolutionary conservation via phyloP/phastCons and searches for regulatory features such as histone- or transcription factor-binding sites. Various data sources have been integrated. Genotypes from HapMap and the 1000 Genomes Project are used to identify neutral polymorphisms, and NCBI ClinVar to disclose known disease mutations. External software for splice site analysis (NNSplice) and poly(A)-signal analysis (polyadq) is locally installed and integrated. All the test results are passed on to the integrated Bayes classifier, which finally generates the prediction. The classifier was trained with a large set of single base pair exchanges and short InDels (up to 12bp), comprising more than 6,000,000 confirmed polymorphisms from the 1000 Genomes Project and more than 100,000 known pathogenic mutations from HGMD. Cross-validation revealed a mean accuracy of 90.5%, with a mean sensitivity of 90.5% and a mean specificity of 90.9%. In a direct comparison using 1,300 known polymorphisms and 1,300 known disease mutations, MutationTaster displayed an accuracy of 88.0%, thereby proving superior to PolyPhen-2 (84.5%), SIFT (84.7%) and PROVEAN (83.7%). Single queries to MutationTaster referring to chromosomal- or transcript-based positions can be submitted via intuitive web interfaces. To facilitate NGS data analysis, I developed the MutationTaster QueryEngine, a rapid and user- friendly web-based solution to directly analyse NGS variant files on our server. The web interface is easy to use, enabling geneticists to analyse their data without the help of IT specialists. After selecting a VCF file to upload, filters for coverage, homozygosity, known polymorphisms and genomic regions can be applied. The alterations are processed in highly parallel fashion (allowing the analysis of about 500,000 variants per hour) and the results can be downloaded after a reasonable time period or filtered, sorted and browsed in a web interface. MutationTaster is freely available at http://www.mutationtaster.org.