Structural variants, commonly defined as genomic differences larger than 50 bp, are an important research target due to their large size and great impact on human phenotype and disease. Their unique properties and the weaknesses of traditional short-read sequencing technologies, however, complicate their detection and comprehensive characterization. Third-generation sequencing technologies, such as PacBio SMRT sequencing and ONT Nanopore sequencing, have the potential to resolve some of these problems through the generation of considerably longer reads. Despite their higher error rate and sequencing cost, they offer many advantages for the detection of structural variants and the complete reconstruction of personal genome sequences. Yet, available software tools for the detection of SVs from long reads and genome assemblies still do not fully exploit the possibilities.
Here we present two new computational methods, SVIM and SVIM-asm, for the detection and genotype estimation of structural variants using third-generation sequencing data. The methods can be applied to long, error-prone reads or genome assemblies and distinguish six canonical classes of structural variation. We apply both tools on simulated and real sequencing datasets and demonstrate that they outperform existing methods on the detection of genotyped SVs. In the context of a larger research project, we apply SVIM for the detection of both canonical SVs and long-range novel adjacencies in a set of highly rearranged genomes. After a stringent filtering process, the final callset of long-range novel adjacencies is validated with orthogonal Hi-C data. We show the completeness and precision of the callset demonstrating its suitability for downstream analyses, such as chromosome reconstruction.
Vergleicht man die Genome verschiedener Lebewesen treten zahlreiche kleine und große Unterschiede zutage. Unterschiede mit einer Größe von mehr als 50 Basenpaaren werden auch Strukturvarianten genannt. Sie haben einen erheblichen Einfluss auf den Phänotyp des Menschen und seine Erkrankungen. Die Erkennung von Strukturvarianten wurde lange durch ihre besonderen Eigenschaften, aber auch Schwächen der gängigen Sequenziertechnologien erschwert. Neue Sequenziertechnologien der dritten Generation, z.B. PacBio SMRT Sequenzierung und ONT Nanopore Sequenzierung, sind nun in der Lage, einige dieser Probleme zu lösen. Sie produzieren Sequenzfragmente (Reads), die um ein vielfaches länger sind als Reads traditioneller Sequenziertechnologien, aber auch eine höhere Fehlerrate besitzen. Für die Erkennung von Strukturvarianten sowie die komplette Rekonstruktion von Genomsequenzen besitzen diese Technologien dennoch viele Vorteile. Bisher werden diese durch die bestehenden Software-Tools jedoch nicht ausgeschöpft.
Wir stellen zwei neue Softwaremethoden namens SVIM und SVIM-asm für die Erkennung und Genotypisierung von Strukturvarianten mittels Sequenzierdaten der dritten Generation vor. Die Anwendungen können sowohl für die Analyse langer Reads als auch kompletter Genomsequenzen eingesetzt werden und unterscheiden sechs klassische Typen von Strukturvarianten. Wir wenden beide Methoden auf simulierten und echten Sequenzierdaten an und zeigen, dass sie Strukturvarianten besser erkennen und genotypisieren können als bestehende Tools. Im Rahmen eines größeren Forschungsprojektes verwenden wir SVIM, um in einer Reihe von stark umstrukturierten Genomen sowohl klassische Strukturvarianten, als auch neue Verbindungen zwischen weit entfernten Genompositionen zu detektieren. Die Neuverbindungen werden nach verschiedenen Qualitätsmerkmalen gefiltert und anschließend mit unabhängigen Hi-C Daten validiert. Unser Ansatz bildet damit die Voraussetzung für nachfolgende Analysen, z.B. der Genregulation in umstrukturierten Genomen.