During the last decade methods based on next generation sequencing (NGS ) have revolutionized the field of medical genetics. By sequencing the protein coding region via whole exome sequencing (WES ) genetic variations that appear in Mendelian disorders can be identified. Further, additional approaches were introduced to reduce the search space for potentially pathogenic mutations, for example by including more family members into the analysis. With a growing rate of technical advances also new challenges have arisen and methods for quality control (QC ) are crucial to increase the sensitivity of variant detection. In this work different strategies for QC are presented which concentrate on three levels of the analysis of an WES experiment. The distribution of allele frequencies (AFs) at Heterozygous positions is associated with the amplification step during library preparation before sequencing. Strong deviations from the expected mean of 0.5 lead to an increased error rate in the detection of genetic variations. It is shown that the variance of this distribution can be modelled with a two-type (Bienayme-) Galton-Watson (BGW ) branching process. With this, conclusions can be drawn on how to reduce stochastic fluctuations caused by the amplification step. Additionally the derived variance can be used as an indicator for the error rate of a WES sample. Furthermore, variant detection is strongly influenced by the ethnic background of an individual as single nucleotide polymorphism (SNP ) frequencies have population specific characteristics. Here the exome wide accuracy is estimated by comparing all variants of an WES sample to a good quality Reference set with a matching background population, using a distance metric that emphasises weight on rare variants. The distance to the Reference set is highly associated with the genotyping quality of the sample and the overall genotyping accuracy can be estimated by comparing the result to simulated error groups. Most strategies to filter for potentially pathogenic variants are based on the simultaneous analysis of several family members, for example if filtering for De-Novo mutations. However, these techniques strongly rely on correct pedigree information and sample Mix-Ups considerably affect the analysis and can lead to false conclusions. In this work relatedness structures between samples are inferred by calculating logarithm of the odds (LOD) scores based on population genotype (GT ) frequencies. These approaches complement existing quality control recommendations and help to indicate the accuracy of a whole exome sequencing sample.
Durch die Sequenzierung der Protein kodierenden genomischen Region können genetische Variationen identifiziert werden, die Mendelischen Krankheiten zugrunde liegen. Dabei sind Methoden zur Qualitätskontrolle ein essentieller Bestandteil, um die Sensitivitt der Detektion von genetischen Varianten abzuschätzen und zu steigern. In dieser Arbeit werden verschieden Strategien zur Qualitätskontrolle vorgestellt, welche sich auf drei verschiedene Phasen in der Analyse eines Exoms konzentrieren. Die Verteilung von Allele Frequenzen an heterozygoten Positionen ist mit einem Amplifikationsschritt assoziiert, welcher der Sequenzierung vorrausgeht. Es wurde gezeigt, dass die Varianz dieser Verteilung mit einem Verzweigungsprozess modelliert werden kann. Mithilfe dieser Simulation können Rückschlüsse über die stochastischen Fluktuationen während des Amplifikationsschrittes gezogen werden, womit sich die Fehlerrate eines Experimentes abschätzen lässt. Die Detektion von Varianten ist stark durch den ethnischen Hintergrund eines Individuums beeinflusst, da SNP Häufigkeiten populationsspezifische Charakteristika aufweisen. Durch den Vergleich aller Varianten eines Exoms mit einem qualitativ guten Referenzset, welches einen ähnlichen Populationshintergrund aufweist, kann die Genauigkeit eines Experimentes abgeschaetzt werden In diseser Arbeit wurde dafür eine Distanzmetrik verwendet die seltene Varianten stärker gewichtet als Häufige. Viele Strategien, die angewandt werden um nach möglichen pathogenen Mutationen zu filtern, basieren auf der Analyse mehrerer Familienangehöriger. Allerdings sind diese Ansätze auf korrekte Stammbäume angewiesen and mögliche Probenverwechslungen behindern die Analyse und führen zu falschen Ergebnissen. In dieser Arbeit wurden Verwandtschaftsbeziehungen mithilfe von Likelihood-Quotienten-Tests ermittelt, welche auf Genotypfrequenzen basieren. Die vorgestellten Ansätze ergänzen vorhandene Empfehlungen zur Quali-tätskontrolle und helfen, die Genauigkeit eines Exom Experimentes zu bestimmen.