It is well known that population substructure can lead to spurious associations in GWAS. Two strategies, 'direct-adjustment' and 'matching strategy', have been developed to account for such population stratification in CVAS. However, the population stratification behaves differently in RVAS and CVAS. It results that the existing methods based on 'direct adjustment' strategy cannot work in RVAS. However, whether 'matching strategy' would work in RVAS is still unclear. Therefore, in this work, I studied the matching strategy at the design stage of RVAS. Three similarity metrics with different weighting schemes were set up for the matching strategy. I evaluated the performance of RVAS by power, FWER and top-ranked rate. In addition, I also studied the impact factors for RVAS performance, such as the data quality of samples, number of samples, the inheritance model of disorders and the heterogeneity of disease-caused genes. I also studied the existing problems in RVAS and also suggested the solutions, such as the bad quality samples and the small number of cohorts. Finally, I applied RVAS approach in the Catel-Manzke cohorts, RVAS identified the disease-associated gene TGDS. Thus, RVAS is a comprehensive approach to prioritizing the causal genes in Mendelian disorders. The 'matching strategy' for RVAS could account for the population stratification. RVAS with matching strategy could increase the statistical power and reduce the FWER.
In genomweiten Assoziationsstudien, GWAS, koennen Unterschiede in der ethnischen Herkunft der Individuen in den Fall- und Kontrollgruppen zu Assoziationen fuhren, die nicht auf den eigentlich zu untersuchenden Phaenotyp zurueckzufuehren sind. Diese Signale stellen damit unerwuenschte Artefakte dar. Zur Vermeidung dieser fehlerhafter Assoziationen wurden Strategien entwickelt, die entweder eine Korrektur auf zuvor definierten Gruppen vornehmen, oder aber Kontrollen passend zu den betroffenen Individuen auswaehlen. Neuerdings sind aufgrund moderner Sequenziertechnologien auch Assoziationsstudien fuer seltene genetische Varianten, RVAS, moeglich. Es zeigte sich jedoch, dass hierbei eine nachtraegliche Korrektur nicht moeglich ist, da seltene Varianten ein dafuer ungeeignetes Verteilungsmuster aufweisen. In meiner Arbeit wurde untersucht, inwieweit eine Auswahl passender Kontrollen Fehlerraten reduzieren kann und welche Metriken zur Aehnlichkeitsberechnung geeignet sein koennten. Zur Auswahl der Kontrollen wurden unterschiedliche Distanzmetriken analysiert, die eine Gewichtung anhand von Allelfrequenzen vornehmen. Die Guete dieser Auswahlverfahren wurde anhand von simulierten Fall-Kontrollgruppen bewertet. Bei der Zusammensetzung der Fallgruppen wurde neben unterschiedlicher Herkunft der Individuen auch eine hohe Variabilitaet in der Datenqualitaet untersucht. Es zeigte sich, dass eine Aehnlichkeitsmetrik, die eine staerkere Gewichtung seltener Varianten vornimmt besonders gut geeignet ist, um fehlerhafte Assoziationen zu reduzieren. Bei einer kleinen Fallgruppengroeße, wie sie fuer die meisten Studienkohorten Mendelscher Erkrankungen typisch sind, konnten die erwuenschten Krankheitsgene leichter identifiziert werden, wenn es sich um rezessive Erkrankungen handelte. Eine hohe Heterogenitaet der Erkrankung und Variabilitaet der Zielgene erschwerte die Detektion. Mit einer Vergroesserung der Kontrollgruppe konnten Verbesserungen in der Detektionsrate erzielt werden. Die erarbeiteten Auswahlstrategien wurden schliesslich angewendet, um eine Fallsammlung von Patienten mit Catel-Manzke Syndrom zu analysieren. In den betroffenen Individuen konnte eine signifikante Anreicherung seltener Mutationen im Gen TGDS identifiziert werden, die eine Auswirkung auf die Proteinstruktur haben. Die entwickelten Analyseverfahren koennen damit eingesetzt werden, um die Identifikation einer Anreicherung klinisch relevanter Mutationen in Patientenkollektien zu erleichtern.