Identifying robust and clinically relevant microbiome signatures in observational disease association studies is a complex task. Challenges arise from the intricate nature of biological systems, variations in methodological approaches to study these systems at different scales, and a lack of consensus among researchers. This dissertation examined the statistical foundations of these studies, focusing on improving the robustness of differential abundance (DA) determination in case-control data. Wirbel and Essex et al. demonstrated the limitations of parametric simulation frameworks in reproducing key characteristics of metagenomic data, and introduced a novel signal implantation approach for realistic microbiome simulation. Benchmarking 19 DA methods across diverse sample sizes and human-associated biomes revealed that classical statistical tests outperformed other methods in controlling false discoveries and identifying differentially abundant taxa. Crucially, adjusted DA tests maintained good performance in the presence of realistic confounding variables. Essex and Rios Rodriguez et al. applied these insights to characterize the baseline gut microbiota of the German Spondyloarthritis Inception Cohort (GESPIC). Despite potential confounders, shared enrichments in Collinsella and depletions in Fusicatenibacter were observed in GESPIC patients relative to controls, with the latter estimated to partially mediate patients’ clinically significant increases in systemic inflammation. Distinct Lachnospiraceae signals were present in disease subgroups. In both works, linear models provided a flexible framework for covariate-adjusted DA testing, enabling identification of robust microbial signatures. Overall, this dissertation demonstrates confounding to be an analytically tractable phenomenon in DA determination, primarily constrained by measured covariates. To enable robust adjustment for confounders, comprehensive medication records in addition to more quantitative profiling of stool samples and colonic physiology should be prioritized, especially for inflammatory disease studies. Interdisciplinary teams should define precise objectives and harmonize covariate-aware methodologies with current and future research intentions. Advancing microbiome science from association to modulation, especially for multifactorial chronic diseases, will require thoughtful integration of existing knowledge.
Die Identifizierung robuster und klinisch relevanter Mikrobiomsignaturen in Beobachtungsstudien zur Krankheitsassoziation ist eine komplexe Aufgabe. Die Herausforderungen ergeben sich aus der komplexen Natur biologischer Systeme, den unterschiedlichen methodischen Ansätzen zur Untersuchung dieser Systeme auf verschiedenen Ebenen, und dem fehlenden Konsens unter den Forschern. In dieser Dissertation wurden die statistischen Grundlagen dieser Studien untersucht, wobei der Schwerpunkt darauf lag, die Detektion differentiell abundanter (DA) mikrobieller Taxa in Daten von Fall-Kontroll-Studien robuster zu machen. Wirbel und Essex et al. zeigten die Grenzen parametrischer Simulationsverfahren bei der Reproduktion von Schlüsselmerkmalen metagenomischer Daten auf und stellten einen neuartigen Ansatz für realistische Mikrobiomsimulationen vor, der auf Signalimplantierung beruht. Ein Vergleich von 19 DA-Methoden für verschiedene Probengrößen und menschliche Mikrobiome ergab, dass klassische statistische Tests andere Methoden übertrafen, was die Kontrolle Falschpositiver und die Sensitivität zur Erkennung von DA-Taxa angeht. Entscheidend ist hierbei, dass adjustierte DA-Tests auch bei Vorhandensein von Störvariablen (Confounding) gut funktionieren. In Essex und Rios Rodriguez et al. wurden diese Erkenntnisse angewandt, um die Darmmikrobiota der deutschen Spondyloarthritis Inception Cohort (GESPIC) zu charakterisieren. Trotz potenziellem Confounding wurde bei GESPIC-Patienten im Vergleich zu den Kontrollpersonen robust erhöhte Collinsella und verringerte Fusicatenibacter Häufigkeit/Abundanz festgestellt, wobei letztere vermutlich teilweise für die klinisch signifikante Zunahme der systemischen Entzündung bei den Patienten verantwortlich sind. In den Patientenuntergruppen gab es unterschiedliche Lachnospiraceae-Signale. In beiden Arbeiten erwiesen sich lineare Modelle als flexible Methodik für kovariatenbereinigte DA-Tests zur Identifizierung robuster mikrobieller Signaturen. Insgesamt zeigt diese Dissertation, dass Confounding ein bei der Bestimmung von DA-Taxa gut modellierbares Phänomen ist, sofern entsprechende Kovariaten auch gemessen wurden. Um robust für Kovariaten adjustieren zu können, sollten umfassende Medikamentenaufzeichnungen zusätzlich zu einer quantitativeren Profilierung von Stuhlproben und der Kolonphysiologie priorisiert werden, insbesondere bei Studien zu entzündlichen Erkrankungen. Interdisziplinäre Teams sollten genaue Ziele definieren und Kovariaten-adjustierte Methoden mit aktuellen und zukünftigen Forschungsabsichten in Einklang bringen. Die Weiterentwicklung der Mikrobiomforschung von der Assoziation zur Modulation, insbesondere bei multifaktoriellen chronischen Krankheiten, erfordert eine durchdachte Integration des derzeitigen Wissensstands.