Endogenous retroviruses (ERVs) descend from exogenous retroviruses that have infected the ancestral germ line of vertebrates becoming Mendelian traits. They make up to 10% of vertebrate genomes. Unlike most ERVs which represent ancient infections, the koala retrovirus (KoRV) is a retrovirus that is transitioning from an exogenous to endogenous state, providing a unique model to study the process of retroviral endogenization. An important feature of understanding the retroviral endogenization process is to examine where KoRV integrates and how specific proviral integrations either spread among koalas or fail to. To track the integration history of KoRV in real time, museum koalas collected from 1870s to 1980s are a potential source of understanding the spread of KoRV integrations among koalas over time. However, this is technically highly challenging because the genetic material in museum samples, generally regarded as ancient DNA (aDNA), is heavily degraded, for which conventional genetic methods like PCR cannot be used. There is no assembled koala genome available, so sequencing data of such study cannot be analyzed using standard bioinformatic approaches. Therefore, new approaches are needed to enrich and analyze retroviral integration sites and proviral sequences which can be applied to historical samples. Furthermore, ERVs have undergone co-evolution and co-divergence with their hosts both over very long periods of evolutionary history and over shorter periods accessible directly by examining aDNA from the Pleistocene. However, this also requires novel approaches at the experimental and analytical levels. The aim of this thesis was to establish high throughput sequencing based experimental and computational methods that can be used to understand the endogenization and evolution of ERVs in real time from historical samples. In Chapter II, I applied hybridization capture to enrich KoRV sequences from DNA extraction of ten museum koalas sampled from 1870s to 1990s and one modern koala, and subsequently sequenced the pooled enrichment products using illumina multiplexed sequencing. The bioinformatic pipeline we established recovered full KoRV genomes from 6 museum koalas and the modern koala. And a total of 138 polymorphisms were detected, of which 72 were found in more than one koala. No polymorphism was detected within two KoRV genomic regions that are believed to affect retroviral infectivity. Host sequences flanking proviral integration sites were also captured; with few proviral loci shared among koalas. Recently described KoRV variants (KoRV-B and KoRV-J) were not detected in museum samples, suggesting that they may be of recent origin. In Chapter III, I modified and compared three target enrichment techniques coupled with illumina sequencing to retrieve and to characterize KoRV integration sites from 13 museum koala samples collected between the 1870’s and late 1980’s. To identify and sort integration sites from tens of millions of Illumina reads, I established a sequence-clustering based reference (host genome) independent computational pipeline. Although three enrichment methods compared exhibited bias in integration sites retrieval, capture based methods performed best. The results compared to previously described integration sites from modern and museum koalas suggest that the proportion of KoRV integration sites shared among unrelated koalas has increased over the last 140 years. In Chapter IV, I modified hybridization capture and applied it for Illumina targeted sequencing of full mitochondrial genomes (mitogenomes) and partial polymerase gene of SloEFV (sloth endogenous foamy virus), from two extinct and three extant sloth species. By comparing different computational methods, I established an efficient pipeline for characterization of ancient DNA sequence when only distant extant relative were available as a genomic reference. The mitochondrial hybridization capture results produced a fully resolved and strongly supported phylogeny for extinct ground and living tree sloths that conflicts with recent morphological analyses. Comparison of the retroviral gene tree to the mitochondrial phylogeny of both extant and extinct sloths demonstrates multiple complex invasions of SloEFV into the ancestral sloth germline line followed by subsequent introgressions across different sloth lineages.
Endogene Retroviren (ERVs) stammen von exogenen Retroviren ab, die Vorfahren infiziert haben und sich in die Keimbahn von Vertebratengenomen insertiert haben, sodass sie nach den Mendelschen Regeln vererbt werden. Bis zu 10% eines Vertebraten Genoms bestehen aus Sequenzen retroviralen Ursprungs. Im Gegensatz zu den meisten anderen ERVs, die alte Infektionen darstellen, ist der Koala Retrovirus (KoRV) in einem Übergangsstadium zwischen einem exogenen und einem endogenen Retrovirus. Somit ist KoRV ein einzigartiges Model um den Prozess retroviraler Endogenisierung zu Untersuchen. Um den Prozess der Endogenisierung eines Retroviruses zu verstehen ist es wichtig herauszufinden, wo KoRV in das Wirtsgenom integriert wird und wie spezifische provirale Integrationen in Koalapopulationen verteilt sind. Um den Verlauf der Virusintegration in das Koalagenom nachzuvollziehen, wurden Museumskoalas, welche aus den Jahren 1870-1980, untersucht, um KoRV Integrationen über eine längere Zeitspanne und die Verbreitung des Viruses zu ergründen. Die Analysen genetischen Materials von alten Exponaten ist schwierig, da die alte Erbinformation (ancient DNA - aDNA) in den Proben bereits stark beschädigt sein kann und somit konventionelle molekularbiologische Methoden wie die Polymerase Kettenreaktion (polymerase chain reaction - PCR) nicht angewand werden können. Zur Zeit existiert kein assembliertes Koalagenom, sodass die Sequenzierungsdaten aus dieser Studie nicht mit referenzbasierten Standardmethoden der Bioinformatik analysiert werden können. Aus diesem Grund müssen neue Methoden entwickelt werden um die Integration retroviraler Sequenzen in alten Proben nachzuvollziehen. Auch diese Gegebenheiten machen es nötig neue experimentelle und analytische Ansätze zu entwickeln. Das Ziel dieser Arbeit ist es eine Methode zu etablieren, in der es experimentelle und computergestützte Analysen von Hochdurchsatzsequenzierungsdaten ermöglichen, die Evolution und Endogenisierung von ERVs in Echtzeit mit Hilfe historischer Proben zu untersuchen. In Kapitel 2 habe ich die Methode “hybridisation capture” angewandt um KoRV-Sequenzen aus DNA-Extrakten der Museumsproben von 1870-1990 und einer weiteren Probe eines modernen Koalas anzureichern. Die zusammengefassten konzentrierten Produkte wurden durch Illumina Multiplex sequenziert. Wir entwickelten eine bioinformatische Methodik, welche es ermöglicht komplette KoRV Genome von sechs Museumsproben und dem rezenten Koala zu determinieren. 138 Polymorphismen konnten bestimmt werden, von denen 72 Polymorphismen in mehr als einem Koala entdeckt wurden. Es wurde nicht ein Polymorphismus (in zwei genomischen KoRV Regionen entdeckt,) der als infektiös eingeschätzt wird. Auch Sequenzen des Wirtes, die die Integrationsstellen viralen Sequenzen flankieren, wurden erfasst; einige provirale Loci sind in mehreren Koalas detektiert worden. Zwei der derzeit beschriebenen KoRV- Varianten (KorV-B und KoRV-J) konnten in keiner der Museumsproben nachgewiesen werden, was darauf schließen lässt, dass diese Varianten erst in der heutigen Zeit auftreten. Kapitel 3 befasst sich mit dem Vergleich und der Modifizierung dreier Techniken zur gezielten Anreicherung von DNA für die Sequenzierung mittels Illumina um KoRV Integrationsstellen der 13 Museumsproben, von Koalas zwischen 1870 und 1980, zur identifizieren und charakterisieren. Um die kurzen Integrationsstellen aus Millionen von Illumina Sequenzen zu erfassen, habe ich eine Cluster-basierte Methodik entwickelt die unabhängig von Referenzen (Wirtsgenom) anwendbar ist. Vergleicht man die drei Anreicherungsmethoden, so zeigt sich, dass unterschiedliche Ergebnisse hervorgehen, generell kann man aber sagen, dass die zielgerichteten Methoden am besten funktioniert haben. In Verbindung mit zuvor publizierten Forschungsarbeiten zu Integrationsstellen von KoRV in modernen und alten Koalabären ist es naheliegend, dass der Anteil von KoRV-Integrationsstellen die in verschiedenen Koalapopulationen gefunden werden innerhalb der letzten 140 Jahre zugenommen hat. Kapitel 4 behandelt die Modifizierung der “hybrid capture”-Methode zur Anwendung auf gezielte Illumina-Sequenzierung mitochondrialer Genome (Mitogenome) und Teilen des Polymerasegens des endogenen Faultier Viruses (sloth endogenous foamy virus- SloEFV) aus zwei ausgestorbenen Faultierarten und drei rezenten Faultierarten. Durch den Vergleich verschiedener informationstechnischer Methoden habe ich eine effiziente Prozedur entwickelt welche es erlaubt alte DNA Sequenzen zu charakterisieren, auch wenn nur Referenzgenome weit entfernter rezenter Arten vorhanden sind. Die mitochondrialen “hybridization-capture”-Daten ermöglichten eine komplette phylogenetische Analyse, die von der Phylogenie basierens auf morphologischen Merkmalen heute lebender Faultiere abweicht. Der Vergleich des phylogenetischen Baums des Mitogenoms und der lebenden sowie ausgestorbenen Faultiere zeigt, dass mehrfache komplexe Invasionen durch SloEFV in die Keimbahn der Vorfahren verschiedener Faultierlinien, gefolgt von anschließenden Introgressionen, stattgefunden haben.