As one of the most basic properties of genomic sequences, base composition has been extensively studied for years. It is traditionally summarized by the GC- content, the frequency of G and C bases in the sequence of interest. One striking feature of mammalian genomes is the fact that GC-content is not homogeneous along chromosomes: one can observe large-scale variations of the GC-content. These variations have been called isochores and are linked to a number of genomic features such as gene density or replication-timing. While different hypotheses have been put forward over the years to explain these GC- content variations, GC-biased gene conversion has been identified as a major force influencing GC-content evolution. This process is neutral and works as follows. During meiotic recombination, double strand breaks are repaired by gene conversion, the copy and paste of one DNA fragment in another. Mismatches can occur during this copy step, which repair mechanism is biased towards G and C. As a result, the fixation of G and C alleles is going to be favored over that of A and T alleles. In this thesis, we investigated base composition variations and GC-content evolution in mammalian genomes. We first estimated GC-content variations for random DNA sequences and compared them to that of mammalian genomic sequences and found that base composition is more variable than expected by chance in these genomes. We then analyzed GC-content variations along the genome of several organisms and were able to find major differences between groups of organisms, for example rodents' genomes have a much less variable base composition than primates' genomes. We then investigated substitution patterns and GC-content evolution across mouse and human genomes using a comparative approach. We found that GC-biased gene conversion is active in the mouse genome but that GC-content is evolving differently in the human and mouse genomes. Furthermore, we investigated substitution patterns and how much different genomic features influence them. We found that, while meiotic recombination through GC-biased gene conversion is the major feature influencing A or T to G or C substitution rates in the human genome, the CpG dinucleotide content best predicts these substitution rates in the mouse genome, showing that GC-biased gene conversion is active but weak in this genome and that substitution patterns are under different influences in the human and mouse genomes. The recent discovery that the Prdm9 gene controls meiotic recombination in mammals as well as its binding motif in human meiotic recombination hotspots in human and the publication of double strand breaks hotspots in mouse enabled the study of the influence of meiotic recombination on substitution patterns at a fine-scale and derive characteristics of meiotic recombination hotspots. Also, the publication of several mouse subspecies' genomes allowed the study of substitution patterns at short timescales as well as in more mouse lineages than was previously possible. We found that double strand break hotspots are a better proxy measure of meiotic recombination than crossover rates, which means that the influence of GC-biased gene conversion in mammalian genomes could be underestimated. Furthermore, when analyzing substitution patterns in several mouse lineages, we also found that GC-content evolution is complex and that at least two recent independent shifts in substitution patterns occurred in these lineages. The study of substitution patterns in meiotic recombination hotspots revealed that gene conversion is centered around double strand break hotspots middle points in mouse and around PRDM9 binding sites in human, affecting a region of approximately 1.5 kbp. Finally, we show that hotspots locations are evolving rapidly in mouse, mirroring observations in human.
Genomische Sequenzen können durch ihre prozentuale Zusammensetzung aus den vier Basen Adenin (A), Guanin (G), Thymin (T) und Cytosin (C) beschrieben werden. Diese Zusammensetzung wurde in den vergangenen Jahren ausführlich untersucht. Meist wird sie im GC-Gehalt zusammengefasst, dem Anteil an G- und C-Basen an der Gesamtsequenz. Bei Säugetieren ist interessanterweise zu beobachten, dass der GC-Gehalt entlang der Chromosomen nicht konstant ist, vielmehr bestehen große Variationen. Diese Abweichungen werden als Isochores bezeichnet. Sie sind mit einer Reihe genomischer Eigenschaften wie Gen-Dichte und Zeitpunkt der Replikation assoziiert. Es gibt verschiedene Ansätze, die Abweichungen im GC-Gehalt zu erklären. Es hat sich herausgestellt, dass GC- biased gene conversion (gBGC) einen großen Einfluss hat. gBGC ist ein neutraler Prozess der folgendermaßen abläuft: Während der meiotischen Rekombination werden Doppelstrangbrüche mittels gene conversion repariert, d.h. es wird ein Genfragment in die jeweils andere Sequenz des Doppelstrangs kopiert. Bei diesem Schritt kann es zu Fehlpaarungen kommen, deren Reparatur überdurchschnittlich häufig mit G- und C-Basen erfolgt. Das führt dazu, dass bevorzugt G- und C-Allele fixiert werden im Gegensatz zu A- und T-Allelen. Diese Doktorarbeit beschäftigt sich mit Variationen der Basenzusammensetzung sowie der Evolution des GC-Gehalts in Säugetieren. Zunächst haben wir Variationen im GC-Gehalt von Säugetieren mit denen von zufällig erzeugten DNA- Sequenzen verglichen und beobachtet, dass die Variationen in diesen Genomen größer sind als bei Zufallssequenzen erwartet. Anschließend untersuchten wir die Genome mehrerer Organismen, wobei wir große Unterschiede zwischen den verschiedenen Gruppen feststellen konnten, z.B. ist die Basenzusammensetzung in den Genomen der Nagetiere wesentlich weniger variabel als die von Primaten. Mit einem vergleichenden Ansatz untersuchten wir dann Substitutions-Muster und GC-Gehalt Evolution der Genome von Maus und Mensch. Unsere Ergebnisse zeigen, dass gBGC im Genom der Maus von Bedeutung ist und dass die Evolution des GC- Gehaltes in beiden Genomen verschieden ist. Außerdem haben wir geprüft, inwieweit verschiedene genomische Eigenschaften die Substitutions - Muster beeinflussen. Wir haben herausgefunden, dass die Substitutionsraten A oder T bis G oder C im menschlichen Genom hauptsächlich durch die Meiose (mittels gBGC) beeinflusst werden, während diese Substitutionsraten sich im Genom der Maus am besten durch den CpG Dinukleotid-Gehalt vorhersagen lassen. Daraus schließen wir, dass gBGC im Genom der Maus zwar aktiv, aber schwach ist und dass die Einflüsse auf die Substitutions-Muster in den Genomen von Maus und Mensch verschieden sind. Kürzlich wurde entdeckt, dass das Prdm9-Gen die meiotische Rekombination in Säugetieren kontrolliert und das Bindungsmotiv in den Rekombinations-Hotspots im menschlichen Genom wurde ermittelt. Außerdem wurden die Hotspots für Doppelstrangbrüche im Genom der Maus publiziert. Das zusammen ermöglichte unsere detaillierte Studie über den Einfluss von meiotischer Rekombination auf Substitutions-Muster und die Ableitung von Charakteristika meiotischer Rekombinations-Hotspots. Des weiteren wurden die Genome mehrerer Unterarten der Maus publiziert, die wir zur Untersuchung der Substitutions-Muster in kürzeren Zeiträumen und in mehr Mausarten als bisher möglich genutzt haben. Unsere Studie zeigt, dass Hotspots für Doppelstrangbrüche meiotische Rekombination besser vorhersagen als Crossover- Raten. Daraus schlussfolgern wir, dass der Einfluss von gBGC in Säugetiergenomen unterschätzt sein könnte. Bei unserer Untersuchung der Substitutions-Muster in verschiedenen Mausarten konnten wir feststellen, dass die Evolution des GC-Gehaltes komplex ist und es in diesen Linien mindestens zwei unabhängige Verschiebungen der Substitutions-Muster gegeben haben muss. Die Studie über die Substitutions-Muster in Hotspots meiotischer Rekombination zeigte, dass gene conversion in der Maus um die Mittelpunkte der Hotspots von Doppelstrangbrüchen zentriert ist, während gene conversion beim Menschen um die PRMD9 Bindungsstellen, in einer Region von etwa 1,5 kbp, zentriert ist. Abschließend zeigen wir, dass die Positionen der Hotspots in der Maus, ebenso wie im Menschen, schnell evolvieren.