The availability of mammalian genomes and their corresponding alignments together with high quality genome annotation enables us to gain insights into differences in mutational processes in different contexts along human chromosomes. In particular, one can address the question of substitution signatures that are associated with different cellular processes. We study the impact of transcription on substitution patterns in the vicinity of the 5' end and 3' end of genes. Also, an analysis of substitution patterns within and around CpG islands, which are mammalian sequence features, was presented. The analysis reveals rich and (to some extent) unexpected patterns of mutational patterns that are associated with transcription processes, CpG islands, or both. There are three transcription-associated substitution patterns that have been observed in human, of which two are related to CpG islands. The first is a sharp decline in the deamination rate of methylated CpG dinucleotides, which is observed in the vicinity of the 5' end of genes due to abundance of CpG islands in these regions that are subject to lower methylation levels compared to CpG dinucleotides elsewhere in the genome. The second is a strand asymmetry in complementary substitution rates, which extends from the 5' end to 1 kbp downstream from the 3' end, associated with transcription-coupled repair. The third is a localized strand asymmetry, an excess of C->T over G->A substitutions in the nontemplate strand confined to the first 2 kbp downstream of the 5' end of genes at CpG islands. This pattern might be induced by a higher exposure of the nontemplate strand near the 5' end of genes that in turn leads to a higher cytosine deamination rate. The necessary ssDNA conformation can be induced by R-loops or G4 structures, which preferentially occur at the 5' ends of genes. The transcription-associated substitution patterns are not unique to human and can also be found in other mammalian species, such as chimpanzee, orangutan, mouse, rat, horse, cow and dog. Fish also have strand asymmetry patterns in introns, but these asymmetries are different to those in mammals, pointing out that transcription associated repair or mutagenesis processes have been evolving in the vertebrate lineage. Strand-specific substitution processes exist also in intergenic regions. CpG islands are origins of bidirectional strand asymmetries that extend over hundreds of thousands of base pairs. These asymmetries can be induced by a DNA replication process which has CpG islands as its initiation sites. Alternatively, these asymmetries in intergenic regions can be the signature of unknown transcripts, such as very long non-coding RNAs. In intergenic regions downstream of genes, there are strand asymmetries that are similar to the ones in introns, implying that RNA polymerase continues to transcribe regions even further than the 3' ends of genes.
Die Verfügbarkeit von Säugetiergenomen und ihrer wechselseitigen Alignments sowie zugehöriger Genomannotationen von hoher Qualität ermöglichen es uns, Einblicke in die Verschiedenheit von Mutationsprozessen in unterschiedlichen Kontexten entlang menschlicher Chromosomen zu erhalten. Insbesondere kann die Frage angegangen werden, welche Substitutionsmuster mit verschiedenen zellulären Prozessen assoziiert sind. Wir haben die Auswirkung von Transkription auf Substitutionsmuster in der Umgebung der 5’- und 3’-Enden von Genen untersucht. Zudem wird eine Analyse der Substitutionsmuster in und um CpG-Inseln vorgestellt, welche säugerspezifische Sequenzbestandteile darstellen. Die Analysen enthüllen reichhaltige und (in gewissem Maße) unerwartete Mutationsmuster, die mit Transkriptionsprozessen, CpG-Inseln oder beidem assoziiert sind. Im Menschen wurden drei Transkriptions-assoziierte Substitutionsmuster beobachtet, von denen zwei mit CpG-Inseln in Zusammenhang stehen. Das erste Muster, eine starke Abnahme der Deaminierungsrate von methylierten CpG-Dinukleotiden, wurde im näheren Umfeld des 5’-Endes von Genen beobachtet, da die dort häufig auftretenden CpG-Inseln meist ein schwächeres Methylierungsniveau aufweisen als CpG-Dinukleotide an anderen Stellen im Genom. Das zweite Muster, eine strangspezifische Asymmetrie in komplementären Substitutionsraten, erstreckt sich vom 5’-Ende bis zu 1 kbp hinter dem 3’-Ende und ist mit Transkriptions-gekoppelter Reparatur assoziiert. Das dritte Muster wird von einer örtlich begrenzten Strangasymmetrie gebildet, einem Überschuss von C–>T gegenüber G–>A-Substitutionen im Nicht-Template-Strang, der auf die ersten 2 kbp hinter dem 5’-Ende von Genen nahe CpG-Inseln beschränkt ist. Dieses Muster könnte von einer höheren Exponiertheit des Nicht-Template- Strangs nahe dem 5’-Ende von Genen bedingt sein, welche zu einer höheren Cytosin-Deaminierungsrate führt. Die nötige ssDNA-Konformation kann von R-Loops oder G4-Strukturen induziert werden, die vorzugsweise am 5’-Ende von Genen auftreten. Die Transkriptions-assoziierten Substitutionsmuster sind nicht auf den Menschen beschränkt und können auch in anderen Säugerspezies beobachtet werden, so etwa bei Schimpanse, Orang-Utan, Maus, Ratte, Pferd, Rind und Hund. Fische zeigen auch Strangasymmetrie-Muster in Introns, jedoch unterscheiden sich diese Asymmetrien von denen in Säugern, was darauf hinweist, daß Transkriptions-assoziierte Reparatur beziehungsweise Mutageneseprozesse in der Wirbeltierlinie evolvierten. Strangspezifische Substitutionsprozesse existieren auch in intergenischen Regionen. CpG-Inseln sind der Ausgangspunkt von bidirektionalen Strangasymmetrien, die sich über Hunderttausende von Basenpaaren erstrecken. Diese Asymmetrien können von DNA- Replikationsprozessen ausgelöst werden, die CpG-Inseln als Initiationsorte nutzen. Alternativ können die Asymmetrien in intergenischen Regionen Anzeichen von unbekannten Transkripten sein, wie zum Beispiel sehr langen nichtkodierenden RNAs. In intergenischen Regionen abwärts von Genen treten Strangasymmetrien auf, die denen in Introns ähneln, was darauf schließen lässt, dass die RNA-Polymerase die Transkription in Bereiche fortsetzt, die hinter dem 3’-Ende von Genen liegen.