A mutation of a nucleotide in a protein coding gene may result in the exchange of an amino acid residue of the respective protein. The rates by which amino acid residues are altered during the course of evolution are specific for the proteins themselves. This is because there is a specific selective pressure acting on the proteins. For example, for proteins that evolve at small rates, the most acid exchanges prevent the protein correctly into its three- dimensional structure. As a consequence the protein cannot accomplish its function and the mutation is not fixed in a population. The latter effect is sometimes called "negative selection". In this thesis, several thousand protein families comprising orthologous sequences from the primate Homo sapiens, from the puffer fish Fugu rubripes, from the fruit fly Drosophila melanogaster, and from the nematode Caenorhabditis elegans are analyzed. Scatter plots comparing evolutionary distances between proteins in one and the same family exhibit strong linear correlations. This suggests that a fast or slow mutation rate is very much an attribute of the gene family that we can observe in either genomic comparison. We make us of an evolutionary Markov model and measure family specific evolutionary rates in units of numbers of substitutions per physical time unit. With the rate distribution at hand, it is straight forward to search for biological meaningful protein sets that obey a rate distribution that significantly differs from the overall rate distribution. Interestingly, when grouping proteins according to their subcellular locale, we observe that extra-cellular proteins are fast evolving. Extra-cellular proteins are modern proteins which were mainly invented during metazoan evolution through gene duplication and domain shuffling events. From the observation that extra-cellularity is coupled to elevated evolutionary rates, the hypothesis that the evolutionary rate of a protein tends to be larger the more recently the protein emerged in evolution, is set up. The experiments presented in this thesis confirm the the hypothesis. The traditional aim of molecular phylogenetics is to infer the evolutionary relationships of species from individual genes. In this thesis, we make use of many protein families. and their estimated evolutionary rates in order to estimate divergence times. The obtained divergence time estimates can be averaged and put into a distance based tree estimation program. The results of the phylogenetic tree reconstructions presented in the thesis suggest that evolutionary rates in vertebrate lineages are smaller than rates in invertebrate lineages.
Eine Mutation in der Nukleotid-Sequenz eines für ein Protein kodierenden Gens bewirkt manchmal den Austausch einer Aminosäure im Protein. Die Raten (oder Geschwindigkeiten), mit der die Aminosäurereste im Laufe der Evolution in Proteinen substituiert werden, sind spezifisch für die Proteine. Der Grund hierfür ist der unterschiedliche selektive Druck, der auf ein Protein wirkt. Z.B. bei Proteinen, die mit kleinen Raten evolvieren, verhindern die meisten Aminosäureaustausche, dass sich das Protein seiner Funktion entsprechend falten kann. Folglich werden Mutationen, die in dem für das Protein kodierenden Gen stattfinden und eine änderung der Aminosäuresequenz zur Folge haben, in einer Population nur selten fixiert. Man nennt diesen Effekt, der in unterschiedlicher Stärke auftritt, "negative selection". In dieser Arbeit werden mehrere tausend Proteinfamilien mit Vertretern im Primaten Homo sapiens, im Pufferfisch Fugu rubripes, in der Fruchtfliege Drosophila melanogaster und im Fadenwurm Caenorhabditis elegans untersucht. Eine empirische Untersuchung der Raten in verschiedenen Stammlinien spricht dafür, dass die Proteine einer Familie mit ähnlichen Geschwindigkeiten evolvieren. Dieses Ergebnis motiviert, auf der Grundlage eines wahrscheinlichkeitstheoretischen (Markovschen) Modells für den Austausch von Aminosäureresten, Ratenschätzer für Proteinfamilien zu formulieren. Durch die Anwendung der Ratenschätzer auf die Proteinfamilien ergibt sich schliesslich eine Verteilung familienspezifischer Raten. Die Raten werden dabei in Mutationseinheiten pro Zeiteinheit angegeben. Eine Herangehensweise, Ratenverteilungen zu untersuchen, ist, nach biologischen Kriterien die Menge aller Proteinfamilien zu partitionieren und Ratenverteilungen auf Untermengen von Proteinfamilien zu betrachten. Insbesondere lässt sich feststellen, dass extrazelluläre Proteine im Durchschnitt relativ schnell evolvieren. Ein Grossteil der extrazellulären Proteine ist erst mit der Evolution der Metazoa (der Tiere) entstanden. D.h. sie sind relativ jung. Die in der Arbeit vorgestelletn Experimente sind mit der Hypothese verträglich, dass die Evolutionsraten eines Proteins vom Zeitpunkt der Entstehung des Proteins abhängen. Je jünger ein Protein ist, desto flexibler scheint es auf Mutationen zu reagieren bzw. desto geringer scheint der selektive Druck zu sein. Traditionell wird in der molekularen Phylogenetik versucht, anhand einzelner Gene auf die evolutionäre Verwandtschaft der Arten rückzuschliessen. Im Rahmen dieser Arbeit werden mittels der geschätzten Rate Divergenzzeiten für einzelne Proteinfamilien berechnet. Sind viele Proteinfamilien gegeben, kann man über die so geschätzten Divergenzzeiten den Durchschnitt bilden und die erhaltenen Werte wiederum als Eingabe für eine distanzbasierte Phylogenierekonstruktion verwenden. Die Anwendung der Baumschätzer auf die Proteinfamilien legt nahe, dass sich Mutationen in Invertebraten-Genomen schneller anhäufen als in Vertebraten-Genomen.