G protein-coupled receptors (GPCRs) are the key therapeutic targets for thirty to forty percent of all current marketed pharmaceutical drugs developed to cure many acute or chronic diseases. Investigations of naturally occurring in addition to mutations gathered from in vitro mutagenesis studies provide insight into the causes of human genetic diseases and provide novel perspectives for pharmacological strategies targeted at either mutant or wild type GPCRs. A GPCR subfamily, the glycoprotein hormone receptors (GPHRs) and the nucleotide receptor P2Y12 were in the focus of this thesis. Naturally occurring pathogenic mutations in GPHRs have been identified as the cause of several endocrine diseases. One member of this subfamily, the thyrotropin receptor, is a key regulator of thyroid function, and the most prominent disorders related to this receptor are congenital hyper- or hypothyroidism and thyroid cancer. Activation of the P2Y12 triggers platelet aggregation and thus this receptor plays a crucial role upon injury or thrombosis. Defects in the gene encoding for the P2Y12 are often responsible for congenital bleeding disorders. Structural and functional studies of these receptors that elucidate the relevance of particular genetic variants pave the way for deriving more general, overarching mechanisms for other GPCRs. The structural elucidation of GPCRs facilitates the overall understanding of the functional and/or structural importance of certain residues. During recent years, family A GPCRs have been characterized in various studies thus generating a huge amount of data, which will even continue to increase in the future. This particularly concerns: i) the number of available functional data from mutagenesis studies, ii) the deposition and analysis of clinically relevant sequence variants, iii) the availability of complete genomes and thus sequence data of various species in the course of genome projects, and iv) the further structural elucidation of GPCRs by X-ray crystallographic analysis or nuclear magnetic resonance spectroscopy. Tools for the analysis of these comprehensive and non-uniformly stored data are rare, however necessary to analyze the impact of genetic variants on diverse cellular processes. Affected are, for example, ligand binding, receptor expression, G protein coupling, receptor desensitization and receptor recycling. The combination of mutagenesis data with sequence and structural information allows for the identification of receptor modifications altering wild type receptor function. Furthermore, amino acid variations that are tolerated by the biological system, leaving the receptor function unchanged, can be determined. The computational approaches developed in this thesis for linking and unifying these completely different datasets create extremely valuable resources facilitating the visualization, analysis and extraction for expert as well as non-expert users. A mutation database for the GPHRs has been decisively advanced (SSFA-GPHR, available at http://www.ssfa- gphr.de). In addition, key changes aimed for improved user friendliness and the expansion to a comprehensive information platform have been implemented to increase its impact to the research community. In particular, implementation of novel tools, extension of the dataset and additional functionalities for data visualization and interpretation have proven to be extremely helpful in guiding and explaining experimental data, in order to understand the molecular reasons for impaired receptor function. Two application examples will be discussed, with both relating to the thyrotropin receptor, which has been the focus of extensive experimental studies over the last 25 years. In the first example, the database has proven to be essential for detecting the molecular basis for naturally occurring gain- or loss-of-function mutations by enabling the comparison of data from its homolog receptors, several species and different experimental approaches. Therefore, a tool for exploring and recognizing the spatial interrelationships between amino acid side chains in an interactive manner has been developed. The combination of functional characterization of known protein variants, statistical sequence analysis and structural evaluation, has shaped the next application. The study revealed pairs of interacting residues either stabilizing the basal or active receptor state of glycoprotein hormone receptors. A set of polar residues in transmembrane helices 2, 3, 6 and 7 are most likely involved in stabilizing the inactive state, while a mainly polar interface between transmembrane helices 5 and 6 is presumably important in holding the active state. Conservation of these features throughout family A GPCRs suggests their fundamental role in regulating receptor function. Since no complete crystal structures have been solved for the GPHRs yet, homology models serve as a proxy and are constantly improved by novel structural and functional information. Additionally, fragments, such as the recently published crystal structure of the N-terminal region of the follitropin receptor in complex with its hormone follitropin, are taken into account. This structure, for instance, permitted homology modeling and subsequent systematic analysis of structural and functional data to reveal distinct residues, which are crucial for hormone recognition and binding at the N-terminal extracellular region of the homologous thyrotropin receptor. Allowing the user to further illuminate these contacts and interactions between the hormone and their respective receptors, an interactive interface analysis tool has been developed for the web application. In general, homology models still play an important role in GPCR- related research, as crystal structures have been solved for only a small fraction of the huge family. The general fold is preserved, however what often hampers the template selection is the low sequence similarity. Therefore, a web accessible pipeline for GPCR homology modeling, the GPCR-Sequence- Structure-Feature-Extractor (SSFE, available at http://www.ssfa-7tmr.de/ssfe) that stores the template predictions, sequence alignments, identified sequence and structure motifs and homology models for 5025 family A GPCRs, has been developed. The specificity and unique feature of this method, in contrast to other available approaches, is that template selection is carried out for each transmembrane helix separately rather than for the receptor as a whole. Template selection of the helix fragments is performed sequentially, and finally the helix bundle is assembled forming an overall model. Other published methods for GPCR homology modeling, employing one crystal structure template for the modeling process, do not benefit from the structural diversity of all previously published GPCR crystal structures. The method presented in this thesis is significantly faster in computing the homology models by providing similar or even more accurate results. Accuracy was determined by the calculation of the root mean square deviation of the transmembrane region of the homology models to its later published crystal structure. The investigation of molecular effects caused by genetic variations can be facilitated by studying the evolutionary relationship of extant species. As a model protein a GPCR for Adenosine diphosphate (namely P2Y12) was selected. Subsequently, the evolutionary conservation of 77 ortholog sequences (same protein but different species) was compared to the characterization of a comprehensive in vitro mutant library (site-saturation mutagenesis of every possible substitution at 66 contiguous positions, total of 1254 mutants). For the evaluation of both datasets, a web-based system (P2Y12 mutant library; http://www.ssfa-7tmr.de/p2y12) was implemented to assess the correlation between the in vivo occurrence of variants in the ortholog dataset and the in vitro function of the characterized mutants. The calculation revealed a high correlation between in vivo and in vitro data (> 90%) which led to the conclusion that ortholog sequence data are sufficient to predict the functional relevance of individual positions and mutations not only within GPCRs, but likely for many conserved proteins as well. The significance of this approach will even increase in the future, since, due to various genome sequencing projects the amount of available sequence data, and thus the need for new technology to analyze this data will further rise. GPCR function is shaped by a long evolutionary process characterized by mutation and natural selection. The likelihood that a particular residue or motif is responsible for proper GPCR function correlates to the degree of conservation amongst their ortholog sequences. The combination of evolutionary information, in vitro functional characterization, and structural evaluation of missense mutations, is an extremely powerful approach to interpret the correlation between genetic variations, their molecular causes, and altered receptor function. Finally, the combination of the concepts and tools described in this thesis are key steps towards the realization and implementation of a comprehensive platform for the analysis of sequence-structure-function relationships of all family A GPCRs. This ongoing project aims to provide sequences, structural and evolutionary information for a dataset comprising of as many as 20 500 family A GPCRs, facilitating i) the statistical analyses of evolutionary constraints at every helix position of a certain GPCR within this dataset, ii) the derivation of structural or functional reasons leading to variability or conservation of particular residues, iii) the tracing of conformational changes in-between activity states, and iv) binding pocket characterization and comparison.
G-Protein-gekoppelte Rezeptoren (GPCR) stellen bedeutende pharmakologische Zielstrukturen für die Wirkstoffforschung dar. Ihre Bedeutung zeigt sich vor allem darin, dass dreißig bis vierzig Prozent aller auf dem Markt befindlichen Arzneimittel direkt oder indirekt über diese Rezeptorfamilie wirken und zur Therapie der unterschiedlichsten Erkrankungen eingesetzt werden. Untersuchungen von natürlich vorkommenden sowie Mutationen aus in vitro- Mutagenesestudien sind daher unabdingbar und geben Einblicke in die Ursachen für humane genetische Erkrankungen. Weiterhin ermöglichen sie perspektivisch die Entwicklung pharmazeutischer Strategien an defekten sowie wildtypischen GPCR. Im Fokus dieser Arbeit stehen eine GPCR-Unterfamilie, die Glykoprotein- Hormon-Rezeptoren (GPHR) und der Nukleotidrezeptor P2Y12. Eine Vielzahl an natürlich vorkommenden Mutationen konnte bereits als Ursache von endokrinen Erkrankungen identifiziert werden. Der Thyreotropin-Rezeptor, ein Mitglied der GPHRs hat Schlüsselfunktionen in der Regulation der Schilddrüsenfunktion. Die häufigsten Störungen dieses Rezeptors führen zu kongenitaler Hyper- oder Hypothyreose. Der P2Y12 Rezeptor reguliert die Thrombozytenaggregation und spielt dadurch eine wichtige Rolle bei Verletzungen der Gefäßwand oder bei Thrombose. Angeborene Defekte in diesem Rezeptor führen häufig zu Blutgerinnungsstörungen. Spezifische Studien an einzelnen GPCRs verbessern das Verständnis von generellen Mechanismen und ermöglichen die Übertragung einzelner Merkmale auf andere Rezeptoren dieser Familie. Die strukturelle Aufklärung dieser Rezeptoren ermöglicht es, Erkenntnisse über die funktionelle und strukturgebende Relevanz einzelner Aminosäurepositionen des Rezeptors zu gewinnen. In den letzten Jahren wurden in diversen Studien zur Charakterisierung dieser Rezeptorfamilie riesige Datenmengen generiert, welche in Zukunft weiterhin rasant ansteigen werden. Dies betrifft vor allem, i) die Anzahl verfügbarer funktionaler Daten aus Mutagenesestudien ii) die Speicherung und Analyse von klinisch relevanten Sequenzvarianten, iii) die Verfügbarkeit vollständiger Genome und dadurch Sequenzdaten diverser Spezies im Zuge von Genomprojekten, und iv) die weitere Strukturaufklärung von GPCRs durch Kristallstrukturanalysen oder Kernspinresonanzspektroskopie. Die funktionale Charakterisierung von Mutationsdaten und die Analyse natürlich vorkommender pathogener Veränderungen helfen bei der Aufklärung der Funktionsweise von GPCR. Werkzeuge zur Analyse dieser umfassenden und uneinheitlich gespeicherten Daten sind rar, jedoch nötig, um den Einfluss genetischer Varianten auf unterschiedliche zelluläre Prozesse zu analysieren. Beeinflusst werden beispielsweise, die Ligandenbindung, Rezeptorexpression, G -Protein-Kopplung, Rezeptor-Desensitisierung, wie auch der Rücktransport der Rezeptoren zur Zelloberfläche. Die Kombination der Mutagenesedaten mit Sequenz- und Strukturinformationen ermöglicht es Rezeptormodifizierungen zu identifizieren, welche die natürliche Funktion einschränken. Weiterhin können auch Modifizierungen, die von dem System toleriert werden und das wildtypische Profil des Rezeptors nicht beeinflussen, ermittelt werden. Die in dieser Arbeit vorgestellten bioinformatischen Methoden zur Verknüpfung und Vereinheitlichung dieser grundverschiedenen Datensätze ermöglichen fachkundigen aber auch nicht fachkundigen Nutzern, die Visualisierung, Analyse und Extrahierung von Daten. Eine Mutationsdatenbank für eine GPCR- Unterfamilie, den GPHR, konnte im Zuge dieser Arbeit entscheidend weiterentwickelt werden. Zudem stand die Nutzerfreundlichkeit und der Ausbau als umfangreiche Informationsplattform im Vordergrund, um einem größeren Anwenderkreis gerecht zu werden (SSFA-GPHR, verfügbar unter http://www.ssfa- gphr.de). Im Detail wurden neue Werkzeuge zur Analyse und Visualisierung programmiert sowie der Datenumfang ausschlaggebend durch die Integration von Mehrfachmutationen erweitert. Zusätzliche Funktionalitäten für die Datenvisualisierung und Interpretation zeigten sich als besonders hilfreich, sowohl für die Entwicklung neuer, als auch bereits durchgeführter Experimente. Mit Hilfe dieser Datenbank lassen sich die molekularen Ursachen für abnormale Rezeptorfunktionen aufdecken. Zwei Anwendungsstudien, die dies illustrieren, werden in dieser Arbeit diskutiert. Dabei beschränken sich beide Studien auf den Thyreotropin-Rezeptor, welcher in den letzten 25 Jahren und bis heute Gegenstand umfangreicher experimenteller Studien war und ist. In der ersten Studie wird deutlich, dass die Datenbank essentiell für die Erkennung molekularer Zusammenhänge natürlich vorkommender „Gain-“ und „Loss-of- function-“ Mutationen ist. Dies konnte durch den Vergleich von Daten homologer Rezeptoren unterschiedlicher Spezies sowie verschiedener experimenteller Ansätze in Kombination mit struktureller Information unterstützt werden. Technisch wurde dafür ein neues Werkzeug entwickelt, welches die Projektion von funktionalen Daten auf die dreidimensionale Struktur ermöglicht und dadurch die Analyse des räumlichen Zusammenspiels der Aminosäureseitenketten fördert. Das zweite Anwendungsbeispiel wird durch die Verknüpfung funktionaler Daten bekannter Proteinvarianten mit statistischer Sequenzanalyse und Strukturauswertung charakterisiert. Im Laufe der Studie konnten Interaktionspartner unter den Aminosäureresten identifiziert werden, die entweder den basalen oder den aktiven Rezeptorzustand von GPHR stabilisieren. Einerseits konnte ein polares Cluster von Aminosäuren zwischen den Transmembranhelices 2, 3, 6 und 7 ermittelt werden, welches sehr wahrscheinlich an der Stabilisierung des inaktiven Zustandes des Rezeptors beteiligt ist. Wohingegen hauptsächlich hydrophobe Interaktionen am Interface zwischen Transmembranhelix 5 und 6 für die Stabilisierung der aktiven Rezeptorkonformation zuständig sind. Die Konservierung dieser Interaktionen innerhalb der Familie A der GPCR weist auf ihre fundamentale Bedeutung für die Regulation der Rezeptorfunktion hin. Da bisher noch keine vollständigen Kristallstrukturen der GPHR existieren, werden in der Datenbank Homologiemodelle verwendet, welche kontinuierlich durch neu bekanntwerdende Struktur- oder Funktionsdaten verbessert werden. Dabei werden auch Fragmente, wie die Struktur der Ektodomäne des Follitropin-Rezeptors in Komplex mit seinem Hormon Follitropin verwendet. Dies ermöglicht die Homologiemodellierung und anschließende Analyse der Thyreotropin-Komplexbildung für den homologen Thyreotropin-Rezeptor. Dadurch konnten Aminosäurereste identifiziert werden, die ausschlaggebend für die Hormonerkennung sowie die Hormonbindung an die Ektodomäne dieses Rezeptors sind. Um die Interaktionsschnittstellen zwischen Hormon und Ektodomäne näher analysieren zu können, wurde ein interaktives Tool entwickelt, dass dem Nutzer die Möglichkeit gibt, Kontakte und Interaktionspartner zwischen dem Hormon und dem jeweiligen Rezeptor aufzudecken. Homologiemodelle spielen in der GPCR-Forschung auch heute noch eine sehr große Rolle, denn bisher wurden Kristallstrukturen nur für einen sehr kleinen Bruchteil der großen Proteinfamilie gelöst. Aus diesem Grund wurde die frei zugängliche Plattform zur automatischen GPCR- Homologiemodellierung, „GPCR-Sequence-Structure-Feature-Extractor“ (SSFE, verfügbar unter http://www.ssfa-7tmr.de/ssfe), entwickelt. Diese generiert und speichert die Template-Vorhersagen, Sequenzalignments, die identifizierten Sequenz- und Strukturmotive sowie Homologiemodelle für 5025 Mitglieder der Familie A der GPCR. Die Besonderheit und das Alleinstellungsmerkmal dieser Methode im Gegensatz zu anderen verfügbaren Ansätzen ist, dass für jede Helix separat das jeweils beste Template gewählt wird. Die Selektion der Template- Strukturen wird nacheinander durchgeführt und anschließend werden die Helixfragmente zu einem Gesamtmodell zusammengefügt. Andere bekannte Methoden verwenden eine Kristallstruktur als Template für ein komplettes Modell. Dadurch können sie nicht von der strukturellen Vielfalt aller bereits publizierten GPCR Kristallstrukturen profitieren. Homologiemodelle, die mit der hier vorgestellten Methode generiert wurden, zeigten sich im Vergleich zu anderen Vorhersagemethoden, schneller in der Berechnung der Modelle und lieferten dabei ähnlich akkurate und in einigen Fällen sogar präzisere Resultate. Die Genauigkeit konnte anhand der mittleren quadratischen Abweichung des Transmembranbereiches der Homologiemodelle zur jeweils später publizierten Kristallstruktur überprüft werden. Die funktionelle Relevanz genetischer Varianten (Mutationen) kann mit Hilfe von Analysen der evolutionären Zusammenhänge bestehender Spezies aufgedeckt werden. Um diese Hypothese zu überprüfen, wurde ein Modellprotein aus der Familie A der GPCR, der Adenosindiphosphat-Rezeptor P2Y12, gewählt. Im folgenden Schritt konnte die evolutionäre Konservierung von 77 Orthologen (gleiches Protein unterschiedlicher Spezies) mit einem Datensatz von in vitro funktional charakterisierten Mutanten verglichen werden. Es wurde eine sättigende Mutagenese durchgeführt, das heißt an jeder Position wurden alle anderen 19 Aminosäurevarianten eingefügt und anschließend funktionell charakterisiert. Insgesamt entstanden so 1254 Mutationen. Für den Vergleich beider Datensätze und die anschließende statistische Analyse wurde eine web-basierte Plattform implementiert („P2Y12 Mutant Library“; http://www.ssfa-7tmr.de/p2y12). Mit Hilfe dieser Plattform lassen sich Übereinstimmungen zwischen der evolutionären Konservierung bzw. Variabilität und den in vitro-Mutagenesedaten finden. Die Studie zeigte, dass anhand der Orthologdaten die Funktion von mehr als 90% der Mutanten korrekt vorhergesagt werden konnte. Schlussfolgernd können demzufolge orthologe Sequenzdaten verwendet werden, um die funktionelle Relevanz einzelner Positionen und Mutationen sowohl für GPCR als auch für andere konservierte Proteine vorherzusagen. Dieser Ansatz wird zukünftig noch wichtiger, da im Zuge verschiedener Genomsequenzierungsprojekte die Anzahl der verfügbaren Sequenzdaten steigt und dadurch auch die Nachfrage nach neuen Technologien zur Analyse dieser Daten. Die Funktionsweise von GPCR wurde im Laufe der Evolution durch viele Prozesse, wie zum Beispiel Mutationsereignisse und natürliche Selektion, geprägt. Die Wahrscheinlichkeit, dass ein bestimmter Aminosäurerest oder ein Motiv wichtig für die Aufrechterhaltung der GPCR- Funktionen ist, korreliert mit dem Grad der Konservierung innerhalb der orthologen Sequenzen. Die Kombination von evolutionärer Information, funktioneller Charakterisierung und struktureller Auswertung von „missense“–Mutationen ist ein sehr vielversprechender Ansatz, um die Korrelation zwischen genetischer Variante, ihrer molekularen Zusammenhänge und der veränderten Rezeptorfunktion zu interpretieren. Zusammengefasst, stellen die in dieser Arbeit beschriebenen Konzepte und Werkzeuge einen entscheidenden Schritt zur Entwicklung einer allumfassenden Plattform zur Analyse von Sequenz-Struktur-Funktionsbeziehungen von GPCR der Familie A dar. Ein Ziel über diese Arbeit hinaus ist es, eine Ressource zu bieten, die Sequenzen, Strukturen und evolutionäre Zusammenhänge für GPCR der Familie A aus unterschiedlichen Spezies (insgesamt umfasst dieser Datensatz 20 500 Sequenzen) zur Verfügung stellt und gleichzeitig tiefergehende Analysen zulässt. Diese web-basierte Plattform wird momentan entwickelt und ermöglicht künftig i) die statistische und evolutionäre Auswertung an jeder einzelnen Helixposition eines bestimmten GPCR, ii) die Ableitung struktureller oder funktioneller Determinanten, die zur Variabilität bzw. Konservierung einzelner Positionen führen, iii) das Verfolgen konformationeller Änderungen zwischen verschiedenen Aktivitätszuständen der Rezeptoren und iv) die Charakterisierung und der Vergleich von Bindungstaschen in unterschiedlichen GPCR.