Short Summary
One of the main bottlenecks in the determination of three-dimensional protein structures by high-resolution nuclear magnetic resonance spectroscopy (NMR) is the assignment of chemical shifts to amino acids. In this thesis, an automated process for the assignment of NMR data is developed and described, utilising novel algorithms for spin assignment and equential assignment.
Already-existing programs for the automated assignment of high-resolution NMR spectra are reviewed and their shortcomings pointed out. In particular, the information used as a starting point by all of those programs is a manually- edited peak list; however, the editing phase requires significant expertise and is tantamount to a ``pre-assignment´´ of the spectra. Hence, the rationale for a new type of spin system assignment program is described here, using a knowledge of the expected patterns of peaks for different amino acids to find spin systems.
The spin system assignment program is designed to work on patterns of peaks in multiple spectra simultaneously. Results produced by the program can then be subjected to various heuristic filtering operations, to remove redundant results and re-order the surviving results according to plausibility. The design of a program for sequential assignment is also described.
Using synthetically generated spectra, it could be demonstrated that spin system assignment within the original spectra is successful even in cases where there is a chemical shift displacement between the spectra, or where peaks are weak or non-existent. An analysis of experimental data from the protein disulphide isomerase N-terminal thioredoxin-like domain showed that the program is capable of assigning a significant proportion of the chemical shifts in the spectra presented to it. Experiments with the previously unassigned RalGDS Ras binding domain demonstrated that existing patterns can be used in the assignment of completely new spectra without substantial adjustment.
The second program, used for sequential assignment, takes as input the spin systems predicted by the spin system assignment program when applied to backbone spectra. Promising results were produced from the protein disulphide isomerase N-terminal thioredoxin-like domain data, and it is likely that they can be further improved once a larger and more consistent set of experimental spectra is available.
In summary, the new computational approach in the search and assignment programs has improved the speed and efficiency in the automated analysis of NMR data. The resulting information will be useful for providing a routine basis for subsequently calculating the three-dimensional structure of a protein, which is essential for understanding its biological function.
Zusammenfassung
Bei der Ermittlung dreidimensionaler Proteinstrukturen durch hochauslösende Kernspinresonanz-Spektroskopie (NMR) stellt die Zuordnung der chemischen Verschiebungen noch einen erheblichen Engpass dar. In dieser Dissertation wird ein automatisiertes Zuordnungsverfahren für NMR-Daten eingeführt und entwickelt.
Zuerst wird eine Übersicht über bereits existierende Zuordnungsprogramme für hochauslösender NMR-Spektren vorgelegt und auf ihre Mängel hingewiesen. Dabei ist zu beachten, dass all diese Programme eine per Hand editierte Liste von Signalen als Quelldaten benutzen. Dieses Edititieren benötigt ein nicht unwesentliches Fachwissen; man kann diese Phase als eine ``Vor-Zuordnung´´ betrachten. Deshalb wird hier ein neues Konzept für ein Programm beschrieben, das sich die Kenntnis der zu erwartenden Signalmuster für die verschiedenen Aminosäuren zunutze macht, um die einzelnen Spinsysteme zu finden.
Das Zuordnungsprogramm für Spinsysteme bearbeitet Signalmuster von mehreren Spektren gleichzeitig. Die daraus abgeleiteten Ergebnisse werden durch heuristische Filter geleitet, um überflüssige Ergebnisse zu entfernen, und um die übrigen Ergebnisse, entsprechend ihrer Plausibilität neu zu ordnen. Die Konstruktion eines Programmes für die sequentielle Zuordnung wird ebenfalls beschrieben.
Mittels synthetisch erzeugter Spektren konnte gezeigt werden, dass eine Spinsystem-Zuordnung unmittelbar von den Quellspektren möglich ist, sogar in den Fällen, wo die Spektren gegeneinander verschoben sind, oder wo einige Signale nur schwach oder gar nicht ausgeprägt sind. Weiterhin wurden die experimentellen Daten der N-terminalen Thioredoxin-ähnlichen Domäne des Protein Disulphid Isomerase analysiert, um zu zeigen, dass das Programm in der Lage ist, einen signifikanten Teil der vorgelegten chemischen Verschiebungen zuzuordnen. Experimente mit der vorher noch nicht zugeordneten Ras bindenden Domäne von RalGDS zeigten, dass die bereits existierenden Muster ohne wesentliche Änderungen übertragen werden können, um neue unbekannte Spektren zuzuordnen.
Das zweite Programm, für die sequentielle Zuordnung, verwendet die vom ersten Programm vorhergesagten Spinsysteme der Rückgrat-Spektren als Quelldaten. Vielversprechende Ergebnisse wurden mit den Daten der N-terminalen Thioredoxin-ähnlichen Domäne des Protein Disulphid Isomerase erhalten. Wahrscheinlich können sie noch weiter verbessert werden, wenn ein grösserer und im höherem Maße konsistenter experimenteller Datensatz zugänglich wäre.
Zusammenfassend hat die neue rechnerische Methode der oben beschriebenen Programme die Geschwindigkeit und Effizenz der automatisierten Zuordnung von NMR Daten verbessert. Die dadurch erhältlichen Signalinformationen eignen sich als routinemäßige Basis zur Berechnung von Proteinstrukturen. Eine dreidimensionale Struktur wiederum ist die notwendige Voraussetzung dafür, die biologische Funktion eines Proteins zu verstehen.