Network analysis of protein structures has provided valuable insight into protein folding and function. However, the lack of a unifying view in network modelling and analysis of protein structures and the unexploited advances in network theory prompted me to address three important challenges: 1\. Rationalise the choice of network representation of protein structures. 2\. Propose a well fitting null model for protein structure networks. 3\. Develop a novel graph-based whole-residue empirical potential. Graphlets, a recently introduced and powerful concept in graph theory, are a fundamental aspect of this thesis. The topological similarity between protein structure networks or individual residues was assessed using graphlet-based methods in order to propose an optimised null model and develop a novel potential. Chapter 2 unifies the view of network representations by means of a controlled vocabulary and outlines the motivation behind the details of constructing such networks, and the popularity and optimality of the representations. In Chapter 3, an exhaustive set of 945 network representations is systematically analysed with respect to their similarity and fundamental network properties. The similarity between commonly used representations can be quite low and specific representations may exhibit high number of orphan residues and residues lying in ”separate” components. Additionally, proteins with different secondary structure topologies have to be treated with caution in any network analysis. This work allows for a rational selection of a network representation based on certain principles, popularity, optimality and desired network properties and on its similarity to successfully utilised representations. Chapter 4 shows that 3-dimensional geometric random graphs, that model spatial relationships between objects, provide the best fit to protein structure networks among several random graph models. The fit is overall better for a structurally diverse protein data set, various network representations and with respect to various topological properties. Geometric random graphs capture the network organisation better for larger proteins and proteins of low helical content and low thermostability. Choosing geometric random graphs as a null model results in the most specific identification of statistically significant subgraphs. In Chapter 5, a novel knowledge-based potential is developed by generalising the single-body contact-count potential to a whole-residue pure topological one. The proposed scoring function outperforms the contact-count potential. The improved performance is consistent across various methods of generating decoys with respect to most performance metrics and is more prominent for the most successful fragment-based methods. The potential is also on par with a traditional four-body potential and exhibits strong complementarities with it, highlighting the capacity for further improvement. Overall, this dissertation establishes the basis for the analysis of protein structures as networks and opens the door to new avenues in the quest for the perfect energy function.
Netzwerkanalysen von Proteinstrukturen erlauben wichtige Einblicke in Proteinfaltung und -funktion. Da bisher eine einheitliche Sichtweise auf die Netwerkmodellierung und Analyse von Proteinstrukturen fehlt und neuere Erkenntnisse der Netzwerktheorie bislang unberücksichtigt blieben, werden in dieser Arbeit die folgenden wichtigen Ziele bearbeitet: 1\. Die rationale Auswahl geeigneter Netzwerkdarstellungen von Proteinstrukturen. 2\. Die Ausarbeitung eines optimierten Nullmodells für Proteinstrukturnetzwerke. 3\. Die Entwicklung einer neuen graphenbasierten empirischen Potentialfunktion. Die Theorie der Graphlets, ein kürzlich eingeführtes, mächtiges Konzept in der Graphentheorie bildet die Grundlage dieser Arbeit. Mit Hilfe der Graphlets werden die topologischen Ähnlichkeiten verschiedener Netwerkdarstellungen untersucht. Dies führt zu einem optimierten Nullmodell und schließlich zu einer neuen Potentialfunktion. Kapitel 2 vereint verschiedene Netzwerkdarstellungen über ein kontrolliertes Vokabular. Dabei werden die Details der Netzwerk-Konstruktion motiviert sowie deren Popularität und Optimalität erläutert. In Kapitel 3 wird ein Satz von insgesamt 945 verschiedenen Netzwerkdarstellungen systematisch hinsichtlich ihrer Ähnlichkeit und ihrer grundlegenden Netzwerkeigenschaften analysiert. Es wird gezeigt, dass verschiedene häufig verwendete Darstellungen eine geringe Ähnlichkeit zueinander aufweisen. Zudem tauchen in einigen Darstellungen mehrere Zusammenhangskomponenten und nichtverbundene Knoten auf. Insbesondere Vergleiche zwischen Proteinen mit unterschiedlichen Sekundärstrukturtopologien sollten mit Vorsicht gezogen werden. Dieser Teil der Arbeit legt die Grundlagen für eine rationale Auswahl nach Kriterien wie Häufigkeit, Optimalität wünschenswerter Netzwerkeigenschaften sowie Ähnlichkeit zu bereits erfolgreich eingesetzten Darstellungen. In Kapitel 4 wird gezeigt, dass unter einer Reihe von Zufallsgraphmodellen die three-dimensionalen geometrischen Zufalls-Graphen am besten den Eigenschaften von Proteinstrukturnetzwerken entsprechen. Die Übereinstimmung, gemessen an einem strukturell diversen Datensatz, bleibt unter den verschiedensten Darstellungen und den verschiedenen topologischen Eigenschaften erhalten. Geometrische Zufallsgraphen entsprechen in ihrer Netzwerkstruktur am ehesten großen Proteinen, Strukturen mit einem geringen Anteil an alpha-helices oder solchen mit geringer Thermostabilität. Die Wahl geometrischer Zufalls-Graphen als Nullmodell erlaubt die sehr spezifische Identifikation statistisch signifikanter Teilgraphen. In Kapitel 5 wird eine neue empirische Potentialfunktion entwickelt, indem die Kontaktzahl als Potentialfunktion in eine rein topologische und residuen-basierte Form verallgemeinert und verbessert wird. Die verbesserten Eigenschaften sind konsistent und robust gegenüber verschiedenen Methoden zur Generierung von Decoys und verschiedenen Qualitätsmaßen. Die Ergebnisse liegen insgesamt etwa gleich auf mit denen vorhandener Vier-Körper-Potentiale, verhalten sich jedoch im Einzelfall mitunter stark komplementär zueinander. Dies deutet auf weiteres Entwicklungspotential hin. Insgesamt werden mit dieser Arbeit die Grundlagen für die systematische Analyse von Proteinstrukturen als Netzwerke gelegt und neue Ansatzmöglichkeiten für die Suche nach einer optimalen Energiefunktion eröffnet.