dc.contributor.author
Filippis, Ioannis
dc.date.accessioned
2018-06-08T00:57:36Z
dc.date.available
2012-08-29T08:59:34.214Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/12746
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-16944
dc.description.abstract
Network analysis of protein structures has provided valuable insight into
protein folding and function. However, the lack of a unifying view in network
modelling and analysis of protein structures and the unexploited advances in
network theory prompted me to address three important challenges: 1\.
Rationalise the choice of network representation of protein structures. 2\.
Propose a well fitting null model for protein structure networks. 3\. Develop
a novel graph-based whole-residue empirical potential. Graphlets, a recently
introduced and powerful concept in graph theory, are a fundamental aspect of
this thesis. The topological similarity between protein structure networks or
individual residues was assessed using graphlet-based methods in order to
propose an optimised null model and develop a novel potential. Chapter 2
unifies the view of network representations by means of a controlled
vocabulary and outlines the motivation behind the details of constructing such
networks, and the popularity and optimality of the representations. In Chapter
3, an exhaustive set of 945 network representations is systematically analysed
with respect to their similarity and fundamental network properties. The
similarity between commonly used representations can be quite low and specific
representations may exhibit high number of orphan residues and residues lying
in ”separate” components. Additionally, proteins with different secondary
structure topologies have to be treated with caution in any network analysis.
This work allows for a rational selection of a network representation based on
certain principles, popularity, optimality and desired network properties and
on its similarity to successfully utilised representations. Chapter 4 shows
that 3-dimensional geometric random graphs, that model spatial relationships
between objects, provide the best fit to protein structure networks among
several random graph models. The fit is overall better for a structurally
diverse protein data set, various network representations and with respect to
various topological properties. Geometric random graphs capture the network
organisation better for larger proteins and proteins of low helical content
and low thermostability. Choosing geometric random graphs as a null model
results in the most specific identification of statistically significant
subgraphs. In Chapter 5, a novel knowledge-based potential is developed by
generalising the single-body contact-count potential to a whole-residue pure
topological one. The proposed scoring function outperforms the contact-count
potential. The improved performance is consistent across various methods of
generating decoys with respect to most performance metrics and is more
prominent for the most successful fragment-based methods. The potential is
also on par with a traditional four-body potential and exhibits strong
complementarities with it, highlighting the capacity for further improvement.
Overall, this dissertation establishes the basis for the analysis of protein
structures as networks and opens the door to new avenues in the quest for the
perfect energy function.
de
dc.description.abstract
Netzwerkanalysen von Proteinstrukturen erlauben wichtige Einblicke in
Proteinfaltung und -funktion. Da bisher eine einheitliche Sichtweise auf die
Netwerkmodellierung und Analyse von Proteinstrukturen fehlt und neuere
Erkenntnisse der Netzwerktheorie bislang unberücksichtigt blieben, werden in
dieser Arbeit die folgenden wichtigen Ziele bearbeitet: 1\. Die rationale
Auswahl geeigneter Netzwerkdarstellungen von Proteinstrukturen. 2\. Die
Ausarbeitung eines optimierten Nullmodells für Proteinstrukturnetzwerke. 3\.
Die Entwicklung einer neuen graphenbasierten empirischen Potentialfunktion.
Die Theorie der Graphlets, ein kürzlich eingeführtes, mächtiges Konzept in der
Graphentheorie bildet die Grundlage dieser Arbeit. Mit Hilfe der Graphlets
werden die topologischen Ähnlichkeiten verschiedener Netwerkdarstellungen
untersucht. Dies führt zu einem optimierten Nullmodell und schließlich zu
einer neuen Potentialfunktion. Kapitel 2 vereint verschiedene
Netzwerkdarstellungen über ein kontrolliertes Vokabular. Dabei werden die
Details der Netzwerk-Konstruktion motiviert sowie deren Popularität und
Optimalität erläutert. In Kapitel 3 wird ein Satz von insgesamt 945
verschiedenen Netzwerkdarstellungen systematisch hinsichtlich ihrer
Ähnlichkeit und ihrer grundlegenden Netzwerkeigenschaften analysiert. Es wird
gezeigt, dass verschiedene häufig verwendete Darstellungen eine geringe
Ähnlichkeit zueinander aufweisen. Zudem tauchen in einigen Darstellungen
mehrere Zusammenhangskomponenten und nichtverbundene Knoten auf. Insbesondere
Vergleiche zwischen Proteinen mit unterschiedlichen Sekundärstrukturtopologien
sollten mit Vorsicht gezogen werden. Dieser Teil der Arbeit legt die
Grundlagen für eine rationale Auswahl nach Kriterien wie Häufigkeit,
Optimalität wünschenswerter Netzwerkeigenschaften sowie Ähnlichkeit zu bereits
erfolgreich eingesetzten Darstellungen. In Kapitel 4 wird gezeigt, dass unter
einer Reihe von Zufallsgraphmodellen die three-dimensionalen geometrischen
Zufalls-Graphen am besten den Eigenschaften von Proteinstrukturnetzwerken
entsprechen. Die Übereinstimmung, gemessen an einem strukturell diversen
Datensatz, bleibt unter den verschiedensten Darstellungen und den
verschiedenen topologischen Eigenschaften erhalten. Geometrische
Zufallsgraphen entsprechen in ihrer Netzwerkstruktur am ehesten großen
Proteinen, Strukturen mit einem geringen Anteil an alpha-helices oder solchen
mit geringer Thermostabilität. Die Wahl geometrischer Zufalls-Graphen als
Nullmodell erlaubt die sehr spezifische Identifikation statistisch
signifikanter Teilgraphen. In Kapitel 5 wird eine neue empirische
Potentialfunktion entwickelt, indem die Kontaktzahl als Potentialfunktion in
eine rein topologische und residuen-basierte Form verallgemeinert und
verbessert wird. Die verbesserten Eigenschaften sind konsistent und robust
gegenüber verschiedenen Methoden zur Generierung von Decoys und verschiedenen
Qualitätsmaßen. Die Ergebnisse liegen insgesamt etwa gleich auf mit denen
vorhandener Vier-Körper-Potentiale, verhalten sich jedoch im Einzelfall
mitunter stark komplementär zueinander. Dies deutet auf weiteres
Entwicklungspotential hin. Insgesamt werden mit dieser Arbeit die Grundlagen
für die systematische Analyse von Proteinstrukturen als Netzwerke gelegt und
neue Ansatzmöglichkeiten für die Suche nach einer optimalen Energiefunktion
eröffnet.
de
dc.format.extent
XII, 201 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Protein Structure
dc.subject
Residue Interaction Graph
dc.subject
Structural Bioinformatics
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Graphlet based network analysis of protein structures
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Michael Schroeder
dc.date.accepted
2012-06-26
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000038616-6
dc.title.translated
Graphlet-basierte Netzwerkanalyse von Proteinstrukturen
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000038616
refubium.mycore.derivateId
FUDISS_derivate_000000011698
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access