Intrinsically disordered regions (IDRs) in proteins have been linked to many crucial functions, including mediating protein-protein interactions (PPIs), despite lacking a single invariant three-dimensional structure. This growing recognition has led to an increased demand for computational studies that focus on the amino acid sequences corresponding to proteins to identify crucial sequence characteristics in IDRs and their connections to diverse cellular functions. In the first part of this thesis,we have put forward two statistical methods to identify sequence features responsible for IDR functions. We introduce a statistical approach for quantifying the periodicity of aromatic residues in the human proteome by modeling their occurrence using a Poisson process. Next, we introduce another statistical analysis of IDR sequences to identify co-occurring amino acid groups in transcription factors (TFs) that co-bind to enhancer elements. In the second part of the thesis, our focus shifts to predicting PPIs using only protein sequences. In this thesis, we present a novel method to address PPI prediction challenge using IDR sequences. We encountered challenges while developing a PPI prediction model because our task essentially involves making predictions based on pairs of input data. In this regard, we present two distinct machine learning algorithms to address two different types of PPI prediction problems, namely, asymmetric and symmetric problems. For the asymmetric problem, where one of the proteins has already been included in the classifier, we develop a method to predict disordered protein partners of the known proteins in our dataset. On the other hand, for the symmetric problem, we implement another approach to predict entirely novel PPIs. Furthermore, we explore whether IDR amino acid sequences outperform other sequence components, including entire sequences and non-IDR regions, in predicting PPIs. Our findings led us to the conclusion that disordered regions are particularly valuable in predicting interactions between intrinsically disordered proteins. In summary, this thesis provides insights into dealing with paired nature datasets when developing machine learning models for PPI prediction and demonstrates how statistical approaches can be used to investigate IDR sequences for feature identification and predict PPIs based on IDR sequences.
Intrinsically disordered regions (IDRs) in Proteinen wurden mit vielen wichtigen Funktionen assoziiert, obwohl ihnen eine einzelne unveränderliche 3-dimensionale Struktur fehlt, unter anderem die Vermittlung von Protein-Protein-Interaktionen (PPIs). Die wachsende Erkenntnis über die Bedeutung von IDRs hat zu einer erhöhten Nachfrage nach computergestützten Studien geführt, die sich auf die Aminosäuresequenzen von Proteinen konzentrieren, um entscheidende Sequenzmerkmale in IDRs und ihre Verbindungen zu verschiedenen zellulären Funktionen zu identifizieren. Im ersten Teil dieser Arbeit stellen wir zwei statistische Methoden zur Identifikation von Sequenzmerkmalen vor, die für IDR-Funktionen verantwortlich sind. Wir präsentieren einen statistischen Ansatz zur Quantifizierung der Periodizität aromatischer Rückstände im menschlichen Proteom durch Modellierung ihres Auftretens anhand eines Poisson-Prozesses. Außerdem führen wir eine weitere statistische Analyse von IDR-Sequenzen ein, um gemeinsam auftretende Aminosäuregruppen in Transkriptionsfaktoren (TFs) zu entdecken, die zusammen an Enhancer-Elemente binden. Im zweiten Teil der Arbeit liegt unser Fokus auf der Vorhersage von PPIs nur aus Proteinsequenzen. Hier präsentieren wir eine neue Methode, um die Herausforderung der PPI-Vorhersage unter Verwendung von IDR-Sequenzen anzugehen. Wir stießen bei der Entwicklung eines PPI-Vorhersagemodells auf Herausforderungen, da unsere Aufgabe im Prinzip darin besteht, Vorhersagen auf der Grundlage von Paaren von Eingabedaten zu treffen. In diesem Zusammenhang stellen wir zwei unterschiedliche Algorithmen für maschinelles Lernen vor, um zwei PPI-Vorhersageproblemen zu lösen, nämlich asymmetrische und symmetrische Probleme. Für das asymmetrische Problem, bei dem eines der Proteine bereits im Klassifizierer enthalten ist, entwickeln wir eine Methode zur Vorhersage ungeordneter Proteinpartner bekannter Proteine in unserem Datenset. Für das symmetrische Problem implementieren wir hingegen einen anderen Ansatz, um völlig neue PPIs vorherzusagen. Zudem prüfen wir, ob IDR-Aminosäuresequenzen andere Sequenzkomponenten, einschließlich ganzer Sequenzen und Nicht-IDR-Regionen, in der PPI-Vorhersage übertreffen. Unsere Ergebnisse führen zu der Schlussfolgerung, dass ungeordnete Regionen besonders wertvoll für die Vorhersage von Interaktionen zwischen intrinsisch ungeordneten Proteinen sind. Zusammenfassend liefert diese Arbeit Erkenntnisse über den Umgang mit gepaarten Datensätzen bei der Entwicklung von maschinellen Lernmodellen für die PPI-Vorhersage. Wir zeigen, wie statistische Ansätze verwendet werden können, um IDR-Sequenzen für die Merkmalsidentifizierung zu untersuchen und PPIs basierend auf IDR-Sequenzen vorherzusagen.