dc.contributor.author
Thedinga, Anna Kristina
dc.date.accessioned
2024-08-27T09:39:32Z
dc.date.available
2024-08-27T09:39:32Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/44203
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-43913
dc.description.abstract
Cancer is a leading cause of death worldwide and the second leading cause of death in Germany. The primary goal of cancer therapy is to reduce mortality and improve patient survival. However, the choice of therapy is heavily influenced by the patient’s prognosis, highlighting the importance of cancer survival prediction as a means to quantify the patient’s risk and estimate prognosis.
This dissertation presents a cancer survival prediction approach that uses XGBoost tree ensemble learning and is based on gene expression data of 25 different cancer types from The Cancer Genome Atlas (TCGA). We evaluate two versions of this approach, one trained on each cancer type separately and the other trained on pan-cancer data comprising all 25 cancer types, and find that the pan-cancer approach yields improved performance over the single-cancer approach. Furthermore, we evaluate the pan-cancer approach on additional molecular data types, including mutations, copy number variations, and protein expression data, and identify gene expression as the most informative data type. To assess the biological plausibility of the gene expression-based pan-cancer survival prediction approach, we apply network propagation to gene weights derived from the survival prediction model and infer a pan-cancer survival network comprising 103 genes. These 103 genes are most significantly enriched for the tumor microenvironment, which has been associated with cancer progression, metastasis, and response to therapy, validating the biological plausibility of our survival prediction approach.
Furthermore, we explore the potential of transfer learning for cancer survival prediction. To this end, we pre-train neural networks for cancer survival prediction, but also for related tasks such as tissue type and age prediction. We then transfer the learned knowledge to cancer survival prediction on independent datasets from TCGA, as well as substantially smaller cancer studies. We find that transfer learning can indeed improve cancer survival prediction, although the benefit of transfer learning may depend on the size and characteristics of the datasets used.
en
dc.description.abstract
Krebs ist eine der häufigsten Todesursachen weltweit und die zweithäufigste Todesursache in Deutschland. Das vorrangige Ziel von Krebstherapie ist es, die Sterblichkeit zu reduzieren und das Überleben von Patienten zu verbessern. Die Wahl der Therapie wird jedoch stark von der Prognose des Patienten beeinflusst, was die Bedeutung von Krebsüberlebensvorhersage als Mittel zur Quantifizierung des Patientenrisikos und zur Einschätzung der Prognose hervorhebt.
Diese Dissertation stellt einen Ansatz zur Vorhersage des Überlebens von Krebspatienten vor, der XGBoost Tree-Ensemble-Learning nutzt und auf Genexpressionsdaten von 25 verschiedenen Krebsarten aus The Cancer Genome Atlas (TCGA) basiert. Wir evaluieren zwei Versionen dieses Ansatzes, wobei in der einen Version für jede Krebsart separat und in der anderen auf Pan-Krebs-Daten von allen 25 Krebsarten trainiert wird, und stellen fest, dass das Pan-Krebs-Training zu besseren Ergebnissen führt als das Training für einzelne Krebstypen. Außerdem evaluieren wir den Pan-Krebs-Ansatz auf zusätzlichen molekularen Datentypen, einschließlich Mutationen, Copy Number Variations, und Proteinexpressionsdaten, und identifizieren Genexpression als den informativsten Datentypen. Um die biologische Plausibilität des auf Genexpression basierenden Pan-Krebs-Ansatzes zu untersuchen, wenden wir Network Propagation auf aus dem Vorhersagemodell abgeleitete Gengewichte an und leiten ein 103 Gene umfassendes Pan-Krebs-Überlebensnetzwerk ab. Diese 103 Gene sind angereichert für die Mikroumgebung des Tumors, die mit Krebsfortschritt, Metastasierung und dem Ansprechen auf Therapien assoziiert ist, was die biologische Plausibilität unserer Vorhersagemethode bestätigt.
Darüber hinaus untersuchen wir das Potenzial von Transferlernen für die Vorhersage von Krebsüberleben. Dazu trainieren wir zunächst Neuronale Netze für die Vorhersage von Krebsüberleben, aber auch für verwandte Aufgaben wie die Vorhersage von Gewebsarten und Alter. Dann übertragen wir das gelernte Wissen auf die Vorhersage von Krebsüberleben für unabhängige Datensätze von TCGA, aber auch aus wesentlich kleineren Krebsstudien. Wir stellen fest, dass Transferlernen tatsächlich die Vorhersage von Krebsüberleben verbessern kann, obgleich der Nutzen von Transferlernen von der Größe und den Eigenschaften der verwendeten Datensätze abhängen kann.
de
dc.format.extent
xiv, 187 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Machine learning
en
dc.subject
Survival prediction
en
dc.subject
Bioinformatics
en
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::000 Informatik, Informationswissenschaft, allgemeine Werke
dc.subject.ddc
500 Naturwissenschaften und Mathematik::500 Naturwissenschaften::500 Naturwissenschaften und Mathematik
dc.title
Machine Learning for Cancer Survival Prediction
dc.contributor.gender
female
dc.contributor.firstReferee
Vingron, Martin
dc.contributor.furtherReferee
Scheffer, Tobias
dc.date.accepted
2024-07-05
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-44203-7
dc.title.translated
Maschinelles Lernen für die Krebsüberlebensvorhersage
ger
refubium.affiliation
Mathematik und Informatik
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access
dcterms.accessRights.proquest
accept