dc.contributor.author
El Amrani, Khadija
dc.date.accessioned
2018-06-07T15:27:49Z
dc.date.available
2018-02-22T14:12:31.845Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/1114
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-5316
dc.description.abstract
Identification of marker genes associated with a specific tissue or cell type,
and discrimination between different classes of samples such as different cell
types or tissues using gene expression profiles are important problems in cell
research. Comparing the gene expression profiles of different types of samples
is of major importance for understanding differentiation, development and
disease. In this thesis, I present new bioinformatics tools to detect marker
genes and classify samples using gene expression profiles. These contributions
can be divided into three sub-projects: First, I optimized and extended the
marker tool MGFM (Marker Gene Finder in Microarray gene expression data) to
support the detection of marker genes from RNA-seq data. For this purpose, I
implemented an R package called MGFR (Marker Gene Finder in RNA-seq data).
Furthermore, I present a comparison study between microarrays and RNA-seq. I
identify robust marker genes (predicted by both MGFM and MGFR) for a set of 16
human tissues, and suggest novel candidate marker genes for each of the
examined tissues. Next, I compare the set of predicted marker genes to a gold-
standard list of marker genes obtained from the Tissue-specific Gene
Expression and Regulation (TiGER) database. In addition, I validated the
expression of top ranked marker genes by reverse transcriptase-polymerase
chain reaction (RT-PCR) for a set of five tissues. Second, I developed
sampleClassifier, a novel computational method, which uses a simple algorithm
called "Shared Marker Genes" (SMG) to classify samples based on their gene
expression profiles. As the name suggests, the number of shared marker genes
between a reference and a query sample is used as a similarity measure. I
demonstrate the utility and effectiveness of the proposed approach by the
classification of different tissues using public microarray and RNA-seq
datasets. Furthermore, I compared my tool to a Support Vector Machines (SVMs)
classifier. My approach performed comparably or better than SVMs. The SMG
algorithm is implemented as an R package, which is available from the
Bioconductor repository (http://www.bioconductor.org). Finally, I apply MGFM
and sampleClassifier to publicly available biopsy-based microarray gene
expression data from eight diverse kidney diseases. I identify marker genes
for each of the examined diseases, and demonstrate the performance of the
classification tool in distinguishing between normal and disease samples, as
well as between different types of renal diseases.
de
dc.description.abstract
Die Identifizierung von gewebe- oder zelltypspezifischen Markergenen, sowie
die Unterscheidung zwischen verschiedenen Klassen von Proben, wie z. B.
verschiedenen Zelltypen oder Geweben, basierend auf ihren
Genexpressionsprofilen sind wichtige Aspekte innerhalb der Zellforschung.
Herauszufinden, inwiefern sich die Genexpressionsprofile verschiedener
Probenarten unterscheiden bzw. ähneln, ist von großer Bedeutung für das
Verständnis der Zelldifferenzierung, Entwicklung und Erkrankungen. In dieser
Doktorarbeit stelle ich neue bioinformatische Ansätze vor, um Markergene zu
detektieren und Proben anhand von Genexpressionsprofilen zu klassifizieren.
Die Beiträge der Arbeit können in drei Teilprojekte unterteilt werden: Erstens
habe ich das Marker-Tool MGFM (Marker Gene Finder in Microarray gene
expression data) optimiert und erweitert um die Vorhersage von Markergenen aus
RNA-seq-Daten zu unterstützen. Zu diesem Zweck habe ich ein R-Paket namens
MGFR (Marker Gene Finder in RNA-seq data) implementiert. Darüber hinaus
präsentiere ich eine Vergleichsstudie zwischen Microarrays und RNA-seq. Ich
identifiziere robuste Markergene (vorhergesagt durch MGFM und MGFR) für 16
humane Gewebe, und schlage neue Kandidatenmarkergene für jedes der
untersuchten Gewebe vor. Als nächstes vergleiche ich die vorhergesagten
Markergene mit einer Gold-Standard Liste von Markergenen, die aus der TiGER
(Tissue-specific Gene Expression and Regulation) Datenbank extrahiert wurden.
Darüber hinaus habe ich die expression von Top-Markergenen durch reverse
Transkriptase-Polymerase-Kettenreaktion (RT-PCR) für fünf Gewebe validiert.
Zweitens habe ich sampleClassifier entwickelt, ein neuartiges
bioinformatisches Tool, das einen einfachen Algorithmus namens "Shared Marker
Genes" (SMG) verwendet, um Proben basierend auf ihrem Genexpressionsprofil zu
klassifizieren. Wie der Name schon sagt, wird die Anzahl der gemeinsamen
Markergene zwischen einer Referenz und einer Abfrageprobe als Ähnlichkeitsmaß
verwendet. Ich zeige den Nutzen und die Wirksamkeit des vorgeschlagenen
Ansatzes durch die Klassifizierung verschiedener Gewebe unter Verwendung von
öffentlichen Microarray- und RNA-seq-Datensätzen. Darüber hinaus habe ich mein
Tool mit Support Vector Machines (SVMs) verglichen. Die Genauigkeit meines
Tools ist besser oder vergleichbar mit der der SVMs. Der SMG Algorithmus ist
als R-Paket implementiert, das auf der Bioconductor Website
(http://www.bioconductor.org) verfügbar ist. Zum Schluss wende ich MGFM und
sampleClassifier auf der Grundlage von öffentlich zugänglichen Biopsie-
basierten Microarraydaten von acht verschiedenen Nierenerkrankungen an. Ich
identifiziere Markergene für jede der untersuchten Krankheiten, und
demonstriere die Performance des Klassifizierungstools bei der Unterscheidung
zwischen Genexpressionsprofilen von normalem und erkranktem Gewebe, sowie
zwischen verschiedenen Arten von Nierenerkrankungen.
en
dc.format.extent
xviii, 135 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
classification
dc.subject
kidney disease
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::005 Computerprogrammierung, Programme, Daten
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie
dc.title
Computational methods for the identification and characterization of tissues
and cells
dc.contributor.firstReferee
Prof. Dr. Peter N. Robinson
dc.contributor.furtherReferee
Prof. Dr. Miguel Andrade
dc.contributor.furtherReferee
Dr. Andreas Kurtz
dc.date.accepted
2018-02-12
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000106455-3
dc.title.translated
Computergestützte Methoden zur Identifizierung und Charakterisierung von
Geweben und Zellen
en
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000106455
refubium.mycore.derivateId
FUDISS_derivate_000000023249
refubium.mycore.derivateId
FUDISS_derivate_000000023250
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access