Identification of marker genes associated with a specific tissue or cell type, and discrimination between different classes of samples such as different cell types or tissues using gene expression profiles are important problems in cell research. Comparing the gene expression profiles of different types of samples is of major importance for understanding differentiation, development and disease. In this thesis, I present new bioinformatics tools to detect marker genes and classify samples using gene expression profiles. These contributions can be divided into three sub-projects: First, I optimized and extended the marker tool MGFM (Marker Gene Finder in Microarray gene expression data) to support the detection of marker genes from RNA-seq data. For this purpose, I implemented an R package called MGFR (Marker Gene Finder in RNA-seq data). Furthermore, I present a comparison study between microarrays and RNA-seq. I identify robust marker genes (predicted by both MGFM and MGFR) for a set of 16 human tissues, and suggest novel candidate marker genes for each of the examined tissues. Next, I compare the set of predicted marker genes to a gold- standard list of marker genes obtained from the Tissue-specific Gene Expression and Regulation (TiGER) database. In addition, I validated the expression of top ranked marker genes by reverse transcriptase-polymerase chain reaction (RT-PCR) for a set of five tissues. Second, I developed sampleClassifier, a novel computational method, which uses a simple algorithm called "Shared Marker Genes" (SMG) to classify samples based on their gene expression profiles. As the name suggests, the number of shared marker genes between a reference and a query sample is used as a similarity measure. I demonstrate the utility and effectiveness of the proposed approach by the classification of different tissues using public microarray and RNA-seq datasets. Furthermore, I compared my tool to a Support Vector Machines (SVMs) classifier. My approach performed comparably or better than SVMs. The SMG algorithm is implemented as an R package, which is available from the Bioconductor repository (http://www.bioconductor.org). Finally, I apply MGFM and sampleClassifier to publicly available biopsy-based microarray gene expression data from eight diverse kidney diseases. I identify marker genes for each of the examined diseases, and demonstrate the performance of the classification tool in distinguishing between normal and disease samples, as well as between different types of renal diseases.
Die Identifizierung von gewebe- oder zelltypspezifischen Markergenen, sowie die Unterscheidung zwischen verschiedenen Klassen von Proben, wie z. B. verschiedenen Zelltypen oder Geweben, basierend auf ihren Genexpressionsprofilen sind wichtige Aspekte innerhalb der Zellforschung. Herauszufinden, inwiefern sich die Genexpressionsprofile verschiedener Probenarten unterscheiden bzw. ähneln, ist von großer Bedeutung für das Verständnis der Zelldifferenzierung, Entwicklung und Erkrankungen. In dieser Doktorarbeit stelle ich neue bioinformatische Ansätze vor, um Markergene zu detektieren und Proben anhand von Genexpressionsprofilen zu klassifizieren. Die Beiträge der Arbeit können in drei Teilprojekte unterteilt werden: Erstens habe ich das Marker-Tool MGFM (Marker Gene Finder in Microarray gene expression data) optimiert und erweitert um die Vorhersage von Markergenen aus RNA-seq-Daten zu unterstützen. Zu diesem Zweck habe ich ein R-Paket namens MGFR (Marker Gene Finder in RNA-seq data) implementiert. Darüber hinaus präsentiere ich eine Vergleichsstudie zwischen Microarrays und RNA-seq. Ich identifiziere robuste Markergene (vorhergesagt durch MGFM und MGFR) für 16 humane Gewebe, und schlage neue Kandidatenmarkergene für jedes der untersuchten Gewebe vor. Als nächstes vergleiche ich die vorhergesagten Markergene mit einer Gold-Standard Liste von Markergenen, die aus der TiGER (Tissue-specific Gene Expression and Regulation) Datenbank extrahiert wurden. Darüber hinaus habe ich die expression von Top-Markergenen durch reverse Transkriptase-Polymerase-Kettenreaktion (RT-PCR) für fünf Gewebe validiert. Zweitens habe ich sampleClassifier entwickelt, ein neuartiges bioinformatisches Tool, das einen einfachen Algorithmus namens "Shared Marker Genes" (SMG) verwendet, um Proben basierend auf ihrem Genexpressionsprofil zu klassifizieren. Wie der Name schon sagt, wird die Anzahl der gemeinsamen Markergene zwischen einer Referenz und einer Abfrageprobe als Ähnlichkeitsmaß verwendet. Ich zeige den Nutzen und die Wirksamkeit des vorgeschlagenen Ansatzes durch die Klassifizierung verschiedener Gewebe unter Verwendung von öffentlichen Microarray- und RNA-seq-Datensätzen. Darüber hinaus habe ich mein Tool mit Support Vector Machines (SVMs) verglichen. Die Genauigkeit meines Tools ist besser oder vergleichbar mit der der SVMs. Der SMG Algorithmus ist als R-Paket implementiert, das auf der Bioconductor Website (http://www.bioconductor.org) verfügbar ist. Zum Schluss wende ich MGFM und sampleClassifier auf der Grundlage von öffentlich zugänglichen Biopsie- basierten Microarraydaten von acht verschiedenen Nierenerkrankungen an. Ich identifiziere Markergene für jede der untersuchten Krankheiten, und demonstriere die Performance des Klassifizierungstools bei der Unterscheidung zwischen Genexpressionsprofilen von normalem und erkranktem Gewebe, sowie zwischen verschiedenen Arten von Nierenerkrankungen.