For biomedical research it is of major interest to identify the activity of genes in specific tissues of an organism. The gene's activity is determined by the amount of the gene's primary products, the transcripts. Transcript abundance is quantified with experimental technologies and noted as gene expression. However a gene does not always produce the same transcript but may encode several different variants by a particular pooling mechanism of the genetic sequence, called alternative splicing. Such a pooling mechanism is necessary to explain the comparatively low number of genes: ~25 000 genes in humans vs. ~20 000 in the nematode worm caenorhabditis elegans. Alternative splicing controls condition dependent expression of specific variants. It is not surprising that even minor splicing disturbances can have pathological effects, i.e. may cause certain diseases. Since organisms like human contain ~25 000 active genes it is essential to use high-throughput data generation techniques for analysis of global gene expression. Considering alternative splicing, all these genes stand for ~100 000 transcripts to be analysed. Only recently the necessary amount of data can be generated by technologies like microarrays or RNA-Seq. Along with technological progress the large-scale data analysis methods have to advance to cope with new research subjects like alternative splicing. In the course of my work I have developed a software pipeline for the analysis of alternative splicing and differential gene expression. It was developed and implemented within the statistical processing language R/BioConductor and comprises several steps such as quality control, preprocessing, statistical evaluation of expression changes and gene set evaluation. For the detection of alternative splicing a new method based on an information theoretic concept is introduced to the field of gene expression analysis. The method consists of a modification of Shannon's entropy to detect altered transcript abundance and is called ARH – Alternative splicing Robust prediction by Entropy. The methods and their implementation have been applied to the disease domain of type-2 diabetes mellitus. First, a set of marker genes is identified by data integration and meta-analysis of diverse data resources using the differential expression pipeline. Second, alternative splicing is analysed with the alternative splicing pipeline with special focus on a set of marker genes and on functional sets of genes, i.e. pathways.
Für die biomedizinische Grundlagenforschung ist es von besonderem Interesse, die Aktivität von Genen in verschiedenen Geweben eines Organismus zu bestimmen. Die Genaktivität wird hier bestimmt durch die Menge der direkten Produkte eines Gens, die Transkripte. Die Häufigkeit der Transkripte wird durch experimentelle Technologien quantifiziert und als Genexpression bezeichnet. Aber ein Gen produziert nicht immer nur ein Transkript, sondern kann mehrere Transkripte herstellen mittels der parallelen Kodierung, dem sogenannten alternativen Spleissen. Solch ein Mechanismus ist notwendig um die grosse Zahl an Proteinen und die verhältnismässig kleine Anzahl an Genen zu erklären: ~25 000 Gene im Menschen gegenüber ~20 000 im Fadenwurm caenorhabditis elegans. Alternatives Spleissen kontrolliert die Expression von verschiedenen Transkriptvarianten unter verschiedenen Bedingungen. Es ist nicht überraschend, dass auch kleine Fehler beim Spleissen pathologische Wirkung entfalten, d.h. Krankheiten auslösen können. Da Organismen wie der des Menschen etwa 25 000 verschiedene Gene besitzen, war es notwendig, für die Analyse der globalen Genexpression Hochdurchsatzmethoden zur Datengenerierung zu entwickeln. Mit dem alternativen Spleissen stehen all diesen Genen mehrere Transkripte gegenüber. Erst seit kurzem kann die notwendige Menge an Daten generiert werden durch Technologien wie z.Bsp. Microarrays oder Sequenzierungstechnologie der neuesten Generation. Gleichzeitig mit dem technischen Fortschritt müssen die Datenanalyseverfahren mithalten, um neuen Forschungsfragen zu entsprechen. Im Laufe dieser Arbeit wird eine Softwarepipeline vorgestellt für die Analyse von alternativem Spleissen sowie differentieller Genexpression. Sie wurde entwickelt und implementiert in der Programmiersprache und Statistik-Software R und BioConductor und umfasst die Schritte Qualitätskontrolle, Vorverarbeitung, statistische Auswertung der Expressionsveränderungen und Genmengenauswertung. Für die Erkennung von alternativem Spleissen wird die Informationstheorie in das Gebiet der Genexpression eingeführt. Die vorgestellte Lösung besteht aus einer Erweiterung der Shannon-Entropie auf die Erkennung veränderter Transkripthäufigkeiten und heisst ARH – Alternatives Spleissen Robuste Vorhersage mittels Entropie. Der Nutzen der entwickelten Methoden und Implementierungen wird aufgezeigt am Beispiel von Daten zum Typ-2 Diabetes mellitus. Mittels Datenintegration und Metaanalyse von unterschiedlichen Datenquellen werden Markergene bestimmt mit Fokus auf differentielle Expression. Danach wird alternatives Spleissen untersucht mit speziellem Fokus auf die Markergene und funktionelle Genmengen, d.h. Stoffwechselwegen.