dc.contributor.author
Rasche, Axel
dc.date.accessioned
2018-06-07T22:57:56Z
dc.date.available
2010-02-03T11:44:03.603Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/9876
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-14074
dc.description
1 Introduction 1.1 Alternative splicing 1.2 Experimental techniques 1.3
Concepts of information theory as a measure of exon diversity 1.4 Type-2
diabetes mellitus 1.5 Aims of the thesis 2 Aspects of Alternative Splicing 2.1
Biological background 2.1.1 Alternative splicing patterns 2.1.2 Increase of
the proteomic diversity 2.1.3 Function and biological relevance 2.1.4 Splicing
errors 2.1.5 Alternative splicing in disease 2.1.6 Therapy of diseases caused
by alternative splicing 2.2 Global analysis with high-throughput technologies
2.2.1 Alternative splicing databases 2.2.2 Microarrays 2.2.3 RNA-Seq 3
Computational Analysis of Affymetrix Arrays 3.1 Design of the GeneChip array
3.1.1 The 3’ gene expression array 3.1.2 The exon array 3.1.3 Alternative
probe-gene assignments 3.2 Differential expression (DE) with 3’ gene
expression arrays 3.2.1 Experimental setup 3.2.2 Quality control of raw data
3.2.3 Determine test cases 3.2.4 Preprocessing 3.2.5 Evaluation of the data
and differential expression filter 3.2.6 Gene set evaluation: Over-
representation and group testing 3.3 Alternative splicing (AS) and
differential expression with exon arrays 3.3.1 Experimental setup and
determination of test cases 3.3.2 Preprocessing 3.3.3 Differential expression
evaluation and filter 3.3.4 Alternative splicing evaluation and filter 3.4 Use
of the pipelines for different research projects 4 Statistical Analysis of
Alternative Splicing 4.1 Preliminaries 4.2 ARH 4.2.1 Algorithm 4.2.2
Characteristics of ARH 4.3 Description of different methods 4.3.1 Splicing
index (SI) 4.3.2 SPLICE 4.3.3 Pattern-based correlation (PAC) 4.3.4 Analysis
of splice variation (ANOSVA) 4.3.5 Microarray detection of alternative
splicing (MiDAS) 4.3.6 Microarray analysis of differential splicing (MADS)
4.3.7 Finding isoforms using robust multichip analysis (FIRMA) 4.3.8
Correlation 4.3.9 Practical implementation of the methods 4.4 Evaluation of
alternative splicing prediction methods 4.4.1 Probe assignment and selection
of splicing events from the AEdb 4.4.2 Test data set 1: Tissue data with
literature confirmed events 4.4.3 Test data set 2: Spike-in transcripts 4.5
Discussion 4.5.1 General performance of methods and study design 4.5.2
Predictors vs. number of exons in the gene 4.5.3 Alternative splicing and
differential expression 4.5.4 Predictions with two arrays 4.5.5 Exon
expression variability 4.6 Approaches with negative results 5 Alternative
Splicing in Type-2 Diabetes Mellitus 5.1 Biology and genetics of type-2
diabetes mellitus 5.1.1 Diabetes mellitus 5.1.2 Physiology 5.1.3 Pathogenesis
5.1.4 Genetics 5.1.5 Animal models 5.2 Marker identification for type-2
diabetes mellitus by meta-analysis 5.2.1 Early stage gene expression changes
5.2.2 Mapping, preprocessing and categorisation of data 5.2.3 Identification
of marker genes – generality vs. specificity 5.2.4 Beyond the marker set 5.3
Evaluation of alternative splicing with exon arrays 5.3.1 Glycaemic and
genetic splicing changes 5.3.2 Splicing states in type-2 diabetes mellitus 6
Conclusion and Future Work 6.1 Expanding the splicing analysis 6.2 Refinement
of microarray analysis 6.3 Type-2 diabetes mellitus with alternative splicing
References Notation and Abbreviations Publications Acknowledgements
Zusammenfassung
dc.description.abstract
For biomedical research it is of major interest to identify the activity of
genes in specific tissues of an organism. The gene's activity is determined by
the amount of the gene's primary products, the transcripts. Transcript
abundance is quantified with experimental technologies and noted as gene
expression. However a gene does not always produce the same transcript but may
encode several different variants by a particular pooling mechanism of the
genetic sequence, called alternative splicing. Such a pooling mechanism is
necessary to explain the comparatively low number of genes: ~25 000 genes in
humans vs. ~20 000 in the nematode worm caenorhabditis elegans. Alternative
splicing controls condition dependent expression of specific variants. It is
not surprising that even minor splicing disturbances can have pathological
effects, i.e. may cause certain diseases. Since organisms like human contain
~25 000 active genes it is essential to use high-throughput data generation
techniques for analysis of global gene expression. Considering alternative
splicing, all these genes stand for ~100 000 transcripts to be analysed. Only
recently the necessary amount of data can be generated by technologies like
microarrays or RNA-Seq. Along with technological progress the large-scale data
analysis methods have to advance to cope with new research subjects like
alternative splicing. In the course of my work I have developed a software
pipeline for the analysis of alternative splicing and differential gene
expression. It was developed and implemented within the statistical processing
language R/BioConductor and comprises several steps such as quality control,
preprocessing, statistical evaluation of expression changes and gene set
evaluation. For the detection of alternative splicing a new method based on an
information theoretic concept is introduced to the field of gene expression
analysis. The method consists of a modification of Shannon's entropy to detect
altered transcript abundance and is called ARH – Alternative splicing Robust
prediction by Entropy. The methods and their implementation have been applied
to the disease domain of type-2 diabetes mellitus. First, a set of marker
genes is identified by data integration and meta-analysis of diverse data
resources using the differential expression pipeline. Second, alternative
splicing is analysed with the alternative splicing pipeline with special focus
on a set of marker genes and on functional sets of genes, i.e. pathways.
de
dc.description.abstract
Für die biomedizinische Grundlagenforschung ist es von besonderem Interesse,
die Aktivität von Genen in verschiedenen Geweben eines Organismus zu
bestimmen. Die Genaktivität wird hier bestimmt durch die Menge der direkten
Produkte eines Gens, die Transkripte. Die Häufigkeit der Transkripte wird
durch experimentelle Technologien quantifiziert und als Genexpression
bezeichnet. Aber ein Gen produziert nicht immer nur ein Transkript, sondern
kann mehrere Transkripte herstellen mittels der parallelen Kodierung, dem
sogenannten alternativen Spleissen. Solch ein Mechanismus ist notwendig um die
grosse Zahl an Proteinen und die verhältnismässig kleine Anzahl an Genen zu
erklären: ~25 000 Gene im Menschen gegenüber ~20 000 im Fadenwurm
caenorhabditis elegans. Alternatives Spleissen kontrolliert die Expression von
verschiedenen Transkriptvarianten unter verschiedenen Bedingungen. Es ist
nicht überraschend, dass auch kleine Fehler beim Spleissen pathologische
Wirkung entfalten, d.h. Krankheiten auslösen können. Da Organismen wie der des
Menschen etwa 25 000 verschiedene Gene besitzen, war es notwendig, für die
Analyse der globalen Genexpression Hochdurchsatzmethoden zur Datengenerierung
zu entwickeln. Mit dem alternativen Spleissen stehen all diesen Genen mehrere
Transkripte gegenüber. Erst seit kurzem kann die notwendige Menge an Daten
generiert werden durch Technologien wie z.Bsp. Microarrays oder
Sequenzierungstechnologie der neuesten Generation. Gleichzeitig mit dem
technischen Fortschritt müssen die Datenanalyseverfahren mithalten, um neuen
Forschungsfragen zu entsprechen. Im Laufe dieser Arbeit wird eine
Softwarepipeline vorgestellt für die Analyse von alternativem Spleissen sowie
differentieller Genexpression. Sie wurde entwickelt und implementiert in der
Programmiersprache und Statistik-Software R und BioConductor und umfasst die
Schritte Qualitätskontrolle, Vorverarbeitung, statistische Auswertung der
Expressionsveränderungen und Genmengenauswertung. Für die Erkennung von
alternativem Spleissen wird die Informationstheorie in das Gebiet der
Genexpression eingeführt. Die vorgestellte Lösung besteht aus einer
Erweiterung der Shannon-Entropie auf die Erkennung veränderter
Transkripthäufigkeiten und heisst ARH – Alternatives Spleissen Robuste
Vorhersage mittels Entropie. Der Nutzen der entwickelten Methoden und
Implementierungen wird aufgezeigt am Beispiel von Daten zum Typ-2 Diabetes
mellitus. Mittels Datenintegration und Metaanalyse von unterschiedlichen
Datenquellen werden Markergene bestimmt mit Fokus auf differentielle
Expression. Danach wird alternatives Spleissen untersucht mit speziellem Fokus
auf die Markergene und funktionelle Genmengen, d.h. Stoffwechselwegen.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
information theory
dc.subject
alternative splicing
dc.subject
type-2 diabetes mellitus
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.subject.ddc
600 Technik, Medizin, angewandte Wissenschaften::610 Medizin und Gesundheit
dc.title
Information theoretical prediction of alternative splicing with application to
type-2 Diabetes Mellitus
dc.contributor.contact
rasche@molgen.mpg.de
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Winston Hide
dc.contributor.furtherReferee
Prof. Dr. Hans Lehrach
dc.date.accepted
2010-01-11
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000015535-7
dc.title.translated
Informationstheoretische Vorhersage von alternativem Spleissen mit Anwendung
auf den Typ-2-Diabetes mellitus
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000015535
refubium.mycore.derivateId
FUDISS_derivate_000000006958
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access