dc.contributor.author
Gupta, Shobhit
dc.date.accessioned
2018-06-08T01:06:59Z
dc.date.available
2005-11-24T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/12954
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-17152
dc.description
Title page
Motivation
From simple genome to complex proteome
Resources for transcriptome analysis
Confidence-based prediction of (alternative) splicing
Expression patterns of (alternative) transcripts
T-STAG: An integrated portal for EST-based transcriptome analysis
Summary
Bibliography
Appendix
dc.description.abstract
Alternative splicing generates multiple transcripts from a single gene and
partly explains the diversity in eukaryotic transcriptomes. Expressed Sequence
Tag (EST) data is a major resource that enables identification of exon-intron
structure of these transcripts. However, technical artifacts like
contamination of the EST data with unspliced mRNA, gaps in the alignment, etc.
lead to incorrect predictions of exon-intron boundaries. Therefore, this
thesis aims to separate potentially reliable splice sites from the frequent
technical artifacts. Until the characterization of a distinct set of rules
governing the splicing process, definition of a rigorous mathematical score
function to reliably delineate splice events is a difficult proposition. As an
alternative approach, in this thesis a fuzzy logic approach is used that
offers a robust approximation for the combination of various EST-based
parameters into a single score. Applying the method on a set of known
alternative exons (AEDB database), almost all the known exons are assigned
high score values. The Expressed Sequence Tag data also includes the
annotation of tissue and/or tumor source of the cDNA libraries that were used
to generate the EST sequences. This annotation is utilized to evaluate tissue
-/tumor-specificity of the predicted (alternative) splice events. Upon
validation of the expression pattern of these transcripts using RT-PCR
experiments over a large set of tissue types, the expression of transcripts in
the respective tissues is always confirmed. However, the experiments often
revealed expression in additional tissues that are not represented in the EST
data. This could partly be explained by the variation in protocols of EST
generation as well as lack of ESTs for some tissues. Such observations
advocate the importance of integrating independent datasets to delineate
expression patterns of transcripts. In order to facilitate integration of our
EST based tools with external datasets, our predictions of (alternative)
transcripts and their expression patterns have been implemented into a
relational database schema (T-STAG: Tissue-Specific Transcripts And Genes).
Apart from being a portal for these individual datasets, the T-STAG web-
interface is designed to integrate underlying resources, thereby enabling
applications like the detection of differentially expressed genes in tumors,
the retrieval of orthologs with significant expression in the same tissue as
well as genes specific to groups of tissues. In addition, T-STAG provides a
platform for integration of EST-based resources with external datasets. Owing
to the different characteristics of various datasets, such an integrated
approach would cover a wider spectrum of transcripts, thereby facilitating the
functional characterization of these transcripts.
de
dc.description.abstract
Alternatives Spleissen ermoeglicht, dass aus einem einzigen Gen mehrere mRNA
Transkripte entstehen koennen. Dieser Vorgang kann die Vielfalt eukariotischer
Transkriptome teilweise erklaeren. Daten ueber "Expressed Sequence Tags" (EST)
bilden eine der Hauptinformationsquellen, die die Aufklaerung von Exon-Intron
Strukturen solcher Transkripte ermoeglichen. Jedoch koennen verschiedene
Artefakte, z.B. durch ungespleisste mRNA verunreinigte EST-Daten, Gaps im
Sequenzalignment oder aehnliches zu ungenauen Vorhersagen von Exon-Intron
Grenzen fuehren. Das Ziel der hier vorliegenden Arbeit ist es, verlaessliche
Spleisstellen von technischen Artefakten zu trennen. Da der Prozess des
Spleissens noch unzureichend verstanden ist, kann kein exaktes Modell zur
Identifikation von Splicestellen auf streng mathematische Weise hergeleitet
werden. In der hier vorliegenden Arbeit wird deshalb ein alternativer Ansatz
angewendet, um mit Hilfe eines Fuzzy-Logic-Ansatzes EST-bezogene Parameter
empirisch zu einer robusten Approximation eines Scores zu kombinieren.
Validiert man diese Methode an Exons, von denen bekannt ist, dass sie
alternativ gespleisst werden (AEDB Datenbank), so wird nahezu allen diesen
Exons ein hoher Score-Wert zugeschrieben. EST-Datensaetze beinhalten
Informationen bezueglich des (Tumor)-Gewebes, welches die Grundlage der cDNA-
Bibliothek war, aus welcher die EST-Sequenzen generiert wurden. Diese
Annotationen wurden verwendet, um die Gewebe- bzw. die Tumorspezifitaet der
vorhergesagten alternativen Spleiss-Ereignisse zu bestimmen. Zur Validierung
der vorhergesagten Expressionsmuster durchgefuehrte RT-PCR Experimente waren
durchweg positiv. Zusaetzlich wurde die Expression vieler dieser Transkripte
in weiteren, nicht vorhergesagten Geweben nachgewiesen. Dies kann unter
anderem an einem Mangel an ESTs in speziellen Geweben bzw. An
unterschiedlichen Protokollen zur EST-Gewinnung liegen. Gleichzeitig stellen
solche Beobachtungen dar, wie wichtig die Integration unabhaengiger
Datensaetze zur Charakterisierung von Expressionsmustern von mRNA-Transkripten
ist. Um das Anwenden der EST-basierten Software-Werkzeuge auf externe
Datensaetze zu erleichtern, wurden daher die in dieser Arbeit erzeugten
Vorhersagen alternativer Transkripte (und deren Expressionsmuster) in ein
relationales Datenbank-Schema implementiert (T-STAG: Tissue-Specific
Transcripts And Genes). T-STAG bietet somit einen Zugang zu den
zugrundeliegenden Datensaetzen. Das T-STAG Web-Interface wurde entwickelt, um
verschiedene Datensaetze zu integrieren. Dadurch wird die Moeglichkeit
geschaffen, mit gezielten Fragestellungen zur Funktion und Evolution von
Transkripten anzugehen. So erleichtert T-STAG beispielsweise das Auffinden von
in Tumoren differentiell exprimierten Genen, die Identifikation von in
gleichen Geweben signifikant exprimierten orthologen Genen und die Bestimmung
gewebespezifischer Transkripte. Durch die Integration verschiedener EST-
bezogener Datensaetze bildet T-STAG eine Grundlage zur Analyse Gewebe-
spezifischer Prozesse und metabolischer Netzwerke.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::570 Biowissenschaften; Biologie
dc.title
EST-based detection and analysis of mammalian transcripts
dc.contributor.firstReferee
Prof. Dr. Martin Vingron
dc.contributor.furtherReferee
Prof. Dr. Ulf Leser
dc.date.accepted
2005-11-16
dc.date.embargoEnd
2005-11-25
dc.identifier.urn
urn:nbn:de:kobv:188-2005003155
dc.title.translated
EST-basierte Bestimmung und Analyse von Säugetier-mRNA Transkripten
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000001845
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2005/315/
refubium.mycore.derivateId
FUDISS_derivate_000000001845
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access