Alternative splicing generates multiple transcripts from a single gene and partly explains the diversity in eukaryotic transcriptomes. Expressed Sequence Tag (EST) data is a major resource that enables identification of exon-intron structure of these transcripts. However, technical artifacts like contamination of the EST data with unspliced mRNA, gaps in the alignment, etc. lead to incorrect predictions of exon-intron boundaries. Therefore, this thesis aims to separate potentially reliable splice sites from the frequent technical artifacts. Until the characterization of a distinct set of rules governing the splicing process, definition of a rigorous mathematical score function to reliably delineate splice events is a difficult proposition. As an alternative approach, in this thesis a fuzzy logic approach is used that offers a robust approximation for the combination of various EST-based parameters into a single score. Applying the method on a set of known alternative exons (AEDB database), almost all the known exons are assigned high score values. The Expressed Sequence Tag data also includes the annotation of tissue and/or tumor source of the cDNA libraries that were used to generate the EST sequences. This annotation is utilized to evaluate tissue -/tumor-specificity of the predicted (alternative) splice events. Upon validation of the expression pattern of these transcripts using RT-PCR experiments over a large set of tissue types, the expression of transcripts in the respective tissues is always confirmed. However, the experiments often revealed expression in additional tissues that are not represented in the EST data. This could partly be explained by the variation in protocols of EST generation as well as lack of ESTs for some tissues. Such observations advocate the importance of integrating independent datasets to delineate expression patterns of transcripts. In order to facilitate integration of our EST based tools with external datasets, our predictions of (alternative) transcripts and their expression patterns have been implemented into a relational database schema (T-STAG: Tissue-Specific Transcripts And Genes). Apart from being a portal for these individual datasets, the T-STAG web- interface is designed to integrate underlying resources, thereby enabling applications like the detection of differentially expressed genes in tumors, the retrieval of orthologs with significant expression in the same tissue as well as genes specific to groups of tissues. In addition, T-STAG provides a platform for integration of EST-based resources with external datasets. Owing to the different characteristics of various datasets, such an integrated approach would cover a wider spectrum of transcripts, thereby facilitating the functional characterization of these transcripts.
Alternatives Spleissen ermoeglicht, dass aus einem einzigen Gen mehrere mRNA Transkripte entstehen koennen. Dieser Vorgang kann die Vielfalt eukariotischer Transkriptome teilweise erklaeren. Daten ueber "Expressed Sequence Tags" (EST) bilden eine der Hauptinformationsquellen, die die Aufklaerung von Exon-Intron Strukturen solcher Transkripte ermoeglichen. Jedoch koennen verschiedene Artefakte, z.B. durch ungespleisste mRNA verunreinigte EST-Daten, Gaps im Sequenzalignment oder aehnliches zu ungenauen Vorhersagen von Exon-Intron Grenzen fuehren. Das Ziel der hier vorliegenden Arbeit ist es, verlaessliche Spleisstellen von technischen Artefakten zu trennen. Da der Prozess des Spleissens noch unzureichend verstanden ist, kann kein exaktes Modell zur Identifikation von Splicestellen auf streng mathematische Weise hergeleitet werden. In der hier vorliegenden Arbeit wird deshalb ein alternativer Ansatz angewendet, um mit Hilfe eines Fuzzy-Logic-Ansatzes EST-bezogene Parameter empirisch zu einer robusten Approximation eines Scores zu kombinieren. Validiert man diese Methode an Exons, von denen bekannt ist, dass sie alternativ gespleisst werden (AEDB Datenbank), so wird nahezu allen diesen Exons ein hoher Score-Wert zugeschrieben. EST-Datensaetze beinhalten Informationen bezueglich des (Tumor)-Gewebes, welches die Grundlage der cDNA- Bibliothek war, aus welcher die EST-Sequenzen generiert wurden. Diese Annotationen wurden verwendet, um die Gewebe- bzw. die Tumorspezifitaet der vorhergesagten alternativen Spleiss-Ereignisse zu bestimmen. Zur Validierung der vorhergesagten Expressionsmuster durchgefuehrte RT-PCR Experimente waren durchweg positiv. Zusaetzlich wurde die Expression vieler dieser Transkripte in weiteren, nicht vorhergesagten Geweben nachgewiesen. Dies kann unter anderem an einem Mangel an ESTs in speziellen Geweben bzw. An unterschiedlichen Protokollen zur EST-Gewinnung liegen. Gleichzeitig stellen solche Beobachtungen dar, wie wichtig die Integration unabhaengiger Datensaetze zur Charakterisierung von Expressionsmustern von mRNA-Transkripten ist. Um das Anwenden der EST-basierten Software-Werkzeuge auf externe Datensaetze zu erleichtern, wurden daher die in dieser Arbeit erzeugten Vorhersagen alternativer Transkripte (und deren Expressionsmuster) in ein relationales Datenbank-Schema implementiert (T-STAG: Tissue-Specific Transcripts And Genes). T-STAG bietet somit einen Zugang zu den zugrundeliegenden Datensaetzen. Das T-STAG Web-Interface wurde entwickelt, um verschiedene Datensaetze zu integrieren. Dadurch wird die Moeglichkeit geschaffen, mit gezielten Fragestellungen zur Funktion und Evolution von Transkripten anzugehen. So erleichtert T-STAG beispielsweise das Auffinden von in Tumoren differentiell exprimierten Genen, die Identifikation von in gleichen Geweben signifikant exprimierten orthologen Genen und die Bestimmung gewebespezifischer Transkripte. Durch die Integration verschiedener EST- bezogener Datensaetze bildet T-STAG eine Grundlage zur Analyse Gewebe- spezifischer Prozesse und metabolischer Netzwerke.