Based on oligonucleotide fingerprinting (OFP) analysis and subsequent EST production a non-redundant set of 10,016 medaka cDNA clones was established from three different embryonic stages (gastrula, neurula and organogenesis) and one adult tissue (ovary) as a resource of high value for further research on the medaka transcriptome. In a first round 26,880 medaka gastrula clones were subjected to OFP cluster analysis and representatives of each cluster or clones left as singletons were chosen for producing ESTs. In total 7680 cDNA clones were sequenced and 6909 high-quality 5'reads were obtained. The advantage of OFP lies not only in the normalisation but it is also possible to get insight into differential expression by subjecting cDNA libraries of different developmental stages or tissues to fingerprinting analysis. Therefore in a second round in addition to the gastrula clones, cDNA inserts from libraries of the ovary tissue and neurula and organogenesis stages were included. From this approach another 11,468 high-quality 5'ESTs were produced. All EST sequence data was published in GenBank EST database with the accession numbers from AM137442 to AM156757. The 18,377 high-quality sequences obtained were, by EST clustering, grouped into 3268 clusters and 7274 singletons providing us with 10542 unique sequences. Further clustering reduced this set to 10,016 unique sequences. High-quality EST clusters and singletons were annotated. To 8155 of these sequences functions were assigned, with many sequences showing similarity to proteins with important functions, e.g. in development. EST data which showed no similarity to any other known proteins includes by a large amount valuable and high-quality sequence information and must therefore be seen as new Medaka sequence data, either protein-coding or non-coding.
Mit Hilfe der Oligonukleotid Fingerprintinganalyse (OFP) und anschließender EST Sequenzierung wurde ein nicht redundanter Satz von 10.016 cDNA Klonen von drei verschiedenen embryonalen Stadien (Gastrula, Neurula und Organogenese) und einem adulten Gewebe (Ovar) erstellt. Dieser Datensatz stellt eine wertvolle Resource für die weitere Arbeit am Medaka Transkriptom dar. Während erster Experimente wurden 26.880 Medaka Gastrula Klone einer OFP Clusteranalyse unterzogen und Repräsentanten resultierender OFP Cluster und Singletons wurden für die Produktion von ESTs ausgewählt. Insgesamt wurden 7.680 cDNA Klone sequenziert und daraus entstanden 6.909 qualitativ hochwertige 5' Sequenzen. Der Vorteil der OFP Analyse liegt aber nicht nur in der Normalisierung von cDNA Bibliotheken, sondern diese Methode bietet auch die Möglichkeit einen Einblick in differentielle Expression zu erhalten, wenn cDNA Bibliotheken verschiedener Entwicklungsstadien oder Gewebe verwendet werden. Deshalb wurden in weiteren Experimenten zusätzlich zu Gastrulaklonen auch cDNA Klone von drei anderen Bibliotheken, Ovar, Neurula und Organogenese, in die Analyse einbezogen. Davon wurden dann weitere 11.468 5' ESTs produziert. Die EST-Sequenzen wurden in der GenBank EST Datenbank unter den Accession Numbers AM137442 bis AM156757 publiziert. Die 18.377 EST Sequenzen hoher Qualität wurden durch Clusteranalyse in 3.268 Cluster und 7.274 Singletons gruppiert, die 10.542 verschiedene Sequenzen darstellen. Durch weitere Clusteranalyse wurde dieser Datensatz auf 10.016 Sequenzen reduziert. Diese Sequenzen wurden annotiert und für 8.155 dieser Sequenzen konnte eine Funktion zugeordnet werden, wobei viele Sequenzen Ähnlichkeit zu wichtigen Proteinen aufwiesen, z.B. zu Proteinen mit Funktion in der Embryonalentwicklung. EST Daten, denen keine Funktion zugewiesen werden konnte, bestehen zu einem großen Teil aus wertvoller, hoch-qualitativer Sequenzinformation und können somit als neue, proteinkodierende oder nicht- kodierende, Medaka Sequenzinformation gesehen werden.