This thesis addresses the gap between the amount of on-hand expression data and the availability of information related to the function of those genes. To this end, a data mining procedure for the identification of genes that are associated with pre-defined phenotypes and/or molecular pathways was established. Based on the observation that pathway/phenotype associated genes are frequently expressed in same or nearby places and at identical or similar time points, an approach termed Common Denominator Procedure (CDP) was devised. One unique feature of this novel approach is that the specificity and probability to identify desired phenotype/pathway-associated factors increases the more diverse the input data are. Three different approaches are discussed and compared: (i) a basic CDP, (ii) a genetic algorithm based CDP and (iii) an indicator genes based CDP. To show the feasibility of these approaches, the CGAP Expression Data combined with a defined set of angiogenic factors was used to identify additional and novel angiogenesis-associated genes. A multitude of these additional genes were known to be associated with angiogenesis according to published data, verifying the approach. Application of a high throughput functional genomics platform (XantoScreen(tm)) provided further experimental evidence for association of candidate genes with angiogenesis.
Die vorliegende Arbeit handelt von einem Data Mining Verfahren zur Identifizierung von Genen eines bestimmten Regelkreises bzw. Phänotyps. Das Common Denominator Procedure (CDP) genannte Verfahren basiert auf der Beobachtung, dass Gene, die mit einem bestimmten Pathway/Phänotyp assoziiert sind, häufig zum selben Zeitpunkt am selben Ort exprimiert sind. Eine außergewöhnliche Eigenschaft dieses neuen Verfahrens, im Gegensatz zu bereits bekannten, ist, dass die Spezifität und Wahrscheinlichkeit die gesuchten Pathway/Phänotyp assoziierten Faktoren zu identifizieren mit der Diversität der Eingangsdaten wächst. Es werden drei unterschiedliche Vorgehensweisen diskutiert und miteinander verglichen: (i) elementares CDP, (ii) genetischer Algorithmus basiertes CDP und (iii) Indikatorgen basiertes CDP. CGAP Expressionsdaten wurden zusammen mit einer definierten Testgruppe angiogenetischer Faktoren benutzt, zur Identifizierung neuer mit Angiogenese- assoziierter Gene. Die Anreicherung von Angiogenese-spezifischen Genen in den resultierenden Kandidatenlisten wurden mit Hilfe (a) der Anreicherung von Genen aus der Testgruppe, (b) der Präsenz von zusätzlichen Genen, deren Angiogenesemodulation bereits beschreiben wurde, und (c) der Präsenz von experimentell validierten Genen, deren Assoziation mit Angiogenese bisher unbekannt war, bewertet. Für alle genannten CDPs konnte eine relevante Anreicherung von Angiogenese assoziierten Genen gezeigt werden. Das beschriebene Verfahren kann leicht auf andere Pathways/Phänotypen angewandt werden, indem entsprechende TestGruppen, bzw. Indikatorgene definiert werden. Darüber hinaus ist das Verfahren nicht auf CGAP Expressionsdaten beschränkt. Information über die Präsenz von Genen in bestimmten Gewebeproben, wie sie neben EST und SAGE Daten auch RT-PCR, QPCR, Northern Blot und Mikroarray Analysen liefern, ist ausreichend für das CDP. Auf Grund der hohen Spezifität ist das CDP als primärer Screen zur Identifizierung von Targets geeignet. Außerdem kann es mit genomweiten funktionellen Analysetechniken kombiniert werden, um Targets für die Diagnose und Therapie humaner Krankheiten zu finden.