Profile und Matrizen sind in den Biowissenschaften häufig angewendete Konstrukte, um Vergleiche von Hochdurchsatzdaten durchzuführen oder deren Visualisierungen zu ermöglichen. Ein mathematischer Vergleich solcher Profile setzt bestimmte Algorithmen und in bestimmten Fällen Vergleichsmetriken, z.B. Distanzmetriken, voraus. Im Zusammenhang dieser Arbeit versteht sich ein Profil als eine Aneinanderreihung von Eigenschaften einer physikalischen Entität über eine Reihe von Objekten, und die Eigenschaften dieser Objekte charakterisieren dann diese Entität. Wenn Profile mehrerer Entitäten aufeinander gestapelt werden, ergibt sich eine Matrix von Entitäten über Objekte. In einer solchen Matrix gilt die orthogonale Sichtweise genauso: ein Objekt lässt sich über ein Profil von biophysikalischen Entitäten beschreiben. In den vier mit dieser Arbeit zusammengefassten Publikationen wird eine Reihe von Profilanwendungen präsentiert, die direkt oder indirekt Bedeutung in der Biomedizin erlangt haben: Topologien in Phylogenomischen Bäumen für eine Reihe genereller Bakterienstämme, methodisch neu eingeführt als Tree Topology Profiling; die Cha-rakterisierung von Spezien über die Gesamtheit aller Genfamilien; Chemosensitivi-tätsprofile sowie Genexpressionsprofile als Charakterisierungen von chemischen Substanzen oder Genen über eine Reihung von Krebszelllinien; Substanz-Zielgen-Matrizen als Charakteristikum des Interaktionspotentials z. B. in Krebs-relevanten Signalwegen. Eine weitere Anwendung besteht in der Darstellung von Genexpressi-onsprofilen innerhalb einer Genfamilie für zwei biologische Subjekte, die vergleichbaren experimentellen oder medizinischen Behandlungen unterworfen waren. In der ersten Publikation werden Genomphylogenien, die in der Literatur als Resultate der jeweiligen Generierung in sehr heterogener Form zu finden sind, in Bezug zu ihrem algorithmischen Hintergrund gestellt. Aus den Ergebnissen wird die allgemeine Bedeutung verwendeter Distanzmetriken für Profilanwendungen herausgearbeitet. Die Datenbank CancerResource, http://bioinf- data.charite.de/cancerresource/, für Substanz-Zielgen-Interaktionen untermauert mit experimentellen Daten sowie die Web-basierte Software Ortho2ExpressMatrix für Genexpressionsereignisse innerhalb von Genfamilien, http://bioinf-data.charite.de/o2em/cgi-bin/o2em.pl, werden in drei weiteren Publikationen beschrieben. Sie haben zentrale Bedeutung auf den Gebieten der Medikament-relevanten Krebsforschung und der Vergleichenden Genomik.
In biosciences, profiles and matrices are constructs that can be used for comparisons or visualizations of high-throughput data. Such comparisons based on calculations require distinct algorithms and, if distance-based algorithms are used, metrics for similarity or distance calculation. In this work, a profile is defined as a sequence of characters across a given set of objects to describe and characterize a particular physical entity of interest. Hence, a profile is a vector of attributes detected from the objects selected. Profile stacking reveals in a matrix of entities times objects, and the orthogonal view allows the comparison of the objects by attribute patterns across the entities. This work presents publications elucidating several profile approaches with implications in biomedicine, in particular: gene family profiles to characterize taxonomic species and used to infer gene content trees; Tree Topology Profiling--introduced with this work as new method--to discriminate phylogenomic trees by topology events for a set of characteristic bacterial clades; chemosensitivity profiles as well as gene expression profiles to characterize chemicals or genes across cancer cell lines. Furthermore, matrices of drug-target gene interactions characterize the interaction potential in, e.g., cancer signaling pathways. A further approach combines profiles for differential gene expression with gene family information for two biological subjects after comparable treatments by experimental or medical methods. The first publication emphasizes the impact of generation procedures on phylogeny inferences because an extreme heterogeneity is observed in published whole genome phylogenies. Findings are quantified by a meta-analysis based on Tree Topology Profiling and retraced to inference methodologies. General aspects of metrics used for phylogeny inferences based on profiles are discussed. The other three pub-lications describe the database CancerResource for drug-target gene interactions, http ://bioinf-data.charite.de/cancerresource/, various Web Service components used in CancerResource, as well as the web-based software Ortho2ExpressMatrix for gene expression events within full-length gene families, http://bioinf- data.charite.de/o2em/cgi-bin/o2em.pl. The first paper covers the scientific field of comparative phylogenomics; the latter papers cover the fields of drug-relevant cancer research and comparative genomics.