Using the World Wide Web to answer a specific question often requires information to be collected from multiple heterogeneous Web sites. Virtual Web sites are a promising approach to automate this task for particular, focused application domains.
A virtual Web site serves pages containing concentrated information that has been extracted, homogenized, and combined from several underlying Web sites.
The HyperView approach to the integration of semistructured data presented in this thesis provides a methodology, a formal framework, and a software environment for building such virtual Web sites.
The HyperView approach treats the three steps of data extraction, integration, and presentation uniformly as consecutive views that map between different levels of abstraction. These levels are reflected by the architectural layers of the system. The contents of Web sites as well as the consecutive views are represented as graphs. Views are defined by sets of graph transformation rules. A demand-driven rule activation mechanism has been formally described and implemented. This mechanism incrementally materializes views in response to queries issued against them.
The HyperView System has been implemented in Prolog. Graph transformation rules are compiled into efficient Prolog predicates. Java servlets are used to support virtual Web sites.
The main contributions of this thesis are:
1\. the key idea of applying the same view mechanism uniformly to the problems of extraction, integration, and presentation, 2\. the HyperView methodology for modeling and integrating Web sites, 3\. the formal framework defining the data model, rule concept, and the demand-driven view materialization mechanism of HyperView, 4\. the HyperView System prototype providing a platform for building virtual integrated Web sites 5\. the validation of the HyperView methodology and system in case studies on Digital Libraries and Town Information.
Die Beantwortung konkreter Fragen per World Wide Web erfordert häufig das Zusammentragen und Kombinieren von Informationen aus mehreren Web-Sites. Virtuelle Web Sites versprechen, diese Aufgabe zumindest für begrenzte Anwendungsbereiche zu automatisieren. Ein virtueller Web Site bietet Informationen, die aus zugrundeliegenden Web Sites extrahiert, vereinheitlicht, und integriert wurden.
Der HyperView-Ansatz zur Integration von semistrukturierten Daten besteht aus einer Methodik, einem mathematischen Formalismus und einer Software-Umgebung für die Realisierung virtueller Web Sites. Im HyperView-Ansatz werden die drei Schritte der Extrahierung, Integration und Präsentation der Daten als aufeinanderfolgende Sichten (Views) aufgefaßt, welche die Abstraktionsebenen der HyperView-Architektur aufeinander abbilden. Der Inhalt jeder Schicht wird durch Graphen repräsentiert. Sichten werden durch Mengen von Graphtransformationsregeln definiert. Ein bedarfsgesteuerter Mechanismus zur Aktivierung dieser Regeln wurde formal beschrieben und implementiert. Dieser Mechanismus materialisiert Sichten inkrementell, in Reaktion auf Anfragen.
Das HyperView System ist in Prolog implementiert. Graphtransformationsregeln werden in effiziente Prolog-Prädikate kompiliert. Java Servlets werden für die Generierung von HTML-Seiten genutzt.
Die Hauptergebnisse dieser Arbeit sind:
1\. der Nachweis, daß die Probleme der Daten-Extraktion, -Integration, und -Präsentation mit einem einheitlichen Abbildungs-Mechanismus gelöst werden können, 2\. die HyperView-Methodik für die Modellierung und Integration von Web-Sites, 3\. die formale Definition des Datenmodells, des Regelkonzepts und des bedarfsgesteuerten Mechanismus für die Materialisierung von Sichten, 4\. die Implementierung des HyperView System s als einer Plattform für die Errichtung virtueller Web-Sites, und 5\. die Validierung der HyperView-Methodik und des HyperView System s in Fallstudien zu Digitalen Bibliotheken und Stadtinformationen.