The proliferation of GPS-equipped mobile devices, as well as online social networks, has led to the creation of increasingly large volumes of spatio- textual data, i.e., data containing spatial and textual information, such as geotagged messages on Twitter and reviews for restaurants on Foursquare. Similarly, a growing amount of Internet searches now carry a spatial intent. From looking up nearby grocery stores to searching for local news, we increasingly use the Internet to find local information. Due to these factors, queries combining spatial and textual predicates, termed spatial keyword queries, have been studied extensively over the past few years. Different types of spatial keyword queries have been studied in the literature, ranging from the simplest that retrieve the top-k relevant objects to more complex variants that identify groups of objects jointly satisfying the query. Still, the majority of existing research focuses mainly on static settings, such as searching for information about places. In contrast, social networks are a dynamic source of crowdsourced spatio-textual data in the form of geotagged posts (e.g., tweets, check-ins) made by users, which is being produced in large amounts and is evolving continuously. These characteristics of geotagged posts create several new opportunities and challenges, and call for the enhancement of existing techniques to handle this type of data. Thus, in this thesis, we present novel techniques for the retrieval and analysis of geotagged posts. Initially, since posts consist of not only spatial and textual attributes, but also temporal information, we extend spatio-textual access methods to support spatial-temporal-textual filtering of trajectories generated via social networks. Following this, considering that the number of results found by this plain filtering can be quite high, and thus overwhelming for users, we propose a new method for identifying a small set of representative posts for a given spatial-temporal-textual filter, to allow spatio-temporal exploration of the large number of relevant posts. Nevertheless, these results can quickly become outdated with time as fresh posts are made. Thus, in our subsequent analysis, we propose methods for continuously maintaining a concise summary of a stream of posts within a sliding window, and updating the summary dynamically as the window slides. Finally, given their crowdsourced nature, geotagged posts are a rich source of people’s local knowledge and opinions, which we exploit by inferring two types of patterns. First, we develop a system for the discovery and exploration of local hotspots of certain keywords, termed locally trending topics. In the second, we use the digital trails generated by mobile users posting on social networks for mining thematic associations among groups of locations.
Die allgegenwärtige Nutzung von GPS-fähigen mobilen Endgeräten und sozialen Netzwerken führt zu einem immer größer werdenden Volumen an sogenannten räumlich-textlichen Daten (z.B. georeferenzierte Beiträge auf Twitter oder Restaurantbewertungen auf Foursquare). Einhergehend mit diesem Anstieg nimmt zugleich die Nachfrage nach Daten mit räumlichen Bezug (z.B. Internet-Suchen nach lokal relevante Informationen) zu. In der wissenschaftlichen Literatur werden Anfragen, wo das Suchkriterium aus textlichen und räumlichen Prädikaten besteht, als Schlüsselwort-Anfragen mit räumlichen Bezug (spatial keyword queries) bezeichnet. Die Literatur beschäftigt sich mit verschiedenen Typen von spatial keyword queries. Diese reichen von einfachen top-k Suchen bis zu komplexeren Anfragevarianten. Die überwiegende Mehrheit der Forschungsarbeiten fokussiert sich allerdings auf die Anfragebearbeitung in rein statischen Szenarien, d.h. die zugrunde liegenden Daten sind eher statischer Natur. In starkem Kontrast dazu steht die Dynamik der sozialen Netzwerke, die kontinuierlich eine große Menge von sich ständig verändernden, nutzer- generierten räumlich-textlichen Daten anbieten. Gerade die Einbeziehung dieser Eigenschaften in die Anfragebearbeitung ist weniger gut erforscht und bietet Raum zur Verbesserung existierender Ansätze. In der vorliegenden Arbeit beschäftige ich mich daher mit neuen Ansätzen zur Informationsgewinnung und Analyse von georeferenzierten Kommentaren. Zur Einbeziehung der Dynamik erweitere ich zunächst Zugriffsmethoden für spatial keyword queries um eine zeitliche Komponente. Ich betrachte hierbei zuerst Techniken zur Indizierung und Filterung von Trajektorien aus Kommentaren in sozialen Netzwerken. Aufbauend darauf betrachte ich, durch Auffindung einer selektiven Untermenge möglichst repräsentativer Ergebnisse, Ansätze zur explorativen Analyse von großen Datenmengen, die durch eine räumlich-zeitliche Bereichsabfrage mit Schlüsselwortfilter gewonnen werden. Jedoch werden die oben beschriebenen Anfragearten der Dynamik in sozialen Medien noch nicht vollumfänglich gerecht, da die Ergebnismengen durch den kontinuierlichen Strom an neuen Daten schnell veralten. Ich betrachte daher wie vorgenannte Ansätze zu einer Datenstromanalyse erweitert werden können, indem ich Methoden für die kontinuierliche Zusammenfassung von Kommentaren untersuche. Abschließend analysiere ich mit Hilfe von zwei Data-Mining Verfahren den nutzergenerierten Charakter von Kommentaren in sozialen Netzwerken. Hier beschreibe ich zunächst ein System zur Auffindung und Exploration von lokalen Anziehungspunkten an denen bestimmte Schlüsselwörter signifikant häufiger auftreten (locally trending topics). Ferner untersuche ich einen Ansatz, der auf der Grundlage von digitalen Spuren von mobilen Nutzern in sozialen Netzwerken thematische Zusammenhänge zwischen verschiedenen Orten auffinden kann.