The opinions and experiences of other people constitute an important source of information in our everyday life. For example, we ask our friends which dentist, restaurant, or smartphone they would recommend to us. Nowadays, online customer reviews have become an invaluable resource to answer such questions. Besides helping consumers to make more informed purchase decisions, online reviews are also of great value to vendors, as they represent unsolicited and genuine customer feedback that is conveniently available at virtually no costs. However, for popular products there often exist several thousands of reviews so that manual analysis is not an option. In this thesis, we provide a comprehensive study of how to model and automatically analyze the opinion-rich information contained in customer reviews. In particular, we consider the task of aspect-oriented sentiment analysis. Given a collection of review texts, the task’s goal is to detect the individual product aspects reviewers have commented on and to decide whether the comments are rather positive or negative. Developing text analysis systems often involves the tedious and costly work of creating appropriate resources --- for instance, labeling training corpora for machine learning methods or constructing special-purpose knowledge bases. As an overarching topic of the thesis, we examine the utility of distant supervision techniques to reduce the amount of required human supervision. We focus on the two main subtasks of aspect- oriented review mining: (i) identifying relevant product aspects and (ii) determining and classifying expressions of sentiment. We consider both subtasks at two different levels of granularity, namely expression vs. sentence level. For these different levels of analysis, we experiment with dictionary-based and supervised approaches and examine several distant supervision techniques. For aspect detection at the expression level, we cast the task as a terminology extraction problem. At the sentence level, we cast the task as a multi-label text categorization problem and exploit section headings in review texts for a distant supervision approach. With regard to sentiment analysis, we present detailed studies of sentiment lexicon acquisition and sentiment polarity classification and show how pros and cons summaries of reviews can be exploited to reduce the manual effort in this context. We evaluate our approaches in detail, including insightful mistake analyses. For each of the tasks, we find significant improvements in comparison to relevant state-of-the-art methods. In general, we can show that the presented distant supervision methods successfully reduce the required amount of human supervision. Our approaches allow to gather very large amounts of labeled data --- typically some orders of magnitude more data than possible with traditional annotation. We conclude that customer review mining systems can benefit from the proposed methods.
Kundenrezensionen im Internet spielen heutzutage eine wichtige Rolle bei unseren alltäglichen Kaufentscheidungen. Ebenso sind die unzähligen Produktbewertungen von großem Wert für Unternehmen, beispielsweise zur Marktforschung, Trendanalyse oder Qualitätssicherung. In vielen Fällen wird allerdings das beschriebene Informationsbedürfnis von einem Informationsüberfluss überdeckt. Für populäre Produkte existieren oft tausende Rezensionen und eine individuelle Sichtung ist daher keine Option. In dieser Dissertation befassen wir uns damit, wie man die meinungsbehaftete, in natürlicher Sprache vorliegende Information in Kundenrezensionen modellieren und automatisiert zusammenfassen kann. Im Speziellen untersuchen wir Verfahren zur aspektorientierten Meinungsanalyse von Kundenbewertungen. Ziel dieses Textanalyseverfahrens ist es automatisiert alle bewerteten Produkteigenschaften in einer Rezension zu erfassen und die jeweilig geäußerte Meinungsrichtung zu bestimmen (z.B. positiv gegenüber negativ). Viele Systeme zur automatisierten Textanalyse beruhen auf speziell entwickelten Wissensdatenbanken oder setzen (im Falle maschineller Lernverfahren) die Existenz von Trainingsdaten voraus. Als ein übergeordnetes Thema dieser Arbeit betrachten wir daher so genannte Distant Supervision (DS) Ansätze die es ermöglichen den manuellen Aufwand bei der Erstellung der genannten Ressourcen zu verringern. Wir konzentrieren uns auf die zwei wichtigsten Teilprobleme der aspektorientierten Meinungsanalyse: (i) die Identifikation von relevanten Produktaspekten und (ii) die Erkennung und Bewertung von Meinungsäußerungen. Wir betrachten beide Teilprobleme jeweils auf Wort-/Phrasen- und auf Satzebene. Für beide Detailstufen untersuchen wir jeweils lexikonbasierte Ansätze und Verfahren des überwachten maschinellen Lernens. Ebenso experimentieren wir mit verschiedenen DS-Techniken. Die Aspekterkennung auf Wortebene erachten wir als ein Terminologieextraktionsproblem. Auf Satzebene modellieren wir die Problemstellung als ein Multi-Label Textklassifikationsproblem. Bezüglich der Sentimentanalyse untersuchen wir Verfahren zur automatischen Erstellung von Sentimentlexika und zur Sentimentklassifikation. Wir evaluieren unsere Ansätze im Detail (inklusive aufschlussreicher Fehleranalysen), wenn möglich, im Vergleich zu anderen relevanten Methoden. Insbesondere zeigen unsere Ergebnisse, dass wir mit den präsentierten Distant Supervision Methoden erfolgreich den manuellen Aufwand bei der Erstellung von notwendigen Ressourcen reduzieren können. Generell ermöglichen es die Verfahren sehr große Mengen an Trainingsdaten zu extrahieren (in unserem Fall beträgt der Unterschied zu den manuell annotierten Datensätzen zwei bis drei Größenordnungen). Die vorgeschlagenen Verfahren können daher vorteilhaft im Rahmen von Systemen zur aspektorientierten Sentimentanalyse von Kundenrezensionen eingesetzt werden.