dc.contributor.author
Broß, Jürgen
dc.date.accessioned
2018-06-07T20:12:27Z
dc.date.available
2013-07-18T11:11:20.961Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/6693
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-10892
dc.description.abstract
The opinions and experiences of other people constitute an important source of
information in our everyday life. For example, we ask our friends which
dentist, restaurant, or smartphone they would recommend to us. Nowadays,
online customer reviews have become an invaluable resource to answer such
questions. Besides helping consumers to make more informed purchase decisions,
online reviews are also of great value to vendors, as they represent
unsolicited and genuine customer feedback that is conveniently available at
virtually no costs. However, for popular products there often exist several
thousands of reviews so that manual analysis is not an option. In this thesis,
we provide a comprehensive study of how to model and automatically analyze the
opinion-rich information contained in customer reviews. In particular, we
consider the task of aspect-oriented sentiment analysis. Given a collection of
review texts, the task’s goal is to detect the individual product aspects
reviewers have commented on and to decide whether the comments are rather
positive or negative. Developing text analysis systems often involves the
tedious and costly work of creating appropriate resources --- for instance,
labeling training corpora for machine learning methods or constructing
special-purpose knowledge bases. As an overarching topic of the thesis, we
examine the utility of distant supervision techniques to reduce the amount of
required human supervision. We focus on the two main subtasks of aspect-
oriented review mining: (i) identifying relevant product aspects and (ii)
determining and classifying expressions of sentiment. We consider both
subtasks at two different levels of granularity, namely expression vs.
sentence level. For these different levels of analysis, we experiment with
dictionary-based and supervised approaches and examine several distant
supervision techniques. For aspect detection at the expression level, we cast
the task as a terminology extraction problem. At the sentence level, we cast
the task as a multi-label text categorization problem and exploit section
headings in review texts for a distant supervision approach. With regard to
sentiment analysis, we present detailed studies of sentiment lexicon
acquisition and sentiment polarity classification and show how pros and cons
summaries of reviews can be exploited to reduce the manual effort in this
context. We evaluate our approaches in detail, including insightful mistake
analyses. For each of the tasks, we find significant improvements in
comparison to relevant state-of-the-art methods. In general, we can show that
the presented distant supervision methods successfully reduce the required
amount of human supervision. Our approaches allow to gather very large amounts
of labeled data --- typically some orders of magnitude more data than possible
with traditional annotation. We conclude that customer review mining systems
can benefit from the proposed methods.
de
dc.description.abstract
Kundenrezensionen im Internet spielen heutzutage eine wichtige Rolle bei
unseren alltäglichen Kaufentscheidungen. Ebenso sind die unzähligen
Produktbewertungen von großem Wert für Unternehmen, beispielsweise zur
Marktforschung, Trendanalyse oder Qualitätssicherung. In vielen Fällen wird
allerdings das beschriebene Informationsbedürfnis von einem
Informationsüberfluss überdeckt. Für populäre Produkte existieren oft tausende
Rezensionen und eine individuelle Sichtung ist daher keine Option. In dieser
Dissertation befassen wir uns damit, wie man die meinungsbehaftete, in
natürlicher Sprache vorliegende Information in Kundenrezensionen modellieren
und automatisiert zusammenfassen kann. Im Speziellen untersuchen wir Verfahren
zur aspektorientierten Meinungsanalyse von Kundenbewertungen. Ziel dieses
Textanalyseverfahrens ist es automatisiert alle bewerteten
Produkteigenschaften in einer Rezension zu erfassen und die jeweilig geäußerte
Meinungsrichtung zu bestimmen (z.B. positiv gegenüber negativ). Viele Systeme
zur automatisierten Textanalyse beruhen auf speziell entwickelten
Wissensdatenbanken oder setzen (im Falle maschineller Lernverfahren) die
Existenz von Trainingsdaten voraus. Als ein übergeordnetes Thema dieser Arbeit
betrachten wir daher so genannte Distant Supervision (DS) Ansätze die es
ermöglichen den manuellen Aufwand bei der Erstellung der genannten Ressourcen
zu verringern. Wir konzentrieren uns auf die zwei wichtigsten Teilprobleme der
aspektorientierten Meinungsanalyse: (i) die Identifikation von relevanten
Produktaspekten und (ii) die Erkennung und Bewertung von Meinungsäußerungen.
Wir betrachten beide Teilprobleme jeweils auf Wort-/Phrasen- und auf
Satzebene. Für beide Detailstufen untersuchen wir jeweils lexikonbasierte
Ansätze und Verfahren des überwachten maschinellen Lernens. Ebenso
experimentieren wir mit verschiedenen DS-Techniken. Die Aspekterkennung auf
Wortebene erachten wir als ein Terminologieextraktionsproblem. Auf Satzebene
modellieren wir die Problemstellung als ein Multi-Label
Textklassifikationsproblem. Bezüglich der Sentimentanalyse untersuchen wir
Verfahren zur automatischen Erstellung von Sentimentlexika und zur
Sentimentklassifikation. Wir evaluieren unsere Ansätze im Detail (inklusive
aufschlussreicher Fehleranalysen), wenn möglich, im Vergleich zu anderen
relevanten Methoden. Insbesondere zeigen unsere Ergebnisse, dass wir mit den
präsentierten Distant Supervision Methoden erfolgreich den manuellen Aufwand
bei der Erstellung von notwendigen Ressourcen reduzieren können. Generell
ermöglichen es die Verfahren sehr große Mengen an Trainingsdaten zu
extrahieren (in unserem Fall beträgt der Unterschied zu den manuell
annotierten Datensätzen zwei bis drei Größenordnungen). Die vorgeschlagenen
Verfahren können daher vorteilhaft im Rahmen von Systemen zur
aspektorientierten Sentimentanalyse von Kundenrezensionen eingesetzt werden.
de
dc.format.extent
XIX, 374 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
sentiment analysis
dc.subject
customer review mining
dc.subject
opinion mining
dc.subject
aspect-oriented review mining
dc.subject
distant supervision
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke
dc.title
Aspect-Oriented Sentiment Analysis of Customer Reviews Using Distant
Supervision Techniques
dc.contributor.contact
juergen.bross@fu-berlin.de
dc.contributor.firstReferee
Prof. Dr.-Ing. Heinz Schweppe
dc.contributor.furtherReferee
Prof. Dr. Artur Andrzejak
dc.date.accepted
2013-07-11
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000094711-3
dc.title.translated
Aspektorientierte Meinungsanalyse von Kundenrezensionen unter der Verwendung
von Distant Supervision Techniken
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000094711
refubium.mycore.derivateId
FUDISS_derivate_000000013725
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access