dc.contributor.author
Farda-Sarbas, Mariam
dc.date.accessioned
2024-04-24T08:02:25Z
dc.date.available
2024-04-24T08:02:25Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/43309
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-43025
dc.description.abstract
Since its launch in 2012, Wikidata has grown to become the largest open knowledge
base (KB), containing more than 100 million data items and over 6 million registered
users. Wikidata serves as the structured data backbone of Wikipedia, addressing
data inconsistencies, and adhering to the motto of “serving anyone anywhere in
the world,” a vision realized through the diversity of knowledge. Despite being
a collaboratively contributed platform, the Wikidata community heavily relies on
bots, automated accounts with batch, and speedy editing rights, for a majority of
edits. As Wikidata approaches its first decade, the question arises: How close is
Wikidata to achieving its vision of becoming a global KB and how diverse is it in
serving the global population? This dissertation investigates the current status of
Wikidata’s diversity, the role of bot interventions on diversity, and how bots can be
leveraged to improve diversity within the context of Wikidata.
The methodologies used in this study are mapping study and content analysis, which
led to the development of three datasets: 1) Wikidata Research Articles Dataset,
covering the literature on Wikidata from its first decade of existence sourced from
online databases to inspect its current status; 2) Wikidata Requests-for-Permissions
Dataset, based on the pages requesting bot rights on the Wikidata website to explore
bots from a community perspective; and 3) Wikidata Revision History Dataset,
compiled from the edit history of Wikidata to investigate bot editing behavior and
its impact on diversity, all of which are freely available online.
The insights gained from the mapping study reveal the growing popularity of Wikidata
in the research community and its various application areas, indicative of its
progress toward the ultimate goal of reaching the global community. However, there
is currently no research addressing the topic of diversity in Wikidata, which could
shed light on its capacity to serve a diverse global population. To address this gap,
this dissertation proposes a diversity measurement concept that defines diversity in
a KB context in terms of variety, balance, and disparity and is capable of assessing
diversity in a KB from two main angles: user and data. The application of this concept
on the domains and classes of the Wikidata Revision History Dataset exposes
imbalanced content distribution across Wikidata domains, which indicates low data
diversity in Wikidata domains.
Further analysis discloses that bots have been active since the inception of Wikidata,
and the community embraces their involvement in content editing tasks, often
importing data from Wikipedia, which shows a low diversity of sources in bot edits.
Bots and human users engage in similar editing tasks but exhibit distinct editing patterns.
The findings of this thesis confirm that bots possess the potential to influence
diversity within Wikidata by contributing substantial amounts of data to specific
classes and domains, leading to an imbalance. However, this potential can also be
harnessed to enhance coverage in classes with limited content and restore balance,
thus improving diversity. Hence, this study proposes to enhance diversity through
automation and demonstrate the practical implementation of the recommendations
using a specific use case.
In essence, this research enhances our understanding of diversity in relation to a KB,
elucidates the influence of automation on data diversity, and sheds light on diversity
improvement within a KB context through the usage of automation.
en
dc.description.abstract
Seit seiner Einführung im Jahr 2012 hat sich Wikidata zu der größten offenen Wissensdatenbank
entwickelt, die mehr als 100 Millionen Datenelemente und über 6
Millionen registrierte Benutzer enthält. Wikidata dient als das strukturierte Rückgrat
von Wikipedia, indem es Datenunstimmigkeiten angeht und sich dem Motto
verschrieben hat, ’jedem überall auf der Welt zu dienen’, eine Vision, die durch die
Diversität des Wissens verwirklicht wird. Trotz seiner kooperativen Natur ist die
Wikidata-Community in hohem Maße auf Bots, automatisierte Konten mit Batch-
Verarbeitung und schnelle Bearbeitungsrechte angewiesen, um die Mehrheit der
Bearbeitungen durchzuführen.
Da Wikidata seinem ersten Jahrzehnt entgegengeht, stellt sich die Frage: Wie nahe
ist Wikidata daran, seine Vision, eine globale Wissensdatenbank zu werden, zu verwirklichen,
und wie ausgeprägt ist seine Dienstleistung für die globale Bevölkerung?
Diese Dissertation untersucht den aktuellen Status der Diversität von Wikidata,
die Rolle von Bot-Eingriffen in Bezug auf Diversität und wie Bots im Kontext von
Wikidata zur Verbesserung der Diversität genutzt werden können.
Die in dieser Studie verwendeten Methoden sind Mapping-Studie und Inhaltsanalyse,
die zur Entwicklung von drei Datensätzen geführt haben: 1) Wikidata Research
Articles Dataset, die die Literatur zu Wikidata aus dem ersten Jahrzehnt aus
Online-Datenbanken umfasst, um den aktuellen Stand zu untersuchen; 2) Requestfor-
Permission Dataset, der auf den Seiten zur Beantragung von Bot-Rechten auf
der Wikidata-Website basiert, um Bots aus der Perspektive der Gemeinschaft zu
untersuchen; und 3)Wikidata Revision History Dataset, der aus der Bearbeitungshistorie
von Wikidata zusammengestellt wurde, um das Bearbeitungsverhalten von
Bots zu untersuchen und dessen Auswirkungen auf die Diversität, die alle online frei
verfügbar sind.
Die Erkenntnisse aus der Mapping-Studie zeigen die wachsende Beliebtheit von Wikidata
in der Forschungsgemeinschaft und in verschiedenen Anwendungsbereichen,
was auf seinen Fortschritt hin zur letztendlichen Zielsetzung hindeutet, die globale
Gemeinschaft zu erreichen. Es gibt jedoch derzeit keine Forschung, die sich mit
dem Thema der Diversität in Wikidata befasst und Licht auf seine Fähigkeit werfen
könnte, eine vielfältige globale Bevölkerung zu bedienen. Um diese Lücke zu
schließen, schlägt diese Dissertation ein Konzept zur Messung der Diversität vor,
das die Diversität im Kontext einer Wissensbasis anhand von Vielfalt, Balance und
Diskrepanz definiert und in der Lage ist, die Diversität aus zwei Hauptperspektiven
zu bewerten: Benutzer und Daten.
Die Anwendung dieses Konzepts auf die Bereiche und Klassen des Wikidata Revision
History Dataset zeigt eine unausgewogene Verteilung des Inhalts über die Bereiche
von Wikidata auf, was auf eine geringe Diversität der Daten in den Bereichen von
Wikidata hinweist.
Weitere Analysen zeigen, dass Bots seit der Gründung von Wikidata aktiv waren
und von der Gemeinschaft inhaltliche Bearbeitungsaufgaben angenommen werden,
oft mit Datenimporten aus Wikipedia, was auf eine geringe Diversität der Quellen
bei Bot-Bearbeitungen hinweist. Bots und menschliche Benutzer führen ähnliche
Bearbeitungsaufgaben aus, zeigen jedoch unterschiedliche Bearbeitungsmuster. Die
Ergebnisse dieser Dissertation bestätigen, dass Bots das Potenzial haben, die Diversität in Wikidata zu beeinflussen, indem sie bedeutende Datenmengen zu bestimmten
Klassen und Bereichen beitragen, was zu einer Ungleichgewichtung führt.
Dieses Potenzial kann jedoch auch genutzt werden, um die Abdeckung in Klassen
mit begrenztem Inhalt zu verbessern und das Gleichgewicht wiederherzustellen, um
die Diversität zu verbessern. Daher schlägt diese Studie vor, die Diversität durch
Automatisierung zu verbessern und die praktische Umsetzung der Empfehlungen
anhand eines spezifischen Anwendungsfalls zu demonstrieren.
Kurz gesagt trägt diese Forschung dazu bei, unser Verständnis der Diversität im
Kontext einer Wissensbasis zu vertiefen, wirft Licht auf den Einfluss von Automatisierung
auf die Diversität von Daten und zeigt die Verbesserung der Diversität im
Kontext einer Wissensbasis durch die Verwendung von Automatisierung auf.
de
dc.format.extent
xvi, 205 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Knowledge diversity
en
dc.subject.ddc
000 Computer science, information, and general works::000 Computer Science, knowledge, systems::004 Data processing and Computer science
dc.title
Knowledge Diversity and its Relation to Automation in a Knowledge Base Context
dc.contributor.gender
female
dc.contributor.firstReferee
Müller-Birn, Claudia
dc.contributor.furtherReferee
Berendt, Bettina
dc.date.accepted
2024-04-08
dc.identifier.urn
urn:nbn:de:kobv:188-refubium-43309-5
dc.title.subtitle
The Case of Wikidata
refubium.affiliation
Mathematik und Informatik
refubium.isSupplementedBy.doi
http://dx.doi.org/10.17169/refubium-40231
refubium.isSupplementedBy.doi
http://dx.doi.org/10.17169/refubium-40234
refubium.isSupplementedBy.doi
http://dx.doi.org/10.17169/refubium-40243
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access