Machine Translation Vs. Multilingual Dictionaries Assessing Two Strategies for the Topic Modeling of Multilingual Text Collections

Maier, Daniel; Baden, Christian; Stoltenberg, Daniela; Vries Kedem, Maya de; Waldherr, Annie

doi:10.1080/19312458.2021.1955845

Machine Translation Vs. Multilingual Dictionaries Assessing Two Strategies for the Topic Modeling of Multilingual Text Collections

Metadaten

dc.contributor.author

Maier, Daniel

dc.contributor.author

Baden, Christian

dc.contributor.author

Stoltenberg, Daniela

dc.contributor.author

Vries Kedem, Maya de

dc.contributor.author

Waldherr, Annie

dc.date.accessioned

2022-03-31T12:29:00Z

dc.date.available

2022-03-31T12:29:00Z

dc.date.issued

2022

dc.identifier.uri

https://refubium.fu-berlin.de/handle/fub188/32510

dc.identifier.uri

http://dx.doi.org/10.17169/refubium-32235

dc.description.abstract

The goal of this paper is to evaluate two methods for the topic modeling of multilingual document collections: (1) machine translation (MT), and (2) the coding of semantic concepts using a multilingual dictionary (MD) prior to topic modeling. We empirically assess the consequences of these approaches based on both a quantitative comparison of models and a qualitative validation of each method’s potentials and weaknesses. Our case study uses two text collections (of tweets and news articles) in three languages (English, Hebrew, Arabic), covering the ongoing local conflicts between Israeli authorities, settlers, and Palestinian Bedouins in the West Bank. We find that both methods produce a large share of equivalent topics, especially in the context of fairly homogenous news discourse, yet show limited but systematic differences when applied to highly heterogenous social media discourse. While the MD model delivers a more nuanced picture of conflict-related topics, it misses several more peripheral topics, especially those unrelated to the dictionary’s focus, which are picked up by the MT model. Our study is a first step toward instrument validation, indicating that both methods yield valid, comparable results, while method-specific differences remain.

dc.format.extent

20 Seiten

dc.language

eng

dc.rights.uri

https://creativecommons.org/licenses/by-nc-nd/4.0/

dc.subject

machine translation

dc.subject

multilingual dictionary

dc.subject

multilingual document collections

dc.subject.ddc

000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik

dc.title

Machine Translation Vs. Multilingual Dictionaries Assessing Two Strategies for the Topic Modeling of Multilingual Text Collections

dc.type

Wissenschaftlicher Artikel

dcterms.bibliographicCitation.doi

10.1080/19312458.2021.1955845

dcterms.bibliographicCitation.journaltitle

Communication Methods and Measures

dcterms.bibliographicCitation.number

dcterms.bibliographicCitation.pagestart

dcterms.bibliographicCitation.pageend

dcterms.bibliographicCitation.volume

dcterms.bibliographicCitation.url

https://doi.org/10.1080/19312458.2021.1955845

refubium.affiliation

Politik- und Sozialwissenschaften

refubium.affiliation.other

Institut für Publizistik- und Kommunikationswissenschaft / Arbeitsstelle Kommunikationstheorie/Medienwirkungsforschung

Dieser Normdateneintrag wurde von einer Benutzerin oder einem Benutzer als gültig bestätigt.

refubium.resourceType.isindependentpub

dcterms.accessRights.openaire

open access

dcterms.isPartOf.eissn

1931-2466

refubium.resourceType.provider

WoS-Alert

Zur Kurzanzeige

Das Dokument erscheint in:

Dokumente FU

Dateien zu dieser Ressource

Machine Translation Vs Mu ... of Multilingual Text Collections.pdf

Größe: 962.3KB

Format: PDF

Prüfsumme (MD5): f7dd921c5b172cd1471820bcd31c334a

Öffnen

Machine Translation Vs. Multilingual Dictionaries Assessing Two Strategies for the Topic Modeling of Multilingual Text Collections

Refubium - Repositorium der Freien Universität Berlin

Machine Translation Vs. Multilingual Dictionaries Assessing Two Strategies for the Topic Modeling of Multilingual Text Collections

Metadaten

Das Dokument erscheint in:

Dateien zu dieser Ressource

Metadaten exportieren