Kernel density smoothing of composite spatial data on administrative area level: A case study of voting data in Berlin

Erfurth, Kerstin; Groß, Marcus; Rendtel, Ulrich; Schmid, Timo

doi:10.1007/s11943-021-00298-9

Kernel density smoothing of composite spatial data on administrative area level

Metadata

dc.contributor.author

Erfurth, Kerstin

dc.contributor.author

Groß, Marcus

dc.contributor.author

Rendtel, Ulrich

dc.contributor.author

Schmid, Timo

dc.date.accessioned

2022-05-02T07:19:50Z

dc.date.available

2022-05-02T07:19:50Z

dc.date.issued

2022

dc.identifier.uri

https://refubium.fu-berlin.de/handle/fub188/33493

dc.identifier.uri

http://dx.doi.org/10.17169/refubium-33214

dc.description.abstract

Composite spatial data on administrative area level are often presented by maps. The aim is to detect regional differences in the concentration of subpopulations, like elderly persons, ethnic minorities, low-educated persons, voters of a political party or persons with a certain disease. Thematic collections of such maps are presented in different atlases. The standard presentation is by Choropleth maps where each administrative unit is represented by a single value. These maps can be criticized under three aspects: the implicit assumption of a uniform distribution within the area, the instability of the resulting map with respect to a change of the reference area and the discontinuities of the maps at the borderlines of the reference areas which inhibit the detection of regional clusters. In order to address these problems we use a density approach in the construction of maps. This approach does not enforce a local uniform distribution. It does not depend on a specific choice of area reference system and there are no discontinuities in the displayed maps. A standard estimation procedure of densities are Kernel density estimates. However, these estimates need the geo-coordinates of the single units which are not at disposal as we have only access to the aggregates of some area system. To overcome this hurdle, we use a statistical simulation concept. This can be interpreted as a Simulated Expectation Maximisation (SEM) algorithm of Celeux et al (1996). We simulate observations from the current density estimates which are consistent with the aggregation information (S-step). Then we apply the Kernel density estimator to the simulated sample which gives the next density estimate (E-Step). This concept has been first applied for grid data with rectangular areas, see Groß et al (2017), for the display of ethnic minorities. In a second application we demonstrated the use of this approach for the so-called “change of support” (Bradley et al 2016) problem. Here Groß et al (2020) used the SEM algorithm to recalculate case numbers between non-hierarchical administrative area systems. Recently Rendtel et al (2021) applied the SEM algorithm to display spatial-temporal clusters of Corona infections in Germany. Here we present three modifications of the basic SEM algorithm: 1) We introduce a boundary correction which removes the underestimation of kernel density estimates at the borders of the population area. 2) We recognize unsettled areas, like lakes, parks and industrial areas, in the computation of the kernel density. 3) We adapt the SEM algorithm for the computation of local percentages which are important especially in voting analysis. We evaluate our approach against several standard maps by means of the local voting register with known addresses. In the empirical part we apply our approach for the display of voting results for the 2016 election of the Berlin parliament. We contrast our results against Choropleth maps and show new possibilities for reporting spatial voting results.

dc.description.abstract

Räumliche Daten auf der Ebene administrativer Flächeneinheiten werden häufig über Karten dargestellt. Das Ziel ist es dabei regionale Unterschiede für interessierenden Bevölkerungsgruppen aufzudecken. Dies betrifft beispielsweise ältere Personen, ethnische Minderheiten, Personen mit geringer Bildung aber auch Wähler einer politischen Partei sowie Personen, die sich mit einer bestimmten Krankheit infiziert haben. Die Zusammenfassung derartiger Karten wird in Atlanten präsentiert. Eine Standarddarstellung benutzt Choroplethen, wo jede administrative Einheit durch einen einzigen Wert repräsentiert wird. Diese Karten können unter drei Aspekten kritisiert werden: Die implizite Annahme einer gleichmäßigen Verteilung innerhalb der Fläche der Einheit, die Instabilität der Darstellung beim Wechsel der administrativen Einheit sowie die Sprünge an den Grenzlinien der Einheiten, die das Aufdecken von regionalen Clustern erschweren. Um diese Probleme zu beseitigen, verwenden wir eine Kartenkonstruktion auf der Basis von Dichten. Dieser Ansatz vermeidet eine zwangsläufige gleichmäßige Dichte innerhalb der Referenzflächen. Er ist unabhängig von der Wahl eines spezifischen Referenzsystems und vermeidet Sprungstellen. Ein Standardverfahren würde Kerndichteschätzer verwenden. Allerdings werden hierfür die Geokoordinaten der einzelnen Einheiten benötigt. Diese stehen aber nicht zur Verfügung sondern lediglich die Aggregate der jeweiligen Flächeneinheit. Um diese Hürde zu umgehen, verwenden wir ein statistisches Simulationskonzept. Es kann als Simulierter EM (SEM) Algorithmus von Celeux et al (1996) beschrieben werden. Auf Basis der gegenwärtigen Dichteschätzung simulieren wir Beobachtungen, die mit der Aggregatsinformation konsistent sind (S-Schritt). Dann wenden wir den Kerndichteschätzer auf die simulierte Stichprobe an, die die nächste Dichteschätzung liefert (E-Schritt). Dieses Konzept wurde erstmals für Gitterdaten auf Rechtecken zur Darstellung von ethnischen Minderheiten angewendet, Groß et al (2017). Eine weitere Anwendung fand dieser Ansatz beim sogenannten „Change of Support“ Problem, (Bradley et al 2016). Hier nutzten Groß et al (2020) den SEM Algorithmus bei der Umrechnung von Fallzahlen zwischen nicht-hierarchischen Flächensystemen. Jüngst haben Rendtel et al (2021) den SEM Algorithmus für die Darstellung räumlich-zeitlicher Konzentrationen von Corona Infektionen in Deutschland verwendet. Hier präsentieren wir drei Modifikationen des SEM Algorithmus: 1) Wir führen eine Randkorrektur ein, die die Unterschätzung der Kerndichteschätzung an den Grenzen der Population beseitigt. 2) Wir berücksichtigen unbewohnte Bereiche wie Parks, Seen und Industriegebiete bei der Berechnung der Kerndichteschätzung. 3) Wir passen den SEM Algorithmus für die Berechnung lokaler Prozentsätze an, die insbesondere für Wahlanalysen interessant sind. Wir evaluieren unseren Ansatz gegen verschiedene Standardkarten auf Basis eines lokalen Wählerregisters mit bekannten Adressen. Im empirischen Teil wenden wir unseren Ansatz auf die Darstellung von Wahlergebnissen zur Wahl des Berliner Abgeordnetenhauses 2016 an. Wir vergleichen unsere Ergebnisse mit Choroplethenkarten und zeigen neue Möglichkeiten zur Berichterstattung räumlicher Wahlergebnisse.

dc.format.extent

25 Seiten

dc.language

eng

dc.rights.uri

https://creativecommons.org/licenses/by/4.0/

dc.subject

Spatial data

dc.subject

Administrative areas

dc.subject

Choropleths

dc.subject

Kernel density estimation

dc.subject

Voting atlases

dc.subject

Räumliche Daten

dc.subject

Administrative Flächeneinheiten

dc.subject

Choroplethen

dc.subject.ddc

300 Sozialwissenschaften::330 Wirtschaft::330 Wirtschaft

dc.title

Kernel density smoothing of composite spatial data on administrative area level

dc.type

Wissenschaftlicher Artikel

dc.title.subtitle

A case study of voting data in Berlin

dc.title.translated

Die Glättung räumlicher Datensätze auf administrativen Flächen: Eine Fallstudie mit Berliner Wahldaten

dcterms.bibliographicCitation.doi

10.1007/s11943-021-00298-9

dcterms.bibliographicCitation.journaltitle

AStA Wirtschafts- und Sozialstatistisches Archiv

dcterms.bibliographicCitation.number

dcterms.bibliographicCitation.pagestart

dcterms.bibliographicCitation.pageend

dcterms.bibliographicCitation.volume

dcterms.bibliographicCitation.url

https://doi.org/10.1007/s11943-021-00298-9

refubium.affiliation

Wirtschaftswissenschaft

refubium.affiliation.other

Volkswirtschaftslehre / Institut für Statistik und Ökonometrie

This authority value has been confirmed as accurate by an interactive user

refubium.funding

Springer Nature DEAL

refubium.note.author

Die Publikation wurde aus Open Access Publikationsgeldern der Freien Universität Berlin gefördert.

refubium.resourceType.isindependentpub

dcterms.accessRights.openaire

open access

dcterms.isPartOf.eissn

1863-8163

Show Simple Item Record

This Item appears in the following Collection(s)

Dokumente FU

Files in This Item

Erfurth2022_Article_KernelDensitySmoothingOfCompos.pdf

Size: 10.80MB

Format: PDF

Checksum (MD5): 15566eff2f47f6f157f123736ca5e1e4

View/Open

Kernel density smoothing of composite spatial data on administrative area level

Refubium - Freie Universität Berlin Repository

Kernel density smoothing of composite spatial data on administrative area level

Metadata

This Item appears in the following Collection(s)

Files in This Item

Export metadata