dc.contributor.author
Groß, Marcus
dc.date.accessioned
2018-06-07T22:32:38Z
dc.date.available
2016-06-22T12:20:43.709Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/9385
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-13584
dc.description.abstract
Die vorliegende Arbeit befasst sich mit sogenannten Messfehlermodellen in der
angewandten Statistik. Dabei wurden Daten aus zwei sehr verschiedenen
Fachgebieten analysiert und verarbeitet. Zum einen Umfrage- und Registerdaten,
welche in der Survey-Statistik Anwendung finden und zum anderen
anthropologische Daten zu prähistorischen Skeletten. Beiden gemeinsam ist,
dass einige Variablen nicht hinreichend genau erfasst werden können. Dies kann
etwa aus Datenschutzgründen beabsichtigt sein oder auf (Mess-) Ungenauigkeiten
beruhen. Diesen Umstand kann man unter den Oberbegriffen Messfehler oder
Fehler-in-den-Variablen zusammenfassen. Diese Messfehler können fatale
Auswirkungen in der statistischen Analyse, wie z.B. stark verzerrte Schätzer
oder stark erschwerte grafische Analyse, haben. Trotz dieser teilweise
folgenschweren Auswirkungen werden Messfehler in statistischen Analysen in der
Anwendung fast immer ignoriert. Diese Arbeit entwickelt daher für bekannte
statistische Verfahren wie (multivariate) Kerndichteschätzung und
nichtparametrische Regression eine Korrektur anhand konkreter Anwendungen.
Viele Techniken zur Korrektur auf Messfehler sind nur für relativ einfache
Messfehlermodelle und statistische Verfahren wie die lineare Regression
realisierbar. In dieser Arbeit wird daher ein Ansatz mit sogenannten Pseudo-
Samples bevorzugt. Die entwickelten Algorithmen lassen sich als stochastischer
Expectation-Maximization- oder als voll-Bayesianischer Markov-Chain-Monte-
Carlo-Verfahren klassifizieren. Die Arbeit ist in zwei Teile mit insgesamt 5
Kapiteln gegliedert. Teil I behandelt zunächst zwei Fragestellungen aus der
Survey-Statistik. In Kapitel 1 wurden über einen Rundungsfehler anonymisierte
Geokoordinaten der Wohnsitze von Menschen bestimmter Bevölkerungsgruppen in
Berlin analysiert. Um eine sinnvolle nichtparametrische Kerndichteschätzung
der Populationsverteilung zu erhalten, wurde der Rundungsprozess mittels eines
stochastischen Expectation-Maximization-Algorithmus umgekehrt. In Kapitel 2
wurde dieser Algorithmus stark erweitert, um die Verteilung von Antworten in
Survey-Daten zu modellieren. Die dabei üblicherweise auftretende Häufung von
bestimmten Werten wird dabei über eine Rundung mit unbekannter Genauigkeit als
Zufallsvariable modelliert. Teil II der Arbeit befasst sich mit den
Ergebnissen aus dem Emmy-Noether-Projekt „Lebensbedingungen und biologischer
Lebensstandard in der Vorgeschichte" – LiVES. Ein Hauptbestandteil des
Projekts war die Zusammenführung von drei existierenden Datenbanken
prähistorischer Skelette zu einer modernen, web-basierten MySQL-Datenbank. In
Kapitel 3 und 4 wurden die bereits korrigierten Daten der Datenbank für eine
Vorabanalyse genutzt. Hierbei sollte die Forschungsfrage beantwortet werden,
wie sich die Körperhöhe als Proxy für den Lebensstandard in der Vorgeschichte
entwickelt hat. Die Körperhöhe wird dabei aus den vorhandenen Langknochenmaßen
rekonstruiert. Der Autor hat in diesem Zusammenhang ein voll-Bayesianisches
additives gemischtes Messfehlermodell entwickelt, welches die räumlich-
zeitliche Entwicklung der Körperhöhe modelliert. Dabei wurde insbesondere die
Unsicherheit bzw. der Messfehler in der chronologischen Einordnung der
Skelette als auch die Unsicherheit über das Geschlecht jeweils über ein
Berkson-Fehler-Modell berücksichtigt. Abschließend befasst sich Kapitel 5 mit
der Körperhöhenschätzung und der Frage wie sich diese aus den vorhandendenen
Langknochen der prähistorischen Skelette optimal schätzen lässt.
de
dc.description.abstract
The present work is concerned with so-called measurement error models in
applied statistics. The data were analyzed and processed from two very
different fields. On the one hand survey and register data, which are used in
the Survey statistics and on the other hand anthropological data on
prehistoric skeletons. For both fields the problem arises that some variables
cannot be measured with sufficient accuracy. This can be due to privacy or
measuring inaccuracies. This circumstance can be summarized under the headings
measurement error or error-in-the-variables. These measurement errors can have
fatal effects in the statistical analysis, such as strongly biased estimates
or highly complicated graphical analysis. Despite these consequences,
measurement errors are almost always ignored in statistical analyzes. This
work therefore developed a correction for specific applications of known
statistical methods such as (multivariate) kernel density estimation and
nonparametric regression. Many techniques for correcting measurement errors
are feasible only for relatively simple measurement error models and
statistical methods such as linear regression. In this work, therefore, an
approach with so-called pseudo-samples is preferred. The developed algorithms
can be classified as stochastic Expectation-Maximization method or as a fully-
Bayesian Markov-Chain-Monte-Carlo method. The work is structured into two
parts with a total of 5 chapters. Part I deals with two questions from the
survey statistics. In Chapter 1 geographical coordinates of residences of
people of certain population groups in Berlin were anonymized by rounding of
these coordinates. In order to obtain a useful non-parametric kernel density
estimation of the population distribution the rounding process was reversed by
means of a stochastic expectation-maximization algorithm. This algorithm has
been greatly expanded to model the distribution of responses in survey data in
Chapter 2. The usual heaping of certain values is modeled via rounding of
unknown accuracy as a random variable. Part II of this work deals with the
results of the Emmy-Noether-project "living conditions and biological standard
of living in prehistory." – LiVES. A major component of the project was to
merge three existing databases of prehistoric skeletons to a modern, web-based
MySQL database. Already corrected data from the database were used for a
preliminary analysis in Chapters 3 and 4. The central research question to be
answered in these chapters was: How did the body height as a proxy for the
standard of living developed in spatio-temporally prehistory? The body height
is hereby reconstructed from the existing long bone dimensions. In this
context, a fully Bayesian additive mixed measurement error model, which models
the spatial and temporal evolution of the body height, was developed. In
particular, the uncertainty in the chronological classification of the
skeletons as well as the uncertainty concerning the sex of the skeletons were
considered by a Berkson error model. Finally, Chapter 5 deals stature
estimation and the question how stature can be optimally estimated given the
available long bones of the prehistoric skeletons.
en
dc.format.extent
160 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Measurement Error Models
dc.subject
Bayesian Statistics
dc.subject
Kernel density estimation
dc.subject
Prehistoric Living Standard
dc.subject.ddc
300 Sozialwissenschaften::310 Statistiken
dc.title
Messfehlermodelle für die Survey-Statistik und die Wirtschaftsarchäologie
dc.contributor.contact
marcus.gross@fu-berlin.de
dc.contributor.firstReferee
Prof. Dr. Ulrich Rendtel
dc.contributor.furtherReferee
Prof. Dr. Timo Schmid
dc.contributor.furtherReferee
Dr. Eva Rosenstock
dc.date.accepted
2016-05-12
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000102268-9
dc.title.translated
Measurement error models for survey statistics and economic archaeology
en
refubium.affiliation
Wirtschaftswissenschaft
de
refubium.mycore.fudocsId
FUDISS_thesis_000000102268
refubium.mycore.derivateId
FUDISS_derivate_000000019366
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access