dc.contributor.author
Gao, Yongbo
dc.date.accessioned
2018-06-08T00:56:19Z
dc.date.available
2017-03-10T10:44:44.244Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/12702
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-16900
dc.description.abstract
Hydrological missing data is a common issue for hydrologists as it poses a
serious problem for many statistical approaches in hydrology which require
complete data sources since missing data is often harmful beyond reducing
statistical power. For reasons of convenience, researchers often resort to
simple solutions to deal with missing data such as simply discarding
observations characterized by missing data or by replacing missing data with a
statistical methodology. Despite its convenience, discarding is suboptimal as
it reduces the quality of the conclusion to be drawn when analyzing the data.
Actually, a variety of statistical techniques are available to treat missing
data. My research is about finding the right techniques to deal with missing
data problems in Hydrology and distinguishing in which certain circumstances
which method works better. First, various imputation methods available to the
hydrological researchers have been reviewed, including arithmetic mean
imputation, Principal Component Analysis (PCA), regression-based methods and
multiple imputation methods. Due to the time-series nature of hydrological
data often requires more flexible non-linear model, we therefore put an
emphasis on time-series regressions approaches that exploit the time series
nature of hydrological data. Auto Regressive Conditional Heteroscedasticity
(ARCH) models which originate from finance and econometrics and Autoregressive
Integrated Moving Average (ARIMA) models are discussed regarding the
applicability to hydrological contexts here. I focused the attention on
discussing econometric time-series methods as they explicitly model the
particular statistical properties of hydrological time-series (autocorrelation
and heteroscedasticity) which are mostly neglected in algorithmic machine
learning approaches. Second, the performances of imputation techniques which
are widespread and easy to use but ignore the time series nature of
hydrological data and imputation techniques exploiting their time series
nature are compared. By running a hydrological model - Hydrologiska Byråns
Vattenbalansavdelning (HBV) model we generated 5 different discharge time
series that exhibit different patterns of volatility to analyze. The
combination of Mean Squared Error (MSE) and Nash Sutcliff efficiency (NSE) as
performance measures demonstrates that econometric time series models such as
Autoregressive Integrated Moving Average (ARIMA) and Autoregressive
Conditional Heteroscedasticity (ARCH) model outperform alternative imputation
approaches such as mean imputation or Ordinary Least Squares (OLS) based
regression methods. Furthermore, we examined how the inclusion of information
beyond the time-series of the variable of interest itself can improve
imputation results. Extensions of these models to incorporate additional
exogenous regressors are readily available with ARIMAX and ARCHX models. Using
discharge data from Brandenburg in the northeast of Germany, we compare the
imputation performance of univariate ARIMA and ARCH models which have been
shown well in hydrological settings before with the performance of extended
model version. These results shown that the models’ performance can be further
enhanced by the inclusion of exogenous regressors such as precipitation,
potential evapotranspiration or discharge measures from neighboring research
areas. In particular, the inclusion of discharge measures of neighboring areas
has a bigger effect on imputation quality. Moreover, the choice between
ARIMA/X and ARCH/X is less important than the choice of additional regressors.
Despite they overall encouraging findings there are, however, on the
conceptual level, our results have been obtained using data from only one
catchment area (Brandenburg) and the results might differ for data obtained
from other catchments. More comprehensive validation of our results using data
from different settings therefore seems to be warranted.
de
dc.description.abstract
Hydrologische Daten sind oft durch fehlende Messwerte und Datenlücken
gekennzeichnet, was die Anwendung statistischer Methoden zur Datenanalyse
erschwert. Gängige statistische Ansätze erforden vollständige Datensätze und
fehlende Werte können nicht nur ihre Präzision reduzieren sondern auch zu
verzerrten bzw. falschen Ergebnissen führen. Einfache Ansätze zum Umgang mit
fehlenden Daten beinhalten das Löschen von Beobachtungen mit fehlenden Werten
in einer oder mehreren Variablen oder auch das Ersetzen fehlender Werte durch
den Einsatz statistischer Prognosemethoden (Imputation). Das Löschen von
Beobachtungen ist oft suboptimal, da es die Qualität statistischer
Schlussfolgerungen reduziert. Aus diesem Grund wurde eine Reihe von Verfahren
entwickelt, die fehlende Werte mit prognostizierten Werten ersetzen und somit
die Daten komplettieren. Die vorliegende Arbeite soll einen Überblick über
alternative Imputationsverfahren geben und deren Anwendbarkeit in
verschiedenen hydrologischen Problemstellungen evaluieren. Im ersten Teil der
Arbeit wird die Problematik fehlender Werte und ihr Einfluss auf die
Anwendbarkeit statistischer Analyseverfahren dargestellt. Darauf aufbauend
werden gebräuchliche Imputationsverfahren vorgestellt und vergleichend
diskutiert. Dabei wird auf verschiedene Verfahren eingegangen, wie etwa das
Ersetzen fehlender Werte durch den Mittelwert aller Beobachtungen, die
Hauptkomponentenanalyse (PCA) oder regressionsbasierte Imputationsverfahren.
Schwerpunkt dieser Untersuchungen ist die Darstellung zeitreihenbasierter
Verfahren, da hydrologische Daten in der Regel als Zeitreihen vorliegen.
Insbesondere werden die in der Volkswirtschaftslehre gebräuchlichen
Autoregressive Integrated Moving Average (ARIMA) und Autoregressive
Conditional Heteroscedasticity (ARCH) Modelle vorgestellt. Diese Modelle
wurden ausgewählt, da sie explizit die Zeitreihencharakteristiken von Daten
(Autokorrelation und Heteroskedastizität) modellieren, die in alternativen
Verfahren oft vernachlässigt werden. Im zweiten Teil der Arbeit werden die
Ergebnisse von einfachen und weitverbreiteten Imputationsverfahren den
Ergebnissen zeitreihenbasierter Imputationsverfahren gegenübergestellt. Dies
erfolgt in einem hydrologischen Kontext. Mittels des Hydrologiska Byråns
Vattenbalansavdelning (HBV) Modells werden zuerst fünf verschiedene
Abflusszeitreihen generiert, die durch unterschiedliche Volatilität
gekennzeichnet sind. Anschließend werden zufällig generierte Werte in diesen
Zeitreihen mittels alternativen Imputationsverfahren approximiert und die
Imputationsqualität mittels des Mean Squared Error (MSE) und des Nash
Sutcliffe Efficiency (NSE) Kriteriums verglichen. Die Ergebnisse belegen, dass
ökonometrische Zeitreihenmodelle wie etwa das Autoregressive Integrated Moving
Average (ARIMA) und das Autoregressive Conditional Heteroscedasticity (ARCH)
Modell alternativen Methoden überlegen sind. Im dritten Teil der Arbeit werden
Generalisierungen der vorgestellten ARIMA und ARCH Modelle in einem ähnlichen
Kontext evaluiert. Diese multivariaten Modelle (ARIMAX und ARCHX) beziehen
neben der Zeitreihe der abhängigen Variablen weitere, unabhängige Variablen in
das Modell mit ein. Basierend auf exemplarischen Abflusszeitreihen aus
Brandenburg wird die Imputationsleistung von ARIMA und ARCH Modellen mit denen
der erweiterten Modelle verglichen. Die Ergebnisse zeigen, dass die Präzision
von Zeitreihenmodellen zur Modellierung gemessenen Abflusses durch die
Einbeziehung zusätzlicher unabhängiger Variablen wie Niederschlag, potentielle
Verdunstung oder Abfluss in Nachbarregionen erhöht werden kann. Insbesondere
zeigt sich, dass die Berücksichtigung von Abflussdaten aus Nachbarregionen
einen größeren Effekt auf die Imputationspräzision, hat als die anderen
Variablen. Der Unterschied zwischen ARIMA/X und ARCH/X hingegen ist weniger
bedeutend als die Wahl zusätzlicher Regressoren. Trotz viel-versprechender
Erkentnisse auf konzeptioneller Ebene ist anzumerken, dass die hier
vorgestellten Ergebnisse auf den Daten eines Einzugsgebiets basieren und für
Daten weiterer Einzugsgebiete variieren können. Eine umfassendere Validierung
der Ergebnisse auf Basis von Daten unterschiedlicher Einzugsgebiete erscheint
daher zukünftig sinnvoll.
de
dc.format.extent
XIV, 100 Seiten
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject.ddc
500 Naturwissenschaften und Mathematik::550 Geowissenschaften, Geologie::551 Geologie, Hydrologie, Meteorologie
dc.title
Dealing with missing data in hydrology
dc.contributor.contact
yongbo.gao@zalf.de
dc.contributor.firstReferee
Prof. Dr. Michael Schneider
dc.contributor.furtherReferee
Prof. Dr. Christoph Merz
dc.contributor.furtherReferee
Prof. Dr. Gunnar Lischeid
dc.date.accepted
2017-02-10
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000104238-0
dc.title.subtitle
Data analysis of discharge and groundwater time-series in Northeast Germany
dc.title.translated
Fehlende Werte und Imputationstechniken in der Hydrologie
de
dc.title.translatedsubtitle
Erkenntnisse aus der Analyse von Abfluss- und Grundwasser Zeitreihen aus
Norddeutschland
de
refubium.affiliation
Geowissenschaften
de
refubium.mycore.fudocsId
FUDISS_thesis_000000104238
refubium.mycore.derivateId
FUDISS_derivate_000000021170
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access