Hydrological missing data is a common issue for hydrologists as it poses a serious problem for many statistical approaches in hydrology which require complete data sources since missing data is often harmful beyond reducing statistical power. For reasons of convenience, researchers often resort to simple solutions to deal with missing data such as simply discarding observations characterized by missing data or by replacing missing data with a statistical methodology. Despite its convenience, discarding is suboptimal as it reduces the quality of the conclusion to be drawn when analyzing the data. Actually, a variety of statistical techniques are available to treat missing data. My research is about finding the right techniques to deal with missing data problems in Hydrology and distinguishing in which certain circumstances which method works better. First, various imputation methods available to the hydrological researchers have been reviewed, including arithmetic mean imputation, Principal Component Analysis (PCA), regression-based methods and multiple imputation methods. Due to the time-series nature of hydrological data often requires more flexible non-linear model, we therefore put an emphasis on time-series regressions approaches that exploit the time series nature of hydrological data. Auto Regressive Conditional Heteroscedasticity (ARCH) models which originate from finance and econometrics and Autoregressive Integrated Moving Average (ARIMA) models are discussed regarding the applicability to hydrological contexts here. I focused the attention on discussing econometric time-series methods as they explicitly model the particular statistical properties of hydrological time-series (autocorrelation and heteroscedasticity) which are mostly neglected in algorithmic machine learning approaches. Second, the performances of imputation techniques which are widespread and easy to use but ignore the time series nature of hydrological data and imputation techniques exploiting their time series nature are compared. By running a hydrological model - Hydrologiska Byråns Vattenbalansavdelning (HBV) model we generated 5 different discharge time series that exhibit different patterns of volatility to analyze. The combination of Mean Squared Error (MSE) and Nash Sutcliff efficiency (NSE) as performance measures demonstrates that econometric time series models such as Autoregressive Integrated Moving Average (ARIMA) and Autoregressive Conditional Heteroscedasticity (ARCH) model outperform alternative imputation approaches such as mean imputation or Ordinary Least Squares (OLS) based regression methods. Furthermore, we examined how the inclusion of information beyond the time-series of the variable of interest itself can improve imputation results. Extensions of these models to incorporate additional exogenous regressors are readily available with ARIMAX and ARCHX models. Using discharge data from Brandenburg in the northeast of Germany, we compare the imputation performance of univariate ARIMA and ARCH models which have been shown well in hydrological settings before with the performance of extended model version. These results shown that the models’ performance can be further enhanced by the inclusion of exogenous regressors such as precipitation, potential evapotranspiration or discharge measures from neighboring research areas. In particular, the inclusion of discharge measures of neighboring areas has a bigger effect on imputation quality. Moreover, the choice between ARIMA/X and ARCH/X is less important than the choice of additional regressors. Despite they overall encouraging findings there are, however, on the conceptual level, our results have been obtained using data from only one catchment area (Brandenburg) and the results might differ for data obtained from other catchments. More comprehensive validation of our results using data from different settings therefore seems to be warranted.
Hydrologische Daten sind oft durch fehlende Messwerte und Datenlücken gekennzeichnet, was die Anwendung statistischer Methoden zur Datenanalyse erschwert. Gängige statistische Ansätze erforden vollständige Datensätze und fehlende Werte können nicht nur ihre Präzision reduzieren sondern auch zu verzerrten bzw. falschen Ergebnissen führen. Einfache Ansätze zum Umgang mit fehlenden Daten beinhalten das Löschen von Beobachtungen mit fehlenden Werten in einer oder mehreren Variablen oder auch das Ersetzen fehlender Werte durch den Einsatz statistischer Prognosemethoden (Imputation). Das Löschen von Beobachtungen ist oft suboptimal, da es die Qualität statistischer Schlussfolgerungen reduziert. Aus diesem Grund wurde eine Reihe von Verfahren entwickelt, die fehlende Werte mit prognostizierten Werten ersetzen und somit die Daten komplettieren. Die vorliegende Arbeite soll einen Überblick über alternative Imputationsverfahren geben und deren Anwendbarkeit in verschiedenen hydrologischen Problemstellungen evaluieren. Im ersten Teil der Arbeit wird die Problematik fehlender Werte und ihr Einfluss auf die Anwendbarkeit statistischer Analyseverfahren dargestellt. Darauf aufbauend werden gebräuchliche Imputationsverfahren vorgestellt und vergleichend diskutiert. Dabei wird auf verschiedene Verfahren eingegangen, wie etwa das Ersetzen fehlender Werte durch den Mittelwert aller Beobachtungen, die Hauptkomponentenanalyse (PCA) oder regressionsbasierte Imputationsverfahren. Schwerpunkt dieser Untersuchungen ist die Darstellung zeitreihenbasierter Verfahren, da hydrologische Daten in der Regel als Zeitreihen vorliegen. Insbesondere werden die in der Volkswirtschaftslehre gebräuchlichen Autoregressive Integrated Moving Average (ARIMA) und Autoregressive Conditional Heteroscedasticity (ARCH) Modelle vorgestellt. Diese Modelle wurden ausgewählt, da sie explizit die Zeitreihencharakteristiken von Daten (Autokorrelation und Heteroskedastizität) modellieren, die in alternativen Verfahren oft vernachlässigt werden. Im zweiten Teil der Arbeit werden die Ergebnisse von einfachen und weitverbreiteten Imputationsverfahren den Ergebnissen zeitreihenbasierter Imputationsverfahren gegenübergestellt. Dies erfolgt in einem hydrologischen Kontext. Mittels des Hydrologiska Byråns Vattenbalansavdelning (HBV) Modells werden zuerst fünf verschiedene Abflusszeitreihen generiert, die durch unterschiedliche Volatilität gekennzeichnet sind. Anschließend werden zufällig generierte Werte in diesen Zeitreihen mittels alternativen Imputationsverfahren approximiert und die Imputationsqualität mittels des Mean Squared Error (MSE) und des Nash Sutcliffe Efficiency (NSE) Kriteriums verglichen. Die Ergebnisse belegen, dass ökonometrische Zeitreihenmodelle wie etwa das Autoregressive Integrated Moving Average (ARIMA) und das Autoregressive Conditional Heteroscedasticity (ARCH) Modell alternativen Methoden überlegen sind. Im dritten Teil der Arbeit werden Generalisierungen der vorgestellten ARIMA und ARCH Modelle in einem ähnlichen Kontext evaluiert. Diese multivariaten Modelle (ARIMAX und ARCHX) beziehen neben der Zeitreihe der abhängigen Variablen weitere, unabhängige Variablen in das Modell mit ein. Basierend auf exemplarischen Abflusszeitreihen aus Brandenburg wird die Imputationsleistung von ARIMA und ARCH Modellen mit denen der erweiterten Modelle verglichen. Die Ergebnisse zeigen, dass die Präzision von Zeitreihenmodellen zur Modellierung gemessenen Abflusses durch die Einbeziehung zusätzlicher unabhängiger Variablen wie Niederschlag, potentielle Verdunstung oder Abfluss in Nachbarregionen erhöht werden kann. Insbesondere zeigt sich, dass die Berücksichtigung von Abflussdaten aus Nachbarregionen einen größeren Effekt auf die Imputationspräzision, hat als die anderen Variablen. Der Unterschied zwischen ARIMA/X und ARCH/X hingegen ist weniger bedeutend als die Wahl zusätzlicher Regressoren. Trotz viel-versprechender Erkentnisse auf konzeptioneller Ebene ist anzumerken, dass die hier vorgestellten Ergebnisse auf den Daten eines Einzugsgebiets basieren und für Daten weiterer Einzugsgebiete variieren können. Eine umfassendere Validierung der Ergebnisse auf Basis von Daten unterschiedlicher Einzugsgebiete erscheint daher zukünftig sinnvoll.