Increasing urbanization (UN DESA 2019) in combination with the impacts of global climate change (IPCC 2023) require effective climate adaptation strategies, especially in urban regions. Remote sensing analysis methods can supplement or replace classic in-situ surveys (Gray et al. 2021; Ho et al. 2022). A central challenge of the increasingly used deep learning algorithms is the increased demand for high-quality training data (Hoeser et al. 2020). One approach is the use of synthetic data (Tremblay et al. 2018; Hoeser et al. 2022). In most cases, however, only real training data or a combination of real and synthetic data is utilized. The main focus of this work is to investigate the question of whether the exclusive use of synthetic training data together with already trained models does not also achieve good results and thus enable further time and cost reductions. For this purpose, a workflow for tree crown segmentation in high-resolution RGB aerial images is developed, different network architectures are compared with regard to the accuracies they can achieve and the influence of the level of detail of synthetic training data is considered. For this purpose, five data sets with increasing visual complexity are created using the ArcGIS CityEngine (ESRI 2022) and used for the adaptation of ten neural networks. The specific scripts and the workflow as a Python library syntreesizer are published on GitHub. Generating the training datasets took several days to approximately two weeks. Good results were achieved on the validation datasets with a Dice index of at least 85 %. More detailed datasets even allowed accuracies of 97,4 % and 97,9 % for the model with ResNet-34 and ResNet-50 backbone respectively. Acceptable results were achieved on aerial photographs of Berlin: On the complete test data set, a model with ResNet-34 backbone achieved the highest accuracy of 59,29 %. When aligning the test data with the training data, the accuracies increase — a model with ResNet-50 backbone could achieve a final Dice accuracy of 66,65 %. The differences in accuraccies between the experiments were reduced. Synthetic training data allows the models to generalize what they have learned to previously unseen data. At the same time, it was found that an increased level of detail in the training data did not consistently lead to better performing models. Furthermore, the deeper neural networks did not achieve a convincing improvement of the binary tree crown masks. An in-depth examination of the algorithms used is one of the most important tasks for future work.
Zunehmende Urbanisierung (UN DESA 2019) in Kombination mit den Folgen des globalen Klimawandels (IPCC 2023) erfordern insbesondere in urbanen Regionen wir- kungsvolle Klimaanpassungsstrategien. Fernerkundliche Analyseverfahren können bei der Schaffung von Datengrundlagen klassische in-situ Aufnahmen ergänzen oder erset- zen (Gray et al. 2021; Ho et al. 2022). Eine zentrale Herausforderung der vermehrt zum Einsatz kommenden Deep Learning-Algorithmen besteht in dem gesteigertem Verlan- gen nach qualitativ hochwertigen Trainingsdaten (Hoeser et al. 2020). Ein Ansatz, diese zu erlangen liegt in der Verwendung synthetischer Daten (Tremblay et al. 2018; Hoeser et al. 2022). Mehrheitlich werden dennoch ausschließlich echte Trainingsdaten oder eine Kombination aus echten und synthetischen Daten verwendet. Das Hauptaugen- merk dieser Arbeit liegt auf der Untersuchung der Fragestellung, ob die ausschließliche Verwendung synthetischer Trainingsdaten zusammen mit bereits trainierten Modellen nicht gleichfalls gute Ergebnisse erzielt und damit weitere Zeit- und Kostenreduktionen ermöglicht. Zu diesem Zweck wird ein Arbeitsablauf für die Baumkronensegmentierung in hoch aufgelösten RGB-Luftbildaufnahmen entwickelt, verschiedene Netzwerkarchi- tekturen hinsichtlich der mit ihnen erreichbaren Genauigkeiten verglichen und der Einfluss des Detailgrades synthetischer Trainingsdaten betrachtet. Hierfür werden fünf Datensätze mit zunehmender visueller Komplexität mittels der ArcGIS CityEngine (ESRI 2022) erstellt und für die Anpassung zehn neuronaler Netzwerke herangezogen. Die konkreten Skripten sowie der Arbeitsablauf als Python-Bibliothek syntreesizer sind auf GitHub veröffentlicht. Die Trainingsdatensätze zu generieren hat jeweils mehrere Tage bis zu rund zwei Wochen in Anspruch genommen. Auf den Validierungsdatensätzen konnten gute Er- gebnisse mit einem Dice-Index von mindestens 85 % erreicht werden. Detailreichere Datensätze erlaubten sogar Genauigkeiten von 97,4 % und 97,9 % für das Modell mit ResNet-34, respektive ResNet-50 backbone. Auf Luftbildaufnahmen von Berlin wurden ak- zeptable Ergebnisse erreicht: Auf dem vollständigen Testdatensatz erreichte ein Modell ResNet-34 backbone die höchste Genauigkeit von 59,29 %. Bei Angleichung der Test- an die Trainingsdaten steigen die Genauigkeiten an — ein Modell mit ResNet-50 backbone konnte eine abschließende Dice-Genauigkeit von 66,65 % erreichen. Die Differenzen zwischen den Experimenten verringerten sich hierbei. Synthetische Trainingsdaten erlauben den Modellen, Gelerntes auf zuvor ungesehene Daten zu generalisieren. Gleichzeitig wurde festgestellt, dass ein erhöhter Detailgrad der Trainingsdaten nicht durchweg zu besser abschneidenden Modellen geführt hat. Darüber hinaus konnten die tieferen neuronalen Netzwerke keine überzeugende Verbes- serung der binären Baumkronenmasken erzielen. Die tiefgehende Auseinandersetzung mit den verwendeten Algorithmen gehört zu den wichtigsten Aufgaben zukünftiger Arbeiten.