Klassifikation von Baumarten
DTLab-Challenge mit dem Nationalpark Bayerischer Wald
Deep Learning-basierte Klassifikation von Baumarten und stehenden toten Bäumen auf der AWS-Architektur
Deep Learning-basierte Klassifikation von Baumarten und stehenden toten Bäumen auf der AWS-Architektur
Übersicht
Der Nationalpark Bayerischer Wald wurde 1970 gegründet und ist der erste Nationalpark in Deutschland. Er liegt unmittelbar an der Grenze zur Tschechischen Republik und hat den Leitsatz "Natur Natur sein lassen". Das bedeutet, innerhalb der großen Schutzgebiete ist jeglicher menschliche Eingriff verboten, so dass dort seit jeher Naturprozesse bis hin zu Katastrophenereignissen stattfinden dürfen. Leider litt er in letzter Zeit unter dem Borkenkäferbefall, der zu einem massiven Baumsterben in einem großen Teil des Waldes führte. Da dieses Problem auch die Wildtiere, die den Wald bewohnen, betreffen könnte, wird ein Kompromiss wie die Baumverjüngung eingegangen, um weitere Verluste zu verhindern.
Die Kenntnis der Zusammensetzung des Waldes einschließlich der Baumarten und der Menge des Totholzes ist ein wichtiger Faktor für den Verjüngungsprozess. Daher wird regelmäßig eine Waldinventur auf Probeflächen in verschiedenen Teilen des Waldes durchgeführt, die repräsentative Informationen über die Region liefert. Dieser Prozess erfordert oft mehrere Erhebungsteams und kann aufgrund der riesigen Fläche des Waldes Tage dauern. Als Alternative kann ein luftgestützter Laserscanner (ALS) eingesetzt werden, um visuelle 3D-Daten, die Punktwolken eines großen Gebietes umfassen, mit hoher Präzision und in kürzerer Zeit zu erfassen.
Um aus den visuellen Daten Informationen abzuleiten, kann die künstliche Intelligenz (KI) mit Hilfe von Auswahlalgorithmen trainiert werden, um einzelne Bäume zusammen mit ihrer Art oder ihrem Gesundheitszustand zu erkennen. In dieser Challenge wurde das Deep Learning als Teilmenge der künstlichen Intelligenz gewählt, um die Aufgabe der Kategorisierung einzelner Bäume in ihre entsprechenden Arten und ihren Gesundheitszustand zu erfüllen.
Problem
Wie können wir eine höhere Klassifikationsgenauigkeit erreichen, wenn die KI versucht, einzelne Bäume zu kategorisieren?
Maschinen können Vorhersagen darüber treffen, welche Bäume zu welcher Kategorie gehören, wenn sie vorher mit genügend Referenzproben optimal trainiert werden. Dieser Prozess wird 'maschinelles Lernen' genannt. Es gibt mehrere bekannte Lernalgorithmen wie 'random forest' oder 'logistische Regression', die von der CORSNAV-Forschungsgruppe an der Hochschule München erprobt wurden, um einen einzelnen Baum in seine jeweilige Art zu klassifizieren und auch Totholz zu erkennen. Die Klassifikationsgenauigkeit dieser Algorithmen war jedoch noch verbesserungswürdig (ca. 70-80%). Der Grund dafür lag in der geringen Anzahl von Referenzproben aus allen Kategorien. Aufgrund der komplexen Struktur des Waldes war es für die Algorithmen selbst schwierig, zwischen lebenden und toten Bäumen zu unterscheiden.
Ansatz
Die CORSNAV-Forschungsgruppe sieht Potenzial im Deep Learning, einem Teilbereich des maschinellen Lernens. Mit Deep Learning ist es möglich, die Klassifikationsgenauigkeit jenseits von 80% weiter zu verbessern. Es ahmt die Funktion von neuronalen Netzen im menschlichen Gehirn nach und lernt hierarchisch, ausgehend von lokalen Mustern wie Blättern oder Ästen eines Baumes bis hin zu komplexen Szenen wie dem kompletten Baum selbst. Darüber hinaus ist es in der Lage, eine große Anzahl von Referenzproben aufzunehmen, die für die Trainingsphase benötigt werden.
Um herauszufinden, wie gut Deep Learning funktioniert, wurde die Challenge als Abschlussarbeit erstellt. Der Student, der für diese Aufgabe ausgewählt wurde, nahm an verschiedenen Workshops wie dem Amazon Web Service (AWS) Summer Camp und einer kurzen Einführung in die Innovationsmethode "Working Backwards" teil, um mehr über die von AWS angebotenen Dienstleistungen zu erfahren. Auf der Grundlage der "Working-Backwards"-Methode wurde ein Treffen mit der Verwaltung des Nationalparks Bayerischer Wald arrangiert, um Informationen und Anforderungen für die Challenge zu sammeln. Das Ergebnis des Treffens wurde in einer Roadmap dokumentiert, um einen beständigen Fortschritt während der Arbeit zu gewährleisten. Ein Solutions Architect von AWS gab dem Studenten Feedback zum Entwurf eines für Cloud Computing auf AWS geeigneten Workflows.
Prototyp
Bei der Challenge wurden zwei Dienste von AWS in Anspruch genommen. Die Amazon Elastic Compute Cloud (EC2)-Instanz ist im Grunde ein virtueller Computer, der von Amazon angeboten wird und bei dem die Hardwareressourcen an spezifische Bedürfnisse angepasst werden können. Die leistungsstärkste P3-Instanz mit acht Grafikprozessoren wurde ausgewählt, um die intensive Deep Learning-Aufgabe zu bewältigen. Zur Speicherung der Referenzdaten sowie der Ergebnisse wurde der Amazon Simple Storage Service (S3) verwendet. Die Daten werden unabhängig von der EC2-Instanz gespeichert, was im Falle eines Absturzes oder bei Nichtverfügbarkeit der Instanz wichtig ist.
Für den Deep-Learning-Teil wurde die Bibliothek PyTorch für die Entwicklung verwendet. Sie ist in Python geschrieben und auch für AnfängerInnen, die in das Deep Learning einsteigen, geeignet. Um die Software-Abhängigkeiten verschiedener Versionen zu verwalten und sie in ein einziges Anwendungs-Image zu packen, wurde das Virtualisierungswerkzeug Docker verwendet. Mit diesem Image kann die Anwendung auf jedem Computer einschließlich der EC2-Instanz ausgeführt werden.
Nächste Schritte
Die Challenge läuft weiter als Angebot von Abschlussarbeiten für Studierende, die an Deep Learning und Fernerkundung interessiert sind. Der Nationalpark Bayerischer Wald unterhält eine enge Zusammenarbeit mit der CORSNAV-Forschungsgruppe und dem Digital Transformation Lab für weitere Challenges.
Lehrender: Prof. Dr. Peter Krzystek
Datum: 26.04.2020
Dokumente
Eine Auswahl der während der Challenge von den Studierenden erstellten Dokumente finden Sie hier: