Gestern, anlässlich des Tags der Erde, haben IBM und die Europäische Weltraumorganisation (ESA) die Einführung von TerraMind angekündigt, einem generativen KI-Grundlagenmodell, das entwickelt wurde, um die Dynamiken des Planeten anhand multimodaler Geodaten zu analysieren, zu interpretieren und vorherzusagen.
Diese Einführung ist Teil von FAST-EO (Foundation Models for Advanced Space-based Earth Observation), einer europäischen Initiative, die von einem führenden Konsortium getragen wird — darunter das DLR (Deutsches Zentrum für Luft- und Raumfahrt), das Forschungszentrum Jülich, IBM Research Europe und KP Labs — mit wissenschaftlicher und finanzieller Unterstützung des Φ-lab der ESA, dem Innovationslabor für Erdwissenschaften.
Das Ziel von FAST-EO ist es, den Zugang zu Grundlagenmodellen innerhalb der Erdbeobachtungsgemeinschaft zu demokratisieren und ihre Nutzung in Bereichen mit hohem Potenzial zu fördern — nachhaltiges Ressourcenmanagement, Biodiversitätserhaltung, Klimakatastrophenprävention oder Analyse agro-ökologischer Systeme.
In diesem Rahmen ist TerraMind angesiedelt. Das Modell wurde im Forschungszentrum Jülich auf "TerraMesh" vortrainiert, dem umfangreichsten jemals erstellten Geodatenbestand. Dieses Korpus umfasst über 9 Millionen Proben, die neun verschiedene Modalitäten abdecken: von optischen und Radarbildern der Copernicus Sentinel-1 und -2 Satelliten bis hin zu textlichen Umweltdarstellungen, Geomorphologie und historischen Klimadaten.
Basierend auf einer symmetrischen Transformer-Architektur kann TerraMind gleichzeitig Eingaben in Form von Pixeln, Tokens und Sequenzen verarbeiten. Es kann beispielsweise die Dynamik der Vegetationsbedeckung mit vergangenen Wettertrends und Landnutzungsbeschreibungen verknüpfen, um aufkommende Risiken zu identifizieren oder die Entwicklung eines Ökosystems zu modellieren.
Eine bahnbrechende Innovation: Thinking-in-Modalities (TiM)
Über seine Fähigkeit hinaus, ein massives Volumen heterogener Daten zu verarbeiten, führt TerraMind eine methodologische Innovation ein: das Thinking-in-Modalities (TiM). Laut seinen Entwicklern handelt es sich um das erste wirklich generative und multimodale Grundlagenmodell, das auf die Erdbeobachtung angewendet wird. Dieser Ansatz ermöglicht es ihm, eigenständig künstliche Daten zu generieren, wenn Eingaben fehlen — eine häufige Situation in der Fernerkundung aufgrund von Wolkenbedeckung, variabler Sensorauflösung oder zeitlichen Lücken in Beobachtungsreihen.
Die Originalität des Verfahrens beruht auf einem kontextualisierten Denken zwischen Modalitäten. Inspiriert von den Denkketten, die in LLMs verwendet werden, erlaubt der TiM-Mechanismus dem Modell, Daten aus den gelernten Korrelationen zwischen Bildern, Texten, physikalischen oder geografischen Variablen zu kombinieren, zu extrapolieren und zu rekonstruieren. Beim Fine-Tuning oder der Inferenz verbessert diese Fähigkeit, einen partiellen Kontext zu bereichern, nicht nur die Robustheit des Modells, sondern verfeinert auch seine Antworten in spezifischen Situationen.
Die Anwendung dieser Technik auf Herausforderungen wie die Vorhersage von Wasserknappheit — die so vielfältige Variablen wie Klima, Landnutzung, Vegetation, Hydrographie oder landwirtschaftliche Praktiken einbeziehen — veranschaulicht ihr operationelles Potenzial, dort, wo traditionelle Ansätze auf Datensilos oder zeitliche Lücken stießen.
Optimierte Effizienz
Trotz seines Umfangs — über 500 Milliarden Tokens, die während der Trainingsphase verwendet wurden — ist TerraMind ein besonders effizientes Modell. Dank seiner Architektur und einer effektiven Kompression der Repräsentationen verbraucht es zehnmal weniger Ressourcen als vergleichbare Modelle bei ähnlichen Aufgaben. Dieser Unterschied eröffnet konkrete Perspektiven für den großflächigen Einsatz, auch in Umgebungen mit eingeschränkten Rechen- oder Konnektivitätskapazitäten.
Es ist auch das leistungsstärkste. TerraMind wurde von der ESA auf PANGAEA, einem Standard-Benchmark der Gemeinschaft, evaluiert: Es übertraf um 8 % oder mehr 12 beliebte Grundlagenmodelle der Erdbeobachtung bei realen Aufgaben wie der Klassifizierung der Landbedeckung, der Veränderungserkennung, der Umweltüberwachung und der Analyse mit mehreren Sensoren und zu verschiedenen Zeiten.
Das Modell fügt sich in die kontinuierliche Strategie von IBM in Bezug auf Klima- und Umwelt-KI, ergänzend zu den Modellen IBM-NASA Prithvi und Granite. Seine Verfügbarkeit auf IBM Geospatial Studio und Hugging Face verstärkt seine Zugänglichkeit und Interoperabilität.
Für Nicolas Longepe, Earth Observation Data Scientist bei der ESA:
"Dieses Projekt ist ein perfektes Beispiel für eine erfolgreiche Zusammenarbeit zwischen der wissenschaftlichen Gemeinschaft, großen Technologieunternehmen und Experten, um das Potenzial der Technologie im Dienste der Erdwissenschaften zu nutzen. Die Synergie zwischen den Experten für Erdbeobachtungsdaten, den Spezialisten für maschinelles Lernen, den Datenwissenschaftlern und den Hochleistungsrechen-Ingenieuren (HPC) ist magisch".
Besser verstehen
Was ist Thinking-in-Modalities (TiM) und wie funktioniert es im TerraMind-Modell?
Thinking-in-Modalities (TiM) ist ein innovativer Ansatz, der es TerraMind ermöglicht, künstliche Daten zu erzeugen, wenn Daten fehlen, indem Informationen aus verschiedenen Modalitäten wie Bildern und Texten kombiniert werden. Es ist inspiriert von den in LLMs verwendeten Denkketten, um Daten basierend auf gelernten Korrelationen zu kontextualisieren und zu extrapolieren.