Wczoraj, z okazji Dnia Ziemi, IBM i Europejska Agencja Kosmiczna (ESA) ogłosiły uruchomienie TerraMind, modelu bazowego AI generatywnej zaprojektowanego do analizy, interpretacji i prognozowania dynamiki planety na podstawie wielomodalnych danych geosprzestrzennych.
To uruchomienie jest częścią FAST-EO (Foundation Models for Advanced Space-based Earth Observation), europejskiej inicjatywy prowadzonej przez czołowe konsorcjum — w skład którego wchodzi DLR (Niemieckie Centrum Kosmiczne), Forschungszentrum Jülich, IBM Research Europe i KP Labs — z naukowym i finansowym wsparciem Φ-lab ESA, laboratorium innowacji poświęconego naukom o Ziemi.
Celem FAST-EO jest demokratyzacja dostępu do modeli bazowych w społeczności obserwacji Ziemi (EO) i zachęcanie do ich wdrażania w kluczowych obszarach — zrównoważone zarządzanie zasobami naturalnymi, ochrona bioróżnorodności, zapobieganie katastrofom klimatycznym czy analiza systemów agro-środowiskowych.
W tym kontekście powstał TerraMind. Model został wstępnie przeszkolony w Forschungszentrum Jülich na „TerraMesh”, największym kiedykolwiek stworzonym zbiorze danych geosprzestrzennych. Ten korpus obejmuje ponad 9 milionów próbek obejmujących dziewięć różnych modalności: od obrazów optycznych i radarowych z satelitów Copernicus Sentinel-1 i -2, po tekstowe reprezentacje środowiska, geomorfologię i historyczne dane klimatyczne.
Opierając się na architekturze kodera-dekodera opartej na symetrycznych transformatorach, TerraMind może jednocześnie przetwarzać dane wejściowe typu piksel, token i sekwencja. Może na przykład krzyżować dynamikę pokrycia roślinnością z przeszłymi trendami meteorologicznymi i opisami użytkowania gruntów, aby zidentyfikować nowe zagrożenia lub modelować ewolucję ekosystemu.
Przełomowa innowacja: Thinking-in-Modalities (TiM)
Poza zdolnością do przetwarzania ogromnej ilości heterogenicznych danych, TerraMind wprowadza metodologiczny przełom: Thinking-in-Modalities (TiM). Według jego twórców, jest to pierwszy prawdziwie generatywny i multimodalny model bazowy stosowany do obserwacji Ziemi. To podejście pozwala mu autonomicznie generować sztuczne dane w przypadku brakujących wejść — sytuacja często spotykana w teledetekcji z powodu pokrywy chmur, zmiennej rozdzielczości czujników lub braków czasowych w seriach obserwacyjnych.
Oryginalność procedury opiera się na kontekstowym rozumowaniu między modalnościami. Zainspirowany łańcuchami myśli używanymi w LLMs, mechanizm TiM pozwala modelowi łączyć, ekstrapolować i rekonstruować dane na podstawie korelacji nauczonych między obrazami, tekstami, zmiennymi fizycznymi lub geograficznymi. Podczas fine-tuningu lub inferencji, ta zdolność do wzbogacania częściowego kontekstu pozwala nie tylko poprawić odporność modelu, ale także wyostrzyć jego odpowiedzi w specyficznych sytuacjach.
Zastosowanie tej techniki do wyzwań takich jak prognozowanie niedoborów wody — które angażują tak różnorodne zmienne jak klimat, użytkowanie ziemi, roślinność, hydrografia czy praktyki rolnicze — ilustruje jej potencjał operacyjny, tam gdzie tradycyjne podejścia napotykały na silosy danych lub braki czasowe.
Optymalna wydajność
Mimo swojej skali — ponad 500 miliardów tokenów wykorzystanych w fazie szkolenia — TerraMind jest modelem szczególnie oszczędnym. Dzięki swojej architekturze i efektywnej kompresji reprezentacji, zużywa dziesięć razy mniej zasobów niż porównywalne modele w podobnych zadaniach. Ta różnica otwiera konkretne perspektywy wdrożeń na dużą skalę, w tym w środowiskach z ograniczonymi możliwościami obliczeniowymi lub łączności.
Jest również najbardziej wydajny. TerraMind został oceniony przez ESA na PANGAEA, standardowym benchmarku społeczności: przewyższył o 8% lub więcej 12 popularnych modeli bazowych obserwacji Ziemi w rzeczywistych zadaniach, takich jak klasyfikacja pokrycia terenu, wykrywanie zmian, monitorowanie środowiska i analiza wieloczujnikowa i wieloczasowa.
Model wpisuje się w kontynuację strategii IBM w zakresie AI klimatycznej i środowiskowej, uzupełniając modele IBM-NASA Prithvi i Granite. Jego dostępność na IBM Geospatial Studio i Hugging Face wzmacnia jego dostępność i interoperacyjność.
Dla Nicolasa Longepe, Earth Observation Data Scientist w ESA:
"Ten projekt jest doskonałym przykładem udanej współpracy między społecznością naukową, dużymi firmami technologicznymi i ekspertami, aby wykorzystać potencjał technologii w służbie nauk o Ziemi. Synergia między ekspertami w dziedzinie danych obserwacji Ziemi, specjalistami od uczenia maszynowego, naukowcami danych i inżynierami w zakresie wysokowydajnych obliczeń (HPC) jest magiczna".