Вчора, з нагоди Дня Землі, IBM і Європейське космічне агентство (ESA) оголосили про запуск TerraMind, генеративної AI-моделі, розробленої для аналізу, інтерпретації та прогнозування динаміки планети на основі мультимодальних геопросторових даних.
Цей запуск є частиною FAST-EO (Foundation Models for Advanced Space-based Earth Observation), європейської ініціативи, яку підтримує провідний консорціум — об'єднуючи DLR (Німецький аерокосмічний центр), Forschungszentrum Jülich, IBM Research Europe та KP Labs — з науковою та фінансовою підтримкою Φ-lab ESA, інноваційної лабораторії, присвяченої наукам про Землю.
Мета FAST-EO полягає в демократизації доступу до фундаментальних моделей у спільноті спостереження за Землею (EO) та заохоченні їх використання в областях з високими ставками — стійке управління природними ресурсами, збереження біорізноманіття, запобігання кліматичним катастрофам або аналіз агроекологічних систем.
Саме в цьому контексті розроблено TerraMind. Модель була попередньо навчена у Forschungszentrum Jülich на "TerraMesh", найбільшому зібранні геопросторових даних, яке коли-небудь було створено. Цей корпус містить понад 9 мільйонів зразків, які охоплюють дев'ять різних модальностей: від оптичних і радарних зображень з супутників Copernicus Sentinel-1 і -2 до текстових описів навколишнього середовища, через геоморфологію і історичні кліматичні дані.
На основі симетричних трансформаторних архітектур кодувальника-декодувальника, TerraMind може одночасно обробляти вхідні дані типу пікселя, токена і послідовності. Наприклад, він може перехресно аналізувати динаміку покриття рослинності з минулими метеорологічними тенденціями та описами використання земель для ідентифікації нових ризиків або моделювання еволюції екосистеми.
Інноваційний прорив: Thinking-in-Modalities (TiM)
Крім своєї здатності обробляти величезний обсяг гетерогенних даних, TerraMind вводить методологічний прорив: Thinking-in-Modalities (TiM). За словами його розробників, це перша по-справжньому генеративна і мультимодальна фундаментальна модель, застосована до спостереження за Землею. Цей підхід дозволяє йому автономно генерувати штучні дані у разі відсутності вхідних даних — часта ситуація в дистанційному зондуванні через хмарне покриття, змінну роздільну здатність датчиків або тимчасові прогалини в рядах спостережень.
Оригінальність процесу полягає в контекстуальному розумінні між модальностями. Натхненний ланцюгами мислення, що використовуються в LLM, механізм TiM дозволяє моделі комбінувати, екстраполювати та відновлювати дані на основі вивчених кореляцій між зображеннями, текстами, фізичними або географічними змінними. Під час тонкого налаштування або інференції ця здатність до збагачення часткового контексту дозволяє не тільки підвищити стійкість моделі, але й уточнити її відповіді в специфічних ситуаціях.
Застосування цієї техніки до викликів, таких як прогнозування нестачі води — які залучають такі різноманітні змінні, як клімат, землекористування, рослинність, гідрографія або сільськогосподарські практики — ілюструє її операційний потенціал, там, де традиційні підходи стикалися з ізоляцією даних або тимчасовими прогалинами.
Оптимізована ефективність
Незважаючи на свій масштаб — понад 500 мільярдів токенів, використаних під час фази навчання — TerraMind є надзвичайно економічною моделлю. Завдяки своїй архітектурі та ефективному стисненню представлень, він споживає удесятеро менше ресурсів, ніж порівнянні моделі на схожих завданнях. Ця різниця відкриває конкретні перспективи для розгортання в широкому масштабі, включаючи середовища з обмеженими обчислювальними потужностями або зв'язком.
Він також є найпродуктивнішим. TerraMind був оцінений ESA на PANGAEA, стандартному еталоні спільноти: він перевершив на 8% або більше 12 популярних фундаментальних моделей спостереження за Землею на реальних завданнях, таких як класифікація покриття земель, виявлення змін, екологічний моніторинг та мультисенсорний і мультитемпоральний аналіз.
Модель вписується в стратегію IBM щодо кліматичної та екологічної AI, доповнюючи моделі IBM-NASA Prithvi і Granite. Її доступність на IBM Geospatial Studio і Hugging Face підвищує її доступність та інтероперабельність.
Для Ніколя Лонжепе, науковця з даних спостереження за Землею в ESA:
"Цей проект є ідеальним прикладом успішної співпраці між науковою спільнотою, великими технологічними компаніями та експертами для використання потенціалу технологій на службі наук про Землю. Синергія між експертами з даних спостереження за Землею, фахівцями з машинного навчання, науковцями з даних та інженерами з високопродуктивних обчислень (HPC) є чарівною".