Hier, à l’occasion du Jour de la Terre, IBM et l’Agence spatiale européenne (ESA) ont annoncé le lancement de TerraMind, un modèle de fondation d’IA générative conçu pour analyser, interpréter et anticiper les dynamiques de la planète à partir de données géospatiales multimodales.
Ce lancement s’inscrit dans le cadre de FAST-EO (Foundation Models for Advanced Space-based Earth Observation), une initiative européenne portée par un consortium de pointe — réunissant le DLR (Centre aérospatial allemand), le Forschungszentrum Jülich, IBM Research Europe et KP Labs — avec le soutien scientifique et financier du Φ-lab de l’ESA, le laboratoire d’innovation dédié aux sciences de la Terre.
L’objectif de FAST-EO est de démocratiser l’accès aux modèles de fondation au sein de la communauté de l’observation de la Terre (EO) et encourager leur appropriation dans des domaines à fort enjeu — gestion durable des ressources naturelles, préservation de la biodiversité, prévention des catastrophes climatiques ou encore analyse des systèmes agro-environnementaux.
C’est dans ce cadre que s’inscrit TerraMind. Le modèle a été pré-entraîné au Forschungszentrum Jülich sur "TerraMesh", le plus vaste ensemble de données géospatiales jamais constitué. Ce corpus comprend plus de 9 millions d’échantillons couvrant neuf modalités distinctes : des imageries optiques et radar issues des satellites Copernicus Sentinel-1 et -2, aux représentations textuelles de l’environnement, en passant par la géomorphologie et les données climatiques historiques.
Reposant sur une architecture codeur-décodeur basée sur des transformateurs symétriques, TerraMind  peut traiter simultanément des entrées de type pixel, jeton et séquence. il peut, par exemple, croiser les dynamiques de couverture végétale avec des tendances météorologiques passées et des descriptions d’usage des sols pour identifier des risques émergents ou modéliser l’évolution d’un écosystème.

Une innovation de rupture : le Thinking-in-Modalities (TiM)

Au-delà de sa capacité à traiter un volume massif de données hétérogènes, TerraMind introduit une avancée méthodologique : le Thinking-in-Modalities (TiM). Selon ses concepteurs, il s'agit du premier modèle de fondation véritablement génératif et multimodal appliqué à l’observation de la Terre. Cette approche lui permet de générer de manière autonome des données artificielles en cas d’entrées manquantes — une situation fréquente en télédétection en raison de la couverture nuageuse, de la résolution variable des capteurs ou des lacunes temporelles dans les séries d’observation.
L’originalité du procédé repose sur un raisonnement contextualisé entre modalités. Inspiré des chaînes de pensée utilisées dans les LLMs, le mécanisme TiM  permet au modèle de combiner, extrapoler et reconstruire des données à partir des corrélations apprises entre images, textes, variables physiques ou géographiques. Lors du fine-tuning ou de l’inférence, cette capacité à enrichir un contexte partiel permet non seulement d’améliorer la robustesse du modèle, mais aussi d’affiner ses réponses dans des situations spécifiques.
L’application de cette technique à des enjeux tels que la prévision des pénuries d’eau — qui mobilisent des variables aussi diverses que le climat, l’occupation des sols, la végétation, l’hydrographie ou encore les pratiques agricoles — illustre son potentiel opérationnel, là où les approches traditionnelles se heurtaient à des silos de données ou à des lacunes temporelles.

Une efficacité optimisée

Malgré son envergure — plus de 500 milliards de tokens utilisés lors de la phase d’entraînement — TerraMind est un modèle particulièrement sobre. Grâce à son architecture et une compression efficace des représentations, il consomme dix fois moins de ressources que les modèles comparables sur des tâches similaires. Ce différentiel ouvre des perspectives concrètes de déploiement à grande échelle, y compris dans des environnements contraints en capacités de calcul ou de connectivité.
Il est également le plus performant. TerraMind a été évalué par l'ESA sur PANGAEA, un benchmark standard de la communauté : il a surpassé de 8 % ou plus 12 modèles de fondation d'observation de la Terre populaires sur des tâches réelles, comme la classification de la couverture terrestre, la détection des changements, la surveillance de l'environnement et l'analyse multi-capteurs et multi-temporelle. 
Le modèle s’insère dans la continuité de la stratégie d’IBM en matière d’IA climatique et environnementale, en complément des modèles IBM-NASA Prithvi et Granite. Sa disponibilité sur IBM Geospatial Studio et Hugging Face renforce son accessibilité et son interopérabilité.
Pour Nicolas Longepe, Earth Observation Data Scientist à l'ESA :
"Ce projet est un exemple parfait de collaboration réussie entre la communauté scientifique, les grandes entreprises technologiques et les experts pour exploiter le potentiel de la technologie au service des sciences de la Terre. La synergie entre les experts des données d'observation de la Terre, les spécialistes de Machine learning, les scientifiques des données et les ingénieurs en calcul haute performance (HPC) est magique". 
 
 
 
 

Pour mieux comprendre (assisté par l'IA)

Qu'est-ce que le Thinking-in-Modalities (TiM) et comment cela fonctionne-t-il dans le modèle TerraMind?

Le Thinking-in-Modalities (TiM) est une approche innovante qui permet à TerraMind de générer des données artificielles en cas de données manquantes, en combinant des informations de différentes modalités comme des images et des textes. Il s'inspire des chaînes de pensée utilisées dans les LLMs pour contextualiser et extrapoler des données en se basant sur les corrélations apprises.