Ayer, con motivo del Día de la Tierra, IBM y la Agencia Espacial Europea (ESA) anunciaron el lanzamiento de TerraMind, un modelo de IA generativa de fundación diseñado para analizar, interpretar y anticipar las dinámicas del planeta a partir de datos geoespaciales multimodales.
Este lanzamiento se enmarca en el proyecto FAST-EO (Foundation Models for Advanced Space-based Earth Observation), una iniciativa europea liderada por un consorcio de vanguardia — que reúne al DLR (Centro Aeroespacial Alemán), el Forschungszentrum Jülich, IBM Research Europe y KP Labs — con el apoyo científico y financiero de Φ-lab de la ESA, el laboratorio de innovación dedicado a las ciencias de la Tierra.
El objetivo de FAST-EO es democratizar el acceso a los modelos de fundación dentro de la comunidad de observación de la Tierra (EO) y fomentar su adopción en áreas de alto impacto — gestión sostenible de los recursos naturales, preservación de la biodiversidad, prevención de desastres climáticos o análisis de sistemas agroambientales.
Es en este contexto que se inscribe TerraMind. El modelo fue preentrenado en el Forschungszentrum Jülich sobre "TerraMesh", el conjunto de datos geoespaciales más grande jamás constituido. Este corpus incluye más de 9 millones de muestras que cubren nueve modalidades distintas: desde imágenes ópticas y de radar de los satélites Copernicus Sentinel-1 y -2, hasta representaciones textuales del entorno, pasando por la geomorfología y los datos climáticos históricos.
Basado en una arquitectura codificador-decodificador basada en transformadores simétricos, TerraMind puede procesar simultáneamente entradas de tipo píxel, token y secuencia. Puede, por ejemplo, cruzar las dinámicas de cobertura vegetal con tendencias meteorológicas pasadas y descripciones de uso del suelo para identificar riesgos emergentes o modelar la evolución de un ecosistema.

Una innovación disruptiva: el Pensamiento en Modalidades (TiM)

Más allá de su capacidad para procesar un volumen masivo de datos heterogéneos, TerraMind introduce un avance metodológico: el Pensamiento en Modalidades (TiM). Según sus creadores, es el primer modelo de fundación verdaderamente generativo y multimodal aplicado a la observación de la Tierra. Este enfoque le permite generar de manera autónoma datos artificiales en caso de entradas faltantes — una situación frecuente en teledetección debido a la cobertura de nubes, la resolución variable de los sensores o las lagunas temporales en las series de observación.
La originalidad del proceso se basa en un razonamiento contextualizado entre modalidades. Inspirado en las cadenas de pensamiento utilizadas en los LLMs, el mecanismo TiM permite al modelo combinar, extrapolar y reconstruir datos a partir de las correlaciones aprendidas entre imágenes, textos, variables físicas o geográficas. Durante el ajuste fino o la inferencia, esta capacidad para enriquecer un contexto parcial no solo mejora la robustez del modelo, sino también afina sus respuestas en situaciones específicas.
La aplicación de esta técnica a desafíos como la previsión de la escasez de agua — que movilizan variables tan diversas como el clima, la ocupación del suelo, la vegetación, la hidrografía o las prácticas agrícolas — ilustra su potencial operativo, donde los enfoques tradicionales se enfrentaban a silos de datos o a lagunas temporales.

Una eficiencia optimizada

A pesar de su envergadura — más de 500 mil millones de tokens utilizados durante la fase de entrenamiento — TerraMind es un modelo particularmente eficiente. Gracias a su arquitectura y una compresión eficaz de las representaciones, consume diez veces menos recursos que los modelos comparables en tareas similares. Esta diferencia abre perspectivas concretas de despliegue a gran escala, incluso en entornos limitados en capacidad de cálculo o conectividad.
Es también el más efectivo. TerraMind fue evaluado por la ESA en PANGAEA, un estándar de referencia de la comunidad: superó en un 8% o más a 12 modelos de fundación de observación de la Tierra populares en tareas reales, como la clasificación de la cobertura terrestre, la detección de cambios, el monitoreo ambiental y el análisis multiesensor y multitemporal.
El modelo se inserta en la continuidad de la estrategia de IBM en materia de IA climática y ambiental, complementando los modelos IBM-NASA Prithvi y Granite. Su disponibilidad en IBM Geospatial Studio y Hugging Face refuerza su accesibilidad e interoperabilidad.
Para Nicolas Longepe, Científico de Datos de Observación de la Tierra en la ESA:
"Este proyecto es un ejemplo perfecto de colaboración exitosa entre la comunidad científica, las grandes empresas tecnológicas y los expertos para aprovechar el potencial de la tecnología al servicio de las ciencias de la Tierra. La sinergia entre los expertos en datos de observación de la Tierra, los especialistas en aprendizaje automático, los científicos de datos y los ingenieros en computación de alto rendimiento (HPC) es mágica".
 
 
 
 

Para entender mejor

¿Qué es Thinking-in-Modalities (TiM) y cómo funciona en el modelo TerraMind?

Thinking-in-Modalities (TiM) es un enfoque innovador que permite a TerraMind generar datos artificiales cuando faltan datos, combinando información de diferentes modalidades como imágenes y textos. Se inspira en las cadenas de pensamiento utilizadas en los LLMs para contextualizar y extrapolar datos basándose en las correlaciones aprendidas.