Ontem, por ocasião do Dia da Terra, a IBM e a Agência Espacial Europeia (ESA) anunciaram o lançamento do TerraMind, um modelo de fundação de IA generativa projetado para analisar, interpretar e antecipar as dinâmicas do planeta a partir de dados geoespaciais multimodais.
Este lançamento faz parte do FAST-EO (Foundation Models for Advanced Space-based Earth Observation), uma iniciativa europeia liderada por um consórcio de ponta — reunindo o DLR (Centro Aeroespacial Alemão), o Forschungszentrum Jülich, IBM Research Europe e KP Labs — com o apoio científico e financeiro do Φ-lab da ESA, o laboratório de inovação dedicado às ciências da Terra.
O objetivo do FAST-EO é democratizar o acesso aos modelos de fundação dentro da comunidade de observação da Terra (EO) e incentivar sua adoção em áreas de alto impacto — gestão sustentável dos recursos naturais, preservação da biodiversidade, prevenção de catástrofes climáticas ou ainda análise de sistemas agroambientais.
É nesse contexto que se insere o TerraMind. O modelo foi pré-treinado no Forschungszentrum Jülich sobre "TerraMesh", o maior conjunto de dados geoespaciais já constituído. Este corpus inclui mais de 9 milhões de amostras cobrindo nove modalidades distintas: desde imagens ópticas e de radar dos satélites Copernicus Sentinel-1 e -2, a representações textuais do ambiente, passando pela geomorfologia e dados climáticos históricos.
Baseando-se em uma arquitetura codificador-decodificador com transformadores simétricos, o TerraMind pode processar simultaneamente entradas do tipo pixel, token e sequência. Ele pode, por exemplo, cruzar dinâmicas de cobertura vegetal com tendências meteorológicas passadas e descrições de uso do solo para identificar riscos emergentes ou modelar a evolução de um ecossistema.

Uma inovação de ruptura: o Thinking-in-Modalities (TiM)

Além de sua capacidade de processar um volume massivo de dados heterogêneos, o TerraMind introduz um avanço metodológico: o Thinking-in-Modalities (TiM). Segundo seus criadores, trata-se do primeiro modelo de fundação verdadeiramente generativo e multimodal aplicado à observação da Terra. Esta abordagem lhe permite gerar autonomamente dados artificiais em caso de entradas faltantes — uma situação frequente na teledetecção devido à cobertura de nuvens, resolução variável dos sensores ou lacunas temporais nas séries de observação.
A originalidade do procedimento reside em um raciocínio contextualizado entre modalidades. Inspirado nas cadeias de pensamento usadas nos LLMs, o mecanismo TiM permite ao modelo combinar, extrapolar e reconstruir dados a partir das correlações aprendidas entre imagens, textos, variáveis físicas ou geográficas. Durante o fine-tuning ou inferência, essa capacidade de enriquecer um contexto parcial não só melhora a robustez do modelo, mas também refina suas respostas em situações específicas.
A aplicação desta técnica a questões como a previsão de escassez de água — que mobilizam variáveis tão diversas quanto clima, ocupação do solo, vegetação, hidrografia ou práticas agrícolas — ilustra seu potencial operacional, onde as abordagens tradicionais enfrentavam silos de dados ou lacunas temporais.

Uma eficiência otimizada

Apesar de sua envergadura — mais de 500 bilhões de tokens usados durante a fase de treinamento — o TerraMind é um modelo particularmente econômico. Graças à sua arquitetura e uma compressão eficiente das representações, ele consome dez vezes menos recursos que modelos comparáveis em tarefas similares. Esta diferença abre perspectivas concretas de implantação em larga escala, inclusive em ambientes restritos em capacidades de cálculo ou conectividade.
Ele também é o mais eficiente. O TerraMind foi avaliado pela ESA no PANGAEA, um benchmark padrão da comunidade: superou em 8% ou mais 12 modelos de fundação de observação da Terra populares em tarefas reais, como classificação de cobertura terrestre, detecção de mudanças, monitoramento ambiental e análise multissensorial e multitemporal.
O modelo insere-se na continuidade da estratégia da IBM em matéria de IA climática e ambiental, em complemento aos modelos IBM-NASA Prithvi e Granite. Sua disponibilidade no IBM Geospatial Studio e Hugging Face reforça sua acessibilidade e interoperabilidade.
Para Nicolas Longepe, Earth Observation Data Scientist na ESA:
"Este projeto é um exemplo perfeito de colaboração bem-sucedida entre a comunidade científica, grandes empresas tecnológicas e especialistas para explorar o potencial da tecnologia a serviço das ciências da Terra. A sinergia entre os especialistas em dados de observação da Terra, especialistas em Machine Learning, cientistas de dados e engenheiros de computação de alto desempenho (HPC) é mágica".
 
 
 
 

Para entender melhor

O que é o Thinking-in-Modalities (TiM) e como funciona no modelo TerraMind?

Thinking-in-Modalities (TiM) é uma abordagem inovadora que permite ao TerraMind gerar dados artificiais quando faltam dados, combinando informações de diferentes modalidades, como imagens e textos. É inspirado nas cadeias de pensamento usadas em LLMs para contextualizar e extrapolar dados com base em correlações aprendidas.