As aplicações de inteligência artificial estão cada vez mais atraindo as empresas. Mas sua expansão destaca suas limitações. Respostas incompletas, ofensivas ou totalmente imprecisas (comumente chamadas de "alucinações"), vulnerabilidades de segurança e respostas muito genéricas, dificultam sua adoção em larga escala.

Alucinações, falhas de segurança e erros fragilizam a confiança das empresas em suas aplicações de IA e retardam seu desenvolvimento. Como ilustra o caso de dois advogados sancionados por terem apresentado um resumo jurídico contendo casos fictícios gerados por IA, respostas inadequadas de um LLM podem manchar uma imagem e reputação ao corroer a confiança.

A observabilidade reúne as tecnologias e práticas que permitem entender o estado de um sistema técnico. Para as aplicações de IA, isso implica uma visão completa, de ponta a ponta. Ajuda as empresas a avaliar a qualidade dos resultados dos modelos de linguagem (LLM), enquanto detecta alucinações, vieses, toxicidade, problemas de desempenho e custos. Precisamos de observabilidade na IA, pois esta tecnologia começa a mostrar seus limites no momento exato em que se torna indispensável. Quando substituem os motores de busca, os usuários dos LLM esperam que eles forneçam respostas precisas. Se a IA falhar nessa tarefa, ela corrói a confiança. 

Assim como a nuvem gerou ferramentas para avaliar e monitorar seus serviços, o crescimento da inteligência artificial exige suas próprias soluções de observabilidade. As aplicações de IA não podem mais ser tratadas como simples experimentos. Elas devem ser geridas com o mesmo rigor que qualquer aplicação crítica.

Ir além de "isso me parece correto"

Um dos principais desafios para as organizações que utilizam IA é ter um meio confiável para avaliar a precisão dos modelos. Desde a avaliação até a monitorização, a observabilidade desempenha um papel crucial na gestão do desempenho das aplicações de IA. Permite identificar as soluções mais adequadas entre a diversidade de modelos e ferramentas disponíveis, garantir um acompanhamento contínuo após sua implementação para detectar e corrigir eventuais anomalias, e otimizar o equilíbrio entre desempenho, latência e custos. Ao integrar esses mecanismos, as organizações podem explorar a IA de forma mais eficaz e controlada.

O que as empresas devem exigir da IA

Para implementar a IA com confiança, as empresas devem visar um nível de exigência elevado, bem além do simples "suficientemente bom". As respostas dos LLM devem ser honestas, inofensivas e úteis.

Devem apoiar-se em fatos verificáveis, sem erros ou invenções, e se destacar em tarefas complexas como resumo, inferência ou planejamento. Uma IA responsável também sabe reconhecer seus limites e abster-se de responder na ausência de informações. A segurança é primordial, a IA não deve expor dados pessoais nem ceder a manipulações. Mecanismos robustos devem prevenir vieses, estereótipos e desvios tóxicos. Finalmente, a inteligência artificial deve produzir respostas claras, úteis e diretamente utilizáveis, a serviço dos objetivos dos usuários, para melhorar sua eficácia e a qualidade de suas decisões.

Para tarefas que requerem uma memorização confiável, é necessário enriquecer os LLM com fontes de dados externas para garantir a precisão. Este é o princípio da geração aumentada pela pesquisa (RAG), que combina LLM e bases de dados factuais para respostas mais precisas.

RAG Triad é um conjunto de métricas que permite avaliar as aplicações RAG para garantir que sejam honestas e úteis. Baseia-se em três critérios: Relevância do contexto, Ancoragem e Relevância da resposta. Ao decompor um sistema RAG em seus elementos (consulta, contexto, resposta), este quadro de avaliação permite identificar os pontos de falha e otimizar o sistema de forma direcionada.

Proteger-se contra os riscos

A observabilidade ajuda a limitar as alucinações, detectar respostas erradas e identificar falhas de segurança. Com o surgimento dos fluxos de trabalho multi-agentes, torna-se crucial monitorar as chamadas de ferramentas, rastros de execução e o bom funcionamento dos sistemas distribuídos. Proteger-se contra os riscos implica alinhar os modelos e adicionar salvaguardas às aplicações para avaliar a toxicidade, os estereótipos e os ataques adversários. É uma tecnologia chave para explorar plenamente o potencial da IA, transformar as empresas, otimizar processos, reduzir custos e desbloquear novas fontes de receita.