Künstliche Intelligenz-Anwendungen gewinnen zunehmend an Attraktivität für Unternehmen. Doch ihre Verbreitung legt ihre Grenzen offen. Unvollständige, beleidigende oder völlig ungenaue Antworten (häufig als "Halluzinationen") sowie Sicherheitslücken und zu generische Antworten behindern ihre breite Akzeptanz.

Halluzinationen, Sicherheitslücken und Fehler untergraben das Vertrauen der Unternehmen in ihre KI-Anwendungen und hemmen deren Einsatz. Wie der Fall zweier sanktionierter Anwälte zeigt, die ein juristisches Schreiben mit von der KI generierten fiktiven Fällen einreichten, können unangemessene Antworten eines LLM das Image und den Ruf schädigen, indem sie das Vertrauen untergraben.

Observability umfasst die Technologien und Praktiken, die es ermöglichen, den Zustand eines technischen Systems zu verstehen. Für KI-Anwendungen bedeutet dies eine umfassende, durchgängige Sichtweise. Sie hilft Unternehmen, die Qualität der Ergebnisse von Sprachmodellen (LLM) zu bewerten und gleichzeitig Halluzinationen, Vorurteile, Toxizität, Leistungsprobleme und Kosten zu erkennen. Wir brauchen Observability in der KI, da diese Technologie beginnt, ihre Grenzen zu zeigen, genau in dem Moment, in dem sie unverzichtbar wird. Wenn sie Suchmaschinen ersetzen, erwarten die Nutzer von den LLM, dass sie genaue Antworten liefern. Wenn die KI diese Aufgabe nicht erfüllt, untergräbt sie das Vertrauen.

Wie die Cloud Tools hervorgebracht hat, um ihre Dienste zu bewerten und zu überwachen, erfordert das Wachstum der künstlichen Intelligenz eigene Observability-Lösungen. KI-Anwendungen können nicht mehr als bloße Experimente behandelt werden. Sie müssen mit der gleichen Strenge verwaltet werden wie jede kritische Anwendung.

Über „das scheint mir korrekt“ hinausgehen

Eines der Hauptanliegen für Organisationen, die KI einsetzen, ist es, über ein zuverlässiges Mittel zur Bewertung der Genauigkeit der Modelle zu verfügen. Von der Bewertung bis zur Überwachung spielt Observability eine Schlüsselrolle im Management der Leistung von KI-Anwendungen. Sie ermöglicht es, die am besten geeigneten Lösungen aus der Vielfalt der verfügbaren Modelle und Tools zu identifizieren, eine kontinuierliche Überwachung nach deren Einsatz sicherzustellen, um eventuelle Anomalien zu erkennen und zu korrigieren, und das Gleichgewicht zwischen Leistung, Latenz und Kosten zu optimieren. Durch die Integration dieser Mechanismen können Organisationen die KI effizienter und kontrollierter einsetzen.

Was Unternehmen von der KI verlangen sollten

Um KI mit Vertrauen einzusetzen, sollten Unternehmen einen hohen Anspruch anstreben, weit über das bloße „ausreichend gut“ hinaus. Die Antworten der LLM sollten ehrlich, harmlos und nützlich sein.

Sie sollten auf überprüfbaren Fakten basieren, ohne Fehler oder Erfindungen, und in der Lage sein, in komplexen Aufgaben wie Zusammenfassung, Schlussfolgerung oder Planung zu glänzen. Eine verantwortungsvolle KI erkennt auch ihre Grenzen und verzichtet auf Antworten, wenn Informationen fehlen. Sicherheit ist von größter Bedeutung, die KI sollte weder persönliche Daten preisgeben noch Manipulationen erliegen. Robuste Mechanismen sollten Vorurteile, Stereotypen und toxische Abweichungen verhindern. Schließlich sollte die künstliche Intelligenz klare, nützliche und direkt nutzbare Antworten liefern, die den Zielen der Nutzer dienen, um ihre Effizienz und die Qualität ihrer Entscheidungen zu verbessern.

Für Aufgaben, die eine zuverlässige Speicherung erfordern, müssen die LLM mit externen Datenquellen angereichert werden, um die Genauigkeit zu gewährleisten. Das ist das Prinzip der durch Recherche erweiterte Generierung (RAG), die LLM und faktische Datenbanken kombiniert, um präzisere Antworten zu liefern.

Das RAG Triad ist ein Satz von Metriken zur Bewertung von RAG-Anwendungen, um sicherzustellen, dass sie ehrlich und nützlich sind. Es basiert auf drei Kriterien: Kontextrelevanz, Verankerung und Relevanz der Antwort. Durch die Unterteilung eines RAG-Systems in seine Elemente (Anfrage, Kontext, Antwort) ermöglicht dieses Bewertungsframework die Identifizierung von Schwachstellen und die gezielte Optimierung des Systems.

Schutz vor Risiken

Observability hilft, Halluzinationen zu begrenzen, fehlerhafte Antworten zu erkennen und Sicherheitslücken aufzudecken. Mit dem Aufkommen von Multi-Agent-Workflows wird es entscheidend, die Toolaufrufe, Ausführungsspuren und das ordnungsgemäße Funktionieren verteilter Systeme zu überwachen. Der Schutz vor Risiken erfordert die Ausrichtung der Modelle und das Hinzufügen von Schutzmaßnahmen zu den Anwendungen, um Toxizität, Stereotypen und gegnerische Angriffe zu bewerten. Es ist eine Schlüsseltechnologie, um das volle Potenzial der KI auszuschöpfen, Unternehmen zu transformieren, Prozesse zu optimieren, Kosten zu senken und neue Einnahmequellen zu erschließen.