Root Signals, Spezialist für die Bewertung großer Sprachmodelle (LLM) und die Qualitätskontrolle von KI-Anwendungen, hat kürzlich die Einführung von Root Judge angekündigt, einem Modell zur Messung der Zuverlässigkeit von GenAI-Anwendungen. Dieses neue Tool, basierend auf dem Open-Source-Modell Llama-3.3-70B-Instruct von Meta, verspricht, einen neuen Standard für zuverlässige, anpassbare und lokal einsetzbare Bewertungen zu setzen.

Eine KI, die KI beurteilt: auf dem Weg zu einer automatisierten und zuverlässigen Bewertung

Root Judge zielt darauf ab, die Herausforderungen im Zusammenhang mit den Halluzinationen von LLMs und der Zuverlässigkeit generierter Entscheidungen zu bewältigen.

Sein Ziel ist dreifach:

  • Erkennung von Halluzinationen: Es identifiziert, beschreibt und blockiert automatisch kontextbezogene Fehler in den Pipelines der augmentierten generativen KI (RAG);
  • Präferenzurteile in Paaren: Das Modell erleichtert den Vergleich zwischen verschiedenen Modellausgaben durch anpassbare Kriterien;
  • Einhaltung der Privatsphäre: Root Judge unterstützt lokale Bereitstellungen und gewährleistet so die Vertraulichkeit der Daten, indem das Senden sensibler Daten an externe Server vermieden wird.

Eine hochmoderne Trainingsstruktur

Root Judge wurde auf einem rigoros annotierten Datensatz nachtrainiert und mit fortschrittlichen Techniken wie der Direct Preference Optimization (DPO) und der Identity Preference Optimization (IPO) optimiert.

Root Signals, mit Sitz in Palo Alto und Helsinki, nutzte die Leistung des EuroHPC JU LUMI Supercomputers in Kajaani, Finnland, um ihr "LLM-as-a-Judge" auf 384 AMD Radeon Instinct MI250X GPUs zu trainieren.

Ein Modell, das sich abhebt

Root Judge übertrifft sowohl geschlossene Modelle wie GPT-4o, o1-mini, o1-preview von OpenAI und Sonnet-3.5 von Anthropic als auch andere open-source LLMs Judge ähnlicher Größe in Bezug auf die Erkennung von Halluzinationen und die Generierung erklärbarer Ausgaben. Seine Anwendungen erstrecken sich über alle Sektoren und machen es zu einem vielseitigen Werkzeug für Unternehmen, Entwickler und Forscher, die nach zuverlässigen und an ihre Bedürfnisse angepassten KI-Lösungen suchen. Wir warten nun auf Benchmarks im Vergleich zu GPT 4.5 und Sonnet 3.7, die gerade erschienen sind.


Verfügbar unter einer Open-Weights-Lizenz ist das Modell auch über Root Signals EvalOps zugänglich, eine Plattform, die entwickelt wurde, um das Verhalten von LLMs in der Produktion zu messen und zu überwachen.