Anthropic enthüllt Claude 4, seine für Programmierung und komplexe Aufgaben optimierten Agenten

TLDR : Anthropic enthüllt Claude Opus 4 und Claude Sonnet 4, KI-Modelle für Kodierung und komplexes Denken. Claude Opus 4 beeindruckt bei SWE- und Terminal-Benchmarks, während Claude Sonnet 4 schnelle Antworten für den täglichen Gebrauch bietet.

Anthropic hat die neue Generation seiner Claude-Modelle mit der Einführung von Claude Opus 4 und Claude Sonnet 4 vorgestellt. Diese Modelle zielen explizit auf fortgeschrittene Anwendungsfälle in Kodierung, komplexem Denken und Automatisierung durch Agenten ab, mit Leistungen, die die Spitze der aktuellen LLMs neu definieren.

Zwei Modelle, zwei Anwendungen, ein gemeinsames Ziel

Claude Opus 4 wird von Anthropic als das beste Codierungsmodell der Welt präsentiert, mit bemerkenswerten Ergebnissen auf den SWE-bench (72,5%) und Terminal-bench (43,2%) Benchmarks. Es ist für lange und komplexe Aufgaben konzipiert und kann mehrere Stunden ohne Leistungsabfall arbeiten, was es ideal für Multi-Agenten-Architekturen oder anspruchsvolle industrielle Workflows macht.

Claude Sonnet 4, eine leichtere, aber leistungsstarke Version, ersetzt Sonnet 3.7 mit einer deutlichen Verbesserung bei Kodierungsaufgaben (72,7% auf SWE-bench). Es ist für alltägliche Anwendungen konzipiert, die eine schnelle, aber zuverlässige Antwort benötigen, auch für kostenlose Nutzer.

Benchmarks und Leistung: Dominanz bei realen Aufgaben

Claude 4 übertrifft GPT-4 und Gemini 2.5 bei realen Software-Engineering-Aufgaben (SWE-bench Verified).

Claude 4 zeichnet sich nicht nur durch seine Denkfähigkeiten aus, sondern auch durch seine Fähigkeit, ohne logische Abkürzungen eine Richtung beizubehalten. Laut Anthropic sind die beiden Modelle 65% weniger wahrscheinlich, auf "Shortcuts" und Endlosschleifen in kritischen agentischen Aufgaben zurückzugreifen als ihre Vorgänger.

Neue technische Funktionen

Die Claude 4 Modelle führen das „erweiterte Denken“ mit integrierten Werkzeugen ein, das es der KI ermöglicht, während einer Aufgabe dynamisch zwischen Denken und Nutzung von Werkzeugen (wie einer Websuche) zu wechseln.

Sie können:

Mehrere Werkzeuge parallel nutzen
Informationen in lokalen Dateien speichern, was eine Arbeitsgedächtnissimulation ermöglicht
Denkzusammenfassungen erstellen, um die Lesbarkeit langer Gedankenketten (chains of thoughts) zu verbessern

Claude Code: ein autonomer Entwicklungs-Copilot

Bereits auf GitHub im Test, wird Claude Code in einer stabilen Version verfügbar. Dieses System bietet native Integrationen für VS Code und JetBrains, mit Codierungsvorschlägen, die direkt in Ihren Dateien angezeigt werden.

Ein SDK steht ebenfalls zur Verfügung, um Ihre eigenen Agenten basierend auf Claude Code zu entwickeln, mit einem Schlüsselbeispiel: eine GitHub-Integration, die es Claude ermöglicht, automatisch auf PRs, CI/CD-Fehler oder komplexe Refactorings zu reagieren.

Verfügbarkeit und Preis

Die beiden Modelle sind verfügbar auf:

Anthropic API
Amazon Bedrock
Google Vertex AI

💰 Preis:

Claude Opus 4: $15 / $75 pro Million Tokens (Input/Output)
Claude Sonnet 4: $3 / $15

👉 Für weitere Informationen oder um die Modelle zu testen: claude.ai

Zwischen Gemini 2.5 Pro, OpenAI Codex und Claude 4 scheinen alle Herausgeber von LLMs die Unterstützung bei der Programmierung beschleunigen zu wollen, eine Aufgabe von hohem Mehrwert für LLMs.

Übersetzt von Anthropic dévoile Claude 4, ses agents optimisés pour la programmation et les tâches complexes

Besser verstehen

Was ist das 'extended thinking' mit integrierten Werkzeugen in den Claude 4 Modellen?

'Extended thinking' ermöglicht es der KI, dynamisch vom Denken zum Einsatz externer Werkzeuge wie der Websuche zu wechseln, wodurch ihre Effektivität bei komplexen Aufgaben verbessert wird.

Wie integriert sich Anthropic über Plattformen wie Amazon Bedrock und Google Vertex AI in das Technologie-Ökosystem?

Anthropic positioniert sich strategisch, indem es sich in bedeutende Plattformen wie Amazon Bedrock und Google Vertex AI integriert, was einen erweiterten Zugang zu seinen Modellen über verschiedene Cloud-Lösungen ermöglicht und somit die Akzeptanz bei unterschiedlichen Nutzern und Branchen erleichtert.