Anthropic onthult Claude 4, zijn geoptimaliseerde agenten voor programmeren en complexe taken

Anthropic onthult Claude 4, zijn geoptimaliseerde agenten voor programmeren en complexe taken

In kort : Anthropic onthult Claude Opus 4 en Claude Sonnet 4, AI-modellen voor codering en complex redeneren. Claude Opus 4, ontworpen voor lange taken, toont indrukwekkende prestaties op SWE- en Terminal-benchmarks, terwijl Claude Sonnet 4 snelle reacties biedt voor dagelijkse toepassingen.

Anthropic heeft zojuist de nieuwe generatie van zijn Claude-modellen onthuld met de lancering van Claude Opus 4 en Claude Sonnet 4. Deze modellen richten zich expliciet op geavanceerde gebruikscasussen in codering, complex redeneren en automatisering door agenten, met prestaties die de top van de huidige LLM's herdefiniëren.


Twee modellen, twee toepassingen, een gemeenschappelijke ambitie

Claude Opus 4 wordt door Anthropic gepresenteerd als het beste coderingsmodel ter wereld, met opmerkelijke resultaten op de benchmarks SWE-bench (72,5%) en Terminal-bench (43,2%). Het is bedoeld voor lange en complexe taken en is ontworpen om urenlang zonder prestatieverlies te werken, waardoor het ideaal is voor multi-agent architecturen of zware industriële workflows.

Claude Sonnet 4, een lichtere maar krachtige versie, vervangt Sonnet 3.7 met duidelijke verbeteringen op codeertaken (72,7% op SWE-bench). Het is ontworpen voor dagelijkse toepassingen die een snelle maar betrouwbare respons vereisen, inclusief voor gratis gebruikers.


Benchmarks en prestaties: dominantie op echte taken

 

Claude 4 overtreft GPT-4 en Gemini 2.5 op echte software-engineering taken (SWE-bench Verified).

Claude 4 onderscheidt zich niet alleen door zijn redeneercapaciteiten, maar ook door zijn vermogen om koers te houden zonder logische kortsluitingen. Volgens Anthropic zijn de twee modellen 65% minder geneigd om gebruik te maken van 'shortcuts' en oneindige lussen in kritieke agenttaken dan hun voorganger.

Nieuwe technische functies

De Claude 4-modellen introduceren "extended thinking" met geïntegreerde tools, waardoor de AI dynamisch kan schakelen tussen redeneren en het gebruik van tools (zoals een webzoekopdracht) tijdens een taak.

Ze kunnen:

  • Meerdere tools parallel gebruiken

  • Informatie opslaan in lokale bestanden, simulerend een werkgeheugen

  • Redeneersamenvattingen genereren om de leesbaarheid van lange gedachteketens (chains of thoughts) te verbeteren

Claude Code: een autonome "copiloot" voor ontwikkeling

Al in test op GitHub, wordt Claude Code beschikbaar in stabiele versie. Dit systeem biedt native integraties voor VS Code en JetBrains, met codevoorstellen die rechtstreeks in uw bestanden worden weergegeven.

Een SDK is ook beschikbaar om uw eigen agenten te ontwikkelen op basis van Claude Code, met een belangrijk voorbeeld: een GitHub-integratie waarmee Claude automatisch kan optreden op PR's, CI/CD-fouten, of complexe refactorings.

Beschikbaarheid en prijs

De twee modellen zijn beschikbaar op:

  • Anthropic API

  • Amazon Bedrock

  • Google Vertex AI

💰 Prijs:

  • Claude Opus 4: $15 / $75 per miljoen tokens (invoer/uitvoer)

  • Claude Sonnet 4: $3 / $15

👉 Voor meer informatie of om de modellen te testen: claude.ai

 

Tussen Gemini 2.5 Pro, OpenAI Codex en Claude 4, lijken de LLM-uitgevers allemaal te willen versnellen op het gebied van programmeerhulp, een waardevolle taak voor de LLM's.

Beter begrijpen

Wat is het 'extended thinking' met geïntegreerde tools in de Claude 4 modellen?

'Extended thinking' stelt de AI in staat om dynamisch over te schakelen van redeneren naar het gebruik van externe tools zoals web search, waardoor de effectiviteit bij complexe taken wordt vergroot.

Hoe integreert Anthropic zich in het technologische ecosysteem via platforms zoals Amazon Bedrock en Google Vertex AI?

Anthropic positioneert zich strategisch door zich te integreren in belangrijke platforms zoals Amazon Bedrock en Google Vertex AI, waardoor uitgebreide toegang tot zijn modellen via verschillende cloudoplossingen mogelijk wordt, wat de adoptie door diverse gebruikers en industrieën vergemakkelijkt.