Anthropic svela Claude 4, i suoi agenti ottimizzati per la programmazione e i compiti complessi

TLDR : Anthropic svela Claude Opus 4 e Claude Sonnet 4, modelli IA per la programmazione e il ragionamento complesso. Claude Opus 4, progettato per compiti lunghi, mostra prestazioni impressionanti sui benchmark SWE e Terminal, mentre Claude Sonnet 4 offre risposte rapide per le applicazioni quotidiane.

Anthropic ha appena sollevato il velo sulla nuova generazione dei suoi modelli Claude con il lancio di Claude Opus 4 e Claude Sonnet 4. Questi modelli mirano esplicitamente a casi d'uso avanzati in codifica, ragionamento complesso e automazione tramite agenti, con prestazioni che ridefiniscono l'alto livello degli LLM attuali.

Due modelli, due usi, un'ambizione comune

Claude Opus 4 è presentato da Anthropic come il miglior modello di codifica al mondo, con risultati notevoli sui benchmark SWE-bench (72,5%) e Terminal-bench (43,2%). Destinato a compiti lunghi e complessi, è progettato per funzionare per diverse ore senza perdita di prestazioni, rendendolo ideale per architetture multi-agente o flussi di lavoro industriali pesanti.

Claude Sonnet 4, versione leggera ma potenziata, sostituisce Sonnet 3.7 con un netto miglioramento nei compiti di codifica (72,7% su SWE-bench). È progettato per le applicazioni quotidiane che richiedono una risposta rapida ma affidabile, incluso per gli utenti gratuiti.

Benchmark e prestazioni: dominazione sui compiti reali

Claude 4 supera GPT-4 e Gemini 2.5 su compiti di ingegneria del software reali (SWE-bench Verified).

Claude 4 si distingue non solo per le sue capacità di ragionamento, ma anche per la sua capacità di mantenere la rotta senza scorciatoie logiche. Secondo Anthropic, i due modelli sono 65% meno inclini a ricorrere a "scorciatoie" e cicli infiniti in compiti agentici critici rispetto al loro predecessore.

Nuove funzionalità tecniche

I modelli Claude 4 inaugurano l'“extended thinking” con strumenti integrati, permettendo all'IA di passare dinamicamente tra ragionamento e utilizzo di strumenti (come una ricerca web) durante un compito.

Possono:

Utilizzare più strumenti in parallelo
Memorizzare informazioni in file locali, simulando una memoria di lavoro
Generare riassunti di ragionamento per migliorare la leggibilità di lunghe catene di pensiero (chains of thoughts)

Claude Code: un "copilota" di sviluppo autonomo

Già in test su GitHub, Claude Code diventa disponibile in versione stabile. Questo sistema propone integrazioni native per VS Code e JetBrains, con suggerimenti di codice visualizzati direttamente nei tuoi file.

Un SDK è anche messo a disposizione per sviluppare i propri agenti basati su Claude Code, con un esempio chiave: un'integrazione GitHub che permette a Claude di agire automaticamente su PR, errori CI/CD o refactoring complessi.

Disponibilità e prezzi

I due modelli sono disponibili su:

Anthropic API
Amazon Bedrock
Google Vertex AI

💰 Prezzi:

Claude Opus 4: $15 / $75 per milione di token (input/output)
Claude Sonnet 4: $3 / $15

👉 Per saperne di più o testare i modelli: claude.ai

Tra Gemini 2.5 Pro, OpenAI Codex e Claude 4, gli editori di LLM sembrano tutti voler accelerare sull'assistenza alla programmazione, un compito ad alto valore aggiunto per gli LLM.

Tradotto da Anthropic dévoile Claude 4, ses agents optimisés pour la programmation et les tâches complexes

Per capire meglio

Che cos'è il 'pensiero esteso' con strumenti integrati nei modelli Claude 4?

Il 'pensiero esteso' consente all'IA di passare dinamicamente dal ragionamento all'uso di strumenti esterni come la ricerca web, migliorando così la sua efficacia in compiti complessi.

Come si integra Anthropic nell'ecosistema tecnologico attraverso piattaforme come Amazon Bedrock e Google Vertex AI?

Anthropic si posiziona strategicamente integrandosi in piattaforme importanti come Amazon Bedrock e Google Vertex AI, consentendo un accesso esteso ai suoi modelli tramite varie soluzioni cloud, facilitando così l'adozione da parte di utenti e industrie diversificate.