Anthropic presenta Claude 4, sus agentes optimizados para la programación y tareas complejas

TLDR : Anthropic presenta Claude Opus 4 y Claude Sonnet 4, modelos de IA para codificación y razonamiento complejo. Claude Opus 4, diseñado para tareas largas, muestra un rendimiento impresionante en los benchmarks SWE y Terminal, mientras que Claude Sonnet 4 ofrece una respuesta rápida para aplicaciones diarias.

Anthropic acaba de revelar la nueva generación de sus modelos Claude con el lanzamiento de Claude Opus 4 y Claude Sonnet 4. Estos modelos están dirigidos explícitamente a casos de uso avanzados en codificación, razonamiento complejo y automatización por agentes, con un rendimiento que redefine la cúspide de los LLM actuales.

Dos modelos, dos usos, una ambición común

Claude Opus 4 es presentado por Anthropic como el mejor modelo de codificación del mundo, con resultados notables en los benchmarks SWE-bench (72,5%) y Terminal-bench (43,2%). Destinado a tareas largas y complejas, está diseñado para funcionar durante varias horas sin pérdida de rendimiento, lo que lo hace ideal para arquitecturas multi-agentes o flujos de trabajo industriales pesados.

Claude Sonnet 4, una versión más ligera pero poderosa, reemplaza a Sonnet 3.7 con una clara mejora en las tareas de codificación (72,7% en SWE-bench). Está diseñado para aplicaciones cotidianas que requieren una respuesta rápida pero fiable, incluso para los usuarios gratuitos.

Benchmarks y rendimiento: dominación en tareas reales

Claude 4 supera a GPT-4 y Gemini 2.5 en tareas de ingeniería de software reales (SWE-bench Verified).

Claude 4 se distingue no solo por sus capacidades de razonamiento, sino también por su capacidad para mantener un rumbo sin atajos lógicos. Según Anthropic, los dos modelos son 65% menos propensos a recurrir a "atajos" y bucles infinitos en tareas agenticas críticas que su predecesor.

Nuevas características técnicas

Los modelos Claude 4 inauguran el “pensamiento extendido” con herramientas integradas, permitiendo a la IA cambiar dinámicamente entre razonamiento y uso de herramientas (como una búsqueda web) durante una tarea.

Pueden:

Usar varias herramientas en paralelo
Retener información en archivos locales, simulando una memoria de trabajo
Generar resúmenes de razonamiento para mejorar la legibilidad de largas cadenas de pensamiento (chains of thoughts)

Claude Code: un "copiloto" de desarrollo autónomo

Ya en prueba en GitHub, Claude Code está disponible en versión estable. Este sistema ofrece integraciones nativas para VS Code y JetBrains, con sugerencias de código mostradas directamente en tus archivos.

También se pone a disposición un SDK para desarrollar tus propios agentes basados en Claude Code, con un ejemplo clave: una integración en GitHub que permite a Claude actuar automáticamente en PR, errores CI/CD, o refactorizaciones complejas.

Disponibilidad y precios

Los dos modelos están disponibles en:

Anthropic API
Amazon Bedrock
Google Vertex AI

💰 Precios:

Claude Opus 4: $15 / $75 por millón de tokens (entrada/salida)
Claude Sonnet 4: $3 / $15

👉 Para saber más o probar los modelos: claude.ai

Entre Gemini 2.5 Pro, OpenAI Codex y Claude 4, los editores de LLM parecen querer acelerar en la ayuda a la programación, una tarea de alto valor agregado para los LLM.

Traducido de Anthropic dévoile Claude 4, ses agents optimisés pour la programmation et les tâches complexes

Para entender mejor

¿Qué es el 'pensamiento extendido' con herramientas integradas en los modelos Claude 4?

El 'pensamiento extendido' permite a la IA cambiar dinámicamente del razonamiento al uso de herramientas externas como la búsqueda web, mejorando así su eficacia en tareas complejas.

¿Cómo se integra Anthropic en el ecosistema tecnológico a través de plataformas como Amazon Bedrock y Google Vertex AI?

Anthropic se posiciona estratégicamente al integrarse en plataformas importantes como Amazon Bedrock y Google Vertex AI, permitiendo un acceso extendido a sus modelos a través de diversas soluciones en la nube, lo que facilita la adopción por parte de diversos usuarios e industrias.