Anthropic推出Claude 4，优化的编程和复杂任务代理

TLDR : Anthropic推出Claude Opus 4和Claude Sonnet 4，AI模型用于编码和复杂推理。Claude Opus 4专为长时间任务设计，在SWE和Terminal基准测试中表现出色，而Claude Sonnet 4为日常应用提供快速响应。

Anthropic刚刚揭开了其Claude模型新一代的面纱，推出了Claude Opus 4和Claude Sonnet 4。这些模型明确针对高级用例，如编码、复杂推理和代理自动化，其性能重新定义了当前LLM的高端。

两个模型，两种用途，共同的目标

Claude Opus 4被Anthropic描述为世界上最好的编码模型，在SWE-bench（72.5%）和Terminal-bench（43.2%）基准测试中表现出色。它专为长时间和复杂任务而设计，能够在数小时内保持性能不下降，非常适合多代理架构或重型工业工作流。

Claude Sonnet 4是Sonnet 3.7的升级版本，编码任务表现显著提高（SWE-bench达到72.7%）。它专为需要快速但可靠响应的日常应用而设计，包括免费用户。

Claude 4在真实软件工程任务中超越了GPT-4和Gemini 2.5（SWE-bench Verified）。

Claude 4不仅以其推理能力而闻名，还因其在关键任务中能避免逻辑捷径的能力而受到赞誉。据Anthropic称，这两个模型在关键代理任务中使用"捷径"和无限循环的可能性比其前身低65%。

Claude 4模型推出了“扩展思维”与集成工具，允许AI在任务期间动态切换推理和工具使用（如Web搜索）。

它们能够：

已经在GitHub上测试的Claude Code现已可用稳定版本。此系统为VS Code和JetBrains提供原生集成，代码建议直接显示在文件中。

同时提供SDK，用于开发基于Claude Code的自定义代理，关键示例包括GitHub集成，允许Claude自动处理PR、CI/CD错误或复杂的重构。

这两个模型可用在：

💰 价格：

👉 了解更多或测试模型：claude.ai

在Gemini 2.5 Pro、OpenAI Codex和Claude 4之间，LLM编辑者似乎都希望在编程帮助方面加速，这对LLM来说是一项高附加值的任务。

“扩展思维”允许人工智能在复杂任务中动态地从推理切换到使用外部工具，如网页搜索，从而提高其效率。

Anthropic 通过整合到 Amazon Bedrock 和 Google Vertex AI 等主要平台中，战略性地定位自己，从而通过各种云解决方案提供对其模型的扩展访问，从而促进了不同行业和用户的采用。