Anthropic推出Claude 4,优化的编程和复杂任务代理

Anthropic推出Claude 4,优化的编程和复杂任务代理

TLDR : Anthropic推出Claude Opus 4和Claude Sonnet 4,AI模型用于编码和复杂推理。Claude Opus 4专为长时间任务设计,在SWE和Terminal基准测试中表现出色,而Claude Sonnet 4为日常应用提供快速响应。

Anthropic刚刚揭开了其Claude模型新一代的面纱,推出了Claude Opus 4和Claude Sonnet 4。这些模型明确针对高级用例,如编码、复杂推理和代理自动化,其性能重新定义了当前LLM的高端。


两个模型,两种用途,共同的目标

Claude Opus 4被Anthropic描述为世界上最好的编码模型,在SWE-bench(72.5%)和Terminal-bench(43.2%)基准测试中表现出色。它专为长时间和复杂任务而设计,能够在数小时内保持性能不下降,非常适合多代理架构或重型工业工作流。

Claude Sonnet 4是Sonnet 3.7的升级版本,编码任务表现显著提高(SWE-bench达到72.7%)。它专为需要快速但可靠响应的日常应用而设计,包括免费用户。


基准测试与性能:在真实任务中的主导地位

 

Claude 4在真实软件工程任务中超越了GPT-4和Gemini 2.5(SWE-bench Verified)。

Claude 4不仅以其推理能力而闻名,还因其在关键任务中能避免逻辑捷径的能力而受到赞誉。据Anthropic称,这两个模型在关键代理任务中使用"捷径"和无限循环的可能性比其前身低65%

新技术功能

Claude 4模型推出了“扩展思维”与集成工具,允许AI在任务期间动态切换推理和工具使用(如Web搜索)。

它们能够:

  • 并行使用多个工具

  • 在本地文件中保留信息,模拟工作记忆

  • 生成推理摘要,以提高长思维链的可读性(chains of thoughts

Claude Code:自主开发的“副驾驶”

已经在GitHub上测试的Claude Code现已可用稳定版本。此系统为VS CodeJetBrains提供原生集成,代码建议直接显示在文件中。

同时提供SDK,用于开发基于Claude Code的自定义代理,关键示例包括GitHub集成,允许Claude自动处理PR、CI/CD错误或复杂的重构。

可用性和价格

这两个模型可用在:

  • Anthropic API

  • Amazon Bedrock

  • Google Vertex AI

💰 价格:

  • Claude Opus 4:每百万个tokens(输入/输出)$15 / $75

  • Claude Sonnet 4:$3 / $15

👉 了解更多或测试模型:claude.ai

 

Gemini 2.5 ProOpenAI Codex和Claude 4之间,LLM编辑者似乎都希望在编程帮助方面加速,这对LLM来说是一项高附加值的任务。

Pour mieux comprendre

Claude 4 模型中的“扩展思维”与集成工具是什么?

“扩展思维”允许人工智能在复杂任务中动态地从推理切换到使用外部工具,如网页搜索,从而提高其效率。

Anthropic 如何通过 Amazon Bedrock 和 Google Vertex AI 等平台融入科技生态系统?

Anthropic 通过整合到 Amazon Bedrock 和 Google Vertex AI 等主要平台中,战略性地定位自己,从而通过各种云解决方案提供对其模型的扩展访问,从而促进了不同行业和用户的采用。