目录
Anthropic刚刚揭开了其Claude模型新一代的面纱,推出了Claude Opus 4和Claude Sonnet 4。这些模型明确针对高级用例,如编码、复杂推理和代理自动化,其性能重新定义了当前LLM的高端。
两个模型,两种用途,共同的目标
Claude Opus 4被Anthropic描述为世界上最好的编码模型,在SWE-bench(72.5%)和Terminal-bench(43.2%)基准测试中表现出色。它专为长时间和复杂任务而设计,能够在数小时内保持性能不下降,非常适合多代理架构或重型工业工作流。
Claude Sonnet 4是Sonnet 3.7的升级版本,编码任务表现显著提高(SWE-bench达到72.7%)。它专为需要快速但可靠响应的日常应用而设计,包括免费用户。
基准测试与性能:在真实任务中的主导地位

Claude 4不仅以其推理能力而闻名,还因其在关键任务中能避免逻辑捷径的能力而受到赞誉。据Anthropic称,这两个模型在关键代理任务中使用"捷径"和无限循环的可能性比其前身低65%。
新技术功能
Claude 4模型推出了“扩展思维”与集成工具,允许AI在任务期间动态切换推理和工具使用(如Web搜索)。
它们能够:
-
并行使用多个工具
-
在本地文件中保留信息,模拟工作记忆
-
生成推理摘要,以提高长思维链的可读性(chains of thoughts)
Claude Code:自主开发的“副驾驶”
已经在GitHub上测试的Claude Code现已可用稳定版本。此系统为VS Code和JetBrains提供原生集成,代码建议直接显示在文件中。
同时提供SDK,用于开发基于Claude Code的自定义代理,关键示例包括GitHub集成,允许Claude自动处理PR、CI/CD错误或复杂的重构。
可用性和价格
这两个模型可用在:
-
Anthropic API
-
Amazon Bedrock
-
Google Vertex AI
💰 价格:
-
Claude Opus 4:每百万个tokens(输入/输出)$15 / $75
-
Claude Sonnet 4:$3 / $15
👉 了解更多或测试模型:claude.ai
在Gemini 2.5 Pro、OpenAI Codex和Claude 4之间,LLM编辑者似乎都希望在编程帮助方面加速,这对LLM来说是一项高附加值的任务。
Pour mieux comprendre
Claude 4 模型中的“扩展思维”与集成工具是什么?
“扩展思维”允许人工智能在复杂任务中动态地从推理切换到使用外部工具,如网页搜索,从而提高其效率。
Anthropic 如何通过 Amazon Bedrock 和 Google Vertex AI 等平台融入科技生态系统?
Anthropic 通过整合到 Amazon Bedrock 和 Google Vertex AI 等主要平台中,战略性地定位自己,从而通过各种云解决方案提供对其模型的扩展访问,从而促进了不同行业和用户的采用。