Anthropic、プログラミングと複雑なタスクに最適化されたエージェントClaude 4を発表

TLDR : Anthropicは、コーディングと複雑な推論向けのAIモデルであるClaude Opus 4とClaude Sonnet 4を発表しました。Claude Opus 4は長時間のタスクに適しており、SWEとTerminalのベンチマークで優れたパフォーマンスを示しています。一方、Claude Sonnet 4は日常的なアプリケーションに迅速な応答を提供します。

Anthropicは、Claude Opus 4とClaude Sonnet 4のローンチにより、Claudeモデルの新世代を公開しました。これらのモデルは、コーディング、複雑な推論、およびエージェントによる自動化の高度なユースケースを明示的に対象としており、現在のLLMのトップを再定義するパフォーマンスを提供します。

2つのモデル、2つの用途、共通の野心

Claude Opus 4は、Anthropicによって世界最高のコーディングモデルと紹介されており、SWE-bench (72.5%) およびTerminal-bench (43.2%)で優れた結果を示しています。長時間の複雑なタスクを対象とし、数時間にわたって性能を失わずに動作するよう設計されており、マルチエージェントアーキテクチャや重い産業ワークフローに理想的です。

Claude Sonnet 4は、Sonnet 3.7を置き換え、コーディングタスクでの性能が大幅に向上しています（SWE-benchで72.7%）。迅速かつ信頼性のある応答を必要とする日常的なアプリケーション向けに設計されており、無料ユーザーも利用可能です。

ベンチマークと性能：実際のタスクにおける優位性

Claude 4は実際のソフトウェアエンジニアリングタスクでGPT-4とGemini 2.5を上回ります（SWE-bench Verified）。

Claude 4は、推論能力だけでなく、論理的な近道を取らずに目的を維持する能力によっても際立っています。Anthropicによれば、これら2つのモデルは、前のモデルよりも65%少ない確率で「ショートカット」や無限ループに頼ることはありません。

新しい技術的特徴

Claude 4モデルは、ツール統合による「拡張思考」を導入し、タスク中にダイナミックに推論とツールの使用（ウェブ検索など）を切り替えることができます。

彼らは以下を行うことができます：

複数のツールを並行して使用する
ローカルファイルに情報を保持し、作業メモリをシミュレートする
長い思考の連鎖の読みやすさを向上させるために、推論の要約を生成する

Claude Code：自律開発の「コパイロット」

GitHubで既にテスト中のClaude Codeは、安定版として利用可能になります。このシステムは、VS CodeおよびJetBrainsにネイティブ統合を提供し、コード提案を直接ファイル内に表示します。

また、Claude Codeに基づく独自のエージェントを開発するためのSDKも提供されており、GitHubとの統合により、PR、CI/CDエラー、複雑なリファクタリングに自動的に対応することができます。

利用可能性と価格

これら2つのモデルは以下で利用可能です：

Anthropic API
Amazon Bedrock
Google Vertex AI

💰 価格：

Claude Opus 4: トークン100万単位で$15 / $75（入力/出力）
Claude Sonnet 4: $3 / $15

👉 詳細情報やモデルのテストはこちら：claude.ai

Gemini 2.5 Pro、OpenAI Codex、そしてClaude 4の間で、LLMのエディターは皆、プログラミング支援という高付加価値のあるタスクでの加速を目指しているようです。

翻訳元 Anthropic dévoile Claude 4, ses agents optimisés pour la programmation et les tâches complexes

Pour mieux comprendre

Claude 4モデルにおける「拡張思考」とは何ですか？

「拡張思考」は、複雑なタスクにおける効果を高めるために、AIが推論からWeb検索などの外部ツールの使用に動的に切り替えることができます。

AnthropicはAmazon BedrockやGoogle Vertex AIなどのプラットフォームを通じてどのようにテックエコシステムに統合されていますか？

Anthropicは、Amazon BedrockやGoogle Vertex AIなどの主要プラットフォームに統合することにより、戦略的に自らを位置づけ、さまざまなクラウドソリューションを通じてそのモデルへの拡張アクセスを可能にし、さまざまなユーザーや業界による採用を促進しています。