4月5日、MetaはLlama 4の最初の2バージョン、ScoutとMaverickを発表しました。これらのオープンなモデルは、生来からマルチモーダルを想定して設計されており、テキスト、画像、ビデオを処理することができます。Llama 4 Behemothをベースにした蒸留プロセスを通じて開発され、開発中のシリーズの中で最大かつ最も強力なモデルであるため、実行速度と効率において優れています。
以前のLlamaバージョンがTransformersベースのアーキテクチャを使用していたのに対し、Llama 4はMixture-of-Experts (MoE) アーキテクチャに基づいており、各リクエストに対して特定のパラメータのみがアクティブになります。このアプローチにより効率が向上し、計算コストが削減され、ScoutとMaverickはリクエストごとに「わずか」170億のパラメータをアクティブにします。また、Metaは言語サポートを拡大し、昨年12月に発表されたLlama 3.3の8言語から12言語に増加しました。しかし、彼らの知識ベースは2024年8月で止まっています。

Llama 4 Scout: 新しいコンテキストウィンドウ

Scoutは1090億のパラメータを持ち、シリーズの中で最も軽量です。主な特徴は、コンテキストウィンドウが最大1000万トークンに達することで、Llama 3の128,000トークンと比べて大幅な進歩です。さらに、Nvidia H100カード1枚で動作可能なため、マルチドキュメントの要約やユーザーアクティビティの詳細な分析といったタスクにリソースが限られた企業に特に適しています。Metaの内部評価によれば、Llama 4 ScoutはGemma 3、Mistral 3.1、Gemini 2.0 Flash Liteよりも優れた性能を提供します。

Llama 4 Maverick

Maverickは4000億のパラメータと128のエキスパートを持ち、より高性能です。コンテキストウィンドウが100万トークンであり、以下のようなアプリケーションへの道を開きます:
  • 様々なツールやワークフローと安全にやり取りし、推論可能なインテリジェントなビジネスエージェント;
  • PDF、スキャン、フォームから構造化データを抽出する文書理解システム;
  • 文化的特性に合わせた微妙で適応的な応答を提供する多言語アシスタント;
  • ストーリー、マーケティングコンテンツ、カスタマイズされたテキストの作成に特化したツール。
Metaによれば、Maverick Llama 4はそのカテゴリーにおける最高のマルチモーダルモデルであり、GPT-4oやGemini 2.0 Flashを広範なベンチマークで上回っています。また、DeepSeek v3と同等の推論およびプログラミング結果を、アクティブなパラメータを半分以下に抑えて達成しています。
加えて、Llama 4 Maverickは、LMArenaでのELOスコア1417を達成した実験的なチャットバージョンを通して、卓越した性能とコスト効率を提供します。

Llama 4 Behemoth

Metaはまた、2兆のパラメータ(2,0000億)を持つ教師モデルLlama 4 Behemothの概要を共有しました。これがこれらの2初期バージョンの基盤となりました。2880億のアクティブパラメータと16のエキスパートを備えており、推論に特化していないにもかかわらず、最先端の性能を提供します。同社によれば、数学、多言語、画像ベンチマークで優れているとされています。
評価によれば、BehemothはGPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Proを様々なベンチマークで上回るとされています。

利用可能性

ScoutとMaverickは、Llama.comおよびHugging FaceでオープンソースとしてMetaのライセンスの下で提供されていますが、月間アクティブユーザーが7億を超える企業は使用許可を要求する必要があります。Llama 4は既にMeta AI、WhatsApp、Messenger、InstagramのプラットフォームのAIアシスタントとして40か国以上で利用されていますが、マルチモーダル機能は現在アメリカでのみ利用可能です。EUではまだ時間がかかります...