MetaがLlama 3をリリース、現在入手可能なオープンモデルの中で最高のものの1つだと主張

MetaがLlama 3をリリース、現在入手可能なオープンモデルの中で最高のものの1つだと主張

Meta は、オープン生成 AI モデルの Llama シリーズの最新作である Llama 3 をリリースしました。より正確に言うと、同社は新しい Llama 3 ファミリーの 2 つのモデルをデビューさせ、残りのモデルは今後の未定の日付でリリースされる予定です。

Metaは、新しいモデル(80億のパラメータを含むLlama 3 8Bと700億のパラメータを含むLlama 3 70B)について、前世代のLlamaモデルであるLlama 2 8BおよびLlama 2 70Bと比較して、パフォーマンスの点で「大きな飛躍」であると説明しています。(パラメータは基本的に、テキストの分析や生成などの問題に対するAIモデルのスキルを定義します。パラメータ数が多いモデルは、一般的に、パラメータ数の少ないモデルよりも優れています。)実際、Metaは、それぞれのパラメータ数において、2つのカスタムビルドの24,000 GPUクラスターでトレーニングされたLlama 3 8BとLlama 3 70Bは、現在利用可能な生成AIモデルの中で最高性能のモデルの1つであると述べています。

なかなか大胆な主張ですね。では、Metaはどのようにそれを裏付けているのでしょうか?同社は、MMLU(知識の測定)、ARC(スキル習得の測定)、DROP(テキストチャンクに対するモデルの推論能力をテスト)といった一般的なAIベンチマークにおけるLlama 3モデルのスコアを挙げています。以前記事を書いたように、これらのベンチマークの有用性と妥当性は議論の余地があります。しかし、良くも悪くも、MetaのようなAI企業が自社モデルを評価する数少ない標準化された方法の一つであることに変わりはありません。

Llama 3 8B は、少なくとも 9 つのベンチマーク (MMLU、ARC、DROP、GPQA (生物学、物理学、化学関連の一連の質問)、HumanEval (コード生成テスト)、GSM-8K (数学の文章題)、MATH (別の数学ベンチマーク)、AGIEval (問題解決テスト セット)、BIG-Bench Hard (常識推論評価)) で、70 億のパラメータを含む Mistral の Mistral 7B や Google の Gemma 7B などの他のオープン モデルよりも優れています。

Mistral 7BとGemma 7Bは、厳密には最先端とは言えません(Mistral 7Bは昨年9月にリリースされました)。Metaが引用するいくつかのベンチマークでは、Llama 3 8Bのスコアはどちらよりもわずか数パーセント高いだけです。しかしMetaは、Llama 3のパラメータ数が多いモデルであるLlama 3 70Bが、GoogleのGeminiシリーズの最新版であるGemini 1.5 Proを含む、フラッグシップ生成AIモデルと競合できるとも主張しています。

メタラマ3
画像クレジット: Meta

Llama 3 70B は、MMLU、HumanEval、GSM-8K で Gemini 1.5 Pro を上回り、Anthropic の最高性能モデルである Claude 3 Opus には匹敵しないものの、5 つのベンチマーク (MMLU、GPQA、HumanEval、GSM-8K、MATH) で Claude 3 シリーズで 2 番目に弱いモデルである Claude 3 Sonnet よりも優れたスコアを獲得しました。

メタラマ3
画像クレジット: Meta

ちなみに、Metaはコーディングやクリエイティブライティングから推論、要約まで、幅広いユースケースをカバーする独自のテストセットも開発しており、なんとLlama 3 70BがMistralのMistral Mediumモデル、OpenAIのGPT-3.5、Claude Sonnetを破り、最高の成績を収めました。Metaは客観性を保つため、モデリングチームがこのセットにアクセスできないようにしたと述べていますが、Meta自身がテストを考案したことを考えると、当然ながら結果は鵜呑みにしてはいけません。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

メタラマ3
画像クレジット: Meta

より定性的な観点から言えば、Meta氏によると、新しいLlamaモデルのユーザーは、より高い「操縦性」、質問への回答拒否率の低下、雑学クイズ、歴史や工学・科学などのSTEM分野に関する質問、そして一般的なコーディング推奨事項における高い精度を期待できるとのことです。これは、15兆個のトークン、つまり約7500億語という膨大な単語数という、Llama 2のトレーニングセットの7倍という、はるかに大規模なデータセットのおかげです。(AI分野では、「トークン」とは、「fantastic」という単語の「fan」「tas」「tic」といった音節のように、生のデータを細分化したものを指します。)

このデータはどこから来たのでしょうか?良い質問です。Metaは明言を避け、「公開されている情報源」から取得したこと、Llama 2のトレーニングデータセットの4倍のコードが含まれていること、そしてそのデータセットの5%に英語以外の言語でのパフォーマンス向上のため、英語以外のデータ(約30言語)が含まれていることのみを明らかにしました。Metaはまた、Llama 3モデルのトレーニング用に、より長い文書を作成するために合成データ(つまりAI生成データ)を使用したと述べていますが、これはパフォーマンスの低下を招く可能性があるため、やや物議を醸す手法です。

「今日リリースするモデルは英語の出力にのみ微調整されていますが、データの多様性が増すと、モデルがニュアンスやパターンをより適切に認識し、さまざまなタスクで優れたパフォーマンスを発揮できるようになります」とMeta氏はTechCrunchに共有されたブログ記事に書いている。

では、生成AIモデル(Llama 2を含む)に共通する他の2つの問題である毒性とバイアスについてはどうでしょうか?Llama 3はこれらの領域を改善しているのでしょうか?Metaは「はい」と主張しています。

Metaは、モデルトレーニングデータの品質向上のため、新たなデータフィルタリングパイプラインを開発したと発表しました。また、生成AI安全スイートであるLlama GuardとCyber​​secEvalをアップデートし、Llama 3モデルなどの悪用や不要なテキスト生成を防止しようとしています。同社はまた、セキュリティ上の脆弱性をもたらす可能性のある生成AIモデルのコードを検出するために設計された新ツール「Code Shield」もリリースしています。

ただし、フィルタリングは完璧ではありません。Llama Guard、Cyber​​SecEval、Code Shieldといったツールも、その効果は限られています。(Llama 2は質問への回答を捏造し、個人の健康情報や金融情報を漏洩する傾向があるという記事も参照してください。)Llama 3のモデルが、代替ベンチマークを用いた学術機関によるテストを含め、実際にどのように機能するかを待つ必要があります。

Meta社によると、現在ダウンロード可能で、Facebook、Instagram、WhatsApp、Messenger、そしてウェブ上のMeta AIアシスタントを支えるLlama 3モデルは、AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、Nvidia NIM、Snowflakeなど、幅広いクラウドプラットフォームでマネージド形式でホストされる予定だ。将来的には、AMD、AWS、Dell、Intel、Nvidia、Qualcommのハードウェア向けに最適化されたモデルのバージョンも提供される予定だ。

Llama 3モデルは広く利用可能かもしれません。しかし、ここで「オープンソース」ではなく「オープン」という言葉を使用していることにお気づきでしょう。Metaの主張とは裏腹に、Llamaファミリーのモデルは、人々が信じているほど制約のないものではないからです。確かに、研究用途と商用アプリケーションの両方で利用可能です。しかし、Metaは開発者がLlamaモデルを使用して他の生成モデルを学習することを禁じており、月間7億人を超えるユーザーを抱えるアプリ開発者は、Metaに特別なライセンスを申請する必要があります。Metaは、このライセンスをMetaの裁量で付与するかどうかを決定します。

さらに高性能なラマモデルが近々登場します。

Metaによれば、同社は現在、4000億を超えるパラメータを持つLlama 3モデルのトレーニングを行っているという。これらのモデルは「複数の言語で会話」し、より多くのデータを取り込んで、テキストだけでなく画像やその他のモダリティを理解する能力を備えており、これによりLlama 3シリーズはHugging FaceのIdefics2のようなオープンリリースと同等になる。

メタラマ3
画像クレジット: Meta

「近い将来の目標は、Llama 3を多言語・マルチモーダル化し、より長いコンテキストに対応させ、推論やコーディングといったコア機能(大規模言語モデル)全体のパフォーマンスを継続的に向上させることです」とMetaはブログ記事に記している。「今後もさらに多くの成果を期待しています。」

確かに。