生成 AI の世界は日々拡大しています。
Metaは本日、OpenAIのChatGPT、Bing Chat、その他の最新チャットボットなどのアプリを駆動するために設計された、新しいAIモデルファミリー「Llama 2」を発表しました。Metaによると、公開されているデータを組み合わせて学習したLlama 2のパフォーマンスは、前世代のLlamaモデルと比べて大幅に向上しています。
Llama 2はLlamaの後継であり、Llamaはプロンプトに応じてテキストとコードを生成できるモデルのコレクションであり、他のチャットボットのようなシステムに匹敵します。しかし、Llamaはリクエストに応じてのみ利用可能でした。Metaは悪用を懸念して、モデルへのアクセスを制限しました。(この予防措置にもかかわらず、Llamaは後にオンラインに流出し、様々なAIコミュニティに広まってしまいました。)
一方、研究および商用利用が無料のLlama 2は、AWS、Azure、そしてHugging FaceのAIモデルホスティングプラットフォーム上で、事前学習済みの状態で微調整用に利用可能になります。Meta氏によると、Llama 2はMicrosoftとの提携拡大によりWindows向けに最適化されているほか、QualcommのSnapdragonシステムオンチップを搭載したスマートフォンやPCにも最適化されているため、動作も容易になります。(Qualcommは、2024年にLlama 2をSnapdragonデバイスに搭載できるよう取り組んでいると発表しています。)
では、Llama 2はLlamaとどう違うのでしょうか?Metaが長文のホワイトペーパーで詳しく説明している点がいくつかあります。
Llama 2にはLlama 2とLlama 2-Chatの2種類があり、後者は双方向の会話向けに最適化されています。Llama 2とLlama 2-Chatはさらに、70億パラメータ、130億パラメータ、700億パラメータといった、様々な高度化バージョンに細分化されています。(「パラメータ」とは、トレーニングデータから学習したモデルの部分であり、基本的には問題(この場合はテキスト生成)に対するモデルのスキルを定義します。)
Llama 2は2兆個のトークンで学習されました。ここで「トークン」とは、例えば「fantastic」という単語の「fan」「tas」「tic」といった生のテキストを表します。これはLlamaが学習したトークン数(1.4兆個)のほぼ2倍に相当し、一般的に言えば、生成AIにおいてはトークン数が多いほど性能が向上します。Googleの現在の主力製品である大規模言語モデル(LLM)であるPaLM 2は、360万トークンで学習されたと報告されており、GPT-4も同様に数兆個のトークンで学習されたと推測されています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Meta はホワイトペーパー内のトレーニング データの具体的なソースを明らかにしていませんが、そのデータは Web からのものであり、ほとんどが英語であり、同社の製品やサービスからのものではないこと、また「事実」の性質を持つテキストであることを強調しています。
トレーニングの詳細を明かすことに消極的な姿勢は、競争上の理由だけでなく、生成AIをめぐる法的論争にも起因しているのではないかと推測します。ちょうど今日、数千人の著者が、テクノロジー企業に対し、許可や報酬なしに自分の著作物をAIモデルのトレーニングに利用することをやめるよう求める書簡に署名しました。
話が逸れてしまいましたが、Metaによると、様々なベンチマークにおいて、Llama 2モデルは、最も知名度の高いクローズドソースのライバルであるGPT-4とPaLM 2よりもわずかにパフォーマンスが劣っており、特にコンピュータプログラミングにおいてはGPT-4に大きく遅れをとっているとのことです。しかし、人間の評価者はLlama 2をChatGPTとほぼ同程度「役立つ」と評価しているとMetaは主張しています。Llama 2は、「役に立つ」ことと「安全性」を測るために設計された約4,000の質問に対し、ChatGPTと同等の回答をしました。

ただし、この結果は鵜呑みにしないでください。Metaは、自社のテストで現実世界のあらゆるシナリオを網羅することは不可能であり、ベンチマークには多様性が欠けている可能性があることを認めています。つまり、コーディングや人間の推論といった領域を十分にカバーできていない可能性があるということです。
Meta社はまた、Llama 2が他の生成AIモデルと同様に、特定の軸に沿って偏りがあることを認めています。例えば、トレーニングデータの不均衡により、「彼女」代名詞よりも「彼」代名詞を生成する割合が高くなる傾向があります。トレーニングデータに有害なテキストが含まれているため、毒性ベンチマークでは他のモデルを上回る性能を示していません。また、Llama 2は「キリスト教」「カトリック」「ユダヤ教」といった単語の多用など、データの不均衡により、西洋的な偏りが見られます。
Llama 2-Chatモデルは、Meta内部の「有用性」と有害性のベンチマークにおいて、Llama 2モデルよりも優れた結果を示しています。しかし、Llama 2-Chatモデルは過度に慎重な傾向があり、特定のリクエストを拒否したり、安全性に関する詳細情報を過剰に提供したりする傾向があります。
公平を期すために言うと、これらのベンチマークは、ホスト型Llama 2モデルに適用される可能性のある追加の安全レイヤーを考慮していません。例えば、MetaはMicrosoftとの協業の一環として、Azure AI Content Safetyを使用しています。これは、AI生成画像やテキストから「不適切な」コンテンツを検出するように設計されたサービスで、Azure上でのLlama 2の有害な出力を削減します。
このような状況であるため、Meta は依然として Llama 2 に関連する潜在的に有害な結果から距離を置くようあらゆる努力をしており、Llama 2 ユーザーは「安全な開発と展開」に関するガイドラインに加えて、Meta のライセンス条項と利用規定に従わなければならないことをホワイトペーパーで強調しています。
「今日の大規模言語モデルをオープンに共有することで、より有用で安全な生成AIの開発も促進されると信じています」とMetaはブログ記事に記している。「Llama 2で世界がどのようなものを生み出すのか、楽しみにしています。」
しかし、オープンソースモデルの性質上、モデルがどのように、あるいはどこで利用されるかは正確には分かりません。インターネットの驚異的なスピードを考えると、すぐにその答えが明らかになるでしょう。