そもそも「オープンソース AI」とはどういう意味でしょうか?

そもそも「オープンソース AI」とはどういう意味でしょうか?

オープンソースソフトウェアとプロプライエタリソフトウェアの争いはよく知られています。しかし、数十年にわたってソフトウェア業界に蔓延してきた緊張関係が、人工知能(AI)の分野にも持ち込まれました。その一因は、AIの文脈において「オープンソース」が真に何を意味するのか、誰も合意に至っていないことです。

ニューヨーク・タイムズ紙は先日、MetaのCEOマーク・ザッカーバーグ氏を熱烈に評価する記事を掲載し、「オープンソースAI」の推進がシリコンバレーで再び人気を博したと指摘した。しかし、多くの見方では、MetaのLlamaブランドの大規模言語モデルは実際にはオープンソースではなく、これが議論の核心を浮き彫りにしている。

オープン ソース イニシアティブ (OSI) は、エグゼクティブ ディレクターの Stefano Maffulli 氏 (上の写真) の指揮の下、約 3 年前より一連のカンファレンス、ワークショップ、パネル、ウェビナー、レポートなどを通じて、まさにこの課題に取り組んでいます。

AIはソフトウェアコードではない

画像クレジット: Westend61 via Getty

OSIは四半世紀以上にわたりオープンソース定義(OSD)の管理者を務め、「オープンソース」という用語をソフトウェアにどのように適用できるか、あるいは適用すべきかを定めてきました。この定義を満たすライセンスは正当に「オープンソース」とみなされますが、OSIは極めて許容度の高いライセンスからそれほど許容度が高くないライセンスまで、幅広いライセンスを認めています。

しかし、ソフトウェアからAIへと従来のライセンスや命名規則を移行することは問題です。オープンソースの伝道師であり、ベンチャーキャピタルOSS Capitalの創設者でもあるジョセフ・ジャックス氏は、「オープンソースAIなど存在しない」とまで言い、「オープンソースはソフトウェアのソースコードのために発明された」と指摘しています。さらに、「ニューラルネットワークの重み」(NNW)は、人工知能の世界で、ネットワークがトレーニングプロセスで学習するパラメータや係数を表す用語ですが、ソフトウェアと意味のある意味で比較することはできません。

「ニューラルネットの重みはソフトウェアのソースコードではありません。人間には解読できず、デバッグもできません」とジャックス氏は指摘する。「さらに、オープンソースの基本的権利は、ニューラルネットには全く整合的な形で適用されません。」

昨年のこうした矛盾をきっかけに、ジャックス氏とOSS Capitalの同僚であるヘザー・ミーカー氏は、「オープンウェイト」という概念を軸に、独自の定義を打ち出しました。マフルリ氏も、一応は彼らの意見に同意しています。「その点は正しいです」と彼はTechCrunchに語りました。「当初の議論の一つは、そもそもこれをオープンソースAIと呼ぶべきかどうかでしたが、既に誰もがその言葉を使っていました。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ラマのイラスト
画像クレジット:ラリーサ・アモソワ(Getty経由)

1998年に設立されたOSIは、非営利の公益法人であり、アドボカシー活動、教育、そしてその中核的な存在意義である「オープンソース定義」を中心に、オープンソース関連の様々な活動に取り組んでいます。現在、OSIはAmazon、Google、Microsoft、Cisco、Intel、Salesforce、Metaといった著名なスポンサーからの資金援助に依存しています。

MetaのOSIへの関与は、「オープンソースAI」という概念に関連して、現在特に注目されています。MetaはAIをオープンソースに位置付けているにもかかわらず、Llamaモデルの使用方法に関して注目すべき制限を設けています。研究や商用利用の場合は無料で使用できますが、月間7億人以上のユーザーを抱えるアプリ開発者は、Metaに特別なライセンスを申請する必要があり、そのライセンスはMetaの独自の裁量で付与されます。

MetaのLLMに関する表現は、いくぶん柔軟性があります。同社はLlama 2モデルをオープンソースと呼んでいましたが、4月にLlama 3が登場した際には、この用語の使用をやや控え、「オープンに利用可能」や「オープンにアクセス可能」といった表現に切り替えました。しかし、一部の箇所では依然としてこのモデルを「オープンソース」と呼んでいます。

「この議論に参加している他の全員が、Llama自体はオープンソースとは呼べないという点で完全に同意しています」とマフルリ氏は述べた。「Metaで働く人たちと話しましたが、彼らもそれが少し無理が​​あることを理解しています。」

それに加えて、ここには利益相反があると主張する人もいるかもしれません。オープンソースのブランドに便乗したいという願望を示した企業が、「定義」の管理者に資金も提供しているのです。

これがOSIが資金調達の多様化を図っている理由の一つであり、最近スローン財団から助成金を獲得しました。この助成金は、OSIがオープンソースAI定義の策定を目指す、多様なステークホルダーによる世界的な取り組みを支援しています。TechCrunchの取材によると、この助成金は約25万ドルに上ります。マフルリ氏は、この助成金が企業資金への依存に関するOSIの見方を変えることを期待しています。

「スローン助成金によってさらに明確になったことの一つは、Metaの資金にいつでも別れを告げられるということです」とマフーリ氏は述べた。「スローン助成金が支給される前でも、そうすることができました。なぜなら、私たちは他者から寄付を受けることになると分かっているからです。Metaもそれをよく理解しています。彼らはこのプロセスに一切干渉しません。MicrosoftもGitHubもAmazonもGoogleも同様です。彼らは干渉できないことを完全に理解しています。組織の構造上、干渉は許されないからです。」

オープンソースAIの作業定義

定義を見つけることを描いた概念図
画像クレジット:アレクセイ・モロゾフ/ゲッティイメージズ

現在のオープンソース AI 定義の草案はバージョン 0.0.8 であり、文書の範囲を示す「前文」、オープンソース AI 定義自体、およびオープンソース準拠の AI システムに必要なコンポーネントを網羅したチェックリストという 3 つの主要部分で構成されています。

現在の草案によれば、オープンソース AI システムは、許可を求めることなくシステムをあらゆる目的に使用できる自由、システムの仕組みを研究し、そのコンポーネントを検査できる自由、あらゆる目的でシステムを変更および共有できる自由を付与する必要があります。

しかし、最大の課題の一つはデータに関するものでした。つまり、企業がトレーニングデータセットを他者が利用できるように公開していない場合、AIシステムを「オープンソース」と分類できるのでしょうか?マフルリ氏によると、データの出所、開発者がどのようにラベル付け、重複排除、フィルタリングを行ったかを知ることの方が重要です。さらに、様々なソースからデータセットを構築するために使用されたコードにアクセスできることも重要です。

「その情報を知っている方が、残りの情報がない単なるデータセットを持っているよりもはるかに良い」とマフリ氏は語った。

そして、これは「オープンソース ソフトウェア」と「オープンソース AI」の根本的な違いを完璧に浮き彫りにしています。意図は似ているかもしれませんが、同等に比較できるものではなく、この相違点こそ OSI が定義で捉えようとしているものです。

ソフトウェアにおいて、ソースコードとバイナリコードは同一の成果物の2つのビューであり、同じプログラムを異なる形で反映しています。しかし、トレーニングデータセットとそれに続くトレーニング済みモデルは別物です。同じデータセットを使用しても、必ずしも同じモデルを一貫して再現できるとは限りません。

「トレーニング中にはさまざまな統計的ロジックとランダムロジックが発生するため、ソフトウェアと同じように再現することはできない」とマフリ氏は付け加えた。

したがって、オープンソースAIシステムは、明確な指示があれば容易に複製できるものでなければなりません。そして、ここでオープンソースAI定義のチェックリストの側面が重要になります。この定義は、最近発表された学術論文「モデルのオープン性フレームワーク:人工知能における再現性、透明性、および有用性のための完全性とオープン性の促進」に基づいています。

本論文では、機械学習モデルを「その完全性とオープン性に基づいて」評価する分類システムであるモデルオープンネスフレームワーク(MOF)を提案しています。MOFは、AIモデル開発の特定のコンポーネント(トレーニング手法やモデルパラメータの詳細など)が「適切なオープンライセンスの下で含まれ、リリースされる」ことを要求しています。

安定した状態

アディスアベバで開催されたデジタル公共財同盟(DPGA)メンバーサミットでプレゼンテーションを行うステファノ・マフーリ氏
アディスアベバで開催されたデジタル公共財同盟(DPGA)メンバーサミットでプレゼンテーションを行うステファノ・マフーリ氏。画像提供: OSI

OSIは、この定義の公式リリースを「安定版」と呼んでいます。これは、企業がプライムタイム前に徹底的なテストとデバッグを経たアプリケーションをリリースするのと似ています。OSIは、定義の一部が今後進化していく可能性が高いため、意図的に「最終リリース」とは呼んでいません。

「この定義がオープンソースの定義のように26年間も続くとは期待できません」とマフーリ氏は述べた。「『AIシステムとは何か?』といった定義の冒頭部分は、あまり変わらないでしょう。しかし、チェックリストで参照する部分、つまりコンポーネントのリストは、テクノロジーに依存しています。明日、テクノロジーがどのようなものになるかは誰にもわかりません。」

安定したオープンソースAIの定義は、10月末に開催されるAll Things Openカンファレンスにおいて理事会によって承認される予定です。OSIは、それまでの数ヶ月間、5大陸にまたがるグローバルロードショーを実施し、「オープンソースAI」の今後の定義についてより「多様な意見」を求める予定です。しかし、最終的な変更は、あちこちで「小さな調整」にとどまる可能性が高いでしょう。

「いよいよ最終段階です」とマフーリ氏は述べた。「定義は機能が完成したバージョンに到達し、必要な要素はすべて揃っています。現在はチェックリストも作成しているので、予想外の点がないか、また、追加すべきシステムや除外すべきシステムがないかを確認しています。」