オープンソースのChatGPT代替品を開発しているチームに会う

オープンソースのChatGPT代替品を開発しているチームに会う

当たり前のことを言うようですが、AI 搭載のチャットボットは今注目されています。

いくつかのテキストベースの指示を入力するだけでエッセイやメールなどを作成できるこれらのツールは、テクノロジー愛好家や企業の注目を集めています。OpenAIのChatGPTは、その先駆けとも言える存在で、推定1億人以上のユーザーを抱えています。Instacart、Quizlet、Snapといったブランドは、APIを介してそれぞれのプラットフォームにChatGPTを組み込み始めており、利用者数はさらに増加し​​ています。

しかし、開発者コミュニティの一部にとっては残念なことに、こうしたチャットボットを開発している組織は、依然として資金力とリソースに恵まれた、限られたメンバーだけの集まりに過ぎない。Anthropic、DeepMind、OpenAIといった潤沢な資金を持つ企業は、独自の最新チャットボット技術を開発できた数少ない企業の一つだ。対照的に、オープンソースコミュニティは、チャットボット開発の取り組みにおいて行き詰まっている。

その主な理由は、チャットボットの基盤となるAIモデルの学習には膨大な処理能力が必要であり、膨大な学習データセットを丹念にキュレーションする必要があるからです。しかし、「 Together」と名乗る、緩やかな連携を持つ新たな研究者グループは、これらの課題を克服し、ChatGPTのようなシステムを初めてオープンソース化することを目指しています。

Togetherはすでに進歩を遂げています。先週、同社はAI搭載チャットボットの作成に使用できる、あらゆる開発者が利用できるトレーニング済みモデルをリリースしました。

「Togetherは、オープンな基盤モデルのためのアクセス可能なプラットフォームを構築しています」と、Togetherの共同創業者であるVipul Ved Prakash氏はTechCrunchのメールインタビューで語った。「私たちが構築しているものは、AIの『Linuxモーメント』の一部だと考えています。データ、モデル、そして計算を統合したプラットフォームを通じて、研究者、開発者、そして企業がオープンソースのAIモデルを活用し、改善できるようにしたいと考えています。」

プラカシュ氏は以前、サイバーセキュリティのスタートアップ企業であるクラウドマークの共同創業者だった。同社は2017年にプルーフポイント社が1億1000万ドルで買収した。プラカシュ氏の次のベンチャーであるソーシャルメディア検索・分析プラットフォームのトプシーを2013年にアップル社が買収した後、同氏はアップル社で5年間シニアディレクターを務めた後、同社を離れ、トゥギャザー社を設立した。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

先週末、Togetherは初の主要プロジェクトとなるOpenChatKitを発表しました。これは、AIを活用した特殊用途および汎用のチャットボットを作成するためのフレームワークです。GitHubで公開されているこのキットには、前述の学習済みモデルと、モデルが様々な情報源やウェブサイトから情報(例えば最新のスポーツスコア)を取得できる「拡張可能な」検索システムが含まれています。

ベースモデルは、テキスト生成システムを研究する非営利団体EleutherAIから提供されました。しかし、それらはTogetherのコンピューティングインフラストラクチャであるTogether Decentralized Cloudを使用して微調整されました。Together Decentralized Cloudは、インターネット上のボランティアからGPUを含むハードウェアリソースをプールします。

「Togetherは、誰でもモデルの結果を再現し、独自のモデルを微調整したり、検索システムに統合したりできるソースリポジトリを開発しました」とプラカシュ氏は述べた。「また、ドキュメント作成とコミュニティプロセスもTogetherが開発しました。」

トレーニングインフラの構築に加え、TogetherはLAION(Stable Diffusionの開発に協力)や技術者Huu Nguyen氏のOntocordといった他の研究機関と協力し、モデルのトレーニングデータセットを作成しました。「Open Instruction Generalist Dataset」と呼ばれるこのデータセットには、モデルに様々な指示(例えば「南北戦争に関する歴史論文のアウトラインを作成してください」)への対応方法を「教える」ために設計された、質問と回答、フォローアップ質問など、4,000万件以上の例が含まれています。

フィードバックを募るために、Together は誰でも OpenChatKit モデルと対話できるデモをリリースしました。

「OpenChatKitを使って誰でもモデルを改良し、よりタスクに特化したチャットモデルを作成できるようにすることが主な動機でした」とプラカシュ氏は付け加えた。「大規模な言語モデルは一般的な質問に答える能力において優れた能力を示してきましたが、特定のアプリケーション向けに微調整することで、はるかに高い精度を達成する傾向があります。」

プラカシュ氏によると、これらのモデルは高校レベルの基本的な数学の問題を解いたり、Pythonコードを作成したり、物語を書いたり、文書を要約したりと、幅広いタスクを実行できるとのことです。では、どれほどのテストに耐えられるのでしょうか?私の経験では、少なくとも説得力のあるカバーレターを書くといった基本的な作業であれば、十分に耐えられると言えるでしょう。

オープンチャットキット
OpenChatKitはカバーレターの作成などができる。画像クレジット: OpenChatKit

しかし、明確な限界があります。OpenChatKitのモデルと長くチャットを続けると、ChatGPTや他の最近のチャットボットが示すような、虚偽の情報を繰り返すといった問題に遭遇し始めます。例えば、地球が平面かどうかについて矛盾した回答をしたり、2020年のアメリカ大統領選挙の勝者について全くの虚偽の回答をしたりといった、OpenChatKitのモデルを使った実験も行いました。

オープンチャットキット
2020年アメリカ大統領選挙に関する質問に(間違った答えを)するOpenChatKit。画像提供: OpenChatKit

OpenChatKitのモデルは、コンテキストスイッチといった、それほど心配するほどではない領域では弱点があります。会話の途中で話題を変えると、しばしば混乱を招きます。また、創造的な文章作成やコーディングのタスクにも特に長けているわけではなく、時には同じ返答を延々と繰り返してしまうこともあります。

プラカシュ氏は、トレーニングデータセットが現在も開発中であることを指摘し、その責任を問う。「これは今後も改善を続けていく分野であり、オープンコミュニティが積極的に参加できるプロセスを設計しました」と、デモに言及しながら述べた。

OpenChatKitの回答の質は、少々物足りないかもしれません。(公平を期すために言うと、ChatGPTの回答も、プロンプトによっては劇的に優れているわけではありません。)しかし、Togetherはモデレーションの面で積極的に、あるいは少なくとも積極的になろうとしています。

ChatGPTのようなチャットボットの中には、有害な情報源からのものも含むトレーニングデータの影響で、偏向した内容や憎悪的な内容の文章を書くように仕向けられるものもありますが、OpenChatKitのモデルは強制するのがより困難です。私はなんとかフィッシングメールを書かせることはできましたが、ホロコーストの支持や、男性の方が女性よりもCEOとして優れている理由を正当化するような、より物議を醸すような内容には誘導できませんでした。

オープンチャットキット
OpenChatKitは、ここで見られるように、ある程度のモデレーション機能を採用しています。画像クレジット: OpenChatKit

ただし、モデレーションはOpenChatKitのオプション機能であり、開発者は必ずしも使用する必要はありません。モデルの1つは、デモで使用されているもう1つのより大規模なモデルの「ガードレールとして」特別に設計されていますが、プラカシュ氏によると、その大規模なモデルにはデフォルトでフィルタリングが適用されていないとのことです。

これは、OpenAI、Anthropicなどが推奨するトップダウン型のアプローチとは異なります。このアプローチでは、APIレベルで人間と自動モデレーションとフィルタリングを組み合わせています。プラカシュ氏は、この密室での不透明性は、長期的にはOpenChatKitに必須のフィルターがないよりも有害である可能性があると主張しています。

「多くのデュアルユース技術と同様に、AIは悪意のある状況で利用される可能性があります。これはオープンAI、あるいはAPIを通じて商用利用可能なクローズドシステムにも当てはまります」とプラカシュ氏は述べた。「私たちの主張は、オープンな研究コミュニティが生成AI技術を監査、検査、改善すればするほど、社会全体としてこれらのリスクに対する解決策をより良く生み出せるようになるということです。大規模な生成AIモデルの力が、監査、検査、理解が不可能な少数の大手テクノロジー企業に独占されている世界は、より大きなリスクをもたらすと考えています。」

プラカッシュ氏のオープン開発に関する指摘を裏付けるように、OpenChatKitにはOIG-moderationと呼ばれる2つ目のトレーニングデータセットが含まれており、ボットが過度に攻撃的または抑揚のない口調を取るなど、チャットボットのモデレーションに関する様々な課題に対処することを目的としています(Bing Chatを参照)。このデータセットは、OpenChatKitの2つのモデルのうち、より小規模なモデルのトレーニングに使用されました。プラカッシュ氏によると、開発者が希望すれば、OIG-moderationを適用して、問題のあるテキストを検出してフィルタリングする他のモデルを作成することもできます。

「私たちはAIの安全性を深く懸念していますが、隠蔽によるセキュリティは長期的には誤ったアプローチだと考えています。オープンで透明性のある姿勢は、コンピュータセキュリティと暗号の世界ではデフォルトの姿勢として広く受け入れられており、安全なAIを構築するには透明性が不可欠だと考えています」とプラカシュ氏は述べた。「Wikipediaは、オープンなコミュニティが、大規模なモデレーション作業における困難な課題に対して、いかに優れた解決策となり得るかを示す素晴らしい例です。」

どうもそうは思えません。まず、Wikipediaは必ずしもゴールドスタンダードとは言えません。サイトのモデレーションプロセスは不透明で、地域性に富んでいることで有名です。さらに、オープンソースシステムはしばしば(しかも急速に)悪用されるという事実もあります。画像生成AIシステム「Stable Diffusion」を例に挙げると、リリースからわずか数日で、4chanなどのコミュニティがこのモデル(オプションのモデレーションツールも含む)を使って、有名俳優の同意のないポルノディープフェイクを作成していました。

OpenChatKitのライセンスでは、誤情報の生成、ヘイトスピーチの助長、スパム、ネットいじめや嫌がらせ行為といった利用が明確に禁止されています。しかし、悪意のある行為者がこれらの規約とモデレーションツールの両方を無視することを防ぐ手段はありません。

最悪の事態を予想して、一部の研究者はオープンアクセスのチャットボットに対して警鐘を鳴らし始めている。

オンラインの誤情報を追跡する企業NewsGuardは、最近の調査で、新しいチャットボット、特にChatGPTは、ワクチンに関する有害な健康被害を主張するコンテンツ、中国やロシアのプロパガンダや偽情報を模倣したコンテンツ、そして党派的な報道機関の論調を模倣したコンテンツを作成するように促される可能性があることを発見しました。調査によると、ChatGPTは、虚偽または誤解を招くような考えに基づく回答を書くように求められた場合、約80%の確率でそれに従いました。

NewsGuardの調査結果を受けて、OpenAIはChatGPTのバックエンドのコンテンツフィルターを改良しました。もちろん、モデルを最新の状態に保つ責任を開発者に負わせるOpenChatKitのようなシステムでは、これは不可能です。

プラカシュ氏は自らの主張を堅持している。

「多くのアプリケーションはカスタマイズと特化を必要としており、オープンソースのアプローチは、健全なアプローチとアプリケーションの多様性をより適切にサポートできると考えています」と彼は述べた。「オープンモデルは進化を続けており、その採用が急増すると予想しています。」