サム・アルトマン氏がOpenAIからあっさりと追放された後、投資家たちが猛攻撃を仕掛ける準備をし、アルトマン氏自身も同社への復帰を計画していた一方で、OpenAIのスーパーアライメントチームのメンバーは、人間よりも賢いAIをいかに制御するかという問題に精力的に取り組んでいた。
あるいは少なくとも、彼らはそうした印象を与えたいのです。
今週、私はスーパーアライメント チームのメンバー 3 人 (コリン・バーンズ、パベル・イズマイロフ、レオポルド・アッシェンブレナー) と電話で話しました。彼らはニューオーリンズで開催されている機械学習の年次カンファレンス NeurIPS に出席し、AI システムが意図したとおりに動作することを保証する OpenAI の最新の取り組みについて発表していました。
OpenAIは7月にスーパーアライメントチームを結成し、「超知能」AIシステム、つまり人間の知能をはるかに超える理論上のシステムを操縦、規制、統制する方法を開発している。
「今日では、基本的に人間より愚かなモデル、あるいはせいぜい人間レベル程度のモデルをアラインメントさせることは可能です」とバーンズ氏は述べた。「人間より賢いモデルをアラインメントさせるのは、はるかに困難です。一体どうやって実現できるのでしょうか?」
スーパーアライメントの取り組みは、OpenAIの共同創設者兼チーフサイエンティストであるイリヤ・スツケバー氏が主導しています。7月には特に注目を集めることはありませんでしたが、当初スツケバー氏がアルトマン氏の解任を主張していた人物の一人であったことを考えると、今となっては確かに注目を集めています。一部報道では、アルトマン氏の復帰後、スツケバー氏が「宙ぶらりんの状態」にあると示唆されていますが、OpenAIの広報担当者によると、少なくとも現時点では、スツケバー氏は依然としてスーパーアライメントチームを率いているとのことです。
スーパーアライメントは、AI研究コミュニティにおいてやや扱いが難しいテーマです。この分野はまだ未熟だと主張する人もいれば、誤解を招くような議論だと示唆する人もいます。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
アルトマン氏はOpenAIとマンハッタン計画の比較を促し、化学兵器や核兵器の脅威を含む「壊滅的なリスク」からAIモデルを防御するための調査チームを編成するほどにまで至っている。しかし、一部の専門家は、このスタートアップ企業の技術が近い将来、あるいは将来的に、世界を滅ぼし、人間を凌駕する能力を獲得することを示す証拠はほとんどないと指摘している。これらの専門家は、差し迫った超知能の出現という主張は、アルゴリズムの偏りやAIの毒性への傾向といった、今日の喫緊のAI規制問題から意図的に注意を逸らし、注意を逸らすだけだと付け加えている。
参考までに言うと、スツケヴァー氏は、AI ― OpenAI のAIそのものではなく、その具現化の何か ― がいつか存在の脅威となる可能性があると真剣に信じているようだ。報道によると、彼はAIによる人類への危害を防ぐという決意を示すため、社外の場所で木製の像を制作し、それを燃やしたという。また、スーパーアライメントチームの研究のために、OpenAI のコンピューティングリソースの相当量 ― 既存のコンピュータチップの20% ― を委託している。
「最近のAIの進歩は驚異的な速さを誇っており、その勢いは衰えていません」とアッシェンブレナー氏は述べた。「近いうちに人間レベルのシステムに到達すると思いますが、そこで止まることはありません。超人的なシステムへと進化していくでしょう。…では、超人的なAIシステムをどのように連携させ、安全に運用していくのでしょうか?これはまさに全人類にとっての課題であり、おそらく現代における最も重要な未解決の技術的課題と言えるでしょう。」
Superalignmentチームは現在、将来の強力なAIシステムに適用可能なガバナンスと制御のフレームワークの構築に取り組んでいます。「超知能」の定義、そして特定のAIシステムがそれを達成しているかどうかは激しい議論の対象となっているため、これは容易な作業ではありません。しかし、チームが現在採用しているアプローチは、より弱く、洗練度の低いAIモデル(例えばGPT-2)を用いて、より高度で洗練されたモデル(GPT-4)を望ましい方向に導き、望ましくない方向には進ませないというものです。

「私たちが取り組んでいることの多くは、モデルに何をすべきかを伝え、それが確実に実行されるようにすることです」とバーンズ氏は述べた。「モデルに指示を守らせ、事実に基づいた行動のみを促し、作り話をさせないようにするにはどうすればいいのでしょうか? 生成したコードが安全か、それとも悪質な動作か、モデルに判断させるにはどうすればいいのでしょうか? これらはまさに、私たちの研究で実現したい課題です。」
でも、ちょっと待ってください。AIがAIを導くことと、人類を脅かすAIを防ぐことと、一体何の関係があるのか?と疑問に思うかもしれません。まあ、それは類推です。弱いモデルは人間の監督者の代わりとなるもので、強いモデルは超知能AIを表します。人間が超知能AIシステムを理解できないかもしれないのと同じように、弱いモデルは強いモデルの複雑さやニュアンスをすべて「理解」することはできません。そのため、この設定はスーパーアライメント仮説を証明するのに役立つと、スーパーアライメントチームは述べています。
「6年生が大学生を指導しようとしているところを想像してみてください」とイズマイロフ氏は説明した。「例えば、6年生が大学生に、自分がなんとなく解き方を知っている課題を教えようとしているとしましょう。…たとえ6年生による指導では細かい部分で間違いが生じる可能性はありますが、大学生が要点を理解し、指導する人よりも上手く課題をこなせる可能性が期待できます。」
Superalignmentチームのセットアップでは、特定のタスクに合わせて微調整された弱いモデルが、そのタスクの大まかな概要を強いモデルに「伝える」ためのラベルを生成します。これらのラベルが与えられることで、強いモデルは弱いモデルの意図に沿って、ほぼ正確に一般化することができます。たとえ弱いモデルのラベルに誤りやバイアスが含まれていたとしてもです。
弱-強モデルアプローチは幻覚の分野でも大きな進歩につながる可能性があると研究チームは主張している。
「幻覚は実は非常に興味深いものです。なぜなら、モデルは内部的には、自分が言っていることが事実かフィクションかを実際に認識しているからです」とアッシェンブレナー氏は述べた。「しかし、現在のモデルの訓練方法では、人間の監督者がモデルが何かを言ったことに対して『いいね』や『いいねしない』という評価を与えています。そのため、人間は意図せず、モデルが誤ったことを言ったり、モデルが実際には知らないことを言ったりした場合に、モデルに報酬を与えてしまうことがあります。もし私たちの研究が成功すれば、モデルの知識を基本的に呼び起こすような技術を開発し、その呼び出しを事実かフィクションかの判断に適用することで、幻覚を軽減できるはずです。」
しかし、この類推は完璧ではありません。そこでOpenAIは、アイデアをクラウドソーシングしたいと考えています。
OpenAIは、スーパーインテリジェンスアライメントに関する技術研究を支援するために1,000万ドルの助成金プログラムを立ち上げます。この助成金の一部は、学術研究室、非営利団体、個人研究者、大学院生向けに確保されます。また、OpenAIは2025年初頭にスーパーアライメントに関する学術会議を開催し、スーパーアライメント賞のファイナリストの研究成果を共有・宣伝する予定です。
興味深いことに、この助成金の一部は、元Google CEO兼会長のエリック・シュミット氏から提供される。アルトマン氏の熱烈な支持者であるシュミット氏は、危険なAIシステムの到来が間近に迫っており、規制当局は十分な準備をしていないと主張し、AI悲観論の象徴的存在になりつつある。これは必ずしも利他主義からではない。Protocol誌とWired誌の報道によると、AIに積極的に投資しているシュミット氏は、米国政府がシュミット氏の提案するAI研究強化の青写真を実行に移した場合、商業的に莫大な利益を得ることになるという。
皮肉な見方をすれば、この寄付は美徳を示す行為と捉えられるかもしれない。シュミット氏の個人資産は推定240億ドルで、彼は倫理観がはるかに低い他のAIベンチャーやファンドにも数億ドルを注ぎ込んでおり、その中には自身のファンドも含まれている。
もちろん、シュミット氏はこれは事実ではないと否定している。
「AIをはじめとする新興技術は、私たちの経済と社会を変革しつつあります」と、彼は電子メールで声明を発表した。「それらが人間の価値観と合致していることを確かめることは極めて重要であり、公共の利益のために責任あるAIの開発と管理を目指すOpenAIの新たな助成金を支援できることを誇りに思います。」
実際、このように商業的動機が明白な人物が関与していることから、次のような疑問が湧いてくる。OpenAI のスーパーアライメント研究や、コミュニティに今後の会議に提出するよう奨励している研究は、誰でも自由に利用できるようになるのだろうか。
スーパーアライメントチームは、OpenAIの研究(コードを含む)と、OpenAIからスーパーアライメント関連の研究で助成金や賞金を受けている他の研究者の研究成果は公開されると確約してくれました。私たちはOpenAIにその約束を守ります。
「私たちのモデルの安全性だけでなく、他の研究室のモデルや高度なAI全般の安全性にも貢献することが、私たちの使命の一部です」とアッシェンブレナー氏は述べた。「これは、全人類の利益のために、そして安全に(AIを)構築するという私たちの使命の真髄です。そして、この研究を行うことは、AIを有益かつ安全なものにするために絶対に不可欠だと考えています。」