AIの先駆者たちが強化学習の研究でチューリング賞を受賞

AIの先駆者たちが強化学習の研究でチューリング賞を受賞
アラン・チューリングのクローズアップ肖像画(イギリスの紙幣より)
画像クレジット: Johan10 / Getty Images

2 人の先駆的なコンピューター科学者が強化学習の研究で 2024 年のチューリング賞を受賞した。強化学習とは、機械が報酬ベースの試行錯誤アプローチを通じて学習し、制約のある環境や動的な環境に適応できるようにする分野である。

マサチューセッツ大学アマースト校名誉教授のアンドリュー・G・バート氏とアルバータ大学教授のリチャード・S・サットン氏は、1980年代から一連の独創的な論文を発表し、重要なアルゴリズムと理論を開発しました。これには、時間差分学習と呼ばれる強化学習手法の研究も含まれており、二人は後に『強化学習入門』という学術書を出版しました。

チューリング賞の名前の由来となった著名な数学者アラン・チューリング(上の写真)も、1950年代に「計算機械と知能」という論文を発表し、コンピューターが思考できるかどうかに疑問を投げかけ、経験から学ぶという同様の概念に触れました。

近年、Google DeepMindがこの技術を用いて世界最強のAlphaGo棋士を破ったAIを構築したことで、強化学習はより注目を集めています。また、ここ数ヶ月では、中国のAI新興企業DeepSeekが、強化学習を駆使してより費用対効果の高い基礎モデルを構築した、画期的なR1推論モデルで注目を集めました。

アンドリュー・G・バートとリチャード・S・サットン
アンドリュー・G・バートとリチャード・S・サットン画像クレジット: ACM

「コンピューターのノーベル賞」

計算機協会(ACM)が運営するチューリング賞は、「コンピューティングのノーベル賞」と呼ばれることがよくあります。しかし、ノーベル賞自体がコンピューティング分野、特にAI分野に進出しつつあります。昨年は、ジェフ・ヒントン氏とジョン・ホップフィールド氏が基礎AI研究でノーベル物理学賞を受賞しました。その直後、ディープマインドのデミス・ハサビス氏とジョン・ジャンパー氏が、AlphaFoldの研究でノーベル化学賞を受賞しました。

「認知科学、心理学、神経科学に至るまで、幅広い研究分野が強化学習の発展に影響を与え、AIにおける最も重要な進歩の基盤を築き、脳の働きに関するより深い洞察をもたらしました」と、ACM会長のヤニス・イオアニディス氏はプレスリリースで述べています。「バルト氏とサットン氏の研究は、私たちが今や踏み石に過ぎません。強化学習は成長を続け、コンピューティングをはじめとする多くの分野におけるさらなる進歩に大きな可能性を秘めています。この分野で最も権威のある賞を彼らに授与することは、まさにふさわしいことです。」

チューリング賞を受賞した他の著名なAIの先駆者には、Metaの主任AI科学者であるヤン・ルカン氏がおり、彼は2018年にジェフ・ヒントン氏とヨシュア・ベンジオ氏とともにディープニューラルネットワークに関する研究で同賞を受賞した。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

バート氏とサットン氏は、Google の支援により提供された 100 万ドルの賞金を分け合うことになる。

トピック

ポールはロンドンを拠点とするTechCrunchのシニアライターで、主に(ただしそれだけではない)英国およびヨーロッパのスタートアップの世界に特化していました。オープンソースソフトウェアビジネスなど、情熱を注いだ他のテーマについても執筆していました。2022年6月にTechCrunchに入社する前は、The Next Web(現在はFinancial Times傘下)とVentureBeatで、コンシューマー向けおよびエンタープライズ向けテクノロジーを10年以上取材してきました。企画書の送付先:paul.sawers [at] techcrunch.com セキュア/匿名の情報はSignal(PSTC.08)まで。また、Bluesky(@jambo.bsky.social)にも参加していました。

バイオを見る