ハーバード大学とグーグル、パブリックドメイン書籍100万冊をAIトレーニングデータセットとして公開

ハーバード大学とグーグル、パブリックドメイン書籍100万冊をAIトレーニングデータセットとして公開

概要

投稿日:

本のある図書館
画像クレジット:ナデジダ・デイネカ/ゲッティイメージズ
  • ポール・ソーワーズ

新しいデータセットはまだ公開されておらず、いつ、どのように公開されるかは不明です。しかし、このデータセットにはGoogleの長年にわたる書籍スキャンプロジェクトであるGoogleブックスから派生した書籍が含まれているため、Googleは「この宝庫を広く公開する」ことに関与することになります。

ハーバード大学は3月に初めて機関データ・イニシアチブ(IDI)について発表し、「AI向け法務データの信頼できる導管」を構築する計画を概説しました。しかし、本日正式に発表されるまで、IDIに関するニュースはほとんど聞かれませんでした。IDIにはマイクロソフトとOpenAIからの資金援助が含まれていることが確認されました。

IDI のエグゼクティブ ディレクターである Greg Leppert 氏は、このデータセットは、大規模言語モデル (LLM) をトレーニングしたいあらゆる人 (研究室から AI スタートアップ企業まで) にこのような巨大なデータセットを公開することで、「競争の場を平等にする」ように設計されていると述べています。

トピック

業界最大のテクノロジーニュースを購読する

AIの最新情報