ハーバード大学とグーグル、パブリックドメイン書籍100万冊をAIトレーニングデータセットとして公開

Cemubo vgnpne 0

概要

投稿日:

5:04午前PST · 2024年12月12日

本のある図書館 — **画像クレジット:**ナデジダ・デイネカ/ゲッティイメージズ

新しいデータセットはまだ公開されておらず、いつ、どのように公開されるかは不明です。しかし、このデータセットにはGoogleの長年にわたる書籍スキャンプロジェクトであるGoogleブックスから派生した書籍が含まれているため、Googleは「この宝庫を広く公開する」ことに関与することになります。

ハーバード大学は3月に初めて機関データ・イニシアチブ（IDI）について発表し、「AI向け法務データの信頼できる導管」を構築する計画を概説しました。しかし、本日正式に発表されるまで、IDIに関するニュースはほとんど聞かれませんでした。IDIにはマイクロソフトとOpenAIからの資金援助が含まれていることが確認されました。

IDI のエグゼクティブディレクターである Greg Leppert 氏は、このデータセットは、大規模言語モデル (LLM) をトレーニングしたいあらゆる人 (研究室から AI スタートアップ企業まで) にこのような巨大なデータセットを公開することで、「競争の場を平等にする」ように設計されていると述べています。

トピック

業界最大のテクノロジーニュースを購読する

AIの最新情報

Posted by Cemubo