GPT-4やClaudeのような言語モデルは強力で有用ですが、それらの学習に用いられるデータは厳重に秘密にされています。アレンAI研究所(AI2)は、無料で利用でき、閲覧可能な新たな大規模テキストデータセットによって、この傾向を逆転させることを目指しています。
Dolmaと呼ばれるこのデータセットは、研究グループが計画しているオープン言語モデル(OLMo)の基盤となることを目的としています(Dolmaは「OLMoの欲求を満たすデータ」の略です)。このモデルはAI研究コミュニティが自由に利用・改変できるように設計されているため、AI2研究者は、モデルの作成に使用するデータセットも自由に改変・改変できるべきだと主張しています。
これはAI2がOLMoに関連して公開する最初の「データアーティファクト」であり、同組織のルカ・ソルダイニ氏がブログ記事で、AIが利用できるようにするためにチームが使用したソースの選択と様々なプロセスの根拠について説明しています。(「より包括的な論文を現在作成中」と冒頭で言及されています。)
OpenAIやMetaのような企業は、言語モデルの構築に使用しているデータセットの重要な統計情報の一部を公開していますが、その多くは独自の情報として扱われています。精査や改善への意欲を削ぐという既知の影響に加え、この閉鎖的なアプローチは、データが倫理的または合法的に取得されていないことが原因ではないかという憶測もあります。例えば、多くの著者の書籍の海賊版が取り込まれているなどです。
数千人の作家がAIメーカーに本の盗難をやめるよう求める書簡に署名
AI2が作成したこのグラフを見ると、最大規模かつ最新のモデルは、研究者が特定のデータセットについて知りたい情報の一部しか提供していないことがわかります。どのような情報が削除され、その理由は?質の高いテキストと低質なテキストはどのようなものと見なされたのでしょうか?個人情報は適切に削除されたのでしょうか?
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

もちろん、熾烈な競争が繰り広げられるAI業界において、モデルの学習プロセスの秘密を守るのはこれらの企業の特権です。しかし、企業外の研究者にとっては、データセットやモデルの不透明度が高まり、研究や再現が困難になります。
AI2 のドルマはこれらとは正反対のことを意図しており、そのすべてのソースとプロセス (つまり、元の英語のテキストにどのように、なぜトリミングされたか) が公に文書化されています。
AI2は科学に最適化された大規模言語モデルを開発している
Dolmaはオープンデータセットの試みとしては初めてではありませんが、これまでで最大の規模(30億トークン、コンテンツ量のAIネイティブな指標)を誇り、利用と権限に関して最も分かりやすいと彼らは主張しています。「中リスクアーティファクト向けImpACTライセンス」を使用しており、詳細はこちらでご覧いただけます。しかし、基本的にDolmaの潜在的なユーザーには以下のことが求められます。
- 連絡先情報と想定される使用例を提供する
- ドルマ派生作品を公開する
- これらの派生作品を同じライセンスの下で配布する
- 監視や偽情報などの様々な禁止分野にドルマを適用しないことに同意する
AI2の最大限の努力にもかかわらず、ご自身の個人データがデータベースに残っているのではないかと心配されている方は、こちらから削除リクエストフォームをご利用いただけます。これは「使用しないでください」という一般的なリクエストではなく、特定のケース向けのものです。
それでよろしければ、Hugging Face 経由で Dolma にアクセスできます。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る