底なしの資金と数百人もの一流研究者を抱えるGoogle、OpenAI、Anthropicといった企業だけが、最先端の基盤モデルを構築できるというのが通説です。しかし、彼らの中の一人が有名な言葉で述べたように、彼らには「堀がない」のです。そしてAi2は本日、Molmoをリリースすることで、まさにそれを実証しました。Molmoは、これらの企業に匹敵するマルチモーダルAIモデルでありながら、小型で無料、そして真のオープンソースです。
誤解のないよう申し上げますが、Molmo(マルチモーダルオープン言語モデル)は画像理解エンジンであり、ChatGPTのようなフルサービスのチャットボットではありません。APIは提供されておらず、エンタープライズ統合には対応しておらず、ユーザーに代わって、あるいは独自の目的でウェブを検索することもありません。Molmoは、画像を認識し、理解し、画像に関する説明や質問に答えることができるモデルの一部分と考えてください。
Molmo(72B、7B、1Bパラメータのバリエーションあり)は、他のマルチモーダルモデルと同様に、ほぼあらゆる日常的な状況や物体に関する質問を識別し、回答することができます。「このコーヒーメーカーの使い方は?」「この写真で舌を出している犬は何匹?」「このメニューでビーガン対応のものはどれ?」「この図の変数は何?」これは、長年にわたり、成功率や遅延の度合いは様々ですが、視覚的な理解タスクの典型です。
異なるのは、必ずしも Molmo の機能 (以下のデモで確認するか、こちらでテストできます) ではなく、その機能を実現する方法です。
もちろん、視覚理解は広範な領域であり、野原で羊を数えることから、人の感情状態を推測すること、メニューを要約することまで多岐にわたります。そのため、定量的なテストはもちろんのこと、記述することも困難です。しかし、Ai2のCEOであるアリ・ファルハディ氏がシアトルにある同社の本社で行われたデモイベントで説明したように、少なくとも2つのモデルの能力が類似していることを示すことは可能です。
「今日私たちが示していることの一つは、開いている状態は閉じている状態と等しいということです」と彼は言いました。「そして、小さい状態は大きい状態と等しくなります。」(彼は、== は同一性を意味するのではなく、同等性を意味するものであると明言しました。これは一部の人にとっては理解しやすい明確な違いです。)
AI開発においてほぼ一貫しているのは、「大きいほど良い」というものです。学習データが増えれば、得られるモデルのパラメータも増え、それらを作成・運用するための計算能力も高まります。しかし、ある時点で文字通りこれ以上大きくすることはできなくなります。データが不足するか、計算コストと時間が膨大になり、自滅してしまうからです。現状で何とかするか、あるいはより少ないリソースでより多くのことを行うしかありません。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
ファルハディ氏によると、MolmoはGPT-4o、Gemini 1.5 Pro、Claude-3.5 Sonnetといった機種と同等の性能を発揮する一方で、重量は(最良の推定によると)それらの約10分の1だとのことだ。そして、その10分の1のモデルで、それらの性能レベルに迫ることができるのだ。

「人々が評価するベンチマークは12種類あります。科学的にはこのゲームは好きではありませんが…数字を示さなければなりませんでした」と彼は説明した。「私たちの最大のモデルは小型モデル72Bですが、これらのベンチマークではGPT、クロード、ジェミニよりも優れた性能を発揮しています。繰り返しますが、これは鵜呑みにしないでください。本当にこれらよりも優れているのでしょうか?私には分かりません。しかし、少なくとも私たちにとっては、同じゲームをしているということです。」
ぜひ試してみたい方は、モバイルでも動作する公開デモをご覧ください。(ログインしたくない場合は、画面を更新または上にスクロールして元のプロンプトを「編集」し、画像を置き換えることができます。)
秘密は、より少ないデータ量で、より高品質なデータを使用することです。品質管理、説明、重複除去が不可能な数十億枚の画像ライブラリで学習させる代わりに、Ai2はわずか60万枚の画像セットをキュレーションし、アノテーションを行いました。もちろん、これは依然として膨大な量ですが、60億枚というデータ量と比較すると、ほんのわずかな量、つまり1パーセントにも満たない量です。これにより、ロングテールの要素が多少は排除されますが、Ai2の選定プロセスと独自のアノテーション手法により、非常に高品質な説明文が得られます。
どのように機能するのか興味がありますか?実は、Molmoは人々に画像を見せ、それを声に出して説明するように指示します。人は物事について話すときと書くときで表現が異なることが分かっており、これにより正確なだけでなく、会話的で有用な結果が得られます。Molmoが生成する画像の説明は、豊かで実用的です。
その真価は、画像の関連部分を「指し示す」という、この新しい、そして少なくとも数日間は唯一無二の能力によって最もよく実証されている。写真に写っている犬の数を数えるように指示すると(33)、それぞれの顔に点をつけた。舌の数を数えるように指示すると、それぞれの舌に点をつけた。この特異性により、あらゆる種類の新しいゼロショットアクションが可能になった。そして重要なのは、この能力がウェブインターフェースでも機能するという点だ。ウェブサイトのコードを見ることなく、このモデルはページをナビゲートしたり、フォームを送信したりする方法などを理解する。(Rabbitは最近、来週リリース予定のr1で同様の機能を披露した。)

では、なぜこれが重要なのでしょうか?モデルはほぼ毎日のように発表されています。Googleもいくつか発表しました。OpenAIもデモデーを控えています。Perplexityは常に何かの情報をほのめかしています。MetaはLlamaのバージョンを大々的に宣伝しています。
Molmoは完全に無料でオープンソースであり、ローカルで実行できるほど小型です。APIもサブスクリプションも、水冷GPUクラスターも不要です。このモデルを開発・公開する目的は、開発者やクリエイターが、世界最大級のテクノロジー企業から許可を得る(そして料金を支払う)ことなく、AIを活用したアプリ、サービス、そして体験を開発できるようにすることです。
「私たちがターゲットとしているのは、研究者、開発者、アプリ開発者など、こうした(大規模な)モデルの扱い方がわからない人たちです。これほど幅広い層をターゲットにするという重要な原則は、私たちが長年主張してきた基本原則と同じです。それは、よりアクセスしやすいものにすることです」とファルハディ氏は述べた。「私たちは、これまで行ってきたすべてのことを公開しています。これには、データ、クリーニング、アノテーション、トレーニング、コード、チェックポイント、評価が含まれます。開発してきたすべてのものを公開します。」
彼はさらに、人々がこのデータセットとコードを使ってすぐに開発を始めるだろうと予想している。資金力のあるライバル企業も例外ではない。彼らは「公開されている」データ、つまり明確に定義されていないデータをすべて収集している。(「彼らがそれについて言及するかどうかは全く別の話だ」と彼は付け加えた。)
AIの世界は急速に進化していますが、巨大企業は価格競争に巻き込まれ、価格をギリギリまで引き下げる一方で、そのコストを賄うために数億ドルもの資金を調達しています。同様の機能が無料のオープンソースの選択肢から入手できるのであれば、これらの企業が提供する価値は本当に天文学的なものなのでしょうか?少なくとも、モルモは、皇帝が服を持っているかどうかは未解決の問題ですが、彼に堀がないことは間違いないことを示しています。