
AI開発プラットフォーム「Hugging Face」のチームは、画像、短編動画、テキストを分析できる最小のAIモデルだと主張するものをリリースした。
SmolVLM-256MとSmolVLM-500Mは、RAMが1GB未満のノートパソコンなどの「制約のあるデバイス」でも問題なく動作するように設計されています。開発チームによると、これらのモデルは、大量のデータを非常に安価に処理したい開発者にも最適です。
SmolVLM-256MとSmolVLM-500Mは、それぞれわずか2億5600万と5億のパラメータで構成されています。(パラメータは、数学のテストの成績など、モデルの問題解決能力にほぼ相当します。)どちらのモデルも、画像やビデオクリップの説明、PDFとその中の要素(スキャンされたテキストやグラフなど)に関する質問への回答などのタスクを実行できます。
SmolVLM-256MとSmolVLM-500Mの学習にあたり、Hugging Faceチームは50枚の「高品質」画像とテキストデータセット「The Cauldron」と、詳細なキャプションを付与したファイルスキャンデータ「Docmatix」を使用しました。これらはいずれも、マルチモーダルAI技術を開発するHugging FaceのM4チームによって作成されました。

研究チームは、SmolVLM-256MとSmolVLM-500Mはどちらも、小学校レベルの理科の図表を解析するモデルの能力をテストするAI2Dを含むベンチマークにおいて、はるかに大規模なモデルであるIdefics 80Bよりも優れた性能を発揮したと主張している。SmolVLM-256MとSmolVLM-500Mは、Apache 2.0ライセンスの下でウェブ上およびHugging Faceからダウンロード可能であり、制限なく使用できる。
SmolVLM-256MやSmolVLM-500Mのような小型モデルは安価で汎用性が高いかもしれませんが、大型モデルではそれほど顕著ではない欠陥を抱えている可能性があります。Google DeepMind、Microsoft Research、ケベック州のMila研究所による最近の研究では、多くの小型モデルが複雑な推論タスクにおいて予想よりもパフォーマンスが低いことが明らかになりました。研究者たちは、小型モデルはデータの表面的なパターンは認識できるものの、その知識を新しい文脈に適用するのが難しいことが原因ではないかと推測しています。
TechCrunchではAIに特化したニュースレターを配信しています!毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
トピック
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る