OpenAIのGPT-4Vは、AIの次なる目玉として注目を集めています。テキストと画像の両方を理解できる「マルチモーダル」モデルです。このモデルは明らかに有用であり、2つのオープンソースプロジェクトが同様のモデルをリリースしています。しかし、これらのプロジェクトには扱いが難しいという欠点もあります。そこで、それぞれのモデルを比較してみましょう。
マルチモーダルモデルは、テキストや画像のみを分析するモデルでは不可能なことを実現できます。例えば、GPT-4Vは、自転車の修理のように、説明するよりも見せる方が簡単な指示を提供できます。また、マルチモーダルモデルは画像内の内容を識別するだけでなく、内容を(少なくともある程度は)推測して理解できるため、明らかなことを超えた、例えば写真に写っている冷蔵庫にある材料を使って作れるレシピを提案するなど、高度な機能を提供します。
しかし、マルチモーダルモデルは新たなリスクを伴います。OpenAIは当初、GPT-4Vのリリースを控えていました。画像に映る人物の同意や認識なしに人物を特定するために使用される可能性があることを懸念したためです。
現在でも、OpenAIのChatGPT Plusプランの加入者のみが利用できるGPT-4Vには、ヘイトシンボルを認識できないことや、特定の性別、人口統計、体型を差別する傾向があることなど、懸念すべき欠陥があります。しかも、これはOpenAI自身による報告です。
OpenAIの視覚機能付きGPT-4にはまだ欠陥があると論文が明らかに
オープンオプション
リスクにもかかわらず、企業や独立系開発者の緩やかなグループは前進を続け、GPT-4V ほど高性能ではないものの、ほとんど同じことを実現できるオープンソースのマルチモーダル モデルをリリースしています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
今月初め、ウィスコンシン大学マディソン校、マイクロソフトリサーチ、コロンビア大学の研究者チームが LLaVA-1.5 (「Large Language-and-Vision Assistant」の頭字語) をリリースしました。これは GPT-4V と同様に、「この写真の何が変わっているのですか?」や「ここを訪れる際に注意すべきことは何ですか?」などのプロンプトを与えられると、画像に関する質問に答えることができます。
LLaVA-1.5は、Alibabaのチームがオープンソース化したマルチモーダルモデルQwen-VL(Alibabaは月間アクティブユーザー数が1億人を超える企業にライセンス供与しています)や、Googleの画像・テキスト理解モデルであるPaLI-XやPaLM-Eに続くものです。しかし、LLaVA-1.5は、コンシューマーレベルのハードウェア(VRAMが8GB未満のGPU)で簡単に起動して実行できる、最初のマルチモーダルモデルの一つです。
一方、ソフトウェアとウェブを自律的にナビゲートできるAIモデルを開発するスタートアップ企業Adeptは、GPT-4Vに似たマルチモーダルなテキストと画像のモデルをオープンソース化しました。ただし、このモデルには独自の工夫が凝らされています。Adeptのモデルは、チャート、グラフ、画面といった「知識労働者」のデータを理解し、それらのデータを操作し、推論することが可能です。
LLaVA-1.5
LLaVA-1.5 は、数か月前に Microsoft 関連の調査チームによってリリースされた LLaVA の改良版です。
LLaVA と同様に、LLaVA-1.5 は「ビジュアル エンコーダー」と呼ばれるコンポーネントと、Meta の Llama モデルに基づくオープン ソース チャットボットである Vicuna を組み合わせて、画像とテキスト、およびそれらの関連性を理解します。
オリジナルのLLaVAを開発した研究チームは、OpenAIのChatGPTとGPT-4のテキストのみのバージョンを用いて、モデルのトレーニングデータを生成しました。彼らはChatGPTとGPT-4に画像の説明とメタデータを提供し、画像の内容に基づいて会話、質問、回答、推論問題を作成するようにモデルに促しました。
LLaVA-1.5 チームは、画像の解像度を拡大し、ユーザーが ChatGPT で会話を共有するプラットフォームである ShareGPT などのデータを LLaVA トレーニング データセットに追加することで、これをさらに一歩進めました。
利用可能な2つのLLaVA-1.5モデルのうち、130億のパラメータを持つ大きい方のモデルは、8基のNvidia A100 GPUで1日でトレーニングでき、サーバーコストは数百ドルに相当します。(パラメータとは、過去のトレーニングデータから学習されたモデルの部分であり、テキスト生成などの問題に対するモデルのスキルを本質的に定義します。)
それ自体は決して安くはありません。しかし、OpenAIがGPT-4の学習に数千万ドルを費やしたと報じられていることを考えると、間違いなく正しい方向への一歩と言えるでしょう。もちろん、十分なパフォーマンスを発揮できればの話ですが。
コンピューター ビジョンのスタートアップ企業 Roboflow のソフトウェア エンジニアである James Gallagher 氏と Piotr Skalski 氏は最近、LLaVA-1.5 を徹底的に実行し、その結果をブログ記事で詳しく発表しました。
まず、研究チームはモデルの「ゼロショット」物体検出、つまり明示的に認識するように訓練されていない物体を識別する能力をテストしました。LLaVA-1.5に画像内の犬を検出するよう指示したところ、驚くべきことに、画像内で犬を「見た」座標まで特定して、見事に検出することができました。

ギャラガーとスカルスキーは、より難しいテストへと進みました。それは、モデルにミームの説明を依頼するというものです。ミームは二重の意味、意味の含み、内輪のジョーク、そしてサブテキストなど、様々な要素を含んでいるため、モデル(あるいは人間でさえ)にとって必ずしも理解しやすいとは限りません。そのため、ミームはマルチモーダルモデルの文脈化と分析能力を測る有用なベンチマークとなります。
ギャラガー氏とスカルスキ氏は、街中で黄色いタクシーの荷台にアイロンをかけている人の画像をフォトショップで合成し、LLaVA-1.5に入力した。LLaVA-1.5に「この画像の何が普通ではないですか?」と尋ねると、モデルはこう答えた。「道路の真ん中で車の荷台にアイロンをかけるのは、型破りで、潜在的に危険です」。この論理に反論するのは難しい。

ギャラガー氏とスカルスキー氏による次の数回のテストで、LLaVA -1.5 の弱点が明らかになり始めました。
モデルは1枚のコインの画像からそのコインの額面をうまく判別できたが、LLaVA-1.5は複数のコインの画像では苦戦した。これは、モデルが「複雑な」画像の詳細に埋もれてしまう可能性があることを示唆している。

LLaVA-1.5はGPT-4Vとは対照的に、テキストを安定して認識できませんでした。ギャラガー氏とスカルスキー氏がLLaVA -1.5にウェブページのテキストのスクリーンショットを見せたところ、LLaVA-1.5は一部のテキストを正しく認識しましたが、いくつかの誤りを犯し、奇妙なループに陥りました。GPT-4Vにはこのような問題は見られませんでした。

テキスト認識性能の低さは、実は良いニュースかもしれません。少なくとも、視点によっては。プログラマーのサイモン・ウィリソン氏は最近、GPT4-Vが、悪意のある追加指示を含むテキストを含む画像を入力することで、組み込まれた毒性対策やバイアス対策を回避したり、CAPTCHAを解読したりするように「騙される」仕組みを研究しました。
LLaVA -1.5 がテキスト認識において GPT4-V と同等のパフォーマンスを発揮した場合、開発者が必要に応じて使用できることを考慮すると、セキュリティ上の脅威がさらに大きくなる可能性があります。
まあ、 大抵は開発者の判断次第です。LLaVA -1.5はChatGPTによって生成されたデータで学習されたため、ChatGPTの利用規約によると、技術的には商用利用はできません。ChatGPTの利用規約では、開発者が競合する商用モデルの学習にLLaVA -1.5を使用することを禁じています。これが誰かの行動を阻止するかどうかはまだ分かりません。
先ほどの安全対策についてですが、私自身の簡単なテストで、LLaVA-1.5 は GPT-4V と同じ毒性フィルターに縛られていないことがすぐに明らかになりました。
写真に写っている太めの女性にアドバイスを求められ、LLaVA-1.5 は女性に「体重を管理する」ことと「身体の健康を改善する」ことを提案しました。GPT-4V は回答を完全に拒否しました。

熟練した
アデプトは、初のオープンソース・マルチモーダルモデルであるFuyu-8Bで、LLaVA-1.5と競合するものではありません。LLaVA-1.5と同様に、このモデルは商用利用のライセンスが付与されていません。これは、アデプトのCEOであるデイビッド・ルアン氏によると、一部のトレーニングデータが同様に制限的な条件でアデプトにライセンス供与されているためです。
その代わりに、Adept は Fuyu-8B で、社内で取り組んでいることを発信しながら、開発者コミュニティからフィードバック (およびバグレポート) を集めることを目指しています。
「Adeptは、ナレッジワーカーのための万能な副操縦士を開発しています。ナレッジワーカーがチームメイトにオンボーディングするのと同じように、Adeptにコンピュータータスクを教え、Adeptにそれを実行させることができるシステムです」と、ルアン氏はTechCrunchへのメールで語った。「私たちは、これらの問題解決に役立つように最適化された一連の社内マルチモーダルモデルをトレーニングしてきました。その過程で、外部のオープンソースコミュニティにとって非常に役立つものを持っていることに気づきました。そこで、学術的なベンチマークにおいてそれが依然として非常に優れていることを示し、コミュニティがあらゆるユースケースでそれを基盤として構築できるように公開することにしました。」
Fuyu-8Bは、Adeptが自社で開発中のマルチモーダルモデルの初期バージョンであり、小型版です。80億パラメータのFuyu-8Bは、標準的な画像理解ベンチマークで優れた性能を発揮し、シンプルなアーキテクチャと学習手順を備え、8基のA100 GPUで約130ミリ秒という高速応答を実現します。
しかし、このモデルのユニークな点は、非構造化データを理解する能力だとルアン氏は言います。LLaVA -1.5とは異なり、Fuyu-8Bは指示に従って画面上の非常に具体的な要素を見つけ出し、ソフトウェアのUIから関連する詳細を抽出し、グラフや図表に関する多肢選択式の質問に答えることができます。
いや、理論上は可能です。Fuyu -8Bにはこれらの機能は組み込まれていません。Adeptは、Fuyu-8Bのより大型で洗練されたバージョンを微調整し、内蔵製品用のドキュメントおよびソフトウェア理解タスクを実行できるようにしました。
「私たちのモデルは、ウェブサイト、インターフェース、画面、チャート、ダイアグラムといった知識労働者のデータに加え、一般的な自然写真を対象としています」とルアン氏は述べた。「GPT-4VやGeminiのようなモデルが一般公開される前に、優れたオープンソースのマルチモーダルモデルをリリースできることを大変嬉しく思います。」
APIと安全フィルターで保護されたGPT-4Vでさえ、これまで独創的な方法で悪用されてきたことを考えると、Fuyu-8Bが悪用される可能性を懸念しているかどうか、ルアン氏に尋ねた。彼は、このモデルは規模が小さいため「深刻なダウンストリームリスク」を引き起こす可能性は低いと主張したが、CAPTCHA抽出などのユースケースではAdept社がテストを行っていないことを認めた。
「今回リリースするモデルは『ベース』モデルです。つまり、モデレーションメカニズムやプロンプトインジェクションガードレールといった微調整は施されていません」とルアン氏は述べた。「マルチモーダルモデルは幅広いユースケースに対応するため、これらのメカニズムは特定のユースケースに特化したものでなければなりません。そうすることで、モデルが開発者の意図通りに機能することが保証されるのです。」
それが最も賢明な選択でしょうか?私にはそうは思えません。もしFuyu-8BにGPT-4Vと同じ欠陥がいくつかあるとしたら、その上に構築されるアプリケーション開発者にとって良い兆候とは言えません。バイアス以外にも、GPT-4Vは以前は正しく答えていた質問に間違った答えを出し、危険物質を誤認し、テキストのみのGPTと同様に「事実」を捏造してしまいます。
しかし、Adept は、どうやら、ますます多くの開発者と同様に、結果を気にせず、制限なしでマルチモーダル モデルをオープン ソース化する方向に傾いているようです。