OpenAIは本日、初の開発者カンファレンスにて、同社の主力テキスト生成AIモデルであるGPT-4の最新バージョンの詳細を発表しました。このモデルは、テキストだけでなく画像の文脈も理解できます。OpenAIが「視覚を備えたGPT-4」と呼ぶこのバージョンは、比較的複雑な画像にキャプションを付けたり、解釈したりすることも可能です。例えば、iPhoneが接続された画像からLightningケーブルアダプタを識別するといったことが可能です。
GPT-4 with Visionはこれまで、視覚障害者が周囲の世界を移動できるように設計されたアプリ「Be My Eyes」の一部ユーザー、OpenAIのAI搭載チャットボット「ChatGPT」のプレミアムプラン加入者、そしてGPT-4 with Visionの意図しない動作の兆候を調査する「レッドチーム」メンバーのみが利用可能でした。これは、OpenAIが3月上旬にGPT-4 with Visionを公開した後、悪用やプライバシー侵害への懸念から公開を控えていたためです。
OpenAIは、その緩和策に十分な自信を持っているようで、より広範な開発者コミュニティがGPT-4 with Visionをアプリ、製品、サービスに組み込むことを許可しました。同社は今朝、新たにリリースされたGPT-4 Turbo APIを通じて、今後数週間以内にGPT-4 with Visionが利用可能になると発表しました。
しかし、疑問なのは、視覚を備えた GPT-4 が実際に以前よりも安全であるかどうかです。
OpenAIがChatGPT加入者向けにビジョン付きGPT-4の展開を開始する数週間前の10月、同社はモデルの限界や、さらに疑わしい傾向(例えば、特定の体型に対する差別など)を詳述したホワイトペーパーを公開しました。しかし、この論文はOpenAIの科学者による共同執筆であり、より公平な視点をもたらしてくれる可能性のある外部のテスターによるものではありませんでした。
幸運なことに、OpenAIは複数の研究者(前述のレッドチームメンバー)に、評価目的でGPT-4の視覚情報への早期アクセスを提供しました。ペンシルベニア大学のコンピュータサイエンス准教授であるクリス・カリソン=バーチ氏と、カリソン=バーチ氏の博士課程学生であるアリッサ・ファン氏の少なくとも2人が、本日午後のOpenAIカンファレンスで初期段階の印象を発表しました。
PR会社が電子メールを通じてTechCrunchとCallison-Burch氏およびHwang氏を繋いだ。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
「GPT-4 with Visionを様々なタスクで試しました。画像に関する質問への回答から、ビデオゲームのシーンにおける3Dオブジェクトの選択支援、美術作品の構図や芸術様式の説明まで、様々なタスクです」と、7月からGPT-4 with Visionを使用しているというカリソン=バーチ氏はTechCrunchのインタビューで語った。「毎回、GPT-4は素晴らしい成果を上げました。説明は非常に優れており、画像キャプション作成におけるこれまでの最先端技術をはるかに凌駕しています。」
しかし、視覚機能を備えたGPT-4のより体系的なレビューを行ったファン氏は、このモデルにはいくつかの重大な欠陥(場合によっては問題)が残っていることを発見した。
「視覚を持つGPT-4は、画像内の要素の位置を正確に記述することが多いものの、構造や相対的な関係についてはそれほどうまく説明できないことに気づきました」とファン氏はTechCrunchへのメールで述べた。「例えば、折れ線グラフ上の2つの曲線が上向きに傾いていると正しく記述したことがあるのですが、どちらがもう一方よりも高いかは誤って記述しました。また、棒グラフや折れ線グラフの値の推定ミスから凡例の色を誤って解釈するなど、グラフ全般に関してかなりの数の誤りを犯していました。」
ファン氏は、プレプリントサーバーArxiv.orgに掲載された草稿論文の中で、視覚情報を持つGPT-4が誤りを犯す多くの事例を記録しています。彼女の研究は主に、視覚情報を持つGPT-4が学術論文の図を記述する能力に焦点を当てています。これは、この技術の非常に有用な応用となる可能性を秘めていますが、正確さが非常に重要です。
残念ながら、科学的な解釈に関しては、GPT-4 with Vision の精度はそれほど優れていません。
ファン氏によると、視覚情報を持つGPT-4は数式を再現する際に誤りを犯し、添え字を省略したり、誤って印刷したりすることが多いという。イラスト内の物体を数えることもモデルにとって別の問題であり、色の記述、特に隣り合う物体の色を視覚情報を持つGPT-4が混同してしまうことがある。
GPT-4 with Vision のより深刻で広範な欠点のいくつかは、事実の正確性の部分にあります。
視覚情報を持つGPT-4は、画像から確実にテキストを抽出できません。このことを実証するために、ファン氏は研究でモデルにレシピリストが載ったページを与え、各レシピを書き写すように指示しました。視覚情報を持つGPT-4はレシピのタイトルの解析で誤りを犯し、「卵なしレッドベルベットケーキ」ではなく「卵入りレッドベルベットケーキ」と書いたり、「ゴマポークミラネーゼ」ではなく「ゴマポークメダリオン」と書いたりしました。

視覚を持つGPT-4にとって、関連する課題は要約です。例えば、文書のスキャンの要点を尋ねられた場合、視覚を持つGPT-4は文書内の文章を適切に言い換えることができず、その過程で情報が省略される可能性があります。あるいは、直接引用を誤解を招くような形で改変し、文章の意味に影響を与えるような部分を省略してしまう可能性もあります。
これは、GPT-4 with Visionがマルチモーダルモデルとして完全に失敗しているという意味ではありません。Hwang氏はその分析能力を高く評価し、かなり複雑なシーンを記述するよう要求された場合でも、このモデルが真価を発揮すると指摘しています。OpenAIとBe My EyesがGPT-4 with Visionをアクセシビリティに有用である可能性があると考えた理由は明らかです。まさに自然な適合性です。
しかし、ファン氏の研究結果は、OpenAIの論文が示唆していたことを裏付けるものとなった。つまり、視覚を持つGPT-4はまだ発展途上であるということだ。GPT-4の視覚は普遍的な問題解決能力からは程遠く、人間には起こらないような基本的なミスを犯し、その過程でバイアスが生じる可能性がある。
OpenAIの安全策は、視覚情報を持つGPT-4が有害な情報や誤情報を吐き出すのを防ぐために設計されていますが、それがどの程度GPT-4の精度に影響を与えているのかは不明です。あるいは、GPT-4が特定のエッジケース(例えば数式の記述)に対応できるだけの視覚データで訓練されていないだけなのかもしれません。ファン氏は推測を述べず、この問題は今後の研究に委ねました。
OpenAIは論文の中で、GPT-4 with Visionの機能を「安全に」拡張するための「緩和策」と「プロセス」を構築していると主張している。例えば、GPT-4 with Visionが顔や人物を名前で識別することなく描写できるようにするなどだ。これがどの程度成功するのか、あるいはOpenAIが現在のマルチモーダルモデル学習手法の限界に近づいているのかは、今後の展開を見守る必要がある。