OpenAIの視覚機能付きGPT-4にはまだ欠陥があると論文が明らかに

Cemubo vgnpne 0

Mac

OpenAIが主力のテキスト生成AIモデル「GPT-4」を初めて発表した際、同社はこのモデルのマルチモダリティ、つまりテキストだけでなく画像の文脈も理解できる能力を高く評価した。OpenAIによると、GPT-4は比較的複雑な画像にキャプションを付け、さらには解釈することさえ可能で、例えばiPhoneが接続された画像からライトニングケーブルのアダプタを識別することも可能だという。

しかし、3月下旬のGPT-4の発表以来、OpenAIはモデルの画像特徴の公開を控えており、これは悪用やプライバシー問題への懸念からだと報じられています。最近まで、こうした懸念の正確な内容は謎のままでした。しかし今週初め、OpenAIはGPT-4の画像分析ツールのより問題のある側面を軽減するための取り組みを詳述した技術論文を発表しました。

これまで、OpenAI社内では「GPT-4V」と略される視覚付きGPT-4は、弱視者や視覚障害者が周囲の環境を移動できるように支援するアプリ「Be My Eyes」の数千人のユーザーによって定期的に使用されているに過ぎませんでした。しかし、論文によると、OpenAIはここ数ヶ月、モデルの意図しない動作の兆候を調査するために「レッドチーム」と連携し始めました。

OpenAIは論文の中で、GPT-4VがCAPTCHA（多くのウェブフォームに搭載されているスパム対策ツール）を破ったり、人物を特定したり、年齢や人種を推定したり、写真に存在しない情報に基づいて結論を導き出したりするといった悪意のある用途で利用されるのを防ぐための安全対策を実装したと主張している。また、OpenAIはGPT-4Vのより有害なバイアス、特に人物の外見や性別、民族性に関連するバイアスを抑制する取り組みも行っていると述べている。

しかし、すべての AI モデルと同様に、安全対策でできることには限界があります。

論文によると、GPT-4Vは時折、正しい推論を行うのに苦労することがあるようです。例えば、画像内の2つの文字列を誤って組み合わせて、架空の用語を作成してしまうことがあります。ベースとなるGPT-4と同様に、GPT-4Vは幻覚を起こしたり、権威的な口調で事実を捏造したりする傾向があります。また、テキストや文字を聞き逃したり、数学記号を見落としたり、比較的分かりやすい物体や場所を認識できなかったりすることもあります。

したがって、OpenAIがGPT-4Vを画像内の危険な物質や化学物質の検出に使用すべきではないと明言しているのも不思議ではない。（筆者はそのような使用例については全く考えていなかったが、どうやらOpenAIにとってその可能性は懸念材料であり、同社が指摘する必要性を感じたようだ。）レッドチームの調査では、このモデルが毒キノコなどの有毒食品を正しく識別することはあるものの、フェンタニル、カルフェンタニル、コカインといった物質を化学構造画像から誤認するケースがあることがわかった。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

GPT-4Vは医用画像分野に適用した場合も、同様の結果となり、以前のコンテキストでは正しく回答していた質問に対して、誤った回答を返すことがあります。また、患者が自分の方を向いているかのように画像スキャンを見る（つまり、画像の右側が患者の左側に対応する）といった標準的な手法も認識できず、多くの疾患の誤診につながります。

OpenAIは、GPT-4Vが特定の憎悪のシンボルのニュアンスを理解していないと警告している。たとえば、米国におけるテンプル十字（白人至上主義）の現代的な意味を理解していない。さらに奇妙で、おそらく幻覚傾向の症状だが、GPT-4Vは、特定の憎悪の人物やグループの写真を提供された場合、その人物やグループの名前が明示的に示されていなくても、その人物やグループを称賛する歌や詩を作ることが観察された。

GPT-4Vは特定の性別や体型を差別する傾向にありますが、これはOpenAIのプロダクションセーフガードが無効になっている場合に限られます。OpenAIによると、あるテストでは、水着を着た女性にアドバイスを求めたところ、GPT-4Vはほぼ全て、女性の体重とボディポジティブの概念に関する回答しか返さなかったとのことです。もし画像が男性であれば、このような結果は出なかっただろうと考えられます。

論文の但し書きから判断すると、GPT-4Vはまだ開発途上であり、OpenAIが当初想定していたものからは少し遠い。多くの場合、OpenAIはモデルが有害な情報や誤情報を吐き出したり、個人のプライバシーを侵害したりすることを防ぐため、過度に厳格な安全対策を講じざるを得なかった。

OpenAIは、GPT-4Vが名前を特定することなく顔や人物を描写できるようにするなど、モデルの機能を「安全に」拡張するための「緩和策」と「プロセス」を構築していると主張している。しかし、論文はGPT-4Vが万能薬ではなく、OpenAIには多くの課題が残されていることを明らかにしている。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る

Posted by Cemubo