OpenAIは、最先端のマルチモーダルAIであるGPT-4をリリースした。

Cemubo vgnpne 0

Apps

OpenAIは、画像とテキストを理解する強力な新しいAIモデルGPT-4をリリースした。同社はこれを「ディープラーニングのスケールアップに向けた取り組みにおける最新のマイルストーン」と呼んでいる。

GPT-4は現在、OpenAIの有料ユーザーにChatGPT Plus（使用量上限あり）経由で提供されており、開発者は順番待ちリストに登録してAPIにアクセスできます。

料金は、「プロンプト」トークン1,000個（約750語）あたり0.03ドル、「補完」トークン1,000個（これも約750語）あたり0.06ドルです。トークンは生のテキストを表します。例えば、「fantastic」という単語は、「fan」、「tas」、「tic」というトークンに分割されます。プロンプトトークンはGPT-4に入力される単語の一部であり、補完トークンはGPT-4によって生成されるコンテンツです。

GPT-4は、実は人目につかないところに潜んでいたことが判明しました。マイクロソフトは本日、OpenAIと共同開発したチャットボット技術「Bing Chat」がGPT-4上で動作していることを確認しました。

他のアーリーアダプターとしては、Stripeが挙げられます。StripeはGPT-4を使用して企業のウェブサイトをスキャンし、カスタマーサポートスタッフに概要を提供しています。Duolingoは、新しい言語学習サブスクリプションプランにGPT-4を組み込みました。Morgan Stanleyは、企業文書から情報を取得し、金融アナリストに提供するGPT-4ベースのシステムを開発しています。Khan Academyは、GPT-4を活用して自動チューターのようなものを開発しています。

GPT-4の新機能は視覚障害者のための「仮想ボランティア」の力となる

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

GPT-4はテキストを生成し、画像とテキストの入力も受け付けます。これは、テキストのみを受け付けていた前身のGPT-3.5からの改良点であり、様々な専門的・学術的なベンチマークにおいて「人間レベル」の性能を発揮します。例えば、GPT-4は模擬司法試験で受験者の上位10%程度のスコアで合格しました。一方、GPT-3.5のスコアは下位10%程度でした。

OpenAIは、社内の敵対的テストプログラムとChatGPTから得た教訓を用いて、GPT-4を6ヶ月かけて「反復的に調整」し、事実性、操縦性、そしてガードレール外への逸脱拒否において「これまでで最高の結果」を達成したと、同社は述べている。以前のGPTモデルと同様に、GPT-4は公開ウェブページを含む公開データと、OpenAIがライセンス供与したデータを使用して学習された。

OpenAI は Microsoft と協力して、Azure クラウド内に「スーパーコンピューター」をゼロから開発し、GPT-4 のトレーニングに使用しました。

「普段の会話では、GPT-3.5とGPT-4の違いは微妙な場合があります」と、OpenAIはGPT-4を発表したブログ記事に記しています。「違いが現れるようになるのは、タスクの複雑さが十分な閾値に達した時です。GPT-4はGPT-3.5よりも信頼性が高く、創造性があり、より微妙な指示にも対応できます。」

GPT-4の最も興味深い点の一つは、間違いなくテキストだけでなく画像も理解できる点です。GPT-4は比較的複雑な画像にキャプションを付け、さらには解釈することも可能です。例えば、iPhoneが接続された画像からLightningケーブルアダプタを識別することが可能です。

画像理解機能はまだOpenAIのすべての顧客に提供されているわけではありません。OpenAIはまず、Be My Eyesという単一のパートナーと共同でテストを行っています。GPT-4を搭載したBe My Eyesの新しいバーチャルボランティア機能は、送信された画像に関する質問に答えることができます。同社はブログ記事でその仕組みを説明しています。

例えば、ユーザーが冷蔵庫内の写真を送信すると、バーチャルボランティアは冷蔵庫の中身を正確に特定できるだけでなく、それらの材料を使って何が作れるかを推測・分析できます。さらに、その材料を使ったレシピを複数提案し、作り方をステップバイステップで解説するガイドを送信することもできます。

GPT-4におけるより有意義な改善点は、前述のステアラビリティツールである可能性があります。OpenAIはGPT-4において、「システム」メッセージという新しいAPI機能を導入します。これにより、開発者は具体的な指示を記述することで、学習スタイルとタスクを指定できます。将来的にChatGPTにも導入される予定のシステムメッセージは、本質的にはAIの次のインタラクションの方向性を定め、境界を確立する指示です。

例えば、システムメッセージには次のような内容が書かれるかもしれません。「あなたは常にソクラテス式で答える家庭教師です。生徒に答えを教えることは決してありませんが、常に適切な質問をすることで、生徒が自ら考える力を養えるよう努めています。生徒の興味や知識に合わせて質問を調整し、問題をより単純な部分に分解して、生徒にとってちょうど良いレベルになるようにしてください。」

しかし、システムメッセージやその他のアップグレードを施しても、OpenAIはGPT-4が完璧には程遠いことを認めています。GPT-4は依然として事実を「幻覚」し、時には非常に自信を持って推論エラーを犯します。OpenAIが挙げたある例では、GPT-4はエルヴィス・プレスリーを「俳優の息子」と表現しましたが、これは明らかな誤りです。

「GPT-4は、一般的に、データの大部分が途絶えた（2021年9月）後に発生したイベントに関する知識を欠いており、経験から学習しません」とOpenAIは記している。「GPT-4は、多くの領域にわたる能力とは相容れないような単純な推論エラーを犯したり、ユーザーからの明らかな虚偽の発言を過度に受け入れやすくなったりすることもあります。また、生成したコードにセキュリティ上の脆弱性を導入するなど、人間と同じように難しい問題に失敗することもあります。」

OpenAIは、特定の分野で改善を行ったと指摘しています。例えば、GPT-4は危険な化学物質の合成方法に関するリクエストを拒否する可能性が低くなっています。同社によると、GPT-4はGPT-3.5と比較して、「許可されていない」コンテンツへのリクエストに応答する可能性が全体的に82%低く、医療アドバイスや自傷行為に関するものなど、センシティブなリクエストにはOpenAIのポリシーに従って29%多く応答しています。

GPT-4には明らかに解明すべき点が山積している。しかし、OpenAIは全力で前進しており、これまでの強化に自信を持っているようだ。

「GPT-4が多くのアプリケーションに搭載され、人々の生活を向上させる貴重なツールとなることを期待しています」とOpenAIは述べています。「まだやるべきことは多くありますが、コミュニティの協力により、このモデルを構築し、探求し、貢献することで、このモデルをさらに改善していくことを楽しみにしています。」

Posted by Cemubo