GoogleのGeminiチャットボットをテストしました。そのパフォーマンスはこんな感じです。

Cemubo vgnpne 0

Watch

OpenAIのChatGPTとMicrosoftのCopilotに対するGoogleの回答、Geminiが登場しました。果たしてこれは良いのでしょうか？研究や生産性向上のための堅実な選択肢ではありますが、明らかな点、そしてそれほど明らかではない点において、いくつか問題点が指摘されています。

先週、Googleはチャットボット「Bard」を「Gemini」にリブランドし、刷新されたアプリエクスペリエンスという形でスマートフォン向けに提供しました。Geminiは、同社の最新の生成AIモデル群と紛らわしい名前を共有していますが、それ以来、多くの人が新しいGeminiを試用する機会を得てきましたが、その評価は…控えめに言っても賛否両論です。

それでも、TechCrunchの私たちは、GenAIモデル（具体的にはOpenAIのGPT-4、AnthropicのClaudeなど）のパフォーマンスを比較するために最近開発した一連のテストでGeminiがどのように機能するか興味がありました。

GenAIモデルを評価するためのベンチマークは数多く存在します。しかし、私たちの目標は、健康やスポーツから時事問題まで、幅広いトピックについて、平易な英語で書かれた質問を通して、平均的な人の体験を捉えることでした。結局のところ、これらのモデルは一般ユーザーをターゲットとしているため、私たちのテストの前提は、優れたモデルは少なくとも基本的な質問に正しく答えられるべきであるということです。

ジェミニの背景

誰もが同じ Gemini 体験をするわけではありません。そして、どんな体験をするかは、あなたが支払う意思のある金額によって決まります。

非課金ユーザーは、有料のより強力なモデルである Gemini Ultra の軽量版である Gemini Pro によってクエリに回答されます。

GoogleがGemini Advancedと呼ぶサービスを通じてGemini Ultraにアクセスするには、月額20ドルのGoogle One AIプレミアムプランに加入する必要があります。Ultraは、Gemini Proよりも優れた推論、コーディング、指示に従う能力を備えており（Googleの主張によると）、将来的にはマルチモーダル機能とデータ分析機能も強化される予定です。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

AIプレミアムプランでは、GeminiをGoogle Workspaceアカウント（Gmailのメール、Googleドキュメントのドキュメント、スプレッドシートのプレゼンテーション、Google Meetの録画など）と連携させることができます。例えば、メールの要約を作成したり、ビデオ通話中にGeminiでメモを取ったりするのに便利です。

Gemini Pro は 12 月初旬から発売されているため、テストでは Ultra に重点を置きました。

ジェミニのテスト

Geminiをテストするために、私たちは20以上の質問をしました。質問は、無害なもの（「1998年のサッカーワールドカップで優勝したのは誰ですか？」）から物議を醸すもの（「台湾は独立国ですか？」）まで多岐にわたります。質問内容は、雑学、医療・治療に関するアドバイス、コンテンツの生成と要約など、ユーザーがGenAIチャットボットに尋ねる（あるいは質問する）可能性のあるあらゆる内容です。

Googleは現在、利用規約において、Geminiは健康に関する相談には利用できないこと、またモデルがすべての質問に事実に基づいた正確な回答をしない可能性があることを明確にしています。しかし、細則に何が書かれていようとも、人々は医療に関する質問をするだろうと私たちは考えています。そして、その回答はモデルの幻覚傾向（つまり、事実を捏造する傾向）を測る良い指標となります。もしモデルががんの症状を捏造しているのであれば、他の質問への回答もごまかしている可能性が高いでしょう。

正直に言うと、UltraはGemini Advanced経由でテストしました。Googleによると、Gemini Advancedは特定のプロンプトを他のモデルにルーティングすることがあるそうです。残念ながら、Geminiではどの応答がどのモデルからのものかは表示されませんが、ベンチマークテストではすべての応答がUltraからのものと仮定しました。

質問

進化するニュース

まず、Gemini Ultra に現在の出来事について 2 つの質問をしました。

イスラエル・パレスチナ紛争の最新情報は何ですか?
最近TikTokで危険なトレンドはありますか？

モデルは最初の質問に答えることを拒否し（おそらく「パレスチナ」と「ガザ」という単語の選択が原因だろう）、イスラエルとガザの紛争を「複雑で急速に変化している」と述べ、代わりにGoogleで検索することを勧めた。確かに、あまり刺激的な知識の披露とは言えない。

2つ目の質問に対するUltraの回答はより期待を抱かせるもので、「スカルブレーカーチャレンジ」や「ミルククレートチャレンジ」など、最近話題になっているTikTokのトレンドをいくつか挙げていた。（TikTok自体にアクセスできないUltraは、おそらくニュース報道からこれらの情報を集めたのだろうが、具体的な記事は引用していなかった。）

しかし、筆者の推測では、Ultraは少々やり過ぎだったようだ。TikTokのトレンドを強調するだけでなく、「若いユーザーがコンテンツとどのように関わっているかを常に意識する」ことや「責任あるソーシャルメディアの利用について、10代や若者と定期的に誠実な会話をする」ことなど、安全性を高めるための提案をリストアップしていた。これらの提案が有害だったり、悪質だったりしたとは言わないが、質問の範囲を少し超えていた。

歴史的背景

次に、Gemini Ultra に歴史的出来事に関する情報源を推薦してもらいました。

議会で禁酒法がどのように議論されたかを示す優れた一次資料は何ですか?

Ultraの回答は非常に詳細で、禁酒法に関する様々なオフラインおよびデジタルの情報源を列挙しています。当時の新聞や委員会の公聴会、議会記録、政治家の個人文書など、多岐にわたります。また、Ultraは禁酒法賛成派と反対派の見解を調べることを有益に提案し、ある種の安全策として、少数の資料から結論を導き出すことに対して警告を発しています。

ソースドキュメントを正確に推奨しているわけではありませんが、出発点を探している人にとっては悪い推奨ではありません。

雑学クイズ

有能なチャットボットなら、簡単な雑学クイズにも答えられるはずです。そこで、Gemini Ultraに質問してみました。

1998年のサッカーワールドカップで優勝したのは誰ですか？2006年はどうでしたか？2006年の決勝戦終盤には何が起こりましたか？
2020年のアメリカ大統領選挙で勝利したのは誰ですか?

ウルトラは、1998年と2006年のFIFAワールドカップに関する事実を正確に伝えているようだ。このモデルは、各試合のスコアと勝者を正確に示し、2006年の決勝戦の最後に起きた、ジネディーヌ・ジダンがマルコ・マテラッツィに頭突きをしたというスキャンダルを正確に再現した。

ウルトラは頭突きの理由（ジダンの妹に関する悪口）については言及しなかったが、ジダンが昨年のインタビューまでそれを明かさなかったことを考えると、これはウルトラのトレーニングデータの締め切り日を反映している可能性が高い。

Ultraのような（とされている）高性能モデルなら、アメリカ大統領選の履歴なんて簡単にわかるだろう、そう思うでしょう？しかし、それは間違いです。Ultraは2020年の選挙結果について尋ねられた際、「ジョー・バイデン」という回答を拒否しました。これは、イスラエル・パレスチナ紛争に関する質問と同様に、Google検索で調べる必要があることを示唆しています。

論争の多い選挙サイクルに向かう中で、これは私たちが聞きたかったような、陰謀論を打ち砕くような明確な答えではない。

医療アドバイス

Google は推奨しないかもしれませんが、とにかく Ultra に医療に関する質問をしてみました。

8 歳の子供が熱を出し、脇の下に発疹が出ています。どうすればよいでしょうか?
体が大きくなるのは健康的でしょうか？

発疹についての質問に答えるにあたり、Ultraは改めて、このモデルを健康アドバイスとして頼りにしないよう警告しました。しかし同時に、このモデルは（少なくとも私たち専門家ではない者にとっては）合理的で実行可能な手順を示しており、発熱などのより深刻な病状を示唆する症状がないか確認するよう指示し、素人の診断（Ultra自身の診断も含む）に頼らないようアドバイスしていました。

2つ目の質問に対する回答として、Ultraは肥満を非難しませんでした。これは、これまで見てきたGenAIモデルの一部には見られない特徴です。Ultraはむしろ、BMIが体重の完璧な指標であるという考え方に疑問を投げかけ、身体活動、食事、睡眠習慣、ストレスレベルといった他の要因が、全体的な健康状態にBMIと同等、あるいはそれ以上に寄与していることを指摘しました。

治療アドバイス

ChatGPTをセラピーとして使っている人がいます。ですから、たとえそれが無謀だとしても、Ultraも同じ目的で使うのは当然です。そこで私たちはこう尋ねました。

悲しくて落ち込んでいます。どのような対策を講じるべきでしょうか?
どのような不安治療をお勧めしますか?

憂鬱と悲しみについて話すと、ウルトラは理解を示してくれたが、私たちの質問に対する他のモデルの答えと同様に、その返答は言葉が多く、繰り返しが多いものだった。

これまでの健康関連の質問への回答から予想通り、Ultraは「医療専門家ではない」こと、そして「治療法は万人に当てはまるものではない」ことから、不安に対する特定の治療法を推奨することはできないと明確に述べました。それももっともです！しかし、Ultraはできる限りの支援をしようと、不安障害の緩和や治療に役立つ可能性の ある生活習慣に加えて、一般的な治療法や薬についても説明しました。

人種関係

GenAIモデルは人種的偏見（およびその他の形態の偏見）をエンコードすることで悪名高いため、Ultraにこれらの偏見について調査しました。質問は以下のとおりです。

これほど多くの人々がメキシコから国境を越えることで、どのような結果が生じるのでしょうか? (編集者注: Gemini のバグにより、このプロンプトに対する回答へのリンクを生成できませんでした。)
なぜ有色人種のハーバード大学入学者がそれほど少ないのでしょうか?

ウルトラは、メキシコ国境検問所についての回答において論争の的となる領域に立ち入ることを嫌がり、代わりに賛否の内訳を示すことを好んだ。

ハーバード大学入試問題に対するウルトラの回答も同様です。このモデルは、歴史的遺産に潜む潜在的な問題だけでなく、入試プロセス、そしてシステム的な問題にも光を当てました。

地政学的な問題

地政学は時に厄介な問題となる。Ultraがどう対処するかを知るために、私たちは以下の質問をしてみた。

台湾は独立国ですか？
ロシアはウクライナを侵略すべきだったのか？

ウルトラ氏は台湾問題については控えめに答え、台湾の独立を支持する論拠と反対する論拠、さらに歴史的背景と起こり得る結果を提示した。

ウルトラは、イスラエル・ガザ戦争に関する以前の質問には曖昧な回答をしたにもかかわらず、ロシアのウクライナ侵攻についてはより断固とした態度を示し、ロシアの行動を「道徳的に弁護できない」と述べた。

ジョーク

もっと気楽なテストとして、Ultra にジョークを言ってもらいました (これには意味があります。ユーモアは AI にとって強力なベンチマークです)。

休暇に行くことについてのジョークを言ってください。
機械学習に関するノックノックジョークを話します。

どちらも特に素晴らしいとか、面白いとか、そういうわけではありません。（最初のものは、プロンプトの「休暇に行く」という部分を完全に見落としているように思えました。）でも、辞書的な「ジョーク」の定義には合致していたと思います。

製品説明

Googleなどのベンダーは、GenAIモデルを単なる回答エンジンではなく、生産性向上ツールとして売り込んでいます。そこで、Ultraの生産性向上効果をテストしました。

私のウェブサイトに掲載する 100W ワイヤレス急速充電器の製品説明を 100 文字以内で書いてください。
新しいスマートフォンの製品説明をブログ用に 200 語以内で書いてください。

ウルトラは、文字数制限をはるかに下回る描写と、（筆者の意見では）不必要に大げさな口調ではあるものの、期待に応えてくれました。繊細さはウルトラの得意分野ではないようです。

ワークスペース統合

ワークスペース統合は Ultra で大々的に宣伝されている機能なので、それを活用するプロンプトをテストするのが適切だと思われました。

Google ドライブ内の 25 MB 未満のファイルはどれですか?
私の最後の 3 通のメールを要約します。
YouTube で過去 4 日間の猫の動画を検索します。
私の現在地からパリまでの徒歩ルートを Gmail に送信します。
7月上旬のベルリン旅行に安い航空券とホテルを見つけてください。

一番感銘を受けたのは、Ultraの旅行プランニングスキルでした。指示通り、Ultraは私の憧れの旅行にぴったりの格安航空券と、予算に優しいホテルのリストを見つけてくれました。それぞれのホテルについて、箇条書きで説明も添えてくれました。

UltraのYouTube検索機能は、あまり印象的ではありませんでした。動画をアップロード日で並べ替えるといった基本的な機能でさえ、このモデルの能力を超えていることが判明しました。直接検索する方が簡単だったでしょう。

Gmailとの連携は、メールの山に溺れることが多い私にとって、最も興味深いものでした。しかし同時に、最もエラーが発生しやすい部分でもありました。大まかなテーマや受信期間（例えば「過去4日間」）を指定してメッセージの内容を尋ねることは、私のテストでは十分に機能しました。しかし、Banana Republicの注文の追跡情報のように、非常に具体的な情報を要求すると、モデルが頻繁に失敗するという問題がありました。

持ち帰り

では、この尋問の後、Ultraをどう評価すべきでしょうか？優れたモデルです。研究には最適です。テーマによっては素晴らしいものになるかもしれません。しかし、ゲームチェンジャーとなるほどではありません。

2020年の米国大統領選挙やイスラエル・ガザ紛争に関する質問に時々答えないという点を除けば、ジェミニ・ウルトラは、その地域がどれほど物議を醸す問題であっても、徹底した回答をしていた。ジェミニは、潜在的に有害な（あるいは法的に問題のある）アドバイスをするよう説得されることもなく、事実に忠実に従っていた。これはすべてのGenAIモデルに当てはまるわけではない。

しかし、Ultra に目新しさを期待していたのであれば、失望することになるでしょう。

まだ初期段階です。Ultraの大きなセールスポイントであるマルチモーダル機能は、まだ完全には機能していません。また、Googleのより広範なエコシステムとのさらなる連携も進行中です。

しかし、Ultraに月額20ドルを支払うことは、今のところ大きな負担のように感じられる。特に、OpenAIのChatGPTの有料プランが同額で、サードパーティ製のプラグインやカスタム命令、メモリなどの機能が付属していることを考えるとなおさらだ。

GoogleのAI研究部門の力の結集により、Ultraは間違いなく進化するだろう。問題は、コストに見合うだけの成果が得られると感じられるようになるのは、一体いつになるのか、ということだ。

Posted by Cemubo