Google Gemini: 生成AIアプリとモデルについて知っておくべきことすべて

Google Gemini: 生成AIアプリとモデルについて知っておくべきことすべて

Googleは、生成AIモデル、アプリ、そしてサービスを統合したフラッグシップスイート「Gemini」で大きな話題を呼ぼうとしています。しかし、Geminiとは何でしょうか?どのように活用できるのでしょうか?そして、OpenAIのChatGPT、MetaのLlama、MicrosoftのCopilotといった他の生成AIツールと比べてどうなのでしょうか?

最新の Gemini 開発状況を把握しやすくするために、この便利なガイドを作成しました。このガイドは、新しい Gemini モデル、機能、および Google の Gemini 計画に関するニュースがリリースされるたびに更新されます。

ジェミニとは何ですか?

Geminiは、Googleが長らく約束してきた次世代生成AIモデルファミリーです。GoogleのAI研究機関であるDeepMindとGoogle Researchによって開発され、いくつかのバージョンがあります。

  • 非常に大型なモデル、ジェミニ ウルトラ。
  • Gemini Pro は大型モデルですが、Ultraよりも小型です。最新バージョンの Gemini 2.0 Pro は、Google の現在のフラッグシップモデルです。
  • Gemini Flash は、Pro のより高速な「精製」バージョンです。
  • Gemini Flash-Lite は、Gemini Flash の若干小型で高速なバージョンです。
  • 「推論」機能を備えたモデル、Gemini Flash Thinking 。
  • Gemini Nano、2 つの小型モデル:  Nano-1と、オフラインで実行することを目的とした、 わずかに高性能な Nano-2 。

すべてのGeminiモデルは、ネイティブにマルチモーダルになるようにトレーニングされています。つまり、テキスト以外の情報も処理・分析できるということです。Googleによると、これらのモデルは、公開されているもの、独自仕様のもの、ライセンス供与されているものなど、様々な音声、画像、動画、そして一連のコードベース、そして様々な言語のテキストを使って事前トレーニングと微調整が行われたとのことです。

この点が、テキストデータのみで学習されたGoogle独自のLaMDAなどのモデルとGeminiを区別するものです。LaMDAはテキスト以外のもの(例えば、エッセイやメールなど)を理解・生成することはできませんが、Geminiモデルは必ずしもそうではありません。例えば、最新バージョンのGemini FlashとGemini Proは、テキストに加えて画像や音声をネイティブに出力できます。

ここで指摘しておきたいのは、公開データを用いたモデルの学習は、場合によってはデータ所有者の承諾なしに行われることもあり、倫理的かつ合法的な側面が不明確であるということです。Googleは、特定のGoogle Cloud顧客が訴訟に巻き込まれた場合に備え、AI補償ポリシーを策定しています。ただし、このポリシーには例外規定が含まれています。特にGeminiを商用利用する場合は、慎重に進めてください。

Gemini アプリと Gemini モデルの違いは何ですか?

Gemini は、Web およびモバイル上の Gemini アプリ (旧称 Bard) とは別個のものです。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Geminiアプリは、様々なGeminiモデルに接続し、その上にチャットボットのようなインターフェースを重ねるクライアントです。Googleの生成AIのフロントエンドと考えれば、ChatGPTやAnthropicのClaudeファミリーアプリに類似したものと言えるでしょう。

Google Geminiモバイルアプリ
画像クレジット: Google

ウェブ版Geminiはこちらです。Androidでは、既存のGoogleアシスタントアプリがGeminiアプリに置き換えられます。iOSでは、GoogleアプリとGoogle検索アプリがiOSプラットフォームのGeminiクライアントとして機能します。

Androidでは、画面に表示されているもの(例えばYouTube動画)について質問するために、Geminiオーバーレイを表示できます。対応スマートフォンの電源ボタンを長押しするか、「OK Google」と話しかけると、オーバーレイが起動します。

Geminiアプリは、画像だけでなく、音声コマンドやテキスト(GoogleドライブからアップロードまたはインポートしたPDFなどのファイルを含む)も受け付け、画像を生成します。当然のことながら、モバイル版Geminiアプリでの会話はウェブ版Geminiに引き継がれ、両方のサイトで同じGoogleアカウントにログインしていれば、その逆も同様です。

ジェミニアドバンス

Geminiアプリは、Geminiモデルのタスク支援を活用できる唯一の手段ではありません。Geminiを組み込んだ機能は、GmailやGoogleドキュメントといったGoogleの定番アプリやサービスにも、ゆっくりと、しかし確実に浸透しつつあります。

これらの機能のほとんどを活用するには、Google One AIプレミアムプランが必要です。AIプレミアムプランは、厳密にはGoogle Oneの一部ですが、月額20ドルで、ドキュメント、マップ、スライド、スプレッドシート、ドライブ、MeetなどのGoogle WorkspaceアプリでGeminiにアクセスできます。また、Googleが「Gemini Advanced」と呼ぶ機能も利用可能になり、より高度なGeminiモデルをGeminiアプリで利用できるようになります。

Google GeminiのCMのスクリーンショット
画像クレジット: Google

Gemini Advancedユーザーには、新機能やモデルへの優先アクセス、Gemini内で直接Pythonコードを実行・編集する機能、PDFをAI生成ポッドキャストに変換するGoogleのツールであるNotebookLMの制限緩和など、様々な特典も提供されます。最近、Gemini Advancedには、ユーザーの設定を保存し、過去の会話を現在のチャットのコンテキストとして参照できるメモリ機能が追加されました。

Gemini Advancedの魅力的な独自機能の一つであるDeep Researchは、「高度な推論」機能を備えたGeminiモデルを活用して詳細な概要を作成します。「キッチンをどうリフォームすればいいですか?」といった質問に対し、Deep Researchは複数段階の調査プランを作成し、Webを検索して包括的な回答を作成します。

Gmail、ドキュメント、Chrome、開発ツールなどでのGemini

Gmailでは、Geminiはサイドパネルに常駐し、メールの作成やメッセージスレッドの要約に利用できます。ドキュメントにも同じパネルがあり、コンテンツの作成と修正、新しいアイデアのブレインストーミングに役立ちます。スライドのGeminiは、スライドやカスタム画像の作成に利用できます。GoogleスプレッドシートのGeminiは、データの追跡と整理、表や数式の作成に利用できます。

GeminiはGoogleマップに搭載されており、地元のビジネスに関するレビューを集約したり、外国の都市を訪れた際の1日の過ごし方などのおすすめ情報を提供したりできます。このチャットボットはGoogleドライブにも搭載されており、ファイルやフォルダの概要をまとめたり、プロジェクトに関する簡単な情報を提供したりすることができます。

GmailのGemini
画像クレジット: Google

Geminiは最近、AIライティングツールとしてGoogle Chromeブラウザに登場しました。全く新しい文章を書いたり、既存のテキストを書き換えたりすることができます。Googleによると、Geminiは現在閲覧しているウェブページを考慮して、おすすめの文章を提案してくれるそうです。

他にも、Google のデータベース製品、クラウド セキュリティ ツール、アプリ開発プラットフォーム (Firebase や Project IDX を含む)、Google フォト (Gemini が自然言語の検索クエリを処理)、YouTube (動画のアイデアのブレインストーミングを支援)、Meet (字幕の翻訳) などのアプリに Gemini のヒントが見られます。

GoogleのAIを活用したコード補完・生成支援ツールスイート「Code Assist」(旧称Duet AI for Developers)は、膨大な計算処理をGeminiにオフロードしています。Geminiを基盤とするGoogleのセキュリティ製品も同様です。例えば、潜在的に悪意のあるコードの大部分を分析し、ユーザーが自然言語検索で進行中の脅威や侵害の兆候を検知できる「Threat Intelligence」のGeminiなどが挙げられます。

Gemini拡張機能とGems

Gemini Advancedユーザーは、Geminiモデルを活用したデスクトップおよびモバイル向けのカスタムチャットボット「Gem」を作成できます。Gemは自然言語による説明(例えば「あなたは私のランニングコーチです。毎日のランニングプランを教えてください」など)から生成され、他のユーザーと共有することも、非公開にすることもできます。

ジェミニジェムズ
画像クレジット: Google

Geminiアプリは、Googleが「Gemini拡張機能」と呼ぶ機能を通じてGoogleサービスにアクセスできます。GeminiはGoogleドライブ、Gmail、YouTubeなどと連携し、「直近3通のメールを要約してもらえますか?」といった問い合わせに応答します。

Gemini Liveの詳細な音声チャット

Gemini Live と呼ばれる機能を使うと、ユーザーは Gemini と「詳細な」音声チャットを楽しむことができます。モバイル版の Gemini アプリと Pixel Buds Pro 2 で利用でき、スマートフォンがロックされている状態でもアクセスできます。

ジェミニライブ
画像クレジット: Google

Gemini Live を有効にすると、チャットボットが話している最中に割り込んで質問をすることができ、Gemini はあなたの話し方をリアルタイムで調整します。Live はバーチャルコーチのような役割も果たすよう設計されており、イベントのリハーサルやアイデアのブレインストーミングなどに役立ちます。例えば、Live は今後の就職面接で強調すべきスキルを提案したり、人前で話す際のヒントを提供したりしてくれます。

Gemini Live のレビューはここでお読みいただけます。

ティーン向けジェミニ

Google は、学生向けに 10 代向けの Gemini エクスペリエンスを提供しています。

ティーン向けGeminiには、「追加のポリシーと安全対策」があり、カスタマイズされたオンボーディングプロセスやAIリテラシーガイドなどが含まれています。それ以外は、Geminiの回答が正確かどうかを確認するためにウェブ全体を検索する「ダブルチェック」機能まで、標準のGeminiとほぼ同じです。

Gemini モデルでは何ができるのでしょうか?

Geminiモデルはマルチモーダルであるため、音声の書き起こしから画像や動画へのリアルタイムのキャプション作成まで、幅広いマルチモーダルタスクを実行できます。これらの機能の多くはすでに製品化段階に達しており、Googleは近い将来、さらに多くの機能を提供することを約束しています。

もちろん、Googleは、符号化されたバイアスや事実を捏造する傾向(つまり幻覚)といった、今日の生成AI技術の根本的な問題のいくつかに対する解決策を提供していません。競合他社も同様ですが、Geminiの利用や料金の支払いを検討する際には、この点を念頭に置く必要があります。

Gemini Proの機能

Google によれば、最新の Pro モデルである Gemini 2.0 Pro は、コーディングや複雑なプロンプトに対してこれまでで最高の性能を発揮します。2.0 Pro は、プログラミング、推論、数学、事実の正確さを測定するベンチマークにおいて、前モデルの Gemini 1.5 Pro を上回っています。

GoogleのVertex AIプラットフォームでは、開発者は微調整(グラウンディング)プロセスを通じて、Gemini Proを特定のコンテキストやユースケースに合わせてカスタマイズできます。例えば、Pro(および他のGeminiモデル)は、Moody's、Thomson Reuters、ZoomInfo、MSCIなどのサードパーティプロバイダーのデータを使用するように指示したり、自社の広範なナレッジバンクではなく、企業のデータセットやGoogle検索から情報を取得するように指示したりできます。また、Gemini Proは外部のサードパーティAPIに接続して、バックオフィスワークフローの自動化など、特定のアクションを実行することもできます。

Google AI Studioプラットフォームは、Proで構造化されたチャットプロンプトを作成するためのテンプレートを提供しています。開発者はモデルのクリエイティブな表現範囲を制御し、トーンやスタイルの指示を示すサンプルを提供するだけでなく、Proの安全設定を調整することもできます。

ジェミニフラッシュは軽量ですが、ジェミニフラッシュシンキングは推論機能を追加します

Gemini 2.0 Flashは、Google検索などのツールの利用や外部APIとの連携が可能で、コーディングと画像解析のベンチマークにおいて、より大規模なGemini 1.5モデルの一部を上回る性能を発揮します。Gemini Proから派生したFlashは、小型で効率的であり、用途が限定的で高頻度な生成型AIワークロード向けに構築されています。

Googleによると、Flashは要約やチャットアプリ、画像や動画のキャプション作成、長い文書や表からのデータ抽出といったタスクに特に適しているとのことです。一方、Googleによると、FlashのよりコンパクトなバージョンであるGemini 2.0 Flash-Liteは、Gemini 1.5 Flashよりもパフォーマンスが優れているにもかかわらず、価格と速度は同等とのことです。

昨年12月、Googleは「推論」機能を備えた「思考」バージョンのGemini 2.0 Flashをリリースしました。このAIモデルは、問題を逆算して数秒かけて解くため、信頼性が向上します。

Gemini Nanoはスマートフォンで実行できます

Gemini Nanoは、Geminiの小型版で、タスクをサーバーに送るのではなく、(一部の)デバイス上で直接実行できるほど効率的です。現在、NanoはPixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9、Samsung Galaxy S24で、レコーダーの要約機能やGboardのスマートリプライ機能など、いくつかの機能を実現しています。

レコーダーアプリは、ボタンを押すだけで音声を録音・書き起こしできるアプリで、録音された会話、インタビュー、プレゼンテーション、その他の音声スニペットをGeminiベースの技術で要約する機能も搭載しています。電波やWi-Fi接続がない場合でも要約を確認できます。また、プライバシー保護のため、処理中にデータが端末から外部に送信されることはありません。

画像クレジット: Google

Nanoは、Googleのキーボード代替アプリであるGboardにも搭載されています。Gboardでは、WhatsAppなどのメッセージアプリで会話中に、次に何を言うべきかを提案してくれるスマートリプライ機能も搭載されています。

Androidの将来のバージョンでは、通話中に詐欺の可能性があることをユーザーに警告するためにNanoが利用されるようになります。Pixelスマートフォンの新しい天気アプリは、Gemini Nanoを使用してカスタマイズされた天気予報を生成します。また、GoogleのアクセシビリティサービスであるTalkBackは、視力の弱いユーザーや視覚障碍のあるユーザーのために、物体の音声による説明を作成するためにNanoを使用しています。

ジェミニ・ウルトラ、今のところ行方不明

ここ数ヶ月、Gemini Ultra の動向はあまり見られません。このモデルは Gemini アプリでは利用できず、Google の Gemini API 料金ページにも掲載されていません。しかし、だからといって Google が将来的に Ultra を復活させないというわけではありません。

Gemini モデルの価格はいくらですか?

Gemini 1.5 Pro、1.5 Flash、2.0 Flash、2.0 Flash-Liteは、GoogleのGemini APIを通じてアプリやサービスの構築にご利用いただけます。従量課金制です。2月22日時点の基本料金(アドオンは含まれません)は以下のとおりです。

  • Gemini 1.5 Pro:  100 万入力トークンあたり 1.25 ドル (128K トークンまでのプロンプトの場合)、または 100 万入力トークンあたり 2.50 ドル (128K トークンを超えるプロンプトの場合); 100 万出力トークンあたり 5 ドル (128K トークンまでのプロンプトの場合)、または 100 万出力トークンあたり 10 ドル (128K トークンを超えるプロンプトの場合)
  • Gemini 1.5 Flash:  100 万入力トークンあたり 7.5 セント (128K トークンまでのプロンプトの場合)、100 万入力トークンあたり 15 セント (128K トークンを超えるプロンプトの場合)、100 万出力トークンあたり 30 セント (128K トークンまでのプロンプトの場合)、100 万出力トークンあたり 60 セント (128K トークンを超えるプロンプトの場合)
  • Gemini 2.0 Flash:入力トークン100万個につき10セント、出力トークン100万個につき40セント。オーディオの場合は、入力トークン100万個につき70セント。
  • Gemini 2.0 Flash-Lite:入力トークン 100 万個あたり 7.5 セント、出力トークン 100 万個あたり 30 セント。

トークンとは、生のデータを細分化したビットのことです。例えば、「fantastic」という単語の「fan」「tas」「tic」といった音節は、100万トークンで約75万語に相当します。入力とはモデルに入力されるトークンを指し、出力とはモデルが生成するトークンを指します。

2.0 Pro の価格はまだ発表されておらず、Nano はまだ早期アクセス段階です。

Gemini は iPhone に登場しますか?

そうなるかもしれません。 

Appleは、Geminiをはじめとするサードパーティ製モデルをApple Intelligenceスイートの複数の機能に活用する協議を進めていると発表した。WWDC 2024の基調講演後、Appleのシニアバイスプレジデントであるクレイグ・フェデリギ氏は、Geminiを含むモデルとの連携計画を認めたものの、詳細は明らかにしなかった。

この投稿はもともと 2024 年 2 月 16 日に公開され、定期的に更新されています。