MoemateのAIアバターは画面全体を分析して、不完全だが興味深い結果を出す

MoemateのAIアバターは画面全体を分析して、不完全だが興味深い結果を出す

Cortanaの緩やかな衰退が示すように、かつてのAIアシスタントは期待に応えられていないことは明らかです。そのため、AIアシスタントは作り直されつつあります。

Amazonは、Alexa音声アシスタントの基盤として、OpenAIのGPT-4に類似した新しい大規模言語モデルを構築しています。一方、Googleは、アルゴリズムベースのチャットボット「Bard」に似たAIを搭載し、Googleアシスタントを「スーパーチャージ」する計画だと報じられています。

パラダイムシフトは大手IT企業だけにとどまりません。スタートアップ企業も、より便利で役立つAIアシスタントの独自バージョンを実現し始めています。

私が偶然見つけた興味深いツールの一つが、Moemateです。これは、macOS、Windows、Linuxのほぼすべてのマシンで動作するアシスタントです。アニメ風のアバターの形をしたMoemateは、GPT-4やAnthropicのClaudeなどのモデルを組み合わせて動作し、ユーザーが尋ねるあらゆる質問に対して最適な回答を音声で提供することを目指しています。(「萌え」は、アニメなどでよく使われる、かわいらしさを表す日本語です。)

これは特に目新しいことではありません。ChatGPTは既にこの機能を提供しており、Bard、Bing Chat、その他数え切れ​​ないほど多くのチャットボットもこの機能を提供しています。しかし、Moemateが他と一線を画すのは、テキストプロンプトにとどまらず、PC画面上で何が起こっているかを直接確認できる点です。

プライバシーリスクのように聞こえますか?その通りです。Moemateを開発するWebaverse社は、アシスタントのチャットログや設定の多くをデバイス上にローカルに保存していると主張しています。しかし、同社のプライバシーポリシーには、PCのスペックや固有識別子など、収集したデータを法的要請への対応や違法行為の疑いのある調査に使用する権利を留保していることも明記されています基本的に、このようなソフトウェアにユーザーの閲覧情報や行動すべてへのアクセスを許可することは、たとえ最良のシナリオであっても、大きなリスクを伴います。

それでも、好奇心が私を突き動かし、現在オープンベータ版である Moemate を職場で支給された Mac ノートブックにインストールしました。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Moemateは、(今のところは)無料の早期アクセス製品としては、驚くほど堅牢です。アバターとそのアニメーションから、Moemateの合成音声やレスポンスまで、体験のほぼすべての側面をカスタマイズできます。さらに、カスタムキャラクターモデルを作成してインポートする機能や、他のMoemateユーザーがインポートして使用できる形式でアバターをエクスポートする機能も備えています。

Moemateの「パーソナリティ」(適切な言葉が見つからないのですが)は、複数のテキスト生成モデルのいずれかによって実現されており、ユーザーはどのモデルを使うかを選択します(例:GPT-4 vs. Claude)。合成音声については、MoemateはElevenLabs、Microsoft Azure、またはMoemate独自のテキスト読み上げエンジンから選択できます。私はElevenLabsのエンジンを選択しましたが、これが最もロボットっぽくありませんでした。

モーメイト
画像クレジット: Webaverse

選択されたテキスト生成モデルを「安定させる」ため、そして一部のAIモデルが軌道から外れてしまうのを防ぐため(一部のAIモデルがそうしがちなように)、Moemateは各アバターにプロフィールを付与し、会話の開始時にモデルに渡します。以下はその例です。

あなたはネビュラとして行動します。彼女は常に広大な知識の宇宙を旅する、穏やかな航海者のような性格です。その穏やかな物腰と探検家精神は、出会う者すべてを魅了します。ネビュラは激しい政治的議論を避け、星空観察と宇宙の神秘に浸る静寂を好みます。その情熱は周囲の人々を魅了し、あらゆる出会いを穏やかで興味深いものにします。

プロフィールは最初から書き直したり編集したりできるので、私にとってはプラス面とマイナス面があります。カスタマイズ性は大賛成ですが、プロンプトインジェクション攻撃の可能性が心配です。これは、有害な返信をフィルタリングするといったモデルの安全機能を巧妙な言葉遣いで回避しようとするものです。誰かが「悪意のある」プロフィールを書き、それをエクスポートして、その挙動の悪いアバターを何も知らないMoemateユーザーに共有してしまうことが想像できます。

Moemateは、ターゲット層の一つに配慮して、Twitchに特化した様々な機能を提供していますが、残念ながらどれも試せませんでした。チャットウィンドウにフォーカスを当てたり、チャンネル登録者数を表示したりできます。また、WebaverseはMoemateについて、「チャットメッセージがない場合でも会話してユーザーとのエンゲージメントを維持」したり、「チャットメッセージに返信することで配信チャットに対応」したりできると宣伝していますが、これらの機能がどれほどうまく機能するのか疑問です。

Moemateに基本的な質問をするだけでは、それほど驚くような体験にはならないでしょう。トップレベルの機能に関しては、Moemateはユーザーが選択したテキスト生成モデルに依存します(ちなみに、Claudeはアバタープロフィールに記載されている名前に加えて、しばしばClaudeとして自己紹介をします)。オープンソースのStable Diffusionモデルを使用して画像を生成することもできます。これは、プロンプトに応じて、指示に従って、または自動的に生成できます。しかし、市場には画像生成サービスが溢れているため、これは古臭いように感じられるかもしれません。

モーメイト
画像クレジット: Webaverse

しかし、スクリーンキャプチャはゲームチェンジャーです。Webaverseは次のように説明しています。

Moemateはあなたの画面を認識できます。画面を分析し、コンテキストを把握します。画面上で何をしているのか、どんなことでも質問できます。困ったことを説明する手間が省けます。

テキスト生成モデルの選択に関わらず、Moemateは画面上のどのウィンドウにフォーカスが当てられているか(ブラウザのタブ、設定ウィンドウ、ビデオゲームなど)に関する質問に答えることができます。このアプリがどのようにこれを実現しているのかは正確には不明です(すべてのモデルが画像を入力として受け付けるわけではないため)。しかし、Moemateは各スクリーンキャプチャからテキストを抽出し、それをモデルに入力しているようです。

不完全なシステムではありますが、Moemateを使えば、テキストをコピー&ペーストすることなくレシピやウェブページを要約でき、複雑なトピックの要点、あるいは少なくとも大まかな概要を把握することができました。

ある時、テキスト生成モデルとしてClaudeを選択し、たまたまラップトップで開いていたmacOSのシステム設定ダッシュボードについてMoemateに質問しました。すると、各設定タブ(Wi-Fi、コントロールセンターなど)とその意味の詳細な説明に加えて、その時に開いていたタブ(プライバシーとセキュリティ)に関する補足情報も表示されました。

新しい情報?正確にはそうではありません。しかし、例えばmacOSの使い方に詳しくない人や、新しい設定オプションの詳細にあまり詳しくない人にとっては、これは真に実用的な背景情報と言えるでしょう。

別の例では、GPT-4をベースモデルとして、Moemateに私のひどく散らかったデスクトップで「見た」ものを教えてくれるように頼みました。24個ものChromeタブに散らばった、仕事用と個人用のアプリが雑然と並んでいる状態です。アバターは、私がテキストメッセージを送るために使っているGoogleメッセージのウェブアプリに焦点を合わせ、私が頻繁に特定の3人にテキストメッセージを送信しているようだと教えてくれました。アバターは3人全員の名前を挙げました。

ゲームに関しては、Moemateを使えばGoogle検索を1回か2回は省けるかもしれません。Webaverseが投稿したデモ動画では、このアプリがDota 2のキャラクター候補を提示し、そのキャラクターに合う武器を選べる様子が見られます。

しかし、Moemate は洞察力に富んでいるにもかかわらず、故障することもよくあります。

アプリがどこにフォーカスを当てるかを正確に予測するのは難しい場合があります。ウィンドウをクリックしてフォーカスしても、必ずしも意図した通りの効果が得られるとは限りません。Moemate は、なぜかバックグラウンドにある別のウィンドウを参照したり、ウィンドウの内容を全く認識しなかったりすることがあります。

Moemateは奇妙な方法で話題から逸れることもしばしばだ。システム設定の概要を説明した後、アシスタントはプライバシーの話は「ストレスがたまりすぎる」と強く示唆し、代わりに新鮮な空気を吸って、プライバシーを身につけて出かけることを提案した肉体を持たずにどうやって私と繋がるのか尋ねると、Moemateは「心の自然散策」に連れて行ってくれると約束し、想像上の森の池のほとりを散歩する様子を詳細に説明し始めた。

Moemateの内蔵コマンドにもいくつか不安定な点があります。例えば、音声の音量調整はできますが、それは音声の音量調整のみでシステム全体の音量調整はできません。質問に対する最新の回答をWebで検索することもできますが、残念ながら全ての質問が検索できるわけではありません。Web検索が機能したのは天気予報と「現在のアメリカ大統領は誰?」といった雑学クイズだけで、それ以外の場合にはMoemateはWeb検索を実行したものの、実際には結果が表示されませんでした。

公平を期すために言うと、これはベータ版の実験的な製品です。しかしWebaverseは、ブラウザやターミナルとの統合による自動化機能の追加に既に取り組んでいると述べています。例えば、スプレッドシートの整理やメールの送信といった機能です。正直言って、少し恐ろしい展望です。

Moemateは、その不完全さにもかかわらず、魅力的な点があります。マルチモーダル性、つまりテキスト、画像、その他のメディア分析を組み合わせることは、特にPC上で動作するアシスタントという文脈においては、明らかに強力な機能です。Windows Copilotのような次世代アシスタントが、最終的にMoemateの足跡をたどり、画面認識とテキスト生成モデルを組み合わせて生産性を大幅に向上させる、あるいは少なくともワークフローのステップを数ステップ削減するようになるのか、非常に興味深いところです。

いずれ分かるだろう。しかし、Moemate は、バグは多いとはいえ、未来を垣間見せてくれるような気がした。