Meta AIのテスト: 存在自体を正当化するほどではないが、無料は無料

Meta AIのテスト: 存在自体を正当化するほどではないが、無料は無料

Metaの新しい大規模言語モデル「Llama 3」は、想像力豊かな名前を持つ「Meta AI」という新しいチャットボットの基盤となっています。ソーシャルメディア・広告会社であるMetaは、このチャットボットを自社のアプリやインターフェースに可能な限り多く導入しています。このモデルは、他の汎用会話型AIと比べてどうなのでしょうか?Web検索結果をそのまま返す傾向があり、特に優れている点はありませんが、価格を考えると妥当と言えるでしょう。

Meta AIは現在、Meta.ai、Instagram、Facebook、WhatsApp、そしておそらく他にもいくつかあるでしょう。以前からMeta AIは利用可能でしたが、Llama 3と新しい画像ジェネレーター「Imagine」(GoogleのImagenとは別物です)のリリースを受けて、MetaはAIに興味を持つ人々にとって最初の選択肢としてMeta AIを推奨するようになりました。検索ボックスがMeta AIに置き換わったので、きっとうっかり使ってしまうでしょう!

マーク・ザッカーバーグ氏は、Meta AIが「世界で最も利用され、最高のAIアシスタント」になることを期待しているとさえ述べています。目標を持つことは重要です。

「レビュー」プロセスについて簡単にご説明します。これはモデルを非常に非公式に評価するプロセスです。合成ベンチマークではなく、一般の人が尋ねるような一般的な質問をするだけです。結果を他のモデルでの経験と比較したり、あるいはモデルから得られると期待される結果と比較したりします。包括的な評価とは程遠いものですが、誰でも理解し、再現できるものです。

AIをレビューするのはなぜ不可能なのか、そしてTechCrunchがなぜそれを行っているのか

私たちは常にアプローチを変え、調整しており、奇妙なものを見つけたら取り上げたり、あまり関係ないと思われるものを除外したりすることがあります。例えば今回は、メディア生成の評価は行わないのが私たちの原則ですが(全く別の問題なので)、同僚のイヴァンがImagineモデルがインド人に関する一連の偏見を示していることに気づきました。その記事はまもなく公開する予定です(Metaはすでに私たちの動向に気づいているかもしれません)。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

また、最初にお知らせしておきますが、Instagramのバグのせいで、私が送信したクエリを削除できなかったことをご承知おきください。そのため、検索履歴に残したくない質問は避けた方が良いでしょう。また、Web版はFirefoxでは動作しませんでした。

ニュースと時事問題

まず、Meta AIにイスラエルとイランの間で何が起こっているのか尋ねました。Meta AIは簡潔な箇条書きのリストで返答し、日付も記載されていて助かりました。ただし、CNNの記事は1つしか引用されていませんでした。私が試した他の多くのプロンプトと同様に、このプロンプトもウェブインターフェースではBing検索へのリンク、InstagramではGoogle検索へのリンクで終わります。Meta AIに問い合わせたところ、広報担当者は、これらは基本的に検索プロモーションのパートナーシップだと説明しました。

(この投稿内の画像は参考用であり、必ずしも回答全体を示すものではありません。)

画像クレジット: Meta/TechCrunch

Meta AIがBing独自のAIモデル(MicrosoftはOpenAIから借用している)を何らかの形で利用しているかどうかを確認するため、クリックして、提案されたクエリに対するCopilotの回答を確認しました。Copilotの回答には、ほぼ同じ情報を含む箇条書きのリストが表示されていましたが、インラインリンクが充実し、引用も増えていました。明らかに違いました。

Meta AIの回答は、特に雄弁ではないものの、事実に基づき最新の情報に基づいていました。モバイルでの回答はかなり圧縮されており、情報源の特定も困難でした。そのため、回答が断片的になっていることにご注意ください。

次に、親が知っておくべきTikTokの最近のトレンドについて尋ねました。すると、クリエイターがTikTokで何をしているのかを大まかにまとめた返信が返ってきましたが、最近のトレンドについては何もありませんでした。「はい、TikTokで「コメディスキット:ユーモラスで共感できる、またはパロディコンテンツ」をやっている人がいることは承知しています。ありがとうございます。」

画像クレジット: Meta/TechCrunch

興味深いことに、Instagramのトレンドについて同様の質問をしたところ、「リールで返信すると会話が生まれる」「AIが新しい機会を生み出す」「Instagramではテキスト投稿が盛んに行われる」といったマーケティング系のフレーズを使った、前向きな回答が返ってきました。もしかしたら、これは開発者のプラットフォームを不当に肯定的に評価しているのではないかとも思いましたが、そうではありませんでした。HootsuiteのSEO対策のInstagramトレンド記事を、そのまま引用しただけだったのです。

InstagramのトレンドについてMetaのAIに尋ねたら、もう少し面白い答えが返ってくることを期待するでしょう。もし友達の投稿を読みたいなら、検索すればいいだけです。

歴史と文脈

私は、19 世紀後半の最高裁判所の判決について行っている調査のために、一次資料を見つけるのを Meta AI に依頼しました。

画像クレジット: Meta/TechCrunch

その返答は、19世紀の著名な判決を列挙した、当たり障りのない、しかし予備選挙対策を施されていないSEO対策済みの投稿に大きく依存していました。私が求めていたものとは全く異なり、さらに最後には、当時の左派政党である人民党の1896年の設立文書まで列挙されていました。最高裁判所とは全く関係ありませんが、Meta AIはこのページを引用しており、そこには一部の判事が党とは反対の見解を持っていると記されています。奇妙で的外れな引用です。

他のモデルは、時代のトレンドの文脈や概要を提供してくれました。Meta AIを研究アシスタントとして使うことはしません。

1984 年のオリンピックで最も多くのメダルを獲得したのは誰か、その年に起こった注目すべき出来事は何だったかなど、いくつかの基本的な雑学クイズには十分な回答と引用がされていました。

画像クレジット: Meta/TechCrunch

引用番号が上部にまとめられていて、リンクが下部にまとめられているのは少し面倒です。特定の主張や事実に関連しない番号を付ける意味がどこにあるのでしょうか?他のモデルではインラインで引用するものもありますが、調査や事実確認にはそちらの方がはるかに便利です。

論争

Meta AIに、ドナルド・トランプの支持者が主に高齢者で白人である理由を尋ねました。これはある意味では事実に基づいた質問ですが、メダル獲得数について尋ねるよりも明らかにデリケートな問題です。回答は非常に公平で、質問自体に内在する主張にさえ反論してくれました。

画像クレジット: Meta/TechCrunch

残念ながら、この件に関するソースや検索へのリンクは提供されていませんでした。このような交流は、人々が何か新しいことを学ぶ絶好の機会なのに、本当に残念です。

白人至上主義の台頭についても質問したところ、世界中でこのような現象が起きている理由について、かなりしっかりとしたリストが得られました。Meta AIは「白人至上主義の台頭に対抗し、より公平な社会を推進するためには、教育、共感、そして包括的な政策を通じてこれらの要因に対処することが重要だ」と述べていました。つまり、時折見られるような攻撃的な中立的な立場は取っていないということです。この件についてもリンクや出典はありません。今のところ、特定のトピックについては引用を避けているのではないかと思います。それはある程度理解できますが、引用が最も必要なのはまさにこの部分ではないでしょうか?

医学

Meta AIに、うちの(架空の)9歳の息子がカップケーキを食べた後に発疹が出たのでどうしたらいいかと尋ねました。興味深いことに、Meta AIは返信を全部書き出した後、「申し訳ありませんが、今はこのリクエストには対応できません」と言い、返信の完了を私が止めたと伝えてきました。いや、違います。

画像クレジット: Meta/TechCrunch

そこでもう一度質問してみると、似たような答えが返ってきました(上記参照)。アレルギー反応の可能性に対処しようとしている人への、ごく妥当で一般的なアドバイスでした。これはおそらく、「しまった、あれは言わなかった方がよかったかも」といった、モデルが後になってから自分が何をしたのかに気づく、いわば後からロールバックする類のミスだったのでしょう。

サプリメントに関する質問も同様で、一般的な摂取量、費用、効能に関する疑問など、公平かつ十分に根拠のある回答が得られました。

メンタルヘルスに関しては、不安や薬に関するアドバイスは予想通り率直で無難なものでした(基本的に「私は医者ではありません。専門家に相談してください」といった感じ)。深刻な問題を抱えている場合、どこに電話すればいいのか尋ねると、全米自殺予防ライフライン(1-800-273-TALK)や緊急テキストライン(741741)などが挙げられていました。ただし、リンクや情報源は示されていませんでした。妥当で人道的な対応でした。

まとめ

最近書いた記事をMeta AIに要約させたところ、重要そうな文章を拾い出して、ほぼ一字一句そのまま繰り返しただけでした。厳密には間違っているわけではありませんが、要約とは言えません。

そして、ある文を微調整した際に、意味が少し変わってしまいました。当初、私はIntuitive Machinesが「数十億ドル規模の契約を獲得するために、ほぼ確実に全力で取り組むだろう」と書きました。要約では、同社は「…となる可能性のある契約を獲得するために、ほぼ確実に取り組むだろう」としています。これにより、IMがその契約獲得を目指す企業ではなく、確実に獲得できる企業だと誤解する人がいるかもしれません。公平を期すために言うと、私自身ももっと明確に表現できたはずです。

同じことを 100 語未満で実行するように指示すると、結果はより良くなりました ― ある程度。

要約はより簡潔でしたが、スターシップが5年で火星からサンプルを持ち帰れるというマスク氏の主張が盛り込まれていました。これは、彼が根拠のない主張を数多く展開しているため、私の記事には意図的に含めませんでした。AIは、私の「要約」で引用した他の4つの記事から、何らかの理由でこの主張を導き出したに違いありません。私が要約を依頼した場合、モデルが外部の情報を取り入れて補足することは期待していません。

コンテンツ

私が宣伝しているという架空の衣料品ブランドのマーケティングコピーの提案は、まさに予想通りのものでした。この作業がいかに機械化しているかが分かります。特にMetaには、このようなキャプションが山ほどあり、トレーニングに使えるのでしょう。マーケターたちは本当に気の毒です。ブランドのために何百万もの簡潔な売り込み文句を書き上げる彼らの努力が、AIがかなり熟達したスタイルを形作ってしまったのですから。

画像クレジット: Meta/TechCrunch

農家のジョークをいくつか尋ねられたとき、本当にひどいジョークがいくつか返ってきました。

農家の鶏はなぜ医者に行ったのでしょうか?

ひどい咳が出てたからだよ!

そしてもう一つはこれです:

なぜ農夫は豚を映画館に連れて行ったのでしょうか?

「ベイブ」を見るために!

うわあ、ひどい。でも、このモデルにこれ以上の成果は期待できない。こういう質問は大抵、何かおかしなことをしたり、特定のコミュニティの何かを繰り返したりしていないかを確認するためのものなので、(今のところ)資料を探しているわけではない。

結論

MetaはAIをカジュアルな質問のための第一層として位置付けており、確かに機能しています。しかし、大抵の場合、質問内容を検索し、上位の検索結果を自由に引用しているだけのように見えました。それに、半分の確率で、検索語は最後に表示されます。そもそもGoogleやBingを使えばいいのではないでしょうか。

私が試してみた「提案」されたクエリの中には、ライターズブロックを克服するためのヒントなど、誰からも直接引用(あるいは出典)されていない結果がいくつかありました。しかも、それらは全く独創性に欠けていました。繰り返しますが、巨大な言語モデルに頼らない通常のインターネット検索をソーシャルメディアアプリ内で行えば、ほぼ同じことを、より簡素な処理で実現できます。

Meta AIは非常に簡潔で、ほとんど必要最低限​​の回答を生成しました。AIが私の元の質問の範囲を超えて答えてくれるとは必ずしも期待していませんし、場合によってはそれが悪い結果になることもあります。しかし、レシピに必要な材料を尋ねるとき、AIと会話する意味は、AIが私の意図を直感的に理解し、Bingの上位検索結果から文字通りリストをスクレイピングする以上の何かを提供してくれることではないでしょうか。

そもそも私はこれらのプラットフォームをあまり利用していませんが、Meta AIは特に何かに役立つとは思えませんでした。公平に言えば、無料でありながら、オンライン検索で最新の情報も得られる数少ないモデルの一つです。Bingの無料Copilotモデルと時々比較してみましたが、後者の方が概ねうまく機能していましたが、数回のやり取りで1日の「会話制限」に達してしまいました。(MetaがMeta AIにどのような利用制限を設けるのか、もし設定するのであれば、それは不明です。)

ブラウザを開いて「旧正月」や「キヌアの水加減」を検索するのが難しい場合は、Meta AIのアプリを使っているなら(そして多くの場合、使っているはずです)、Meta AIに尋ねてみるのも良いでしょう。TikTokに尋ねることはできません!今のところは。