AIのように急速に進化する業界に追いつくのは至難の業です。AIがあなたに代わってそれをこなしてくれるようになるまで、機械学習の世界における先週のニュースと、私たちが単独では取り上げなかった注目すべき研究や実験をまとめてご紹介します。
今週のAIニュースで、Amazonは生成AIを活用して商品レビューを「強化」すると発表しました。この機能が導入されると、商品詳細ページに、レビュー全体で言及されている商品の機能と顧客の感情を強調する短いテキストが表示されます。
便利な機能のように思えますね。購入者と販売者にとっては便利かもしれませんね。でも、レビュー投稿者はどうでしょうか?
Amazonのレビューが一種の高尚な芸術だと主張するつもりはありません。それどころか、このプラットフォーム上のレビューのかなりの数は本物ではない、あるいはAIによって生成されたものです。
しかし、他の買い物客への心からの配慮からか、あるいは創造力を刺激するためか、レビューを書く人の中には、情報を提供するだけでなく、楽しませてくれるレビューを書くことに時間を費やす人もいます。こうしたレビューを要約することは、彼らに不公平であり、本質を見失うことになります。
もしかしたら、これらの貴重な情報を偶然見つけたかもしれません。多くの場合、書籍や映画のレビュー欄で見つかります。私の経験上、Amazonのレビューはレビュー欄よりも…冗長なことが多いです。

Amazonユーザー「Sweet Home」によるJ・D・サリンジャーの『ライ麦畑でつかまえて』のレビューは、2,000語以上にも及ぶ。ウィリアム・S・バロウズやジャック・ケルアック、ジョージ・バーナード・ショー、ゲイリー・スナイダー、ドロシー・パーカーといった作品に言及するSweet Homeのレビューは、単なるレビューというよりは徹底的な分析であり、小説の筋を拾い上げ、文脈に沿って分析することで、その持続力を説明しようとしている。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
そして、ブライアン・デスモンドによる、トーマス・ピンチョンの難解な小説『重力の虹』のレビューがあります。同じく1,120語という長文で、レビューに期待されるように、本書の長所(見事な散文)と短所(特に女性に対する時代遅れの態度)を強調するだけでなく、デスモンド自身の読書体験を詳細に伝えています。
AIはそれらを要約できるでしょうか?もちろんです。しかし、ニュアンスや洞察力は犠牲になります。
もちろん、Amazonはレビューを非表示にしてAI生成の要約を表示するつもりはありません。しかし、レビュー投稿者が書いたレビューが一般の買い物客に読まれなくなると、レビュー投稿者が以前ほど多くの時間と注意を払う意欲が薄れてしまうのではないかと懸念しています。これは壮大な実験であり、生成AIが関わるほとんどのことと同様に、時が経てば分かることでしょう。
ここ数日間で注目されたその他の AI 関連ニュースは次のとおりです。
- マイAIが暴走: Snapchatのアプリ内AIチャットボット「マイAI」機能が今年初めにリリースされ、かなりの物議を醸したが、一時的に独自の意思を持ったように見えた。火曜日、このAIは自身のストーリーをアプリに投稿した後、ユーザーからのメッセージに返信しなくなり、一部のSnapchatユーザーに不安を与えた。Snapchatの親会社Snapは後に、これはバグであったことを認めた。
- OpenAI が新たなモデレーション手法を提案: OpenAI は、同社の主力生成 AI モデルである GPT-4 をコンテンツのモデレーションに使用する方法を開発したと主張しており、これにより人間のチームの負担が軽減される。
- OpenAIが企業を買収: OpenAIの関連ニュースとして、AIスタートアップ企業が、AIを活用してクリエイティブツール、インフラ、デジタル体験を構築するニューヨーク拠点のスタートアップ企業Global Illuminationを買収しました。これは、OpenAIにとって約7年の歴史の中で初の上場買収となります。
- 新たなLLMトレーニングデータセット:アレンAI研究所は、OpenAIのChatGPTに類似した大規模言語モデル(LLM)用の大規模テキストデータセットを公開しました。このデータセットは無料で利用でき、閲覧可能です。Dolmaと呼ばれるこのデータセットは、研究グループが計画しているオープン言語モデル(OLMo)の基盤となることを目指しています(Dolmaは「OLMoの欲求を満たすデータ」の略です)。
- 食器洗いロボット、ドア開けロボット: ETHチューリッヒの研究者たちは、ロボットにドアを開けたり通り抜けたりするなどのタスクを学習させる手法を開発しました。研究チームによると、このシステムは様々なフォームファクターに適応可能ですが、簡略化のため、四足歩行ロボットでデモを行いました。デモの様子はこちらでご覧いただけます。
- OperaにAIアシスタントが追加: OperaのiOS向けウェブブラウザアプリにAIアシスタントが搭載されます。同社は今週、iOS版OperaにOpenAIとの共同開発によるブラウザAI製品「Aria」が搭載されることを発表しました。Ariaはウェブブラウザに直接統合され、すべてのユーザーに無料で提供されます。
- GoogleがAIによる要約機能を導入: Googleは今週、約3か月前にリリースされたSearch Generative Experience(SGE)にいくつかのアップデートをリリースしました。SGEは、検索におけるAIを活用した会話型モードであり、ユーザーがウェブ上で発見した情報をより深く理解し、理解を深めることを目的としています。これらの機能には、馴染みのない用語の定義を表示するツール、複数の言語間での理解を深め、情報をコーディングするのに役立つツール、そしてブラウジング中にSGEのAIパワーを活用できる興味深い機能などが含まれます。
- Google フォトに AI が追加: Google フォトに新しい「メモリーズ」ビューが導入され、思い出に残る瞬間を追体験し、共有する新たな方法が加わりました。お気に入りの思い出を保存したり、自分だけの思い出を一から作成したりできます。「メモリーズ」では、思い出に残る旅行、お祝い、大切な人との日々のひとときなど、スクラップブックのようなタイムラインを作成できます。
- アンスロピック、さらなる資金調達:元OpenAIリーダーらが共同設立したAIスタートアップ企業アンスロピックは、韓国最大手の携帯電話事業者SKテレコムから1億ドルの資金調達を受けると、SKテレコムが日曜日に発表した。アンスロピックは5月にスパーク・キャピタルが主導したシリーズCの資金調達ラウンドで4億5000万ドルを調達してから3か月後のことだ。
さらなる機械学習
私(つまり、共著者のデヴィン)は先週SIGGRAPHに参加しました。AIは、映画・テレビ業界では今や脅威の存在ですが、ツールとしても研究対象としても、まさに勢いを増していました。VFXアーティストがAIを革新的で全く議論の余地のない方法でどのように活用しているかについては、近いうちに詳しくお伝えする予定ですが、展示された論文も非常に素晴らしかったです。特にこのセッションでは、興味深い新しいアイデアがいくつかありました。

画像生成モデルには奇妙な特性があり、「白い猫と黒い犬を描いてください」と指示すると、2つを混ぜてしまったり、片方を無視したり、猫と犬、あるいは白黒両方が混ざった動物を描いてしまうことがよくあります。テルアビブ大学の「attend and excite(注意と興奮)」と呼ばれるアプローチは、注意を通してプロンプトを構成要素に分類し、結果として得られる画像にそれぞれの構成要素が適切に表現されていることを確認します。その結果、複数の主題を持つプロンプトの解析能力が大幅に向上します。近いうちに、このような機能がアート生成ツールに統合されることを期待しています。

ジェネレーティブアートモデルのもう一つの弱点は、被写体をもう少し横に向けるといった小さな変更を加えたい場合、全体をやり直さなければならないことです。そのため、当初気に入っていた画像の特徴が失われてしまうこともあります。「Drag Your GAN」は、ユーザーがポイントを一つずつ、あるいは複数同時に設定・移動できる、非常に画期的なツールです。画像でご覧いただけるように、画像の一部だけを新しい比率に合わせて再生成することで、ライオンの頭を回転させたり、口を開けたりすることができます。Googleも作者リストに名を連ねているので、このツールの活用方法を検討していることは間違いないでしょう。

この「セマンティック・タイポグラフィ」の論文は、より楽しく、そして非常に巧妙です。それぞれの文字をベクター画像として扱い、その画像を単語が指す対象のベクトル画像に近づけることで、非常に印象的なロゴタイプを作成できます。会社名を視覚的なダジャレにする方法に困っているなら、これは素晴らしい出発点となるでしょう。
他にも、脳科学と AI の間には興味深い相互作用が見られます。

バークレーの研究者たちは、機械学習モデルを用いて音楽を聴いている時の脳活動を解釈し、リズム、メロディー、ボーカルに焦点を合わせたクラスターの一部を再構築しました。私はこうした「脳を読む」タイプの研究には常に懐疑的なので、この研究結果を鵜呑みにしない方が良いでしょう。しかし、機械学習はノイズの中から信号を分離するのに非常に優れており、脳活動は非常にノイズが多いのです。
MITとハーバード大学は、脳内で未知の機能を果たす細胞であるアストロサイトの理解を深めるために共同研究を行いました。彼らは、アストロサイトが変圧器や注意機構のような役割を果たす可能性があると提唱しています。つまり、機械学習の概念が脳にマッピングされるのではなく、脳が機械学習の概念をマッピングするのです!MITの論文執筆者であるドミトリー・クロトフ氏は、このことを簡潔にまとめています。
脳は、私たちが開発した最高の人工ニューラルネットワークをはるかに凌駕しますが、脳がどのように機能するかは正確には解明されていません。生物学的ハードウェアと大規模な人工知能ネットワークの関連性について考えることには、科学的価値があります。これは、AIのための神経科学であり、神経科学のためのAIです。
医療AIにおいては、消費者向けデバイスからのデータもノイズが多く、信頼性が低いとみなされることが多い。しかし、イェール大学の新しい論文が示すように、機械学習システムは適応可能である。この研究は、心臓関連の疾患が深刻化する前に警告してくれるウェアラブル機器の実現に近づくと期待される。

GPT-4の最初の実用化例の一つは、Be My Eyesでの使用でした。これは、視覚障がいのある人が遠隔地のパートナーの助けを借りて移動できるようにするアプリです。EPFLの学生たちは、視覚障がいのある人にとって非常に役立つ可能性のあるアプリを2つ開発しました。1つはユーザーを部屋の空席に誘導するだけのシンプルなアプリで、もう1つは薬の瓶から有効成分や投与量などの関連情報のみを読み上げます。実にシンプルですが、必要な機能です。
最後に、CMU と Meta が開発した幼児向けロボット「RoboAgent」があります。これは、子供がするように、物を見たり触ったりするだけで、物を拾ったり、物体の相互作用を理解したりするような日常的なスキルを学習することを目的としています。
「このような学習能力を持つエージェントは、多様な未知の状況下で多様なタスクを遂行し、経験を積み重ねるにつれて継続的に進化できる汎用ロボットの実現に私たちを近づけます」と、CMUのシュバム・タルシアニ氏は述べています。このプロジェクトの詳細については、以下をご覧ください。