ディープサイエンス:芸術と文学におけるAIの冒険

ディープサイエンス:芸術と文学におけるAIの冒険

AIに関するニュースは、誰もが追いつくことができないほど溢れています。しかし、このコラムを読めば、世界中のAIと機械学習の進歩をまとめ、それらがテクノロジー、スタートアップ、あるいは文明にとってなぜ重要なのかを解説しながら、最も興味深い開発動向について、ある程度最新情報を得ることができます。

まずは軽い話題から。研究者が機械学習を芸術に応用する方法を見つけるのは常に興味深いものですが、必ずしも実用的とは限りません。ワシントン大学の研究チームは、コンピュータービジョンシステムが、鍵盤と演奏者の手を俯瞰するだけで、ピアノで何が演奏されているかを学習できるかどうかを検証しようとしました。

イーライ・シュライザーマン、クン・スー、シウロン・リウによって学習されたシステム「Audeo」は、ピアノ演奏のビデオを視聴し、まずピアノロールのようなシンプルな鍵盤押下シーケンスを抽出します。次に、押下の長さや強さといった表現を加え、最後にMIDIシンセサイザーに入力して出力できるよう調整します。結果はやや粗いですが、確かに認識できるものです。

ピアノ奏者の鍵盤上の手のビデオが MIDI シーケンスに変換される様子を示す図。
画像クレジット: Shlizerman 他

「演奏で演奏されているかのような音を作り出すことは、これまで不可能だと思われていました」とシュライザーマン氏は語った。「アルゴリズムは、動画フレーム内の音楽生成に関連する手がかり、つまり『特徴』を捉え、動画フレーム間で発生している音を『想像』する必要があります。そのためには、正確さと想像力の両方を兼ね備えたシステムが必要です。私たちが非常に良い音の音楽を実現できたことは、まさに驚きでした。」

芸術と文学の分野からもう一つ、扱いにくいほど繊細な古代文字をコンピューターで解読するという、非常に興味深い研究があります。MITの研究チームは、17世紀の「鍵のかかった」文字に注目していました。文字は非常に複雑に折り畳まれ、封印されているため、文字を取り外して平らにすると、永久に損傷してしまう可能性があります。彼らのアプローチは、文字をX線で撮影し、その結果生じる画像を解読するための新しい高度なアルゴリズムを設定するというものでした。

文字の X 線画像と、それを分析して仮想的に展開する方法を示す図。
文字のX線画像と、それを仮想的に展開するためにどのように分析するかを示す図。画像クレジット: MIT

「このアルゴリズムは、紙の層が非常に薄く、層間の隙間が極めて小さいにもかかわらず、スキャンの解像度よりも小さい場合もあるにもかかわらず、見事な分離を実現しました」とMITのエリック・デメイン氏は述べた。「実現可能かどうか確信が持てませんでした。」この研究は、単純なX線技術では解読が難しい多くの種類の文書に適用できる可能性があります。これを「機械学習」と分類するのは少し無理が​​あるかもしれませんが、あまりにも興味深いので、本論文に含めずにはいられませんでした。論文全文はNature Communicationsでご覧いただけます。

電気自動車充電ポイントの口コミを分析し、役立つデータに変換した図。
画像クレジット: Asensio 他

電気自動車の充電ポイントに到着したら、電源が入っていないことに気づくかもしれません。もしかしたら、オンラインで悪いレビューを残すこともあるかもしれません。実際、そのようなレビューは数千件存在し、電気自動車インフラの拡張を目指す自治体にとって非常に役立つマップとなる可能性があります。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ジョージア工科大学のオマール・アセンシオ氏は、そうしたレビューに基づいて自然言語処理モデルを訓練し、そのモデルはすぐに何千ものレビューを解析し、停止が頻繁に発生する場所、比較コスト、その他の要因などの洞察を引き出すエキスパートになった。

「電気自動車インフラへの巨額の投資を考えると、私たちは必ずしもこのインフラへのアクセスにおける社会的公平性や分配の問題に配慮したやり方で投資を行っているとは言えません」とアセンシオ氏は述べた。こうした問題を研究するのに、最も影響を受ける人々からの自発的なフィードバック以上に良い方法はあるだろうか?

サービス、電力、その他の必要な設備の突然の中断も、ドローンの落下につながる可能性があります。このような状況に備えて、より多くの安全装置が組み込まれているほど、より効果的です。ドローンは制御信号やGPSなどに頼ることはできません。チューリッヒ大学の研究者たちは、カメラと正常に動作するCPUしか搭載されていない損傷したドローンでも、かなり良好な制御を維持できることを示しました。

衝突や機械的なトラブルでローターが破損すると、クワッドコプターは激しく回転して墜落する可能性があります。しかし、Sihao Sun氏率いるスイスのチームは、搭載カメラが回転しながら周囲の状況を非常に迅速に分析し、ズームインした映像に基づいて機体の位置を推定できることを実証しました。

さらに詳しく知りたい場合は、IEEE Spectrum に詳しい情報と Sun 氏へのインタビューが掲載されています (なぜ読まないのですか?)。

画像を高速に分析する能力は、今日のAIシステムにおいて共通の強みとなっています。これは医療画像分野でも活用されており、検査や機器によって生成される画像は、医師1人、あるいは複数の専門医が短時間で精査できる量を超えています。

心臓の超音波画像、つまり心エコー図も例外ではありません。1回の検査で数千枚の画像が得られ、そのうちのどれか1枚でも、医師が心臓の状態を正確に把握するために必要な鮮明な画像が得られる可能性があります。ガイジンガー・リサーチのチームは、AIがこれらの画像を整理し、医師の診断と予後予測を支援できることを示しました。Nature Biomedical Engineeringに掲載された論文によると、このシステムの支援を受けた医師は死亡率の予測精度が13%向上しました。

この学習に使用された膨大なデータセット(合計約 5,000 万枚の画像)は、さらなる進歩につながる可能性が高い。ここでの発見は、このような非構造化画像データベースを使用して意思決定支援 AI を生成する可能性であり、その可能性の限界ではない。

大量のデータを扱う際の問題は、人間がデータをチェックできる場合、ある程度軽減されます。例えば、猫の写真と犬の写真を分類する画像認識アルゴリズムは、犬と猫の外見を誰もが知っているため、その結果を人間が簡単に監査できます。

しかし、ニューラルネットワークが人間が直感的に理解できないもの、例えばDNA配列などを扱っている場合はどうなるでしょうか?システムを開発する人がそれを監視できる能力に自信がなければ、システムがうまく機能するかどうかは判断が難しいのです。

コールド・スプリング・ハーバー研究所のピーター・クー氏とマット・プロエンツケ氏は、ゲノム配列解析用の機械学習システムを人間にとってより分かりやすくする方法を研究しました。この研究では、畳み込みニューラルネットワークの1つの層を既知の馴染みのあるパターンで強力に学習させ、ネットワークがそれらのパターンを後の解析の参照点として利用できるようにします。こうした解釈可能性の向上はモデル全体の有効性とは無関係であるように見えるため、クー氏は、適切に設計されていれば、実質的なトレードオフは存在しないはずだと推測しています。

芸術と文学のテーマに戻りましょう。AIが良い結果を出す時だけでなく、間違いを犯した時にも解釈可能性は重要です。最近、奇妙な事例が浮上しました。CMUの研究者が、YouTubeやその他の主要な自然言語処理の実装者が、チェスの用語を誤解しているために、一部のチャットを不適切と誤ってフラグ付けしている可能性があることを示しました。

白い背景に置かれたチェスの駒のクローズアップ
画像クレジット: Ahmad Hairi Mohamed/EyeEm (新しいウィンドウで開きます) / Getty Images

チェスは白対黒という観点で議論されることが多く、「白が黒に猛烈な攻撃を仕掛けて追い返した」などといった特定の構成では、これらの用語を実際に理解していないコンピューターは何かがおかしいと判断するかもしれないことを考えると、突然それが明白に思えます。

これは、人々がチェスについて自由に議論できるようにするためだけでなく、YouTube のような企業が、ますます AI を活用したモデレーション プロセスがなぜそのような決定を下すのかを理解し、ユーザーに説明できるようにする必要があるため重要です。

最後に、AIの理解力の限界を示す、同様の実験を紹介します。画像解析システムが草を羊と間違えるという有名な例は貴重な教訓ですが、AIが何に注目しているかを調べる別の方法としては、画像を徐々に削除し、それでも認識できるかどうかを確かめる方法があります。

AI が認識できなくなるまで風景の一部が削除される様子を示すアニメーション画像。
画像クレジット:シンスンバク・キムヨンフン

これは科学というよりアートプロジェクト(実際、韓国のアーティスト、シンスンバク・キムヨンフンによる作品です)ですが、その示唆するところは非常に興味深いものです。AIが風景について認識するすべての要素を取り除いたとき、何が残るのでしょうか?場合によっては、風景は人間の目には、ある意味で、当初とほぼ同じくらい鮮明に見えることがあります。これは、人間の知覚様式が、それを模倣するために作られた機械学習システムといかに異なるかを改めて認識させてくれます。

ハンドブックを作成し、AI を統合してリモート従業員のオンボーディングを行う


Early Stageは、スタートアップ起業家と投資家のための、最高のハウツーイベントです。最も成功している創業者やベンチャーキャピタルがどのように事業を構築し、資金調達を行い、ポートフォリオを管理しているかを直接聞くことができます。資金調達、採用、営業、製品市場適合、広報、マーケティング、ブランド構築など、会社設立のあらゆる側面を網羅します。各セッションには聴衆の参加も組み込まれており、質疑応答やディスカッションのための十分な時間も設けられています。