AI音楽ジェネレーターはアーティストにとって恩恵となるかもしれないが、問題も抱えている

AI音楽ジェネレーターはアーティストにとって恩恵となるかもしれないが、問題も抱えている

エレクトロニックパンクバンドYACHTが困難な課題を抱えてレコーディングスタジオに入ったのは、わずか5年前のことでした。彼らは14年分の自分たちの音楽をAIに学習させ、その結果をアルバム「Chain Tripping」に合成するという課題に取り組んでいました。

「反動主義者になるつもりはありません」と、YACHTのメンバーでテックライターのクレア・L・エヴァンスは、アルバムに関するドキュメンタリーの中で語っている。「来たるべきロボットによる終末が怖くて、自分のルーツに戻ってアコースティックギターを弾きたいとは思いません。でも、塹壕に飛び込んで、新たなロボット支配者を歓迎したいとも思いません」

しかし、私たちの新たなロボット支配者たちは、AIによる音楽生成の分野で大きな進歩を遂げています。グラミー賞にノミネートされた「Chain Tripping」は2019年にリリースされましたが、その技術はすでに時代遅れになりつつあります。今、オープンソースのAI画像生成ツール「Stable Diffusion」を開発するスタートアップ企業が、音楽制作という新たな挑戦で私たちを再び前進させようとしています。

調和を創造する

Harmonaiは、ロンドンを拠点とするスタートアップ企業Stability AI(Stable Diffusionを開発)から資金援助を受けている組織です。9月下旬、HarmonaiはDance Diffusionをリリースしました。これは、数百時間分の既存楽曲を学習することで音楽クリップを生成できるアルゴリズムとツールセットです。

「Stability AIで働き始めたのとほぼ同時期に、オーディオ拡散の研究を始めました」と、Dance Diffusionの開発責任者であるZach Evans氏はTechCrunchのメールインタビューで語った。「画像生成アルゴリズムDisco Diffusionの開発経験が評価され、入社したのですが、すぐにオーディオ研究に転向することを決意しました。自身の学習と研究を促進し、オーディオAIに特化したコミュニティを作るために、Harmonaiを立ち上げました。」

Dance Diffusionはまだテスト段階にあり、現時点では数秒のクリップしか生成できません。しかし、初期の成果は音楽制作の未来を垣間見せる魅力的なものであり、同時にアーティストへの影響についても疑問を投げかけています。

ダンス拡散アート
画像クレジット: DALL-E 2/OpenAI

Dance Diffusionの登場は、DALL-E 2の開発元であるサンフランシスコ拠点のOpenAI研究所が、音楽生成に関する壮大な実験「Jukebox」の詳細を発表してから数年後のことである。Jukeboxは、ジャンル、アーティスト、そして歌詞の断片を入力すると、ボーカル付きの比較的まとまりのある音楽を生成できた。しかし、Jukeboxが生成した曲には、繰り返されるコーラスなどの全体的な音楽構造が欠けており、意味不明な歌詞も多かった。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

今週初めに初めて詳細が発表されたGoogleのAudioLMは、短い演奏データからピアノ曲を生成できる驚異的な能力を備えており、より有望視されている。しかし、オープンソース化されていない。

Dance Diffusionは、Stable Diffusionなどの画像生成ツールの技術を借用することで、従来のオープンソースツールの限界を克服することを目指しています。このシステムは拡散モデルと呼ばれるもので、既存の多数のデータサンプルを破壊し復元する方法を学習することで、新しいデータ(例えば楽曲)を生成します。既存のサンプル(例えばスマッシング・パンプキンズのディスコグラフィー全体)を入力すると、モデルは以前破壊したすべてのデータを復元し、新しい作品を作成する能力が向上します。

英国ヨーク大学で機械学習の音楽応用を研究している博士課程の学生カイル・ウォラル氏は、TechCrunchとのインタビューで拡散システムのニュアンスについて次のように説明した。

「拡散モデルのトレーニングでは、MAESTROのピアノ演奏データセットのようなトレーニングデータが『破壊』され、『復元』されます。そして、モデルはトレーニングデータを処理するにつれて、これらのタスクの実行能力が向上していきます」と彼はメールで述べた。「最終的には、トレーニングされたモデルはノイズを取り込み、それをトレーニングデータ(MAESTROの場合はピアノ演奏)に似た音楽に変換できるようになります。ユーザーは、トレーニングされたモデルを使用して、新しいオーディオを生成する、ユーザーが選択した既存のオーディオを再生成する、または2つの入力トラック間を補間する、という3つのタスクのいずれかを実行できます。」

直感的に分かりやすいアイデアとは言えませんが、DALL-E 2、安定拡散システム、その他の類似システムが示しているように、結果は驚くほど現実的です。

たとえば、Daft Punk の音楽に合わせて微調整されたこの Disco Diffusion モデルをご覧ください。

あるいは、パイレーツ・オブ・カリビアンのテーマをフルートにスタイル移管したもの:

あるいは、スマッシュ マウスのボーカルをテトリスのテーマに転用したこのスタイル (本当にそうです):

アーティストの視点

YACHT の Jona Bechtolt 氏は、Dance Diffusion が生み出すものに感銘を受けました。

「私たちの最初の反応は、『オーケー、これは生のオーディオに関してこれまでのところから飛躍的な進歩だ』というものでした」とベクトルト氏はTechCrunchに語った。

一般的な画像生成システムとは異なり、Dance Diffusionは作成できるものが限られています ― 少なくとも現時点では。特定のアーティスト、ジャンル、さらには楽器に合わせて微調整することはできますが、Jukeboxほど汎用的ではありません。利用可能なDance Diffusionモデルはごくわずかです ― Harmonaiや公式Discordサーバーのアーリーアダプターによる寄せ集めで、ビリー・ジョエル、ビートルズ、ダフト・パンク、そしてミュージシャンのジョナサン・マンのプロジェクト「Song A Day」のクリップで微調整されたモデルなど、それぞれ独自の領域に留まっています。つまり、ジョナサン・マンのモデルは常にマンの音楽スタイルに沿った曲を生成します。

そして、Dance Diffusionで生成された音楽は、今日では誰も騙せません。このシステムは、あるアーティストのスタイルを別のアーティストの曲に適用することで「スタイルトランスファー」、つまりカバー曲を作ることはできますが、数秒を超えるクリップや、意味不明な歌詞を生成することはできません(下のクリップを参照)。これは、Harmonaiがまだ克服していない技術的なハードルの結果だと、独学のゲーム開発者でHarmonai DiscordのメンバーでもあるNicolas Martel氏は言います。

「このモデルは一度に1.5秒の短いサンプルでしか学習できないため、長期的な構造を学習したり推論したりすることができません」とマーテル氏はTechCrunchに語った。「著者らはこれが問題ではないと言っているようですが、私の経験からすると、そして少なくとも論理的に言えば、それはあまり当てはまりませんでした。」

YACHT のエヴァンス氏とベクトルト氏は、AI の倫理的影響について懸念している (結局のところ、彼らは現役のアーティストである) が、こうした「スタイルの転送」はすでに自然な創造プロセスの一部になっていると指摘している。

ダンス拡散アート
画像クレジット: DALL-E 2 / OpenAI

「アーティストたちは既にスタジオで、もっと気軽でいい加減なやり方でそういうことをやっているんです」とエヴァンスは言った。「曲を書こうと腰を据えて、『フォールのベースラインとB-52'sのメロディーが欲しい。1977年のロンドンから来たようなサウンドにしたい』なんて思うんです」

しかし、エヴァンスは「Love Shack」をダークでポストパンク風にアレンジすることに興味はない。むしろ、興味深い音楽はスタジオでの実験から生まれると考えているのだ。たとえB-52'sからインスピレーションを得たとしても、最終的な作品にそれらの影響の痕跡が残らないかもしれない。

「それを実現しようとすると、失敗するんです」とエバンズ氏はTechCrunchに語った。「機械学習ツールやAIアートに惹かれた理由の一つは、その失敗の仕方でした。なぜなら、これらのモデルは完璧ではないからです。私たちが何を求めているのか、ただ推測しているだけなのです。」

エヴァンス氏は、アーティストを「究極のベータテスター」と表現し、何か新しいものを創り出すために本来の目的とは異なるツールを使う人だと語る。

「多くの場合、出来上がった作品は実に奇妙で、損なわれていて、心を乱すものになることもあるが、逆に実に奇妙で斬新なサウンドになることもある。その失敗は楽しいものだ」とエバンズ氏は語った。

倫理的な結果

OpenAI はおそらく法的な争いを予想して、Jukebox を非商用ライセンスでオープンソース化し、ユーザーがこのシステムで作成した音楽を販売することを禁止した。

マット・ドライハーストやホリー・ハーンドンといった技術者たちは、アーティストによってアーティストのために開発されたAIツールセット「Spawning AI」を設立しました。彼らのプロジェクトの一つである「Have I Been Trained」では、ユーザーが自分の作品を検索し、同意なしにAIトレーニングセットに組み込まれていないか確認できます。

「AI画像システムの学習に用いられる一般的なデータセットに何が含まれているかを人々に示し、学習への参加と不参加を選択できるツールを当初から提供しています」とハーンドン氏はTechCrunchへのメールで述べた。「また、多くの大手研究機関と協議し、合意に基づくデータは誰にとっても有益であることを説得しています。」

ダンス拡散アート
画像クレジット: DALL-E 2/OpenAI

しかし、これらの基準は任意であり、今後もおそらく任意のままである。ハーモナイはこれらの基準を採用するかどうかについては明言していない。

「Dance Diffusionは製品ではなく、現在は研究段階です」とStability AIのZach Evans氏は述べています。「Dance Diffusionの一部として公式にリリースされるすべてのモデルは、パブリックドメインデータ、クリエイティブ・コモンズライセンスのデータ、そしてコミュニティのアーティストから提供されたデータを用いて学習されています。この方法はオプトインのみですが、アーティストの皆様と協力して、オプトインによるさらなる貢献を通じてデータの拡充に努めてまいります。Holly Herndon氏とMat Dryhurst氏、そして彼らが新たに設立したSpawning社の取り組みに敬意を表します。」

YACHT のエヴァンス氏とベヒトルト氏は、AI によって生成されたアートの出現と他の新しいテクノロジーの間に類似点を見出しています。

「あらゆる分野で同じパターンが繰り返されるのを見ると、特に苛立たしいです」とエバンズ氏はTechCrunchに語った。「ソーシャルメディアにおけるセキュリティとプライバシーへの怠慢が、ハラスメントにつながる例を私たちは見てきました。ツールやプラットフォームが、自分の仕事の長期的な影響や社会への影響を考えない人々によって設計されると、事態は悪化してしまうのです。」

初期のDance Diffusionモデルの学習に楽曲が使用されたジョナサン・マン氏は、TechCrunchに対し、生成AIシステムについて複雑な思いを抱いていると語った。マン氏は、Harmonaiは学習に使用するデータについて「思慮深く」扱っていると考えている一方で、OpenAIのような他の企業はそこまで慎重ではないと考えている。

「Jukeboxは何千人ものアーティストに無断でトレーニングされていました。驚きです」とマン氏は述べた。「多くの人の音楽が無断で使用されていたことを知りながら、Jukeboxを使うのは奇妙な感覚です。私たちは未知の領域に足を踏み入れているのです。」

ダンス拡散アート
画像クレジット: DALL-E 2/OpenAI

創造力

ネブラスカ大学リンカーン校で芸術を専攻し、公式Discordコミュニティ「Stable Diffusion」のモデレーターを務めるゴードン・トゥオミコスキ氏は、Dance Diffusionには計り知れない芸術的可能性があると考えている。彼は、Harmonaiサーバーのメンバーの中には、ダブステップの「ウェブ」、キック、スネアドラム、バックボーカルを学習させたモデルを作成し、それらを組み合わせてオリジナル曲を制作している人もいると指摘する。

「ミュージシャンとして、私は間違いなく、サンプルやループにDance Diffusionのようなものを使うと思います」とTuomikoski氏はメールでTechCrunchに語った。

マーテル氏は、Dance Diffusionが将来、シンセサイザーやエフェクトプラグインをレコーディングシステムやオーディオ編集ソフトウェアに接続するために使われるデジタル規格であるVSTに取って代わるだろうと見ている。例えば、70年代のジャズロックやカンタベリーミュージックでトレーニングされたモデルは、ジョン・マーシャルのようなアーティストと同じように、ドラムに繊細なドラムロールや「ゴーストノート」といった新しい「テクスチャ」をインテリジェントに導入できるようになるという。しかも、通常は必要な手作業によるエンジニアリング作業は不要だ。

たとえば、セネガルの太鼓のダンス拡散モデルを見てみましょう。

そしてこの罠の模型:

これは、3オクターブにわたってDのキーで歌う男性合唱団のモデルです。

ロイヤリティフリーのダンスミュージックで微調整されたマンの曲のモデルは次のとおりです。

「通常、MIDIファイルに音符を打ち込んで、非常に難しいサウンドデザインをしなければなりません。この方法で人間味のあるサウンドを実現するには、非常に時間がかかるだけでなく、サウンドデザインする楽器への深い理解も必要です」とMartel氏は語る。「Dance Diffusionでは、70年代の最高のプログレッシブロックをAIに取り込むことを楽しみにしています。ピンク・フロイド、ソフト・マシーン、ジェネシスを演奏する名手ミュージシャンによる無限のオーケストラ、そしてAphex TwinやVaporwaveを注入して新たな方法でリミックスされた、様々なスタイルの数兆枚もの新作アルバム。これらはすべて、人間の創造性の頂点を極めたパフォーマンスです。しかも、すべてはあなたの個人的な好みとコラボレーションするのです。」

マン氏はさらに大きな野望を抱いている。現在、JukeboxとDance Diffusionを組み合わせて音楽生成を試しており、他の人にも同様のツールをリリースする予定だ。しかし、いつかDance Diffusionを――おそらく他のシステムと組み合わせるかもしれない――使い、自身の「デジタル版」を作り出し、自分が亡くなった後もSong A Dayプロジェクトを継続できるようにしたいと考えている。

「具体的な形はまだはっきりとはしていませんが…Harmonaiの皆さんやJukebox Discordで出会った人たちのおかげで、ここ数ヶ月で過去4年間で最も大きな進歩を遂げたと感じています」とマン氏は語った。「Song A Dayの曲は5,000曲以上あり、歌詞だけでなく、ムード、ジャンル、テンポ、キー、さらには場所や髭(曲を書いた時に髭があったかどうか)まで、豊富なメタデータも含まれています。このデータをすべて活用することで、まるで私が自分で書いたかのように、確実に新しい曲を作成できるモデルを構築できることを願っています。A Song A Day、永遠に。

AIが新しい音楽をうまく作れるようになったら、ミュージシャンはどうなるのでしょうか?

YACHTのエヴァンス氏とベヒトルト氏は、新しいテクノロジーが芸術シーンを揺るがした例は過去にもあったが、その結果は予想ほど悲惨なものではなかったと指摘する。1980年代、英国音楽家組合はシンセサイザーの使用を禁止しようとした。シンセサイザーはミュージシャンの仕事を奪い、彼らの仕事に取って代わると主張したのだ。

「シンセサイザーの登場で、多くのアーティストがこの新しいものを受け入れ、拒絶するどころか、テクノ、ヒップホップ、ポストパンク、ニューウェーブといった音楽を生み出しました」とエヴァンスは語った。「ただ、今は変化があまりにも急速に起こっているので、これらのツールの影響を消化し、理解し、理解する時間がないのです。」

それでもYACHTは、AIが最終的にはミュージシャンが日常業務として行っているコマーシャルの楽譜作成といった作業に取って代わるのではないかと懸念している。しかし、ハーンドン氏と同様に、彼らもAIが創作プロセスを完全に再現できるとは考えていない。

「AIツールが人間の表現の重要性に取って代わると考えるのは、議論を呼ぶだけでなく、芸術の機能に対する根本的な誤解です」とハーンドン氏は述べた。「自動化システムが、私たち社会がインターネット上の芸術やジャーナリズムをいかに軽視してきたかという重要な問題を提起してくれることを願っています。代替となる物語について憶測するよりも、これを人間を再評価する新たな機会として捉えたいのです。」

AIはポルノ生成の精度を上げている。その結果に私たちは備えていないかもしれない。