Pocket FMはElevenLabsと提携し、スクリプトを音声コンテンツに素早く変換します

Pocket FMはElevenLabsと提携し、スクリプトを音声コンテンツに素早く変換します

ライトスピード・ベンチャーズが支援するオーディオプラットフォーム「ポケットFM」は、音声複製会社イレブンラボと提携し、AIを使ってスクリプトなどのテキストコンテンツをオーディオシリーズに素早く変換すると発表した。

3月にシリーズDラウンドで1億300万ドルを調達したPocket FMは、当時TechCrunchに対し、ElevenLabsの技術を用いてテキストコンテンツを音声に変換する機能を既に実験中であると語っていました。インドに拠点を置く同社は現在、パートナーシップを拡大し、今後数週間ですべてのクリエイターがこの変換ツールを利用できるようにする予定です。

Pocket FMは、試験段階でElevenLabのAI技術を用いて既に3万時間分の音声シリーズを制作しています。今回の導入により、同社は今年中に10万時間を超える音声コンテンツライブラリを3倍に増やすと見込んでいます。Pocket FMはまた、試験段階でAIを活用したツールによって音声制作コストを90%削減できたと述べています。

Pocket FM によるテキストから音声コンテンツへの変換
画像クレジット: Pocket FM

Pocket FMの共同創業者兼CTOのPrateek Dixit氏は、TechCrunchとの電話会議で、この提携によってライターが自分の文章をより簡単にオーディオシリーズに変換できるようにしたいと語った。

「当社には25万人以上の作家がいます(当社のPocket Novel執筆プラットフォームの作家も含みます)。この提携により、彼らのセットアップとオーディオ録音のコストが削減されます」と彼は語った。

「録音ツールと機材をきちんと整えても、ライターが1日に制作できる高品質な音声コンテンツは30分程度です。AIツールを使えば、その10倍の量を制作できます」と彼は付け加えた。

Pocket FMはElevenLabsの技術を統合したツールを開発し、コンテンツを音声化したいライター向けに50種類の音声を提供しています。ElevenLabsの共同創業者であるマティ・スタニシェフスキー氏は、同社のツールは文章の文脈を理解し、音声から感情を自動的に推測すると述べています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「ポケットFMと連携して、文章のジャンルを理解し、感情をより良く理解する新しいモデルを展開しています」とスタニシェフスキー氏は語った。

ディキシット氏は、この種のコンテンツに対するユーザーの関与に関するデータに基づいて、プラットフォームでは特定のジャンルの作家に適した声を提案することも計画していると述べた。

Pocket FMは、AIを活用したツールを実験している唯一のオーディオシリーズプラットフォームではありません。Googleが支援するKuku FMは、GPT-4、Claude、BandLab、さらにはElevenLabsを活用し、脚本の修正、サムネ​​イルの生成、効果音の追加、テキストの音声変換など、制作の様々な段階でライターを支援しています。

Kuku FMはTechCrunchに対し、コンテンツに関連した広告を作成するためにMidjourneyやRunwayなどのビジュアル生成ツールを使用する実験も行っていると語った。

コンテンツの質とアーティストへの影響

AI搭載ツールはより多くのコンテンツをより速く生成することを約束しますが、それは必ずしもコンテンツの質が高いことを意味するわけではありません。Pocket FMは、発見を支援し、質の高いコンテンツを浮き彫りにするために、発見アルゴリズムを洗練させ、ユーザーエンゲージメントの実験を行っています。

「作家がオーディオシリーズを出版した場合、私たちはそのコンテンツを厳選した数のユーザーに公開し、エンゲージメント指標を観察します。これらの指標が肯定的であれば、さらに広めていきます」とディキシット氏は述べた。

Kuku FMは、たとえクリエイターが制作過程でAIを使用したとしても、高品質のコンテンツのみがアプリで宣伝されるように品質管理チームと協力していると述べた。

「オーディオコンテンツ制作においては、意思決定の中心に人間による品質管理チームを置くことの重要性を認識しました。私たちは、芸術的基準に対する高い所有権と権限を持つコンテンツプロデューサーのコアチームを育成しました」と、同社の共同創業者兼CEOであるラル・チャンド・ビス氏は述べています。

AIを活用することで、これらのプラットフォームはより迅速に成果を上げ、コンテンツライブラリを拡大できる可能性がありますが、同時に、それらと連携するナレーターの役割も縮小することになります。インドのナレーター協会(AVA)は、AIによる支配への懸念を表明しています。

「AIが支配するようになったら、私たちは終わりです。声優として、私たちの生活が守られるよう、何らかの規制を整備する必要があります」と、同協会の事務局長アマリンダー・シン・ソディ氏はインドの新聞「スクロール」に語った。

ソディ氏はまた、ナレーターたちがスタジオに呼ばれてAIのトレーニング用のサンプルを録音していた事件についてもスクロール誌に語った。

「感情的なレベルで、怖いです。AIを使うことで、人間が持つ物語の体験が本質的に薄められてしまいます。感情的なつながりを失ってしまうのです」と、デリーを拠点とするナレーター、アディティア・マトゥー氏はTechCrunchに語った。

同氏はさらに、質の高いコンテンツを制作するセンスとスキルを持たない人々にプレミアム音声へのアクセスを与えると、市場が質の悪いコンテンツで溢れかえることになるだろうと付け加えた。

世界の他の地域の声優たちも、AIが仕事に影響を与えるのではないかと懸念を表明しています。AI企業と仕事をしているにもかかわらず、自分の声が加工されることに不安を感じている人もいます。

Pocket FMにおけるAI音声生成の影響について質問したところ、同社は直接的な回答をしませんでした。しかし、Dixit氏は、実験においてAI生成コンテンツへのエンゲージメントは「人間のナレーション制作と同等」であると述べています。注目すべきは、同社が複数の音声を1つの音声出力に組み込む技術にも取り組んでいることです。

Pocket FM と Kuku FM は現在どちらも、制作プロセスで AI が使用されたかどうかを示すラベルをコンテンツに付けていません。