オープンブックリポジトリ「プロジェクト・グーテンベルク」は、合成音声を用いて数千ものタイトルをほぼ一夜にしてオーディオブック化し、複数のサービスでダウンロードまたはストリーミング配信を開始しました。収録作品は少々特異なものですが(実際、このアーカイブは全体的に特異です)、それでも文学におけるアクセシビリティの力強い実証となっています。
従来のナレーションによるオーディオブックの制作は、最良の場合でも当然ながらかなり長い時間がかかります。読者には時間に対する報酬を支払う必要があり、編集と出版という作業も発生します。多くの作品にとって、オーディオブックの制作は経済的に採算が取れないため、古くてあまり知られていない作品の多くは、オーディオブック形式を好む人々にとって依然として入手困難な状況となっています。
プロジェクト・グーテンベルクは、言うまでもなく、パブリックドメインの文献を可能な限り多くの形式で普及させることに尽力しており、このギャップを埋めることは長年にわたり彼らの課題となっていたと言えるでしょう。しかし、MITとマイクロソフトと提携して初めて、AI生成音声を用いてこれらの書籍に命を吹き込むために必要なコードマジックを実現できたのです。
PGアーカイブの問題点は、その価値は高いものの、ファイルのフォーマットが統一されていないことです。ファイルは様々なソースから収集されており、多くの場合、光学式文字認識(OCR)プロセスにエラーがつきものです。また、ボランティアによる編集や修正も不完全な場合が多いです。たとえ完璧なファイルだとしても、そのフォーマットが機械で容易に読み取れるとは限りません。ページ番号や脚注、その他の一時的な情報だけが羅列されてしまうでしょう。
「プロジェクト・グーテンベルクの電子書籍はどれも、独特のHTML形式で、表、目次、索引、ページ番号など、読み上げられたくないテキストが多数含まれています。プロジェクトで最も困難だったのは、読み上げに適したテキストを抽出することでした」と、マイクロソフトとMITに所属するプロジェクト共同リーダーのマーク・ハミルトン氏は説明する。
これを解決するために、彼らはアーカイブを調べて同様の形式の書籍ファイルを識別し、それらのクラスターのうちどれが自動的に読み上げられるのに最も適しているかを判断するシステムを設計しました。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
この最初のバッチは、選択がやや制限されており、少し特異です。たとえば、ディケンズの本は 1 冊 (未完の「エドウィン ドルード」) しかありませんが、「Notes and Queries、第 176 号、1853 年 3 月 12 日、文学者、芸術家、古物収集家、系図学者などのための相互コミュニケーション手段」のような本が 12 冊あります。
「最初のバッチの書籍は、自動パーサーがそれなりにうまく処理できると判断した範囲で選定しました」とハミルトン氏は続けた。「しかしながら、重要な良書がいくつか見落とされてしまいました。最初のバッチが完成した今、システムを一般化し、将来のリリースで6万冊に近づけるべく取り組んでいます。」
ナレーション自体については、チームは複数の機械学習と合成音声ツールを組み合わせており、ここ数年で改良が進み、より使いやすくなりました。数年前には、オーディオブックの自動制作が間もなく実現することは明らかでしたが、今やその通りになり、しかも大規模に展開しています。
WellSaidは、自然な音声合成を本物の人間の音声に代わる信頼できるものにすることを目指している。
このプロジェクトに関する論文では、生成されたオーディオブックを魅力的なものにするためのアプローチについて次のように説明しています。
テキストの感情的な読み上げを実現するために、自動話者・感情推論システムを用い、文脈に応じて読み上げの声とトーンを動的に変更します。これにより、複数の登場人物や感情的な会話が含まれる文章をよりリアルで魅力的なものにします。この目的のために、まずテキストをナレーションと会話に分割し、各会話セクションの話者を特定します。次に、自己教師学習を用いて各会話の感情を予測します。最後に、提案されたマルチスタイル・コンテキストベースのニューラルテキスト読み上げモデルを用いて、ナレーターと登場人物の会話にそれぞれ別々の声と感情を割り当てます。
最初の約 5,000 冊は Spotify、Apple Podcasts、インターネット アーカイブで無料で聴くことができ、作成に使用されたコードは GitHub で文書化されています。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る