ディープフェイクやその他のAIによる欺瞞と組み合わせられることで、合成音声は昨今、恐ろしい存在となりつつありますが、同時に、自分で話すことができなくなった人にとっては欠かせないツールでもあります。Acapela Groupは、こうした人々を念頭に置き、誰でも無料でAI音声プロファイルをトレーニングできる新しい「自分の声」サービスを提供しています。
Acapela は音声合成分野に約 25 年携わっており、最近、技術アクセシビリティの大手 Tobii Dynavox に買収されましたが、現在も独立して運営されています。
多くの業界と同様に、アクセシビリティも消費者規模の機械学習プロセスの登場に大きく影響を受けています。Acapelaの共同創業者であるレミー・カディック氏は、7~8年前は合成音声を自分用にカスタマイズするのは面倒なだけでなく、結果も特に良いものではなかったと振り返ります。
「以前は非常に時間がかかりました。患者は8時間も訓練しなければなりませんでした。今では、たった50文を録音するだけで音声を保存できます。約10分で、翌日には音声が完成します」と彼は語った。「ニューラルテキスト読み上げ技術には、間違いなく革命が起こっているのです。」
自分の声で音声を生成する音声生成器があれば、ますます多くの人が喜ぶでしょう。リストから選ぶのは少々人間らしさを失ってしまいます。使いたい声を持っている人はたくさんいますが、それが選択肢として提供されるようになったのはつい最近のことです。
どれだけ早くて簡単か、冗談抜きで説明されていました。新しい「自分の声」機能を試してみたところ、本当に50個の短い文章を入力するだけで済みました。小説、レシピ本、記事といった(一見ランダムな)コーパスから抽出した文章です。録音インターフェースはシンプルで使いやすく、案の定、1日ほどで音声が使える状態になりました。音質は良好で、一部のモデルのように不気味なほどではありませんが、(宣伝通り)明らかに自分の声で、デモページでどんな文章でも読み上げてくれました。
今では、必要な時に有料でダウンロードして、対応する音声生成システムで使用できます。もちろん、Tobii DynavoxのTD Talkやデバイスも含まれます。実は、同社は先週新しい製品をリリースしたばかりで、これらのデバイスはかなり洗練されつつあります。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

そして、これがこのすべての真の目的です。これは、ニューラル音声技術の威力を示す技術的なデモンストレーションでも、有名人の声を入力すれば誰でもクローンできるデモでもありません。これは、最近まで自分の声を保存したいと思っても選択肢がなかった、あるいはせいぜい困難で複雑なプロセスを経なければならなかった人々のために特別に作られたツールなのです。
変性疾患、がん、あるいは特定の手術を控えている多くの人は、数ヶ月あるいは数年のうちに、うまく話せなくなる、あるいは全く話せなくなるかもしれないことを知っています。自分の声を保存するプロセスを可能な限り容易にすることは、多くの人が喜ぶサービスです。
「大きな強みの一つは、子供向けのカスタマイズにも対応していることです。録音台本を読みやすくし、子供向けの合成音声の音質を向上させるようシステムを調整しました。これは世界で初めて実現し、今もなおこの方向性を追求しています」とカディック氏は述べた。
保存した音声を録音して再録音したり、人工的に老化させたりできるというのは、新しくて難しい機能ですが、成果が出ているようです。
最新のニューラル処理チップを搭載していないオフラインデバイスとの互換性も、重要な差別化要因です。「音声を簡単に作成できるオンラインソリューションはありますが、クラウド経由でしか利用できず、現実的ではありません」と彼は述べています。
ちなみに、50文の音声は、まだ読んだり話したりできる人にとっては素晴らしいものですが、その能力を失った人の音声録音を使って音声をトレーニングすることもできます。ただし、それほど簡単ではありません。
同社はまた、学習プロセスにおける多様性と思慮深さが他のAIアプリケーションと同様に重要であることも発見しました。カディック氏は、一部の超高速学習技術の問題点として、「学習教材の中でユーザーに最も近い話者を見つけようとするだけになってしまう」点を指摘しました。しかし、学習教材の中に元の音声に近い話者がいなければ、元の音声には聞こえないのです。
Acapelaのプロダクトマネージャー、ニコラス・マザール氏は、学習データの不足に起因する多くのAIの問題と同様に、この問題も均等に分散されているわけではないと付け加えた。「このプロセスは平均的な50歳の白人男性にはうまく機能しますが、アフリカ系アメリカ人男性や英語が苦手な人にはうまく機能しません。私たちは23の言語で業務を行っており、障害を持つユーザーも多くいます。ユーザーからのフィードバックを重視し、ユーザーのために、ユーザーによって開発されるものを目指しています。」
録音とバンキングのプロセスは無料です。こちらからアカウントを登録して、数分で独自の合成音声をトレーニングできます。デバイスにダウンロードしてインストールする場合のみ、料金が発生します。
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る