DeepLは音声と動画からリアルタイムのテキスト翻訳を実現するDeepL Voiceをリリースした。

Cemubo vgnpne 0

Mac

DeepLは、Googleなどのサービスよりもニュアンスが細かく正確であると主張するオンラインテキスト翻訳で名を馳せており、この売り文句によってこのドイツのスタートアップは評価額20億ドル、有料顧客10万人超を獲得した。

AIサービスへの期待が高まる中、DeepLはプラットフォームに新たなモード「音声」を追加します。ユーザーはDeepL Voiceを使用して、ある言語で話している人の音声をリアルタイムで自動翻訳できるようになります。

DeepLは現在、英語、ドイツ語、日本語、韓国語、スウェーデン語、オランダ語、フランス語、トルコ語、ポーランド語、ポルトガル語、ロシア語、スペイン語、イタリア語を「聞き取る」ことができます。DeepL翻訳が現在対応している33言語すべてで、翻訳された字幕をご利用いただけます。

**画像クレジット:** DeepL (新しいウィンドウで開きます)、(新しいウィンドウで開きます)ライセンスに基づきます。

DeepL Voiceは現在、結果を音声ファイルまたは動画ファイル自体として配信するまでには至っていません。このサービスはリアルタイムのライブ会話やビデオ会議を目的としており、音声ではなくテキストとして配信されます。

まず、翻訳結果をスマートフォンの「鏡」のように表示するように設定できます。これは、会議テーブルでスマートフォンを互いの手の間に置いて、翻訳された言葉を確認できるようにするものです。あるいは、誰かと並べて共有する書き起こしとして表示することもできます。ビデオ会議サービス側では、翻訳結果は字幕として表示されます。

同社の創業者兼CEOであるジャレク・クティロウスキー氏（写真上）はインタビューで、それは時間とともに変化する可能性があると示唆した。これはDeepLにとって初の音声対応製品だが、これが最後になる可能性は低いだろう。「（音声対応は）来年、翻訳の主役となるだろう」と彼は付け加えた。

この主張を裏付ける証拠は他にもあります。DeepLの最大のライバルであるGoogleも、ビデオ会議サービス「Meet」にリアルタイム翻訳の字幕を組み込み始めました。また、AI音声専門のElevenLabs（ElevenLabs Dubbing）や、「ディープフェイク」音声とそれに合わせた動画を用いて翻訳を行うPanjayaなど、音声翻訳サービスを開発しているAIスタートアップは数多く存在します。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

後者はElevenLabsのAPIを使用しており、Kutylowski氏によると、ElevenLabs自体もDeepLの技術を使用して翻訳サービスを提供しています。

まだリリースされていない機能はオーディオ出力だけではありません。

また、音声製品用のAPIは現時点では提供されていません。DeepLの主な事業はB2Bに特化しており、クティロウスキー氏によると、同社はパートナーや顧客と直接連携しているとのことです。

連携の選択肢も限られている。現在、DeepLの字幕に対応しているビデオ通話サービスはTeamsのみで、「ほとんどの顧客をカバーしています」とクティロウスキー氏は述べた。ZoomやGoogle Meetが将来的にDeepL Voiceをいつ、あるいは本当に搭載するかどうかについては、まだ何も発表されていない。

DeepLユーザーにとって、この製品の登場は待ちに待ったものとなるだろう。それは、翻訳を目的とした他のAI音声サービスが溢れているからというだけではない。クティロウスキー氏によると、これはDeepLがローンチした2017年以来、顧客からの最大の要望だったという。

DeepLが製品開発に慎重なアプローチをとってきたことが、この待ち時間の一因となっている。AIアプリケーション業界では、他社の大規模言語モデル（LLM）に依存して微調整する企業が数多く存在するが、DeepLはサービスをゼロから構築することを目指している。7月には、翻訳向けに最適化された新しいLLMをリリースした。DeepLによると、このLLMはGPT-4やGoogle、MicrosoftのLLMよりも優れた性能を発揮する。これは、DeepLの主な用途が翻訳であることも一因となっている。DeepLは、出力結果と用語集の品質向上にも継続的に取り組んでいる。

同様に、DeepL Voice のユニークなセールスポイントの 1 つは、リアルタイムで動作することです。これは、市場にある多くの「AI 翻訳」サービスが実際には遅延して動作し、DeepL が取り組んでいるユースケースであるライブシチュエーションでの使用が困難または不可能になるため、重要な点です。

クティロウスキー氏は、これが新しい音声処理製品がテキストベースの翻訳に重点を置いているもうひとつの理由だと示唆した。テキストベースの翻訳は非常に高速に計算・生成できるが、音声や動画を同程度に高速に生成できるようになるまでには、処理と AI アーキテクチャの進歩がまだ必要だからだ。

DeepL Voice の活用事例としてはビデオ会議やミーティングが考えられますが、クティロウスキー氏は、同社が想定しているもう一つの大きな活用事例はサービス業界だと指摘しました。例えば、レストランの最前線で働く従業員が、顧客とのコミュニケーションをより容易にするためにこのサービスを利用できる可能性があるということです。

これは役に立つかもしれないが、同時にこのサービスの問題点の一つを浮き彫りにしている。データ保護への意識が急激に高まり、新しいサービスやプラットフォームが個人情報や機密情報を不正に利用しているのではないかという懸念が高まっている現代において、人々が自分の声がこのように拾い上げられ、活用されることにどれほど前向きになるかは、まだ分からない。

クティロウスキー氏は、音声は翻訳のためにサーバーに送られる（処理はデバイス上で行われない）ものの、システムに保存されることはなく、LLMのトレーニングにも使用されないと主張した。DeepLは最終的に、顧客がGDPRやその他のデータ保護規制に違反しないよう、顧客と協力していくという。

イングリッドは、2012 年 2 月から 2025 年 5 月まで、ロンドンを拠点に TechCrunch のライター兼編集者として活躍しました。

TechCrunch以前、イングリッドはpaidContent.orgでスタッフライターとして勤務し、過去にはFinancial Timesなど他の出版物にもフリーランスとして定期的に記事を執筆していました。イングリッドは、モバイル、デジタルメディア、広告、そしてそれらが交差する分野を専門としています。

仕事に関しては、彼女は英語で話すのが一番快適だと感じていますが、ロシア語、スペイン語、フランス語も話せます（能力の高い順に）。

バイオを見る

Posted by Cemubo