
Amazonの音声アシスタントは、生成AIによるアップグレードに加え、「アレクサ」というウェイクワードを再度使用せずに会話を続ける機能に加え、より自然な音声を実現します。同社は本日、ユーザーの感情や声のトーンをよりコンテキストに応じて認識する、アップデートされた「音声合成」エンジンを発表しました。これにより、Alexaは同様の感情表現で応答できるようになります。
同社は、ロボットっぽさが少なく表現力に富んだAlexaの新しい音声をデモした。同社によれば、これはさまざまな言語やアクセントでトレーニングされた大型のトランスフォーマーによって実現されているという。
例えば、お客様がお気に入りのスポーツチームの最新情報を尋ねた際、そのチームが最新の試合に勝った場合、Alexaは喜びの声で応答します。一方、負けた場合は、Alexaはより共感的な声で応答します。
「そして私たちは、音声合成(Speech-to-Speech)と呼んでいる新しいモデルの開発に取り組んでいます。これもまた、巨大なトランスフォーマーを活用しています。まず音声認識を用いて顧客の音声リクエストをテキストに変換し、次にLLMを用いてテキスト応答またはアクションを生成し、最後に音声合成によって音声を再生するといった従来の手法ではなく、この新しいモデルではこれらのタスクを統合することで、より豊かな会話体験を実現します」と、Alexa担当SVPのロヒット・プラサド氏は述べています。
アマゾンは、Alexaは笑い、驚き、さらには「なるほど」といった、ユーザーが会話を続けるよう促す特性を示すことができるようになると述べた。
これらはすべて、AmazonのLarge Text-to-Speech(LTTS)とSpeech-to-Speech(S2S)技術によって実現されています。前者は、ユーザーのリクエストや話題などのテキスト入力に基づいてAlexaの応答を適応させ、後者はテキストに加えて音声入力も追加することで、Alexaがより会話にふさわしい豊かな応答を適応させるとAmazonは述べています。
訂正:2023年9月20日午後12時28分(東部標準時):新しいエンジンは「テキスト読み上げ」ではなく「音声読み上げ」と名付けられました。この記事はこれを反映して更新されました。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
トピック
サラは2011年8月からTechCrunchの記者として働いています。彼女はReadWriteWebで3年以上勤務した後、TechCrunchに入社しました。記者になる前は、銀行、小売、ソフトウェアなど、様々な業界のIT業界で働いていました。
Sarah からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal で sarahperez.01 に暗号化されたメッセージを送信してください。
バイオを見る