AmazonのAlexaはより自然な音声を実現

AmazonのAlexaはより自然な音声を実現
IR Blaster: Right now, it's possible to have the Echo and Home control a TV, but only through 3rd party devices. If the Echo or Home had a top-mounted 360-degree IR Blaster, the smart speakers could natively control TVs, entertainment systems, and heating and cooling units. Echo and Homes are naturally placed out in the open, making the devices well suited to control devices sporting an infrared port. Saying "turn on the TV" or "turn on the AC" could trigger the Echo to broadcast the IR codes from the Echo to the TV or wall-mounted AV unit. This would require Amazon and Google to integrate a complete universal remote scheme into the Echo and Home. That's not a small task. Companies such as Logitech's Harmony, Universal Remote Control and others are dedicated to ensuring their remotes are compatible with everything on the market. It seems like an endless battle of discovering new IR codes, but one I wish Amazon and Google would tackle. I would like to be able to control my electric fireplace and powered window shades with my Echo without any hassle.
画像クレジット:ブライス・ダービン / TechCrunch

Amazonの音声アシスタントは、生成AIによるアップグレードに加え、「アレクサ」というウェイクワードを再度使用せずに会話を続ける機能に加え、より自然な音声を実現します。同社は本日、ユーザーの感情や声のトーンをよりコンテキストに応じて認識する、アップデートされた「音声合成」エンジンを発表しました。これにより、Alexaは同様の感情表現で応答できるようになります。

同社は、ロボットっぽさが少なく表現力に富んだAlexaの新しい音声をデモした。同社によれば、これはさまざまな言語やアクセントでトレーニングされた大型のトランスフォーマーによって実現されているという。

例えば、お客様がお気に入りのスポーツチームの最新情報を尋ねた際、そのチームが最新の試合に勝った場合、Alexaは喜びの声で応答します。一方、負けた場合は、Alexaはより共感的な声で応答します。

「そして私たちは、音声合成(Speech-to-Speech)と呼んでいる新しいモデルの開発に取り組んでいます。これもまた、巨大なトランスフォーマーを活用しています。まず音声認識を用いて顧客の音声リクエストをテキストに変換し、次にLLMを用いてテキスト応答またはアクションを生成し、最後に音声合成によって音声を再生するといった従来の手法ではなく、この新しいモデルではこれらのタスクを統合することで、より豊かな会話体験を実現します」と、Alexa担当SVPのロヒット・プラサド氏は述べています。

アマゾンは、Alexaは笑い、驚き、さらには「なるほど」といった、ユーザーが会話を続けるよう促す特性を示すことができるようになると述べた。

これらはすべて、AmazonのLarge Text-to-Speech(LTTS)とSpeech-to-Speech(S2S)技術によって実現されています。前者は、ユーザーのリクエストや話題などのテキスト入力に基づいてAlexaの応答を適応させ、後者はテキストに加えて音声入力も追加することで、Alexaがより会話にふさわしい豊かな応答を適応させるとAmazonは述べています。

訂正:2023年9月20日午後12時28分(東部標準時):新しいエンジンは「テキスト読み上げ」ではなく「音声読み上げ」と名付けられました。この記事はこれを反映して更新されました。 

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Read more about Amazon's Fall Event on TechCrunch

トピック

サラは2011年8月からTechCrunchの記者として働いています。彼女はReadWriteWebで3年以上勤務した後、TechCrunchに入社しました。記者になる前は、銀行、小売、ソフトウェアなど、様々な業界のIT業界で働いていました。

Sarah からの連絡を確認したり連絡を受けたりする場合は、[email protected]にメールを送信するか、Signal で sarahperez.01 に暗号化されたメッセージを送信してください。

バイオを見る