AmazonがマルチモーダルAIモデルの新ファミリー「Nova」を発表

AmazonがマルチモーダルAIモデルの新ファミリー「Nova」を発表

アマゾンのクラウドコンピューティング部門であるAmazon Web Services(AWS)は、火曜日のre:Inventカンファレンスで、「Nova」と呼ぶ新しいマルチモーダル生成AIモデルファミリーを発表した。

テキスト生成モデルは、Micro、Lite、Pro、Premierの4種類です。AmazonのCEO、アンディ・ジャシー氏はステージ上で、Micro、Lite、Proは火曜日からAWSの顧客に提供開始され、Premierは2025年初頭にリリース予定であると述べました。

これらに加えて、画像生成モデル「Nova Canvas」と動画生成モデル「Nova Reel」もございます。どちらも今朝AWSでリリースされました。

「私たちは独自のフロンティアモデルの開発を続けてきました」とジャシー氏は述べた。「そして、それらのフロンティアモデルはここ4~5ヶ月で飛躍的な進歩を遂げました。私たちがそれらのモデルから価値を見出せているのであれば、皆さんもきっと価値を見出せるだろうと考えました。」

マイクロ、ライト、プロ、プレミア

テキスト生成 Nova モデルは 15 の言語 (主に英語) に最適化されており、サイズと機能は多岐にわたります。

Micro はテキストの取り込みと出力のみ可能ですが、最も低いレイテンシを実現し、テキストの処理と応答の生成が最も高速です。

Liteは、画像、動画、テキスト入力を比較的高速に処理できます。Proは、様々なタスクにおいて、精度、速度、コストのバランスが取れたソリューションを提供します。Premierは最も高性能で、複雑なワークロード向けに設計されています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ProとPremierは、Liteと同様に、テキスト、画像、動画を分析できます。これら3つは、ドキュメントのダイジェストや、グラフ、会議、図表の要約といったタスクに適しています。しかしAWSは、Premierを単体で使用するモデルというよりも、調整されたカスタムモデルを作成するための「教師」モデルとして位置付けています。

Microは128,000トークンのコンテキストウィンドウを備えており、最大約100,000語を処理できます。LiteとProは300,000トークンのコンテキストウィンドウを備えており、約225,000語、15,000行のコンピュータコード、または30分の映像に相当します。

AWS によれば、2025 年初頭には、特定の Nova モデルのコンテキスト ウィンドウが拡張され、200 万を超えるトークンをサポートするようになるという。

ジャシー氏によると、Novaモデルは同クラスで最速であり、運用コストも最も低いという。AmazonのAI開発プラットフォームであるAWS Bedrockで利用可能で、テキスト、画像、動画に合わせて微調整し、速度と効率性を向上させることができる。

「これらのモデルは、独自のシステムやAPIと連携するように最適化されています。そのため、複数のオーケストレーションされた自動ステップ(エージェントの行動)を、これらのモデルを使うことではるかに簡単に実行できます」とジャシー氏は付け加えた。「ですから、これらは非常に魅力的なものだと思います。」

キャンバスとリール

Canvas と Reel は、AWS のこれまでで最も強力な生成メディアの取り組みです。

Canvasでは、プロンプト(背景の削除など)を使って画像を生成・編集でき、生成された画像の配色やレイアウトをコントロールできます。2つのモデルのうち、より高度な機能を持つReelは、プロンプトまたはオプションで参照画像から最大6秒間の動画を作成します。Reelでは、カメラの動きを調整することで、パン、360度回転、ズームなどの機能を備えた動画を生成できます。

Reel は現在 6 秒間の動画 (生成に約 3 分かかる) に制限されていますが、AWS によると、2 分間の動画を作成できるバージョンが「近日公開」される予定です。

以下にサンプルを示します。

AWS ノヴァリール
画像クレジット: AWS

そしてもう一つ:

AWS ノヴァリール
画像クレジット: AWS

以下は Canvas からの画像です。

AWS ノヴァキャンバス
AWSによると、Canvasは様々なスタイルの画像を生成でき、既存の画像を拡張したり、シーンにオブジェクトを挿入したりできるという。画像クレジット: AWS

ジャシー氏は、CanvasとReelの両方に、ウォーターマークやコンテンツモデレーションなど、責任ある利用のための「組み込み」コントロール機能が搭載されていると強調した。「(私たちは)有害コンテンツの生成を制限しようと努めています」と彼は述べた。

AWSはブログ投稿で安全対策の詳細を述べ、Novaは「誤情報、児童性的虐待コンテンツ、そして化学的、生物学的、放射線学的、または核的なリスクの拡散に対抗するために、安全対策を強化している」と述べた。しかし、これが実際に何を意味するのか、また、どのような形で対策が講じられるのかは不明である。

AWSは、自社のすべての生成モデルのトレーニングに使用しているデータが具体的にどのようなものかについても、依然として曖昧なままです。同社は以前、TechCrunchに対し、自社独自のデータとライセンスデータを組み合わせているとのみ説明していました。

このような情報を進んで開示するベンダーは少ない。彼らはトレーニングデータを競争上の優位性と捉えているため、トレーニングデータとそれに関連する情報を厳重に秘密に保持している。また、トレーニングデータの詳細は知的財産関連の訴訟の潜在的な原因となる可能性があり、これもまた情報を開示することに消極的な要因となっている。

では、Novaの今後の展開はどうなるのでしょうか?ジャシー氏によると、AWSは2025年第1四半期に音声入力と変換出力を行う音声対音声モデルの開発に取り組んでおり、2025年半ば頃には「あらゆる音声をあらゆる音声に変換する」モデルの開発も開始する予定です。

AWS re:Invent 2024 ノヴァ
画像クレジット: Frederic Lardinois/TechCrunch

アマゾンによると、音声合成モデルは、口調や抑揚といった言語的・非言語的な手がかりも解釈し、自然で「人間らしい」音声を実現できるという。一方、あらゆる音声を合成するモデルは、理論上、翻訳機からコンテンツ編集者、AIアシスタントに至るまで、様々なアプリケーションに応用できるという。

もちろん、何らの障害も生じないことが前提です。

「テキスト、音声、画像、動画を入力し、テキスト、音声、画像、動画を出力できるようになります」とジャシー氏はAny-to-Anyモデルについて述べた。「これが、最先端のモデルが構築され、利用される未来の姿です。」