アリババ、OpenAIのO1推論モデルへの「オープン」な挑戦者をリリース

アリババ、OpenAIのO1推論モデルへの「オープン」な挑戦者をリリース

いわゆる「推論型」AIモデル「QwQ-32B-Preview」が登場しました。OpenAIのo1に匹敵する数少ないモデルの一つであり、パーミッシブライセンスでダウンロードできる最初のモデルです。

アリババのQwenチームによって開発されたQwQ-32B-Previewは、325億個のパラメータを備え、最大32,000語の長さのプロンプトを処理できます。OpenAIがこれまでにリリースした2つの推論モデルであるo1-previewとo1-miniよりも、特定のベンチマークにおいて優れたパフォーマンスを発揮します。(パラメータはモデルの問題解決能力にほぼ相当し、パラメータ数が多いモデルはパラメータ数の少ないモデルよりも一般的に優れたパフォーマンスを発揮します。OpenAIはモデルのパラメータ数を公表していません。)

Alibabaのテストによると、QwQ-32B-PreviewはAIMEとMATHテストにおいてOpenAIのo1-previewモデルを上回りました。AIMEは他のAIモデルを用いてモデルのパフォーマンスを評価し、MATHは文章題の集合です。

QwQ-32B-Previewは、「推論」機能により、論理パズルを解いたり、かなり難しい数学の問題に答えたりすることができます。しかし、完璧ではありません。Alibabaはブログ記事で、このモデルは予期せず言語を切り替えたり、ループに陥ったり、「常識的な推論」を必要とするタスクでパフォーマンスが低下する可能性があると指摘しています。

Alibaba QwQ-32B プレビュー
画像クレジット: Alibaba

ほとんどのAIとは異なり、QwQ-32B-Previewをはじめとする推論モデルは、事実確認を効果的に行います。これにより、モデルが陥りやすい落とし穴を回避できますが、解決策の導出に時間がかかるという欠点があります。o1と同様に、QwQ-32B-Previewはタスクを通して推論を行い、事前に計画を立て、モデルが答えを導き出すのに役立つ一連のアクションを実行します。

AI開発プラットフォーム「Hugging Face」上で実行・ダウンロード可能なQwQ-32B-Previewは、最近リリースされたDeepSeek推論モデルと類似しており、特定の政治的テーマについては軽視しているようだ。AlibabaとDeepSeekは中国企業であるため、中国のインターネット規制当局によるベンチマークテストの対象となっており、モデルの応答が「中核的社会主義価値観を体現している」ことを保証する。多くの中国のAIシステムは、習近平政権に関する憶測など、規制当局の怒りを買う可能性のあるトピックへの応答を拒否している。

Alibaba QwQ-32B プレビュー
画像クレジット: Alibaba

「台湾は中国の一部ですか?」という質問に対し、QwQ-32B-Previewは「そうである」(そして「不可分」でもある)と答えた。これは世界のほとんどの国とは相容れないものの、中国与党の見解とは一致している。一方、天安門事件に関する質問には無回答だった。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

Alibaba QwQ-32B プレビュー
画像クレジット: Alibaba

QwQ-32B-PreviewはApache 2.0ライセンスの下で「オープン」に利用可能であり、商用アプリケーションに利用可能です。しかし、モデルの一部のコンポーネントのみが公開されているため、QwQ-32B-Previewを複製したり、システムの内部動作について詳細な情報を得たりすることは不可能です。AIモデルの「オープン性」は必ずしも定まったものではありませんが、一般的にはよりクローズド(APIアクセスのみ)からよりオープン(モデル、重み、データが公開される)まで、様々なレベルがあり、このモデルはその中間に位置します。

推論モデルへの注目が高まる中、「スケーリング則」の実現可能性が精査され始めています。スケーリング則とは、モデルにデータと計算能力を投入すれば、その能力は継続的に向上するという長年信じられてきた理論です。OpenAI、Google、Anthropicといった主要なAI研究機関のモデルは、かつてほど劇的な進歩を遂げていないという報道が相次いでいます。

その結果、新たなAIアプローチ、アーキテクチャ、開発手法の模索が加速しました。その一つがテストタイムコンピューティングです。推論コンピューティングとも呼ばれるテストタイムコンピューティングは、モデルにタスク完了のための追加の処理時間を与えるもので、o1やQwQ-32B-Previewなどのモデルの基盤となっています。

OpenAIや中国企業以外にも、大手研究機関はテスト時のコンピューティングこそが​​未来だと確信している。The Informationの最近の報道によると、Googleは推論モデルに特化した社内チームを約200人に拡大し、その取り組みに大幅なコンピューティングパワーを追加したという。

TechCrunchではAIに特化したニュースレターを配信しています!  毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る