アリババのQwenチームがPCやスマホを制御できるAIモデルをリリース

アリババのQwenチームがPCやスマホを制御できるAIモデルをリリース

今週、中国のAIラボDeepSeekはテクノロジー業界の注目を集めているかもしれない。しかし、国内最大のライバル企業の一つであるアリババも、黙って見ているわけではない。

アリババのQwenチームは月曜日、様々なテキストおよび画像解析タスクを実行できる新しいAIモデルファミリー「Qwen2.5-VL」をリリースしました。このモデルは、ファイルの解析、動画の理解、画像内のオブジェクトのカウント、PCの制御などが可能で、OpenAIが最近リリースしたOperatorに搭載されているモデルと類似しています。

Qwen チームのベンチマークによると、最高の Qwen2.5-VL モデルは、さまざまなビデオ理解、数学、ドキュメント分析、質問応答の評価において、OpenAI の GPT-4o、Anthropic の Claude 3.5 Sonnet、Google の Gemini 2.0 Flash を上回りました。

アリババ クウェン 2.5 VL
画像クレジット: Alibaba

Qwen2.5-VLは中国企業が開発したAIであるため、議論できるトピックには一定の制限があります。少なくともQwen Chatではそうです。Qwen2.5-VLの最大かつ最も高性能なモデルであるQwen2.5-VL-72Bに「習近平の過ち」について話させると、Qwen Chatはエラーメッセージを表示しました。

中国のインターネット規制当局は、国内で開発された多くのモデルをベンチマークし、その応答が「中核的社会主義価値観を体現している」ことを確認している。多くの中国のAIシステムは、台湾の自治権など、規制当局の怒りを買う可能性のあるトピックへの応答を拒否している。

Qwen2.5-VLの興味深い機能の一つは、PCとモバイルデバイスの両方でソフトウェアと連携できることです。Hugging FaceのテクニカルリードであるPhilipp Schmid氏がXに投稿した動画では、Qwen2.5-VLがAndroid版Booking.comアプリを起動し、重慶発北京行きの航空券を予約する様子が紹介されています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

@Alibaba_Qwen 2.5 VLをお見逃しなく!Deepseekの話題が盛り上がっている中、Qwenがついに最高のオープンマルチモーダルをリリースしました!Qwen 2.5 VLは、@OpenAIオペレーターのようにコンピューターを制御したり、チャートから構造化された情報を抽出したりできるビジョン言語モデルです。

TL;DR;
3️⃣… pic.twitter.com/GeEGVdl0tI

— フィリップ・シュミット(@_philschmid)2025年1月27日

下のビデオでは、Qwen2.5-VLモデルがLinuxデスクトップ上のアプリを操作していますが、タブの切り替え以外にはあまり機能していないようです。Qwenのベンチマークテストでは、実際のコンピュータ環境を模倣するOSWorldでQwen2.5-VLのスコアが低いことが、その証拠かもしれません。

爆笑!Qwen 2.5 VL は箱から出してすぐにコンピュータ操作が可能で、OpenAI Operator に真っ向から挑むことができるんだ!🐐 pic.twitter.com/lwMECXzNSu

— Vaibhav (VB) Srivastav (@reach_vb) 2025 年 1 月 27 日

Qwen2.5-VLシリーズの2つの小型で低性能なモデル、Qwen2.5-VL-3BとQwen2.5-VL-7Bは、パーミッシブライセンスで提供されています。一方、フラッグシップモデルのQwen2.5-VL-72BはAlibabaのカスタムライセンスで提供されており、月間アクティブユーザー数が1億人を超える企業や開発者は、このモデルを商用展開する前にQwen/Alibabaに許可を申請する必要があります。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る