AIスタートアップ企業Cohereの非営利研究室であるCohere For AIは今週、マルチモーダルな「オープン」AIモデルであるAya Visionをリリースした。同研究室は、これがクラス最高だと主張している。
Aya Visionは、画像のキャプションの作成、写真に関する質問への回答、テキストの翻訳、23の主要言語での要約作成などのタスクを実行できます。WhatsAppを通じてAya Visionを無料で提供しているCohereは、これを「世界中の研究者が技術革新にアクセスできるようにするための重要な一歩」と評しました。
「AIは大きく進歩しましたが、異なる言語間でのモデルのパフォーマンスには依然として大きなギャップが存在します。これは、テキストと画像の両方を扱うマルチモーダルタスクにおいて特に顕著になります」とCohereはブログ記事に記しています。「Aya Visionは、このギャップを埋めることを明確に目指しています。」
Aya Visionには、Aya Vision 32BとAya Vision 8Bの2種類があります。Cohere社によると、より高性能なAya Vision 32Bは「新たな境地」を切り開き、Meta社のLlama-3.2 90B Visionを含む、その2倍のサイズのモデルを、特定の視覚理解ベンチマークで凌駕しています。一方、Cohere社によると、Aya Vision 8Bは、いくつかの評価において、その10倍のサイズのモデルよりも優れたスコアを記録しています。
両モデルは、AI開発プラットフォームHugging Faceから、Cohereの許容利用に関する補足条項を含むクリエイティブ・コモンズ4.0ライセンスの下で入手可能です。商用利用はできません。
Cohere氏によると、Aya Visionは英語のデータセットの「多様なプール」を用いて学習され、研究室はそれを翻訳して合成アノテーションを作成したという。タグやラベルとも呼ばれるアノテーションは、学習プロセス中にモデルがデータを理解・解釈するのに役立ちます。例えば、画像認識モデルを学習するためのアノテーションは、物体の周囲にマーキングを施したり、画像に描かれた人物、場所、物体それぞれに言及するキャプションを付与したりといった形を取る場合があります。

Cohereによる合成アノテーション(つまりAIによって生成されたアノテーション)の利用は、トレンドとなっています。潜在的な欠点があるにもかかわらず、OpenAIをはじめとする競合他社は、実世界のデータが枯渇するにつれて、モデルの学習に合成データを活用するケースが増えています。調査会社ガートナーは、昨年AIおよび分析プロジェクトに使用されたデータの60%が合成データだったと推定しています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Cohere によれば、Aya Vision を合成アノテーションでトレーニングすることで、研究室はより少ないリソースで競争力のあるパフォーマンスを実現できるようになりました。
「これは、効率性と、より少ない計算リソースでより多くの成果を上げることへの私たちの重要な焦点を示すものです」とCohereはブログに記しています。「これにより、計算リソースへのアクセスが制限されることが多い研究コミュニティへのサポートも強化されます。」
Cohere は Aya Vision と共同で、2 つの画像の違いを識別したり、スクリーンショットをコードに変換するなどの「視覚言語」タスクにおけるモデルのスキルを調査するために設計された新しいベンチマーク スイート AyaVisionBench もリリースしました。
AI業界は、一部の人々が「評価危機」と呼ぶ状況の真っ只中にあります。これは、AIユーザーが最も重視するタスクにおける熟練度とはあまり相関しない総合スコアを示すベンチマークの普及に起因するものです。Cohereは、AyaVisionBenchがこの状況を是正するための一歩であり、モデルのクロスリンガルおよびマルチモーダル理解を評価するための「広範かつ挑戦的な」フレームワークを提供すると主張しています。
運が良ければ、確かにそうなるでしょう。
「このデータセットは、多言語環境および現実世界の環境における視覚言語モデルを評価するための堅牢なベンチマークとして役立ちます」と、Cohereの研究者はHugging Faceへの投稿で述べています。「この評価セットを研究コミュニティに提供することで、多言語マルチモーダル評価の推進に貢献します。」
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る