DeepSeekの新しいAIモデルは、これまでで最高の「オープン」な挑戦者の1つであるようだ。

Cemubo vgnpne 0

Airpods

中国の研究所が、これまでで最も強力な「オープン」AIモデルの1つと思われるものを作成した。

このモデル「DeepSeek V3」はAI企業DeepSeekによって開発され、開発者が商用アプリケーションを含むほとんどのアプリケーション向けにダウンロードして変更できる許容ライセンスのもと、水曜日にリリースされた。

DeepSeek V3 は、コーディング、翻訳、説明プロンプトからのエッセイやメールの作成など、さまざまなテキストベースのワークロードとタスクを処理できます。

DeepSeekの社内ベンチマークテストによると、DeepSeek V3は、ダウンロード可能な「オープン」なモデルと、API経由でのみアクセスできる「クローズド」なAIモデルの両方を凌駕する性能を示しました。プログラミングコンテストプラットフォームであるCodeforcesで開催される一部のコーディングコンテストでは、DeepSeekはMetaのLlama 3.1 405B、OpenAIのGPT-4o、AlibabaのQwen 2.5 72Bといった他のモデルよりも優れた性能を示しました。

DeepSeek V3 は、モデルが既存のコードに統合される新しいコードを正常に作成できるかどうかを測定するように設計されたテストである Aider Polyglot でも競合を圧倒しています。

ディープシークV3!

60トークン/秒（V2より3倍高速！）
API互換性はそのまま
完全にオープンソースのモデルと論文
671BのMoEパラメータ
37Bのアクティブパラメータ
14.8Tの高品質トークンでトレーニング済み

ほぼすべてのベンチマークで Llama 3.1 405b を上回ります https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf

— Chubby♨️ (@kimmonismus) 2024年12月26日

DeepSeekは、DeepSeek V3が14.8兆トークンのデータセットで学習されたと主張しています。データサイエンスでは、トークンは生データのビットを表すために使用され、100万トークンは約75万語に相当します。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

巨大なのはトレーニングセットだけではありません。DeepSeek V3は、パラメータ数が6,710億、AI開発プラットフォームHugging Faceでは6,850億と、その規模は膨大です。（パラメータとは、モデルが予測や判断を行うために使用する内部変数です。）これは、4,050億のパラメータを持つLlama 3.1 405Bの約1.6倍に相当します。

DeepSeek (中国の AI 企業) は今日、非常に低い予算 (2048 GPU、2 か月、600 万ドル) でトレーニングされたフロンティアグレードの LLM のオープンウェイトリリースにより、それを簡単に実現しているように見えます。
参考までに、このレベルの機能を実現するには、16K 個近くの GPU のクラスターが必要になるとされています。… https://t.co/EW7q2pQ94B
— アンドレイ・カルパシー (@karpathy) 2024 年 12 月 26 日

パラメータ数は多くの場合（常にではありませんが）、スキルと相関関係にあります。パラメータ数が多いモデルは、パラメータ数の少ないモデルよりも優れた性能を発揮する傾向があります。しかし、大規模なモデルを実行するには、より強力なハードウェアも必要です。DeepSeek V3の最適化されていないバージョンでは、妥当な速度で質問に答えるには、ハイエンドGPUバンクが必要になります。

DeepSeek V3は最も実用的なモデルではないものの、いくつかの点で大きな成果と言えるでしょう。DeepSeekは、NVIDIA H800 GPUを搭載したデータセンターを用いて、わずか2ヶ月ほどでこのモデルの学習に成功しました。このGPUは、最近米国商務省によって中国企業の調達が制限されました。DeepSeekは、DeepSeek V3の学習にわずか550万ドルしか費やしていないと主張しており、これはOpenAIのGPT-4のようなモデルの開発コストのほんの一部に過ぎません。

欠点は、モデルの政治的見解が少々…ぎこちないということです。例えば、DeepSeek V3に天安門事件について尋ねても、答えてくれません。

中国企業であるDeepSeekは、中国のインターネット規制当局によるベンチマークの対象となっており、そのモデルの応答が「中核的社会主義価値観を体現している」ことを保証する。多くの中国のAIシステムは、習近平政権に関する憶測など、規制当局の怒りを買う可能性のあるトピックへの応答を拒否している。

11月下旬にOpenAIのo1「推論」モデルへの回答となるDeepSeek-R1を発表したDeepSeekは、興味深い組織です。同社は、AIを取引判断に活用する中国のクオンツヘッジファンド、High-Flyer Capital Managementの支援を受けています。

High-Flyerは、モデルトレーニング用の独自のサーバークラスターを構築しており、最新のクラスターの一つは1万基のNvidia A100 GPUを搭載し、10億円（約1億3800万ドル）の費用がかかったと報じられています。コンピュータサイエンスの学位を持つLiang Wenfeng氏によって設立されたHigh-Flyerは、DeepSeek組織を通じて「超知能」AIの実現を目指しています。

今年初めのインタビューで、ウェンフェン氏はOpenAIのようなクローズドソースAIを「一時的な」堀と表現した。「（それが）他社の追い上げを阻むことはなかった」と彼は指摘した。

確かに。

TechCrunchではAIに特化したニュースレターを配信しています！毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る

Posted by Cemubo