大規模言語モデル(LLM)は既に数多く存在し、OpenAIのGPT-4、GoogleのPaLM2、MetaのLLaMAなど、特に有名な例を3つ挙げると、その数は膨大です。LLM間の差別化は、モデルのコアアーキテクチャ、使用される学習データ、適用されるモデルの重み、特定のコンテキスト/目的に合わせた微調整、そして開発コスト(そしてモデル作成者がそれらのコストに投じる相対的な予算)といった要素によって決まります。これらの要素はすべて、この種の生成AIがユーザーの自然言語クエリにどのように応答するかに影響を与える可能性があります。
問題は、特定のユースケースで会話型生成 AI から最高のパフォーマンスを引き出そうと、AI メーカーが操作できる変数や活用できるコンテキストの数を考えると、すでに長い LLM のリストがすぐに増え続ける可能性は低いということです。
出力に影響を与えるもう一つの要因は、LLM開発が英語にどれだけ重点を置いているかです。他の言語でのモデルの学習にはそれほど注意が払われていません(学習用の英語データは一般的に入手しやすく、安価であるため)。これは、LLMが英語のクエリに対して、他の言語でのクエリよりも優れたパフォーマンスを発揮する可能性が高いことを意味します。したがって、英語以外の言語で学習されたモデルは、そのリストを構築し続けるための非常に重要な機会を提供していると言えるでしょう。
そこで、Lince Zero をご紹介します。これは、先週マドリードを拠点とする AI スタートアップ企業 Clibrain がリリースした、スペイン語の指示に合わせて調整された LLM です。同社は、スペイン語話者に最適化されたモデルを開発することで、生成 AI の競争に参入できる隙間を見つけたと考えています。
この調査では、スペイン語が世界で最も多く話されている言語の 1 つであるだけでなく、複数の大陸 (および文化的背景) にまたがる約 20 か国で話されているため、方言や変種の点でかなりの多様性を誇っていることが指摘されています。このため、スペイン語にそれほど包括的に焦点を当てていない主流のモデルのパフォーマンスが混乱する可能性があると示唆されています。
そうした大物の一つ、OpenAIのChatGPTはスペイン語を扱えます。他の言語も同様です。しかし、Clibrainは、スペイン語に完全特化することで、今後リリース予定の基礎モデルと、この大物モデルをベースに開発予定のドメイントレーニング済みモデル群が、スペイン語専用のデータコーパスでトレーニングすることで、平均的な法学修士(LLM)よりも多くのスペイン語のニュアンスを解析・理解できるようになると主張しています。
Lince Zeroのリリースは、同社の野心的なロードマップの第一歩です。このLLMは既存のオープンソース技術を基盤としているため、まだ独自の基盤モデルを持つことはできません。しかし、近々公開される予定です。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日

共同創業者兼CEOのエレナ・ゴンザレス・ブランコ氏は、言語学研究と詩の学問的背景と、AI(スペイン語ではIA)に重点を置いたキャリアをこのスタートアップに持ち込んでいます。そのキャリアには、自然言語処理(NLP)技術の初期段階に何年も取り組み、インシュアテックやフィンテック(インドラやサンタンデール銀行などの企業で)の業界経験を積むことが含まれます。
しかし彼女は、長年言語学の研究に取り組んできたことが、Clibrain が独自のトレーニング データを入手して、現在のモデル作成の野望を実現できるようにすることで、このプロジェクトに特に重要な貢献を果たしたと指摘しています。
言語の質に頼る
「私たちは独自の(トレーニングデータの)コーパスを持っています」と彼女は言います。「私は言語学者で、言語史、特にスペイン語について15年ほど研究してきました。まだトレーニングに使われていない多くの情報源があります。ですから、私たちは独自の(差別化要因としての)コーパスを持っているのです。」
「AIの世界では確かに多くのことが起こっていますが、スペイン語圏の市場はまだ完全に二番手レベルなので、私たちにとって非常に興味深い機会があると考えています」と彼女はTechCrunchに語った。「私たちが構築しているものの品質は、言語的に大きく異なります。ですから、重要なのは大規模なモデルを構築することではなく、非常に高品質なモデルを構築することです。」
Clibrain のデビューモデルリリースは、Lince Zero モデルと呼ばれ (オープンソースライセンスでリリースされています)、同社が開発中のより強力な (基礎的な) モデル (40BN パラメータ) の 7BN パラメータのお試し版です。このモデルは単に Lince (英語でオオヤマネコを意味する単語。スペインを象徴するがめったに見られない野生の猫への言及) と呼ばれます。
パラメータ数値からわかるように、これらのLLMは市場最大規模のモデルとは程遠い。しかし、ゴンザレス=ブランコ氏が主張するように、Clibrainは、スペイン語理解の向上におけるパフォーマンス上の優位性を生み出す上で、モデルのサイズそのものが決定的な要素になることはないと考えている。むしろ、言語的細部への質の高い配慮が重要になる(そして、それがスペイン語市場における優位性につながると期待している)。つまり、Clibrainは本質的に、最先端の生成AI機能(および/またはパワー)を多少犠牲にしてでも、ネイティブ言語理解のレベル向上を望むスペイン語圏のユーザーが多数存在すると予測しているのだ。
この点において、翻訳で情報が失われると、多くの苛立たしい摩擦が生じる可能性があると言っても過言ではありません。ですから、リンスがスペイン語検索において本当に言語的優位性を発揮し、それを維持できると仮定すれば、世界中の約5億人のスペイン語ネイティブスピーカーのうち、少なくとも一部の人々にとって、この種のAIツールを利用することになるかもしれない、何か良いことを成し遂げていると言えるかもしれません。
もちろん、特定の言語への最適化の価値を見出したのはこれが初めてではありません。英語以外の言語に最適化されたLLMは、Baiduの中国語言語モデル「Ernie」など、既に数多く存在します。あるいは、ドイツ語向けに調整されているLLMモデルファミリーもあります。韓国のテクノロジー大手Naverも、韓国語で学習した生成AIモデルの開発に取り組んでいます。そして、少なくともより広く話されている言語に関しては、英語以外の言語を話すコミュニティ向けのLLMが今後さらに増えていくことは間違いないでしょう。
Clibrainはスペイン語に特化した最初の会話型AIモデルではありません。2021年に開始されたバルセロナ・スーパーコンピューティング・センターのMarIAプロジェクトは、スペイン語で最初の「大規模」AIシステムであると主張していました。しかし、ClibrainはMarIAを凌駕し、スペイン語圏市場に特化したこれまでで最も技術的に「先進的」なモデルを構築したと主張しています。
ゴンザレス=ブランコ氏によると、Lince ZeroのパフォーマンスはGPT-3と同等ですが、MarIAのパフォーマンスはGPT-2と同等だそうです。(LLMの言語パフォーマンスのベンチマークはそれ自体が最先端のビジネスですが、その点においてClibrainはスペイン語話者に、Clibrainの成果をチェックし、フィードバックを得るよう奨励しています。)
Lince Zeroとは異なり、今後リリースされる(フル機能の)Linceモデルはオープンソースではありません。代わりに、スペイン語のコーパスデータで学習されたモデルを利用希望する有料顧客に、API経由で独自モデルが提供されます。Linceは、自社が提供する3つのコミュニケーションおよび生産性向上アプリ(CliChat、CliCall、CliBot)にモデルを組み込むことでもアクセスを提供します。
開発も継続され、将来的にはテキストだけでなく画像や音声にも反応できるマルチモーダルモデルなど、より多くの独自モデルを提供する予定です。そのため、製品ロードマップにはチームを忙しくさせるものが山ほどあります。
Clibrain は Lince Zero の構築に数多くのオープンソース技術を活用している (Hugging Face モデル カードのドキュメントには、Falcon-7B をベースに、Alpaca と Dolly のデータセットを組み合わせて微調整し、スペイン語に翻訳されて 8 万個のサンプルに「拡張」されていると記載されている) が、同社は既存のアーキテクチャを使用しているだけではなく、自社の AI 分野の上級エンジニアの才能も誇っていると主張している。
このスタートアップは4月に設立されたばかりで、設立からまだ3ヶ月ほどしか経っていない。これは、昨今の生成AI分野における開発の猛烈なスピードを物語っていると言えるだろう。豊富なオープンソースライブラリを利用できるようになり、モデルのトレーニングにかかる計算コストも近年と比べて大幅に削減されている。しかし、ゴンザレス=ブランコ氏が設立した別のスタートアップ(自動車担保ローン会社Clidrive)からスピンアウトしたため、完全にゼロからスタートしたわけではない。
彼女の説明によると、彼らはその企業で内部的に AI を実験していたが、スペイン市場向けに調整された LLM を開発する機会の大きさを考えると、別のスタートアップを立ち上げる価値があると判断したとのこと。こうして、生成 AI を中核とする研究開発ラボを備えた、約 30 人のスタッフからなる多分野にわたるチームが誕生した。
「私たちにとって、その研究グループを立ち上げ、これまで行ってきた研究を中心に据えることは実に簡単でした」とゴンザレス・ブランコ氏は付け加えます。
他の共同創設者 (4 人) は、パブロ フェルナンデス (社長)、パブロ モリーナ (CTO)、ポール マーツ (CPO)、およびデビッド ビジャロン (CAIO) です。
共同創業者たちはこれまで、過去のスタートアップのエグジットで得た資金を活用し、自力で開発を進めてきた。つまり、AIブームが巻き起こり、投資家の資金がAIに特化した起業家に流れ込む昨今において、おそらく異例なのかもしれないが、Clibrainはまだ豊富な投資家リストも潤沢な資金源も持っていないのだ。
ゴンザレス=ブランコ氏は、外部からの資金調達よりも、コアモデルの開発と最初の製品の市場投入に注力したいと考えていたと述べている。しかし、Linceの製品ロードマップを進めていく中で、創業者自身が投入できたよりも大規模な資金調達を検討する可能性もあると付け加えた。