AIの学習に公開データ(主にウェブデータ)への依存が、AI分野の発展を阻害している。これは、ケンブリッジ大学のテクノロジー起業家で研究者のダニエル・ビューテル氏の見解だ。ビューテル氏は、AI研究における深刻化する問題を解決するために、スタートアップ企業Flowerを共同設立した。
「公開されている集中化されたデータは、世界に存在するデータ全体のほんの一部に過ぎません」と、ビューテル氏はTechCrunchのメールインタビューで語った。「対照的に、分散データ、つまりスマートフォン、ウェアラブル、IoTデバイスなどのデバイス、あるいは企業内の事業部門といった組織内のサイロに閉じ込められたデータは、はるかに大規模で包括的ですが、現在のAIでは対応できません。」
2020年にビューテル氏がケンブリッジ大学の同僚であるタナー・トパル氏、そしてケンブリッジにあるサムスンAIセンターの元責任者であるニコラス・レーン氏と共同で立ち上げたFlowerは、開発者が数千ものデバイスや場所に分散したデータを使ってモデルを学習できるプラットフォームを通じて、AI学習プロセスを「分散化」しようとする試みです。連合学習(Federated Learning)と呼ばれる技術を採用したFlowerは、データへの直接アクセスを提供しないため、プライバシーやコンプライアンスが懸念される状況でも「より安全」に学習できるとされています。
「フラワー氏は、分散データの基本的な利点により、このAIへのアプローチが簡単に利用できるようになると、主流になるだけでなく、AIトレーニングの実行方法の標準にもなると考えています」とビューテル氏は述べた。
フェデレーテッドラーニングは新しいアプローチではありません。数年前に学術界で初めて提案されたこの手法は、データサンプルを保持する分散型デバイス間でAIアルゴリズムを学習させるもので、サンプルを交換する必要はありません。アルゴリズムの学習は、中央サーバーを用いてオーケストレーションされることもあれば、ピアツーピアベースで行われることもあります。いずれにせよ、ローカルなアルゴリズムはローカルなデータサンプルを用いて学習され、重み(アルゴリズムの学習可能な要素)がそれらの間で交換されることで、グローバルモデルが生成されます。

DynamoFL、DataFleets、Sherpa などのスタートアップ企業は、Google などの大手テクノロジー企業と同様に、AI モデルのトレーニングに何らかの形でフェデレーテッド ラーニングを採用しています。
「Flowerでは、トレーニング中にデータがソースデバイスや場所(例えば会社の施設)から外に出る必要がありません」とBeutel氏は説明します。「その代わりに、『コンピューティングはデータに直接アクセス』し、データが存在する各場所で部分的なトレーニングを実行します。トレーニング結果のみが送信され、データは最終的に他のすべての場所の結果とマージされます。」
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Flower氏は最近、OpenAIのChatGPTやGPT-4に匹敵する大規模言語モデル(LLM)の学習のための連合型アプローチであるFedGPTをリリースしました。現在プレビュー段階にあるFedGPTにより、企業はデータセンターやワークステーションなど、世界中に分散したデータや様々なデバイス上のデータを用いてLLMを学習できます。
「FedGPTは、組織がLLMプロバイダーと共有することなく、社内の機密データを使ってLLMを構築できるという点で重要です」とビューテル氏は述べています。「また、企業は世界中、あるいは組織内の複数の部門にデータを分散させており、それらのデータは地理的に移動したり、地域外に移動したりできないことがよくあります。FedGPTは、プライバシーやデータ漏洩に関する懸念、そしてデータ移動を制限する法律を尊重しながら、LLMのトレーニング時にこれらのデータをすべて活用することを可能にします。」
FlowerはオープンソースのウェブブラウザであるBraveと提携し、「Dandelion」と呼ばれるプロジェクトを主導しています。Beutel氏によると、このプロジェクトの目標は、現在5000万台以上利用されているBraveブラウザクライアントを網羅するオープンソースの連合学習システムを構築することです。
「AIは、使用するデータの出所に対する規制と特別な配慮が強化される時代を迎えています」とビューテル氏は述べた。「Flowerを使えば、ユーザーのプライバシーが強固に保護されたAIシステムを構築できるだけでなく、これまで以上に多くのデータを活用することも可能です。…Flowerでは、フェデレーテッドラーニングの原理により、様々な制約下でもAIシステムを正常に導入・学習することが可能です。」
ビューテル氏によると、Flowerはここ数ヶ月で目覚ましい普及を遂げており、開発者コミュニティは2,300人強にまで成長している。彼によると、ポルシェ、ボッシュ、サムスン、バンキングサークル、ノキア、スタンフォード大学、オックスフォード大学、MIT、ハーバード大学など、フォーチュン500企業や学術機関の「数十」がFlowerのユーザーだという。
これらの指標に後押しされ、Yコンビネーターの2023年コホートの一員であるFlowerは、First Spark Ventures、Hugging FaceのCEOであるClem Delangue、Factorial Capital、Betaworks、Pioneer Fundといった投資家を引きつけている。プレシードラウンドでは、360万ドルを調達した。
ビューテル氏は、今回の資金調達はフラワーの中核チームの拡大、研究者および開発者のチームの成長、そしてフラワーのフレームワークとエコシステムを支えるオープンソースソフトウェアの開発の加速に充てられると述べている。
「AIは再現性の危機に直面しており、これはフェデレーテッドラーニングにおいてさらに深刻です」とビューテル氏は述べた。「分散データを用いたトレーニングが広く普及していないため、一般的なアプローチのオープンソースソフトウェア実装が十分に普及していません。…皆が協力することで、Flower上で世界最大規模のオープンソースフェデレーテッド技術群をコミュニティに提供することを目指しています。」