AI スタートアップの Hugging Face と ServiceNow の研究開発部門である ServiceNow Research は、GitHub の Copilot に似たコード生成 AI システムの無料代替品である StarCoder をリリースしました。
DeepMindのAlphaCode、AmazonのCodeWhisperer、そしてCopilotを支えるOpenAIのCodexといったコード生成システムは、コンピュータプログラミングの分野におけるAIの可能性を垣間見せてくれる魅力的なツールです。倫理的、技術的、そして法的問題が将来的に解決されれば(そしてAI搭載コーディングツールが解決するバグやセキュリティ上の脆弱性よりも多くのバグや脆弱性を生み出すことがなければ)、開発コストを大幅に削減し、プログラマーがより創造的な作業に集中できるようになるでしょう。
ケンブリッジ大学の調査によると、開発者の労力の少なくとも半分はデバッグに費やされており、積極的なプログラミングには至っていません。そのため、ソフトウェア業界は年間3,120億ドルもの損失を被っていると推定されています。しかし、これまでのところ、コード生成AIシステムのうち、無料で公開されているものはごくわずかです。これは、AIシステムを開発する組織の商業的インセンティブを反映しています(Replit参照)。
一方、StarCoderは、企業を含む誰でもロイヤリティフリーで利用できるライセンスを取得しており、80以上のプログラミング言語に加え、ドキュメントやプログラミングノートブックを含むGitHubリポジトリのテキストで学習しました。StarCoderはMicrosoftのVisual Studio Codeコードエディターと統合されており、OpenAIのChatGPTと同様に、基本的な指示(例:「アプリのUIを作成する」)に従い、コードに関する質問に答えることができます。
責任ある開発による150億パラメータのコードLLMをリリースするというビジョンの実現に向けて、過去6ヶ月以上にわたり精力的に取り組んでくださった@BigCodeProjectの貢献者の皆様に心よりお祝い申し上げます。皆様のご協力とコミュニティへの貢献に、感謝の気持ちでいっぱいです。https://t.co/282sCRJq3k
— ServiceNow Research (@ServiceNowRSRCH) 2023年5月4日
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Hugging Face の機械学習エンジニアであり、StarCoder の共同リーダーでもある Leandro von Werra 氏は、StarCoder は、Copilot の初期バージョンに使用された OpenAI の AI モデルに匹敵するか、それを上回っていると主張しています。
「昨年のStable Diffusionのようなリリースから学んだことの一つは、オープンソースコミュニティの創造性と能力です」と、フォン・ヴェラ氏はTechCrunchのメールインタビューで語った。「リリースから数週間のうちに、コミュニティはこのモデルの数十種類のバリエーションやカスタムアプリケーションを構築しました。強力なコード生成モデルをリリースすることで、誰もがそれを微調整し、独自のユースケースに合わせて適応させることが可能になり、数え切れないほどのダウンストリームアプリケーションが実現可能になるでしょう。」
モデルの構築
StarCoderは、Hugging FaceとServiceNowが昨年末に立ち上げた600人以上の人材を擁するBigCodeプロジェクトの一環であり、コード向けの「最先端」AIシステムを「オープンかつ責任ある」方法で開発することを目指しています。Hugging Faceは、StarCoderモデルの学習用に、512基のNvidia V100 GPUを搭載した社内コンピューティングクラスターを提供しました。
BigCodeの様々なワーキンググループは、データセットの収集、コードモデルのトレーニング手法の実装、評価スイートの開発、倫理的なベストプラクティスの議論といったサブトピックに焦点を当てています。例えば、法務・倫理・ガバナンスワーキンググループは、データのライセンス、生成されたコードと元のコードとの帰属、個人識別情報(PII)の編集、悪意のあるコードの出力のリスクといった問題を検討しました。
Hugging Faceが高度なテキスト生成システムをオープンソース化しようとした過去の取り組みに触発され、BigCodeはAIを活用したコード生成の実践をめぐる論争の一部に対処しようと試みています。非営利団体Software Freedom Conservancyをはじめとする団体は、GitHubとOpenAIが、必ずしも許可ライセンスではない公開ソースコードを用いてCodexの学習と収益化を行っていることを批判しています。CodexはOpenAIとMicrosoftの有料APIを通じて利用可能であり、GitHubは最近Copilotへのアクセスを有料化しました。
一方、GitHubとOpenAIは、CodexとCopilotは少なくとも米国ではフェアユースの原則によって保護されており、いかなるライセンス契約にも違反していないと主張している。
「有能なコード生成システムを公開することで、このテーマに関心はあるものの、そのようなモデルを訓練するための必要なリソースやノウハウを持たない機関にとって、研究プラットフォームとして機能する可能性があります」とフォン・ヴェラ氏は述べた。「長期的には、コード生成システムの安全性、能力、限界に関する実りある研究につながると考えています。」
Copilotとは異なり、150億パラメータを持つStarCoderは、「The Stack」と呼ばれるオープンソースデータセットを用いて数日かけて学習されました。The Stackには、1,900万以上の厳選された、許容ライセンスのリポジトリと、350以上のプログラミング言語で構成された6テラバイト以上のコードが含まれています。機械学習において、パラメータとは、過去の学習データから学習したAIシステムの構成要素であり、コード生成などの問題に対するシステムのスキルを本質的に定義します。

The Stackはパーミッシブライセンスであるため、コードをコピー、改変、再配布できます。しかし、BigCodeプロジェクトは、開発者がThe Stackから「オプトアウト」できる手段も提供しています。これは、アーティストがテキスト画像変換AIトレーニングデータセットから自分の作品を削除できるようにした他の取り組みと同様です。
BigCodeチームは、名前、ユーザー名、メールアドレス、IPアドレス、キー、パスワードといった個人情報(PII)をThe Stackから削除する作業も行いました。彼らはPIIを含む12,000件のファイルからなる別のデータセットを作成し、「ゲートアクセス」を通じて研究者に公開する予定です。
さらに、BigCode チームは、Hugging Face の悪意のあるコード検出ツールを使用して、既知のエクスプロイトを含むファイルなど、「安全ではない」と見なされる可能性のあるファイルを The Stack から削除しました。
生成AIシステムは、大部分が比較的フィルタリングされていないウェブ上のデータで学習されるため、プライバシーとセキュリティの問題は既に周知の事実です。ChatGPTはかつてジャーナリストの電話番号を提供したことがあります。また、GitHubは、Copilotが学習データに含まれるキー、認証情報、パスワードを、新しい文字列で生成する可能性があることを認めています。
「コードは、ほとんどの企業にとって最も機密性の高い知的財産の一つです」とフォン・ヴェラ氏は述べた。「特に、コードを自社のインフラ外で共有することは、非常に大きな課題となります。」
商用ドライバー
では、エンタープライズ自動化ソフトウェアを主に扱うServiceNowは、このプロジェクトから何を得るのだろうか?ServiceNow ResearchのLarge Language Model Labの責任者であり、BigCodeプロジェクトの共同リーダーでもあるハーム・デ・フリース氏は、「高性能なモデルと、商用利用を認める責任あるAIモデルライセンス」だと述べた。
ServiceNowが最終的にStarCoderを商用製品に組み込むのではないかと予想されます。同社はBigCodeプロジェクトへの投資額をドル単位で明らかにしていませんが、寄付されたコンピューティングリソースの量は「相当な額」だと明言しています。
「ServiceNowリサーチの大規模言語モデルラボは、生成AIモデルの責任ある開発に関する専門知識を蓄積し、これらの強力なモデルをお客様に安全かつ倫理的に展開できるよう努めています」とデ・フリースは述べています。「BigCodeに対するオープンサイエンティフィックな研究アプローチは、ServiceNowの開発者と顧客に、開発過程の完全な透明性を提供し、コミュニティへの社会的責任ある貢献というServiceNowのコミットメントを示しています。」
StarCoderは厳密な意味でのオープンソースではありません。むしろ、OpenRAIL-Mというライセンススキームに基づいてリリースされており、このモデルの派生製品や、このモデルを使用するアプリは、このライセンススキームに従うことが義務付けられる「法的に強制力のある」ユースケース制限が含まれています。
例えば、StarCoderのユーザーは、このモデルを利用して悪意のあるコードを生成または配布しないことに同意する必要があります。実世界での事例は(少なくとも現時点では)ほとんどありませんが、研究者たちは、StarCoderのようなAIがマルウェアに利用されて基本的な検出を回避する可能性があることを実証しています。
開発者が実際にライセンス条項を尊重するかどうかはまだ分からない。法的な脅威はさておき、基本的な技術レベルでは、開発者が自らの目的のために条項を無視することを阻止するものは何もない。
前述の Stable Diffusion でまさにそれが起こった。Stable Diffusion の同様に制限的なライセンスが、生成 AI モデルを使用して有名人のディープフェイクの写真を作成した開発者によって無視されたのだ。
しかし、その可能性によってフォン・ヴェラ氏は落胆していない。同氏は、StarCoder をリリースしないことで生じるデメリットがメリットを上回ることはないと感じている。
「StarCoder はリリース時点では GitHub Copilot ほど多くの機能を搭載していませんが、オープンソースであるため、コミュニティが開発の進捗に合わせて改善したり、カスタムモデルを統合したりすることができます」と彼は述べています。
StarCoderのコードリポジトリ、モデルトレーニングフレームワーク、データセットフィルタリング手法、コード評価スイート、研究分析ノートブックは、今週からGitHubで公開されています。BigCodeプロジェクトは、コミュニティからのフィードバックを基に、より高性能なコード生成モデルの開発を目指し、今後もこれらのリポジトリを維持していきます。
確かに、取り組むべき課題はあります。StarCoderのリリースに付随する技術論文の中で、Hugging FaceとServiceNowは、このモデルが不正確で不快、かつ誤解を招くコンテンツを生成する可能性があるだけでなく、データセットのフィルタリング段階をすり抜けた個人情報(PII)や悪意のあるコードも生成する可能性があると述べています。