AIモデルは依然としてソフトウェアのデバッグに苦労している、とマイクロソフトの調査が示す

AIモデルは依然としてソフトウェアのデバッグに苦労している、とマイクロソフトの調査が示す

OpenAI、Anthropic、その他トップクラスのAIラボが提供するAIモデルは、プログラミング作業の支援にますます活用されています。GoogleのCEO、サンダー・ピチャイ氏は10月、同社の新規コードの25%がAIによって生成されていると述べ、MetaのCEO、マーク・ザッカーバーグ氏は、ソーシャルメディア界の巨人である同社内でAIコーディングモデルを広く導入する意欲を表明しました。

しかし、今日の最も優れたモデルでさえ、経験豊富な開発者でもつまずかないソフトウェアのバグを解決するのに苦労しています。

マイクロソフトの研究開発部門であるMicrosoft Researchによる新たな調査によると、AnthropicのClaude 3.7 SonnetやOpenAIのo3-miniなどのモデルは、SWE-bench Liteと呼ばれるソフトウェア開発ベンチマークにおいて多くの問題をデバッグできないことが明らかになりました。この結果は、OpenAIなどの企業による大胆な宣言にもかかわらず、AIはコーディングなどの分野において依然として人間の専門家に匹敵できないことを改めて認識させるものです。

研究の共著者らは、Pythonデバッガを含む複数のデバッグツールにアクセスできる「単一のプロンプトベースエージェント」のバックボーンとして、9つの異なるモデルをテストしました。彼らはこのエージェントに、SWE-bench Liteから厳選された300個のソフトウェアデバッグタスクを解くよう指示しました。

共著者によると、より強力で最新のモデルを搭載しても、彼らのエージェントがデバッグタスクの半分以上を成功させることはほとんどなかった。Claude 3.7 Sonnetの平均成功率が最も高く(48.4%)、次いでOpenAIのo1(3​​0.2%)、o3-mini(22.1%)となった。

Microsoft AIデバッグベンチマーク
調査のグラフ。「相対的な増加」とは、デバッグツールを装備することでモデルのパフォーマンスが向上したことを示しています。画像クレジット: Microsoft

なぜパフォーマンスが期待外れだったのか?一部のモデルは、利用可能なデバッグツールを使いこなすことに苦労し、様々なツールが様々な問題にどのように役立つかを理解するのに苦労していた。しかし、共著者らによると、より大きな問題はデータの不足だった。彼らは、現在のモデルの学習データには「連続的な意思決定プロセス」、つまり人間によるデバッグの痕跡を表すデータが十分に含まれていないと推測している。

「[モデル]のトレーニングや微調整によって、より優れたインタラクティブデバッガーが実現できると強く信じています」と、共著者らは論文の中で述べています。「しかし、そのようなモデルのトレーニングには、例えば、バグ修正を提案する前に必要な情報を収集するために、エージェントがデバッガーとやり取りする様子を記録する軌跡データなど、特殊なデータが必要になります。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

調査結果はそれほど衝撃的ではない。多くの研究で、コード生成AIはプログラミングロジックの理解能力などの弱点により、セキュリティ上の脆弱性やエラーを引き起こす傾向があることが示されている。人気のAIコーディングツールであるDevinの最近の評価では、20個のプログラミングテストのうち3個しか完了できなかったことが判明した。

しかし、マイクロソフトの研究は、モデルに関する根深い問題領域をこれまでで最も詳細に検証した研究の一つだ。AIを活用したコーディング支援ツールに対する投資家の熱意が冷めることはないだろうが、うまくいけば、開発者、そしてその上層部が、AIにコーディングを任せることについて再考するきっかけとなるだろう。

参考までに、AIがコーディングの仕事を自動化するという考えに異論を唱えるテクノロジーリーダーが増えている。マイクロソフトの共同創業者であるビル・ゲイツは、プログラミングという職業は今後も存続すると考えていると述べている。ReplitのCEOであるアムジャド・マサド氏、OktaのCEOであるトッド・マッキノン氏、IBMのCEOであるアルヴィンド・クリシュナ氏も同様の見解を示している。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る