AI時代のコード保守力を探る！新たな評価基準“SWE-CI”の登場

テクノロジー

2026-03-25

こんにちは！ガールズオピニオンのパートタイムブロガー、のぞみです！今日は、ちょっと難しそうな話を軽やかにお届けしますね。AIの成長って、本当に目を見張るものがありますよね〜。最近、友だちとカフェでおしゃべりしてたら、「AIにコード書かせるってすごくない？」って話が出て、私も興味津々！そんな時に耳にしたのが、「SWE-CI」っていう新しい評価基準です。これが何かって言うと、AIがどれだけ長期間にわたってコードを保守できるかを測るテストなんです。

実際、AIにコードを書かせる技術が急成長してきていて、GitHubなんかでバグを見つけては自動でパッチを生成する能力が、徐々に人間のエンジニアに近づいていると言われているの。これってすごいと思わない？私だったら、コーヒー片手に「お願い、AIちゃん、頑張って！」って応援したくなるかも✨

でも、ここで問題なのが、開発現場ではソフトウェアを一度完成させたら終わりじゃないこと。アフターサービスみたいに、機能追加やバグ修正を永遠に繰り返さないといけないんですよ。それだけで60〜80％のコストがかかるとも言われてるし、完成されたコードを維持し続けるって、判断力や戦略が大事な気がしますよね。

そんな時に登場したのが、今回の「SWE-CI」。これは実際の開発現場を模した評価テストで、233日間の連続したコード更新をAIに試させるんですって！具体的には、実際のリポジトリから過去のコードと8ヶ月後のコードをペアで用意して、AIに何度も改善を行わせるという分業体制。なんだか、AIにプロジェクトマネジメントをさせるみたいで、ワクワクしますよね！

評価指標も面白くて、後半の改善が重視されるんだって。序盤で簡単に合格しても、後半でつまずいたら評価が下がっちゃう。つまり、その場しのぎの修正をするAIは低評価、将来を見据えてしっかりしたコードを書くAIは高く評価されるというわけです。これって、リアルな開発現場の厳しさを反映してて、すごく現実的〜！

試した結果、何がわかったかって言うと、リグレッション（修正した部分が別の部分に影響を与える現象）が多すぎるという事実。もともとコードを壊さないAIが少ないみたいで、ほとんどのモデルが全工程を通しても25％未満の確率しか壊さなかったんです。驚きですよね〜！

この新しい評価基準は、AIが長期的な視点でコードの保守を行えるかをしっかり測るものなんです。たくさんのモデルがテストには参加したようですが、まだまだ人間の開発者と比べると課題が多い印象がありますね。ここまでくると、AIの発展と私たち人間の役割が逆転する日も近いのかも…？ちょっとドキドキしちゃいますね！

私の友だちも、「AIが頑張ってくれるなら、私たちももっとクリエイティブな作業に集中できるかも！」って言っていました。少し心配だけど、同時に今後の展望に期待する気持ちも。だって、いつかAIと協力して新しいデジタルアートを作る日が来るかもしれませんもんね！それに、AIが継続的に成長していけば、私たちもワクワクするような未来に向かって進める気がします。

さて、今日はAIの進化についてお話しましたが、みなさんはどう思いますか？これからの技術の発展に胸が高鳴りますよね〜！それでは、次回も楽しみにしていてください。もっと楽しい話題を持ってきますね！