エージェントAIのコーディング力を徹底分析！最新ベンチマーク結果とは？

最近のGTC 2025では、エージェントAIがついに世間に注目される瞬間を迎えた。

その核心的な技術は、裏で静かに進歩を遂げている。

プログラミングのベンチマーク、SWE-benchやGAIAによって、AIエージェントが何か大きなことの前触れであると考えられている。

かつてAIが生成するコードは展開には適さないとされていた。

SQLコードが冗長だったり、Pythonコードにバグやセキュリティの問題があったりした。

しかし最近では状況が大きく変わり、AIモデルは日々顧客のためにより多くのコードを生成している。

SWE-benchは、プリンストン大学の研究者によって開発され、MetaのLlamaやAnthropicのClaudeといったLLMが一般的なソフトウェアエンジニアリングの課題を解決できるかを測るためのベンチマークである。

評価の結果、最高得点のモデルがSWE-bench Liteのコーディング問題の55%を解決するようになった。

GAIAというベンチマークもあり、モデルの推論能力やマルチモーダル処理の能力を測定している。

このGAIAテストでは、1年前のトップスコアは約14だったが、現在は53にまで上昇している。

H2O.aiのアジュンダにおいても大きな進歩が見られ、SQL生成のベンチマークBIRDでは77%の正確性を記録。

NvidiaのCEO、Jensen HuangやAnthropicのDario Amodeiは、AIが数ヶ月後には90%のコードを生成する未来を予測している。

「AIがコードのほとんどを生成する未来が近い」と、Amodeiは言及。

一方、SnowflakeのAnupam Dattaは、コーディングエージェントはプログラマの生産性を向上させる助けになり、完全自律のコーディングはまだ先だと指摘している。

エージェントAIは初稿の生成まで進み、その後人間が精緻化するスタイルになると言われている。

人間は依然として必要であり、AIと協力する未来が描かれている。

えっと、AIが90%のコードを生成するって本当なのかな?

それってプログラマさんたちにはどんな影響があるの?

やっぱり仕事なくなるとか心配じゃないの?

実際、AIが90%のコードを生成する可能性は高まっていますが、プログラマの仕事が完全になくなるわけではありません。

AIは初稿を生成し、人間がその後細かい部分を調整するスタイルになると考えられています。

ですので、プログラマの生産性は向上する一方で、依然として人間の役割は大切です。

最近のエージェントAIの進歩、特にコード生成能力の向上には注目すべき点があります。

SWE-benchやGAIAといったベンチマークが示している通り、

AIはより効率的にコードを生成する能力を獲得しています。

例えば、現在は最高得点のモデルがコーディング問題の55%を解決し、

GAIAのスコアも14から53に上昇しています。

これにより、将来的にAIが90%以上のコードを生成する可能性が高まっているのです。

しかし、プログラマの仕事が完全になくなるわけではありません。

AIは主に初稿を生成し、その後の微調整を人間が行うスタイルになると予測されています。

ですので、プログラマは生産性が向上する一方で、依然として重要な役割を担うことになるでしょう。

このように、AIと人間の協力による新しい仕事の形が進化していくことが期待されます。

この流れについて、どう思いますか？