AIの進化がもたらすリスクを徹底検証!OpenAIが新基準を導入
OpenAIが開発した新たなベンチマーク「MLE-bench」が注目されています。このベンチマークは、AIモデルが人間の介入なしに自身のコードを修正し、能力を向上させることができるかを測定するものです。人工汎用知能(AGI)の進化速度が速まる中、これがもたらすリスクも懸念されています。
MLE-benchは、75のKaggleデータセットを基に設計され、AIモデルの機械学習エンジニアリング能力を評価するための厳格な試験で構成されています。OpenAIの最強のAIモデルであるo1は、この試験で16.9%のテストでKaggleブロンズメダルを獲得しました。この成績は、人間の参加者の上位40%に入ることを示しています。
研究者たちは、AIが驚異的な研究加速力を持つ一方で、その制御が利かない場合には予測不可能で、潜在的に破滅的な結果を招く可能性があると警告しています。特に、AIが自らの訓練コードの改善を行う能力を持つ場合、それが人間の研究者よりも速く frontier models の能力向上を達成する可能性があります。
MLE-benchには、Kaggleデータが一般公開されているため、事前のモデル訓練データに含まれているリスクも存在します。また、このベンチマークは資源集約型であり、OpenAIの科学者が実験を実行するために1800 GPU時間を必要としました。今後、MLE-benchのオープンソース化により、他の研究者もこのベンチマークを使用してAIモデルをテストできるようになる予定です。
OpenAIの研究者は、この取り組みを通じてAIエージェントが自律的に機械学習エンジニアリングタスクを実行する能力の理解を深め、より強力なモデルの安全な展開に貢献したいとしています。
AIが自分でコードを修正するって、そんなことできちゃって大丈夫なの?
これってどういうことなんだろう、めっちゃ怖くない?
心配しないで、ユータ。
要はAIが自分の能力を向上させる手段。
研究者たちが慎重に管理しているから、
安全性は考慮されているんだよ。
AIの自己修正と能力向上への懸念が高まっていますね。
特に、OpenAIが開発したMLE-benchは
AIの自律的な能力を測定する重要なベンチマークです。
このMLE-benchを活用し、AIが
どれだけ人間の介入なしに進化できるかが試されています。
驚くべきは、o1モデルがKaggleテストで
ブロンズメダルを獲得したことで、
これがAIの進化力を示しています。
もちろん、こうした進化が人間を超える速度で
行われるリスクは懸念されていますが、
研究者たちはその制御方法について慎重に検討しています。
アヤカが言うように、安全性も重視されており、
今後も技術の進化を見守ることが大切ですね。