Anthropic、AIモデルの第三者評価を推進！信頼性向上への新たな一歩

Anthropicが新たなAI評価方法の提案募集を開始

AIの安全性やリスク評価に特化した新しい評価基準の開発を目指す

評価は第三者によるもので、モデルの能力とリスクを厳しく検証

AI技術が急速に進歩し、さまざまな分野で利用される中、標準化された能力とリスク評価方法が求められています。
そのため、Anthropicは新たな取り組みとして第三者モデル評価の開発を発表しました。
同社のブログ投稿では、Anthropicが優先的に注力する評価の種類が具体的に示されています。

評価の主な対象は以下の三つです。

まず、AIの安全水準（ASLs）の評価です。
これはサイバーセキュリティや化学・生物・放射線リスク、モデルの自律性、国家安全保障リスク、社会的な操作、ミスアラインメントリスクなどを含む広範な分野にわたります。

次に、モデルの高度な能力と安全性メトリックの測定です。
これは害悪や拒絶、高度な科学、多言語評価の改善、社会的影響などの測定が含まれます。

最後に、評価のインフラ、ツール、および方法の開発です。
テンプレートやコード不要ツール、評価の効率化を図るプラットフォームなどが対象となっています。

Anthropicは評価ツールの特性についても述べており、以下の要素が重要視されています。
評価はASL-3またはASL-4レベルを測定するために十分な難易度を持つべきです。
さらに、評価データがモデルの訓練セットに含まれないことが求められます。
これはモデルのメモリゼーション（訓練データの記憶）を避け、データが訓練セットにない場合でも評価がモデルの一般化能力を反映する助けとなるためです。
評価形式も多様であるべきとされ、タスクベースの評価やモデルグレード評価、さらには人間による試験も含むべきとしています。

最終的には、リアリスティックで安全性に関連するリスクモデルの構築が重要です。
安全評価で高得点を得たモデルが大きなインシデントを引き起こす可能性があることを示せる評価が理想です。

現在、Anthropicは新しい評価方法の提案を募集しており、選ばれた提案者と次のステップについて議論を行う予定です。