選挙リスクに立ち向かう！Anthropicが発表したイノベーティブな対策手法とは？

Spread the love

AI安全研究会社Anthropicが選挙関連リスクテストを公開
専門家テストと大規模自動評価を組み合わせたリスク軽減策
PVTのケーススタディで南アの選挙管理精度テストに成功

Anthropicは、選挙プロセスにおけるAIのリスクと課題に対処するため、「政策脆弱性テスト」と呼ばれる新たな方法を開発しました。
この手法は、選挙に関連する問いに対して、AIモデルが不正確または有害な情報を提供するリスクと、Anthropicの利用ポリシーに違反する使用を特定するための監視を行います。

南アフリカの選挙管理に関する質問の精度をテストしたケーススタディでは、誤った情報提供リスクを軽減するための10の改善策を特定しました。
これには、敏感な質問への文脈とニュアンスを提供するためにモデル応答の長さを増やすことや、政治的に物議を醸すトピックについて個人的な意見を提供しないことが含まれます。

テストにはイザベル・フランセス・ライト氏などの分野のリーダーが協力し、その結果はポリシーとAIモデルの安全体制にギャップがないか評価されました。

しかし、PVTは質的な洞察を提供する反面、時間がかかりリソースを大量に消費するため、規模を拡大するのには課題があります。
そのためAnthropicは自動評価も併用し、より広範囲のシナリオにわたってAIの行動をテストしています。

PVTと自動評価の組み合わせはAnthropicのリスク軽減戦略の中核を形成しており、講じられた対策の成功を測定するために同じプロトコルが再度使用されました。
その結果、モデルが知識のカットオフ日付を参照する改善率は47.2%、適切な問いに関して権威ある情報源へユーザーを導く回数は10.4%向上しました。

選挙サイクルにおけルAI技術の脅威を完全に軽減することは不可能かもしれませんが、Anthropicは責任あるAIの使用において大きな進歩を遂げています。