AIの秘密の箱を開けた！人工知能研究の新時代を牽引するAnthropicの衝撃発表

Spread the love

AIのブラックボックス問題への進展
Anthropicによる大規模言語モデルの内部分析
特徴の操作による応答変化とその潜在的リスク

信頼できるAIの開発をめざし、AnthropicがAIのブラックボックスを解明するための重要なステップを踏み出した。
人々がAIの答えを理解出来ない問題に対し、同社の研究は、ソナットモデルを用いて、AIモデル内部の挙動を詳細に調査した。

利用されたClaude 3.0は、言語モデルの一つで、AI内部の「特徴」のパターンを「辞書学習」という技術を使用して抽出することに成功した。
これにより、クロードはサンフランシスコやリチウムなどの特定の実体に対応する「特徴」を発現させるだけでなく、バグや性別バイアスといったより抽象的な概念への反応も示した。

さらに、これらの特徴間の「距離」測定を可能にし、例えば『ゴールデンゲートブリッジ』の特徴近くに、アルカトラズ島やカロフォルニアの知事らに関連する特徴が存在することを明らかにした。

また、特徴を人工的に増幅または抑制することによって、AIの応答回答を変えることが出来ることが判明。
ゴールデンゲートブリッジに関する特徴を増幅した際には、関連性のない質問に対しても橋について触れる回答を行うようになった。
ただし、バックドアや生物兵器開発といった悪用可能性を持つ特徴や、バイアス、問題行動、おべっか使用など潜在的リスクを孕んだ特徴も見つかっている。

AIの道具が実際にどう動作するかを理解し、それらをコントロールするために、Anthropicの研究は必要不可欠である。
これにより、AIが我々に役立つようにすること、また我々がAIに支配されないようにすることが、より一層重要だと照明された。