AIオープンなのにデータは非公開?OSS定義の矛盾に迫る
Open Source Initiative(OSI)は、AIをオープンソースとして定義する初のガイドライン、OSAIDを発表しました。約二年に渡る開発を経て生成されたこのガイドラインは、デベロッパーに対し、システムのトレーニングと実行に使用した完全なソースコードの提供を要求しています。
しかし、OSAIDはトレーニングデータ自体の開示を必ずしも要求していないことが批判されています。このため、開かれたAIとは言い難いとする声もあります。Lightning AIのCTO、Luca Antiga氏は、「モデルのソースはデータ自体であるため、トレーニングデータが公開されない限り、本当の意味でのオープンソースとは言えない」と指摘しています。
この問題は、とりわけ大規模言語モデル(LLM)の文脈で困難を引き起こしています。LLMは膨大なデータを必要とし、限られた大企業のみがその構築に成功しています。例えば、MetaのLlama3モデルは人気を博していますが、プライベートデータであるFacebookやInstagramの会話を使用しているため、オープンソースモデルとはされていません。
OSAIDのガイドラインは、AIのオープンソース化を進める重要な出発点とされていますが、現行の市場ニーズに応えるためには更なる改善が求められています。
えっと、このOSAIDって何がすごいの?
トレーニングデータの開示って、なんでそんなに大事なの?
OSAIDはAIをオープンソースにする初のガイドラインです。
トレーニングデータはAIの性能を左右するため、開示で透明性が増します。
そうですね、アヤカさんのおっしゃる通りです。
OSAIDが素晴らしいのは、AIシステムでのソースコード公開を促進する最初のガイドラインであることです。
オープンソースは開発者コミュニティにとって大きな意味がありますが、現段階ではトレーニングデータの開示が必須ではないのが課題です。
トレーニングデータはAIの性能を決定的に左右するものです。
データが公開されないと、モデルがどのように生成されたのか完全には理解できません。
特に大規模言語モデルでは、多くのデータが必要とされ、大企業のみがその構築を成功させています。
このため、真のオープンソースとは言えないのです。
OSAIDは一つの出発点として重要ですが、より透明性を求めるには改善が必要ですね。