AIオープンなのにデータは非公開?OSS定義の矛盾に迫る

0
Spread the love
  • Open Source InitiativeがOSAIDを初公開
  • AIのオープンソース化における課題が残る
  • トレーニングデータの開示要件が不十分との指摘
  • Open Source Initiative(OSI)は、AIをオープンソースとして定義する初のガイドライン、OSAIDを発表しました。約二年に渡る開発を経て生成されたこのガイドラインは、デベロッパーに対し、システムのトレーニングと実行に使用した完全なソースコードの提供を要求しています。

    しかし、OSAIDはトレーニングデータ自体の開示を必ずしも要求していないことが批判されています。このため、開かれたAIとは言い難いとする声もあります。Lightning AIのCTO、Luca Antiga氏は、「モデルのソースはデータ自体であるため、トレーニングデータが公開されない限り、本当の意味でのオープンソースとは言えない」と指摘しています。

    この問題は、とりわけ大規模言語モデル(LLM)の文脈で困難を引き起こしています。LLMは膨大なデータを必要とし、限られた大企業のみがその構築に成功しています。例えば、MetaのLlama3モデルは人気を博していますが、プライベートデータであるFacebookやInstagramの会話を使用しているため、オープンソースモデルとはされていません。

    OSAIDのガイドラインは、AIのオープンソース化を進める重要な出発点とされていますが、現行の市場ニーズに応えるためには更なる改善が求められています。

    icon image

    えっと、このOSAIDって何がすごいの?
    トレーニングデータの開示って、なんでそんなに大事なの?

    OSAIDはAIをオープンソースにする初のガイドラインです。
    トレーニングデータはAIの性能を左右するため、開示で透明性が増します。

    icon image
    icon image

    そうですね、アヤカさんのおっしゃる通りです。

    OSAIDが素晴らしいのは、AIシステムでのソースコード公開を促進する最初のガイドラインであることです。

    オープンソースは開発者コミュニティにとって大きな意味がありますが、現段階ではトレーニングデータの開示が必須ではないのが課題です。

    トレーニングデータはAIの性能を決定的に左右するものです。

    データが公開されないと、モデルがどのように生成されたのか完全には理解できません。

    特に大規模言語モデルでは、多くのデータが必要とされ、大企業のみがその構築を成功させています。

    このため、真のオープンソースとは言えないのです。

    OSAIDは一つの出発点として重要ですが、より透明性を求めるには改善が必要ですね。

    Please follow and like us:
    Pin Share

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です

    RSS
    Follow by Email