Googleの革新「DataGemma」がAIの幻覚問題を解決へ！

GoogleがDataGemmaを発表し、大規模言語モデル(LLM)の正確性と信頼性を強化

Retrieval-Augmented Generation（RAG）を活用して新しい方法論を導入

Data Commonsと連携し、実世界データに基づくAIを実現

Googleは先週、新しいAIモデル「DataGemma」を発表しました。
これは大規模言語モデル（LLM）の正確性と信頼性を向上させるための取り組みです。
DataGemmaはGoogleのData Commonsにおける広範な実世界の統計データに基づいています。
Data Commonsは2500億以上のデータポイントと数十万の統計変数を提供する公開ナレッジグラフです。

DataGemmaの中心には、27億パラメータを持つGemma 2 27Bモデルが存在します。
これはTransformerニューラルネットワークアーキテクチャに基づいており、性能は倍のパラメータを持つLLMに匹敵するとのことです。

GoogleはRetrieval-Augmented Generation（RAG）を採用しており、この方法は外部データをダイナミックに取り入れて生成プロセスを強化します。
DataGemmaはRAGを使用して関連情報を事前に取得し、生成インターリーブ方式（RIG）を用いて実時間でデータを取得し、質問を事実確認します。
これにより、事実の正確性と透明性が向上し、誤情報の発生を減少させます。

現時点ではDataGemmaは研究者だけに提供されていますが、Googleは更なるテスト後にアクセスを拡大する予定です。
ただし、RIGの75%のケースで有用な情報が取得できず、RAGも6-20%の確率で誤答を生成するという課題があります。
それでもDataGemmaの導入は、GoogleのLLMがData Commonsにアクセスしない場合と比べて大幅な改善を示しています。

Googleは今後、訓練データを増やし、応答容量を数百から数百万に拡大する計画です。
GoogleのエンジニアであるJennifer Chen氏とData Commonsの責任者であるPrem Ramaswami氏は、「DataGemmaは重要な一歩だが、基盤となるAIの発展はまだ初期段階」と述べています。
今後、データに基づく信頼性の高いAIの実現を目指しています。