Googleの革新「DataGemma」がAIの幻覚問題を解決へ!
Googleは先週、新しいAIモデル「DataGemma」を発表しました。
これは大規模言語モデル(LLM)の正確性と信頼性を向上させるための取り組みです。
DataGemmaはGoogleのData Commonsにおける広範な実世界の統計データに基づいています。
Data Commonsは2500億以上のデータポイントと数十万の統計変数を提供する公開ナレッジグラフです。
DataGemmaの中心には、27億パラメータを持つGemma 2 27Bモデルが存在します。
これはTransformerニューラルネットワークアーキテクチャに基づいており、性能は倍のパラメータを持つLLMに匹敵するとのことです。
GoogleはRetrieval-Augmented Generation(RAG)を採用しており、この方法は外部データをダイナミックに取り入れて生成プロセスを強化します。
DataGemmaはRAGを使用して関連情報を事前に取得し、生成インターリーブ方式(RIG)を用いて実時間でデータを取得し、質問を事実確認します。
これにより、事実の正確性と透明性が向上し、誤情報の発生を減少させます。
現時点ではDataGemmaは研究者だけに提供されていますが、Googleは更なるテスト後にアクセスを拡大する予定です。
ただし、RIGの75%のケースで有用な情報が取得できず、RAGも6-20%の確率で誤答を生成するという課題があります。
それでもDataGemmaの導入は、GoogleのLLMがData Commonsにアクセスしない場合と比べて大幅な改善を示しています。
Googleは今後、訓練データを増やし、応答容量を数百から数百万に拡大する計画です。
GoogleのエンジニアであるJennifer Chen氏とData Commonsの責任者であるPrem Ramaswami氏は、「DataGemmaは重要な一歩だが、基盤となるAIの発展はまだ初期段階」と述べています。
今後、データに基づく信頼性の高いAIの実現を目指しています。

えっと、それってどういうこと?
全然わかんないんだけど!
DataGemmaって何がスゴいの?
どんなメリットがあるの?
DataGemmaは、大規模言語モデルの正確性と信頼性を高めるために、実世界のデータを活用する技術です。これにより、誤情報の発生が減少し、より正確な情報提供が可能になります。


確かに、DataGemmaは非常に興味深い技術です。
簡単に言うと、大規模言語モデル(LLM)の正確性と信頼性を向上させるために開発されました。
特にGoogleのData Commonsと連携し、統計データを活用することで、より現実に即した情報提供が可能になります。
Gemma 2 27Bモデルは27億パラメータを持ち、性能は非常に高いです。
さらに、Retrieval-Augmented Generation(RAG)という手法を使って、外部データを適宜取得し、生成プロセスの精度を向上させています。
ただし、まだ課題もあり、有用な情報の取得率や誤答の確率についての改善が必要です。
それでも、大規模なデータに基づくAIの正確な情報提供に向けた一歩としては非常に重要です。
DataGemmaは今後、さらなるテストと改良を経て、もっと多くの人に利用されるようになるでしょう。
今後の発展に期待です。