Google、GPT-4に挑むAIモデルGeminiを発表
AIの進化する風景で自らの地位を確固たるものにする戦略的な動きとして、GoogleはOpenAIのGPT-4の能力を超えることを目指した新しいAIモデル、Gemini(ジェミニ)の発表を行った。約10年間にわたり「AIファースト」の哲学を掲げてきたGoogleにとって、この最新の革新は分野における重要な進歩を示している。
このAIニュースのポイント
- Geminiの発表: GoogleのCEO、サンダー・ピチャイがGeminiを発表。これはGoogleの広範な製品群に統合されることを目的とした包括的なAIモデルである。
- 複数のバージョン: Geminiは、Androidデバイス用のGemini Nano、Google AIサービス向けのGemini Pro、データセンターおよびエンタープライズアプリケーション向けのGemini Ultraの3つの異なるバリエーションで導入される。
- Google製品への統合: Google検索、広告、ChromeブラウザなどにGeminiを組み込む計画が発表され、Googleのエコシステムに新たな方向性を示している。
- 競争上の優位性: Googleは、GeminiがGPT-4に対して32のベンチマークのうち30で勝っていると主張している。特に、ビデオやオーディオの理解と対話において優れている。
- 多様な機能: 別々のモデルを画像や音声用に開発するOpenAIのアプローチとは異なり、Googleは最初から一つの多感覚モデルを構築した。
- 効率の向上: Geminiは以前のモデルよりも効率的で、GoogleのTensor Processing Unitsを使用してトレーニングされ、より速く、より安価に実行される。
- 安全性と責任: Googleは、Geminiの安全性を保証するために厳格な内部および外部テストに重点を置いている。特に人工一般知能(AGI)への進歩に向けて慎重かつ楽観的なアプローチを取っている。
AI時代が激しさを増す中、Googleは最も先進的な大規模言語モデル「Gemini(ジェミニ)」の発表を行い、OpenAIのGPT-4に対抗することを明らかにしました。CEOのサンダー・ピチャイによって発表されたGeminiは、GoogleのAIに対するコミットメントを示すだけでなく、直接的にOpenAIのGPT-4に挑戦するものです。
Geminiは、異なるプラットフォーム向けにカスタマイズされたソリューションを提供する3つのバージョンで紹介されています。
Gemini NanoはAndroidデバイス向けに設計されている一方で、Gemini ProはGoogleのAIサービスを強化することを目的としています。最も強力なバージョンであるGemini Ultraは、データセンターやエンタープライズアプリケーションを対象としています。
GoogleのGeminiの戦略的な展開には、既存の製品群にこの技術を統合する計画が含まれています。これにより、切り込み隊的なAI技術を取り入れた革新的なサービスへのGoogleの野心が明らかになります。
GPT-4とのベンチマークでのGeminiの性能は特筆すべき点です。Googleは、特にビデオやオーディオとの理解と相互作用において、大部分のテストでGPT-4を上回ったと主張しています。OpenAIが画像用のDALL-Eや音声用のWhisperといった別々のモデルを開発したのに対し、Googleは最初から一つの統合された多感覚モデルを構築しています。
また、Geminiは以前のモデルに比べて効率が向上しています。Google独自のTensor Processing Unitsで開発されたGeminiは、より高速かつコスト効率が良いことが特徴です。これは、ハードウェアとソフトウェアの統合におけるGoogleの継続的な革新を反映しています。
興奮の中で、GoogleはAIの責任ある開発に焦点を当て続けています。会社は、Geminiの安全性を確保するために、厳格な内部テストと外部テストに力を入れています。これは、人工一般知能(AGI)に向けた進歩に対して、慎重かつ楽観的なアプローチを取っていることを反映しています。
要するに、Geminiの導入により、GoogleはAI競争において競争上の優位性を獲得するだけでなく、そのエコシステムを再定義し、AI統合と効率性における新たな基準を設定しています。Geminiは、GoogleをAI分野における新たな高みに導く触媒となる可能性があります。
テキストにおけるベンチマークは下記の表をご覧下さい。
能力 | ベンチマーク | 説明 | ジェミニ・ウルトラ | GPT-4V |
---|---|---|---|---|
一般 | MMLU | 57科目(STEM、人文科学などを含む)の質問表現 | 90.0% | CoT@32*(86.4%)5-shot*(報告されたもの) |
推論 | Big-Bench Hard | 多段階の推論を必要とする様々な難しいタスクの集合 | 83.6% | 3-shot(83.1%)3-shot(API) |
DROP | 読解理解(F1スコア) | 82.4 | Variable shots(80.9)3-shot(報告されたもの) | |
HellaSwag | 日常タスクの常識的推論 | 87.8% | 10-shot*(95.3%)10-shot*(報告されたもの) | |
数学 | GSM8K | 基本的な算術操作(小学校レベルの数学問題を含む) | 94.4% | maj1@32(92.0%)5-shot CoT(報告されたもの) |
MATH | 難しい数学問題(代数、幾何、前期数学などを含む) | 53.2% | 4-shot(52.9%)4-shot(API) | |
コード | HumanEval | Pythonコード生成 | 74.4% | 0-shot(IT*)(67.0%)0-shot*(報告されたもの) |
Natural2Code | Pythonコード生成。Web上でリークされていない新しいHumanEvalのようなデータセット | 74.9% | 0-shot(73.9%)0-shot(API) |
- CoT: Chain of Thought(思考の連鎖)
- IT: Interactive Tutorial(インタラクティブチュートリアル)
- maj1@32、5-shotなどは、特定の評価方法やデータセットにおける試行回数や設定を示しています。
Geminiの公式サイトの情報です。
公式サイト:Gemini
Google公式サイトのブログ
Introducing Gemini: our largest and most capable AI model
Google Japan Brogは下記からご確認いただけます。
最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに