Gemini 1.5：次世代AIモデルの大躍進

技術革新が進む中、Googleが再び人工知能分野で重要な進展を遂げました。Gemini 1.0 Ultraのリリースに続き、セキュリティを核としてモデルの強化を進め、急速な進歩を遂げて、次世代モデルであるGemini 1.5を紹介しました。

Gemini 1.5の躍進

Gemini 1.5は多次元にわたって顕著な改善を実現し、1.5 Proではより少ない計算リソースを用いながら、1.0 Ultraに匹敵する品質を達成しました。これは前の方法からの大きな変化を代表し、基礎モデルの開発とインフラストラクチャに関する研究と工学的革新のほぼ全てに基づいて構築されました。

長文脈理解の突破的進歩

さらに、Gemini 1.5は長文脈理解における重大な進歩を示し、モデルが処理できる情報の量を大幅に増加させ、100万トークンを連続して走らせることができるようになり、これまでの大規模ベースモデルの中で最大の文脈ウィンドウを実現しました。

効率と品質を向上させる先進的アーキテクチャ

Gemini 1.5は、最新のTransformerと混合専門家（MoE）アーキテクチャ研究に基づいて構築されており、このモデルアーキテクチャの革新により、複雑なタスクの学習をより迅速に行い高品質を保ちながら、訓練と提供がより効率的になりました。

無制限の拡張能力

機械学習の一連の革新により、1.5 Proの文脈ウィンドウはGemini 1.0の初期の32,000トークンの制限を大幅に超え、現在は最大100万トークンのプロダクション実行が可能になりました。これにより、1時間の動画、11時間のオーディオ、30,000行を超えるコード、あるいは700,000語を超える大量の情報を一括で処理できます。

例えば、アポロ11号の月へのミッションの402ページにわたるトランスクリプトなど、与えられたプロンプトの中で大量のコンテンツをシームレスに分析、分類し、要約することが可能です。また、1.5 Proは、動画などの異なるモダリティにわたる複雑な理解と推理タスクも行うことができます。

性能の顕著な向上

一連のテキスト、コード、イメージ、オーディオ、ビデオの評価において、1.5 Proは1.0 Proに比べて87％のベンチマークテストで優れた性能を示しました。文脈ウィンドウが大きくなっても、1.5 Proは高性能を維持し、「Needle In A Haystack (NIAH)」評価では、特定の事実や声明を含む長いテキストブロックの中から、99％の確率で埋め込まれたテキストを正確に見つけ出すことができました。

また、1.5 Proは「文脈内学習」の優れた技術を示し、長いプロンプトから新しいスキルを学ぶことができ、追加の微調整は必要ありませんでした。この技術は「Machine Translation from One Book (MTOB)」ベンチマークテストで試され、モデルがこれまで見たことのない情報からどう学習するかを示しました。たとえば、全世界でわずか200人未満が使用する言語、カラマングの文法マニュアルが与えられたとき、同じ内容を学んでいる人と同等のレベルで英語からカラマングへの翻訳を学ぶことができました。

まとめると、Gemini 1.5の継続的な進化は、人々、開発者、企業がAIを使って新たに創り出し、発見し、構築する新しい可能性を切り開きます。

オリジナル記事、著者：AIの番人，転載の際には、出典を明記してください：https://nipponai.jp/article/gemini-1-5/