Google DeepMindのリアルタイム視覚認識＆推論モデル「Gemini（ジェミニ）」

Mamoru

2023-12-11 6:13 am

Share 0

Tweet 0

AI最新情報

Mamoruです。

今週はGoogle DeepMindから発表されたAIモデル「Gemini（ジェミニ）」を紹介します。

Geminiは、テキスト、画像、ビデオ、オーディオ、そしてコーディングといった多様なタスクに対応するように設計されています。

GPT-4を上回るパフォーマンスを持ち、AIモデルの知識や問題解決能力を試す手法であるMMLU（マッシブマルチタスク言語理解）で初めて人間の専門家を上回るパフォーマンスを達成したそうです。

まだオフィシャルには利用できませんが、Google DeepMindのデモ動画でいくつかの実用例が紹介されていますので、どんなことができるのか、簡単にまとめました。

Geminiのデモ動画要約

複数の言語で視覚的に推論
1. アヒルの手書き画像を認識し、関連情報をリアルタイムで説明。
2. 途中で青いゴム製のアヒル（実物）が出てくるが、それ（材料）も正しく認識。
3. 「アヒル」の中国語バージョンの翻訳と発音を助言。さらに、中国語のトーンシステムについての説明まで提供。
ゲームの作成と予測
1. 世界地図を使った国あてクイズを生成し、ユーザーが動画上で答えを指さすと、それを認識して正誤を判断。
2. カップに入ったペーパーボールの場所を認識。
3. じゃんけんなどの手の形を認識し、さらにコイン隠しの手品に対して答えを正確に予測。
視覚的認識と推論
1. おもちゃや果物を正確に認識。
2. 毛糸の画像から、生成できるオブジェクトのアイデアを提供。
3. 星のスケッチを正しく順序づけ
4. 異なる形状（フロントガラス）の車のスケッチから、どちらが早く坂道を下るか推論
5. 二つのジェットコースターのコースを比較して、どちらが楽しそうか推論
視覚的認識と音楽生成
1. 楽器のスケッチから音楽を生成
動画認識と推論
1. 携帯電話で再生された動画を認識し、その後何が起こるかを予測
ロジックと空間推理
1. 方向指示の問題を巧みに解決。「熊がいる右を行くか、もう一羽のアヒルがいる左を行くか」をアヒルに選ばせるというシナリオを提示されたとき、Geminiは敵ではなく友達を作るためにアヒルが左に行くべきだと論理的に解答
ふたご座（ジェミニ）の星座スケッチを認識して終了

個人的見解

全ての実用例に共通して言えることは、「高度なリアルタイム視覚的認識能力と推論能力」です。

推論能力は、今のLLMでもある程度備わっていますので、ポイントは「リアルタイム視覚的認識能力」だと思います。

言葉やテキストだけで説明（プロンプト）することが難しい、より実用的な用途に対して、このリアルタイムの視覚的認識能力は必要不可欠になります。

例えば、ロボットの動作アルゴリズムが、

１．センシング（視覚情報の取得）→　２．視覚情報の認識　→　３．推論・行動決定　→　４．行動　→　５．自律学習　→

とすると、２．視覚情報の認識、が欠かせませんが、Geminiはこのステップをカバーする優れたAIモデルになり得ますね。

あとは、AGI（人工汎用知能）により５．自律学習、が実現すれば、ほぼ人間と同様のロボットが完成するかもしれません。

ちなみに、Geminiには Ultra、Pro、 Nanoの３つのモデルがあるそうですが、GPT-４よりも能力が高いのはUltraのみのようです。

2024年の早い時期にGeminiが利用可能になる、と言われていますが、同時に、GPT-5も発表されるのではないか、との憶測もあります。

先日の人工汎用知能（AGI）の実現可能性を発端としたOpenAIの騒動（GPT-5にも関連？）、Geminiの発表、さらに12/9に報道された「EUの包括的AI規制合意」ニュース、これらを総合して考えると、いよいよAIによる新しい時代が目の前に迫ってきていることを感じずにはいられません。