fbpx

Google DeepMindのリアルタイム視覚認識&推論モデル「Gemini(ジェミニ)」

AI最新情報

Mamoruです。

今週はGoogle DeepMindから発表されたAIモデル「Gemini(ジェミニ)」を紹介します。

https://t31144381.p.clickup-attachments.com/t31144381/f3baa11a-eacb-4d16-b3a3-dfa89fba6fe9/image.png

Geminiは、テキスト、画像、ビデオ、オーディオ、そしてコーディングといった多様なタスクに対応するように設計されています。

GPT-4を上回るパフォーマンスを持ち、AIモデルの知識や問題解決能力を試す手法であるMMLU(マッシブマルチタスク言語理解)で初めて人間の専門家を上回るパフォーマンスを達成したそうです。

まだオフィシャルには利用できませんが、Google DeepMindのデモ動画でいくつかの実用例が紹介されていますので、どんなことができるのか、簡単にまとめました。

Geminiのデモ動画要約

  1. 複数の言語で視覚的に推論
    1. アヒルの手書き画像を認識し、関連情報をリアルタイムで説明。
    2. 途中で青いゴム製のアヒル(実物)が出てくるが、それ(材料)も正しく認識。
    3. 「アヒル」の中国語バージョンの翻訳と発音を助言。さらに、中国語のトーンシステムについての説明まで提供。
  2. ゲームの作成と予測
    1. 世界地図を使った国あてクイズを生成し、ユーザーが動画上で答えを指さすと、それを認識して正誤を判断。
    2. カップに入ったペーパーボールの場所を認識。
    3. じゃんけんなどの手の形を認識し、さらにコイン隠しの手品に対して答えを正確に予測。
  3. 視覚的認識と推論
    1. おもちゃや果物を正確に認識。
    2. 毛糸の画像から、生成できるオブジェクトのアイデアを提供。
    3. 星のスケッチを正しく順序づけ
    4. 異なる形状(フロントガラス)の車のスケッチから、どちらが早く坂道を下るか推論
    5. 二つのジェットコースターのコースを比較して、どちらが楽しそうか推論
  4. 視覚的認識と音楽生成
    1. 楽器のスケッチから音楽を生成
  5. 動画認識と推論
    1. 携帯電話で再生された動画を認識し、その後何が起こるかを予測
  6. ロジックと空間推理
    1. 方向指示の問題を巧みに解決。「熊がいる右を行くか、もう一羽のアヒルがいる左を行くか」をアヒルに選ばせるというシナリオを提示されたとき、Geminiは敵ではなく友達を作るためにアヒルが左に行くべきだと論理的に解答
  7. ふたご座(ジェミニ)の星座スケッチを認識して終了

個人的見解

全ての実用例に共通して言えることは、「高度なリアルタイム視覚的認識能力と推論能力」です。

推論能力は、今のLLMでもある程度備わっていますので、ポイントは「リアルタイム視覚的認識能力」だと思います。

言葉やテキストだけで説明(プロンプト)することが難しい、より実用的な用途に対して、このリアルタイムの視覚的認識能力は必要不可欠になります。

例えば、ロボットの動作アルゴリズムが、

1.センシング(視覚情報の取得)→ 2.視覚情報の認識 → 3.推論・行動決定 → 4.行動 → 5.自律学習 →

とすると、2.視覚情報の認識、が欠かせませんが、Geminiはこのステップをカバーする優れたAIモデルになり得ますね。

あとは、AGI(人工汎用知能)により5.自律学習、が実現すれば、ほぼ人間と同様のロボットが完成するかもしれません。

ちなみに、Geminiには Ultra、Pro、 Nanoの3つのモデルがあるそうですが、GPT-4よりも能力が高いのはUltraのみのようです。

2024年の早い時期にGeminiが利用可能になる、と言われていますが、同時に、GPT-5も発表されるのではないか、との憶測もあります。

先日の人工汎用知能(AGI)の実現可能性を発端としたOpenAIの騒動(GPT-5にも関連?)、Geminiの発表、さらに12/9に報道された「EUの包括的AI規制合意」ニュース、これらを総合して考えると、いよいよAIによる新しい時代が目の前に迫ってきていることを感じずにはいられません。

ℹ️ 情報ソース

Google DeepMind Gemini Introduction (Official)

Google DeepMind Gemini デモ動画

補足: 「Gemini(ジェミニ)」のリアルタイム視覚認識デモは誇張編集

その後の検証で、Googleが例のデモ動画は誇張編集であったことを認めたそうです。

私も完全に信じ切っていましたが、誤解があってはいけませんので、実際に行われていたデモを簡単に共有しておきます。

以下は、実際行われていたじゃんけんに関する会話です。(Googleより

実際は、静止画像とテキストプロンプトを入力して、回答を得るまでに待ち時間がある、とのこと。

つまり、デモ動画では、まるでAIがリアルタイムで視覚認識して回答しているように見えましたが、デモ動画はこれらの静止画を誇張編集したもので、実際は、まだリアルタイムではないそうです😒

これだけであれば、現時点のOpenAIのGPT4でも可能な範囲ですね。

実際にパフォーマンス指標を見ても、最上位のUltraでようやくGPT4を数パーセント上回る程度のようです。

こちらの記事でも述べられていますが、Googleはまだ技術的にはOpenAIの後を追っており、GeminiでようやくGPT-4レベルに到達した、というのが正しい認識のようです。

一方でOpenAIは、GPT-5の発表がいつなのか、と言われているくらいなので、Googleとは一世代の差があるということでしょうか。

どちらにせよ、「リアルタイム視覚認識」はAIの今後を大きく左右する技術には違いありません。

引き続き、注視していきたいと思います👀

ℹ️ 情報ソース

Google’s best Gemini AI demo video was fabricated

How it’s Made: Interacting with Gemini through multimodal prompting(Google)

Google’s Gemini Looks Remarkable, But It’s Still Behind OpenAI(Bloomberg)

AIツール紹介

リアルタイムでスケッチを認識し、画像を生成する「LeonardoAI LiveCanvas」機能の紹介

https://t31144381.p.clickup-attachments.com/t31144381/dd28d01c-b632-4709-a10a-fb0b53cc7f47/image.png

本日は、「リアルタイム視覚認識」つながりのAIツールを紹介します。

「LeonardoAI(レオナルドエーアイ)」は、画像生成に特化したAIサービス&コミュニティです。

このLeonardoAIが、12/3に「LiveCanvas(ライブキャンバス)」という新しいリアルタイム画像認識&生成機能、をリリースしました。

この機能を一言で説明すると、「ラフなスケッチ(と簡単なプロンプト)から、(プロフェッショナルな)画像(イラスト、写真など)を生成」できる機能です。

こんな感じです👇

https://t31144381.p.clickup-attachments.com/t31144381/a60f9d9c-631f-497d-b3b8-c3af1f62095c/LeonardoAI_Demo_Cover_In_Email.gif

始め方と、簡単な使い方・デモを動画で解説しました。2023/12/10時点では無料で利用できますので、今すぐ使って(遊んで?)みたい方はぜひご覧ください。

👉LeonardoAI のLiveCanvasデモ動画を見る(Youtube、約20分)

👉LeonardoAI のWebサイトはコチラ

リアルタイム認識🕚、、、すごいですよね。。。

ついつい時間を忘れて遊んでしまいそうです😅

ぜひ試してみて下さいね!


>