AI
AI INSIGHT 経営課題をAIで解決|経営者のためのAIメディア
Google Gemini 3 Deep Think、ARC-AGI-2で84.6%達成 — 「AGIは来たのか」論争と企業への実務インパクト
ニュース

Google Gemini 3 Deep Think、ARC-AGI-2で84.6%達成 — 「AGIは来たのか」論争と企業への実務インパクト

2026-02-21
2026-02-21 更新

Googleが発表したGemini 3 Deep Thinkが、人間平均を大幅に超えるAI推論ベンチマークを記録。「AGIに到達したのか」という議論が再燃しています。企業がこの技術進歩から何を読み取るべきかを解説します。

「AIがもう人間より賢いって、本当ですか?」

2026年2月12日、GoogleがGemini 3 Deep Thinkの大規模アップグレードを発表しました。最も注目されたのは、ARC-AGI-2(AI推論ベンチマークの最難関)で84.6%を記録したことです。このテストでの人間の平均スコアは約60%。AIが「推論力」でも人間を上回ったことになります。

AGI(汎用人工知能)に到達したのか」——この問いが再び世界中で議論されています。

Gemini 3 Deep Thinkの驚異的なスコア

まず、Gemini 3 Deep Thinkが達成した主なベンチマーク結果を見てみましょう。

ベンチマーク Gemini 3 DT 人間平均 従来AI最高
ARC-AGI-2(推論) 84.6% 約60% 20%以下
Humanity's Last Exam(総合知識) 48.4% 30%台
国際数学オリンピック 金メダル相当 銀メダル相当
Codeforces(プログラミング) Elo 3455 Elo 2800台
読者
読者

ARC-AGI-2って何ですか?なぜ重要なんですか?

森川(テクノロジーアナリスト)
森川(テクノロジーアナリスト)

ARC-AGI-2は「抽象推論」を測るテストです。パターンを見つけて新しい問題に応用する力——つまり「考える力」を測ります。暗記や知識量ではなく、未知の問題に対処する能力が問われるため、AIにとって最も難しいテストの一つでした。

Humanity's Last Examとは

世界中の専門家が「人間にしか解けない」と考えて作成した超難問テストです。数学、物理、哲学、法学など多分野から出題されます。Gemini 3 Deep Thinkはツールなしで48.4%を達成し、新記録を樹立しました。

「AGIに到達した」と言えるのか

これだけのスコアを見ると「もうAGIでは?」と思うかもしれません。しかし、専門家の見方は分かれています。

AGI肯定派の意見

  • ベンチマークでは明確に人間を超えている
  • 数学・プログラミング・推論のすべてで最高水準
  • 1つのモデルが多領域で人間を超えるのは「汎用的」と呼べる

AGI否定派の意見

  • ベンチマークは「特定の形式のテスト」に最適化されているだけ
  • 常識的な判断、身体的な作業、社会的な文脈理解はまだ弱い
  • 「テストで高得点を取る」ことと「知的に汎用的」は違う
読者
読者

結局、AGIに到達したんですか?

森川
森川

正直に言えば、「AGI」の定義次第です。「特定のテストで人間を超える」という意味なら、すでに到達しています。「あらゆる知的作業で人間と同等以上」という意味なら、まだです。Google自身も「研究・工学領域での実用的な問題解決が目的」と述べていて、AGIという言葉は慎重に避けています。

Googleの公式スタンス

Googleは「AGIに到達した」とは言っていません。「研究・エンジニアリング分野で最も難しい問題を解決するためのツール」として位置づけています。

企業への実務インパクト — 何が変わるのか

「すごいのはわかったけど、うちの会社に関係あるの?」——多くの経営者がこう思うでしょう。

Vertex AI経由の早期アクセス

Gemini 3 Deep ThinkはGoogle Cloud のVertex AIを通じて早期アクセスプログラムが提供されています。研究・R&D部門向けですが、企業が評価を始められる段階に入っています。

AIモデル選定の見直しサイクル

読者
読者

うちは今ChatGPTを使っていますが、Geminiに乗り換えるべきですか?

森川
森川

「乗り換え」ではなく「使い分け」を考えましょう。Deep Thinkが特に強いのは複雑な推論・分析タスクです。カスタマーサポートの自動化なら現行ツールで十分。R&Dや高度なデータ分析なら、Gemini 3 Deep Thinkの評価を始める価値があります。

具体的に活用できる分野

Gemini 3 Deep Thinkが特に威力を発揮する分野は以下の通りです。

  • 研究開発: 新素材の探索、化合物の解析、論文の分析
  • 金融: 複雑なリスクモデリング、市場分析
  • 医療: 診断支援、創薬候補の探索
  • 製造: 品質管理の最適化、設計シミュレーション
  • ソフトウェア開発: 難易度の高いアルゴリズム設計、バグの根本原因分析
コスト面の注意

Deep Thinkは従来のGeminiモデルよりも推論に時間がかかり、API利用料も高くなります。すべてのタスクにDeep Thinkを使うのではなく、「本当に複雑な推論が必要なタスク」に限定して使うのが現実的です。

AIモデルの性能競争が企業に突きつける課題

Gemini 3 Deep Thinkの登場は、企業のAI戦略に重要な課題を突きつけています。

モデル選定の見直しサイクルを短縮する

2025年にはAIモデルの性能が半年ごとに大幅に向上しています。年に1回のモデル評価では追いつかない時代に入りました。四半期ごとに主要モデルの性能を評価し、必要に応じて切り替える体制が必要です。

マルチモデル戦略の採用

1つのAIモデルに依存するのではなく、タスクに応じて複数のモデルを使い分ける「マルチモデル戦略」が重要になっています。

タスク 推奨モデル 理由
複雑な推論・分析 Gemini 3 Deep Think 推論性能が圧倒的
日常的な文書作成 ChatGPT / Claude コスパが良い
コード生成 Claude / Gemini コーディング性能が高い
画像生成 DALL-E 3 / Midjourney 専門特化

AI戦略の策定やモデル選定には、合同会社四次元のような専門家のサポートを活用することもおすすめです。

まとめ

  • Gemini 3 Deep ThinkがARC-AGI-2で84.6%、人間平均(60%)を大幅に超えた
  • 数学オリンピック金メダル、Codeforces Elo 3455など全方位で最高記録
  • 「AGIに到達したか」は定義次第。Google自身はAGIとは呼んでいない
  • 企業はVertex AI経由で評価を開始可能
  • AIモデル選定の見直しサイクルを四半期単位に短縮すべき
  • マルチモデル戦略でタスクに応じた最適なモデルを使い分ける

AIの性能向上スピードは加速しています。重要なのは「どのモデルが最強か」を追いかけることではなく、自社のビジネス課題に最適なモデルを素早く評価・導入する仕組みを作ることです。

よくある質問(記事のおさらい)

Q
Q1. Gemini 3 Deep ThinkのARC-AGI-2スコアは?
A

84.6%です。人間の平均スコアが約60%、従来AIの最高が20%以下だったため、大幅な性能向上です。

Q
Q2. AGIに到達したと言えますか?
A

ベンチマーク上では人間を超えていますが、Google自身はAGIとは呼んでいません。「特定テストでの高得点」と「あらゆる知的作業での汎用性」は異なるため、定義次第です。

Q
Q3. 企業はGemini 3 Deep Thinkをどう使えますか?
A

Google CloudのVertex AIを通じて早期アクセスプログラムが提供されています。研究・R&D部門での複雑な推論・分析タスクに特に有効です。

Q
Q4. ChatGPTからGeminiに乗り換えるべきですか?
A

乗り換えではなく使い分けがおすすめです。複雑な推論・分析はGemini 3 Deep Think、日常的な文書作成はChatGPTやClaudeなど、タスクに応じた使い分けが効果的です。

Q
Q5. Deep Thinkのコストは高いですか?
A

従来のGeminiモデルより推論時間が長く、API利用料も高めです。すべてのタスクに使うのではなく、複雑な推論が必要なタスクに限定して使うのが現実的です。