「AIがもう人間より賢いって、本当ですか?」
2026年2月12日、GoogleがGemini 3 Deep Thinkの大規模アップグレードを発表しました。最も注目されたのは、ARC-AGI-2(AI推論ベンチマークの最難関)で84.6%を記録したことです。このテストでの人間の平均スコアは約60%。AIが「推論力」でも人間を上回ったことになります。
「AGI(汎用人工知能)に到達したのか」——この問いが再び世界中で議論されています。
Gemini 3 Deep Thinkの驚異的なスコア
まず、Gemini 3 Deep Thinkが達成した主なベンチマーク結果を見てみましょう。
| ベンチマーク | Gemini 3 DT | 人間平均 | 従来AI最高 |
|---|---|---|---|
| ARC-AGI-2(推論) | 84.6% | 約60% | 20%以下 |
| Humanity's Last Exam(総合知識) | 48.4% | — | 30%台 |
| 国際数学オリンピック | 金メダル相当 | — | 銀メダル相当 |
| Codeforces(プログラミング) | Elo 3455 | — | Elo 2800台 |
ARC-AGI-2って何ですか?なぜ重要なんですか?
ARC-AGI-2は「抽象推論」を測るテストです。パターンを見つけて新しい問題に応用する力——つまり「考える力」を測ります。暗記や知識量ではなく、未知の問題に対処する能力が問われるため、AIにとって最も難しいテストの一つでした。
世界中の専門家が「人間にしか解けない」と考えて作成した超難問テストです。数学、物理、哲学、法学など多分野から出題されます。Gemini 3 Deep Thinkはツールなしで48.4%を達成し、新記録を樹立しました。
「AGIに到達した」と言えるのか
これだけのスコアを見ると「もうAGIでは?」と思うかもしれません。しかし、専門家の見方は分かれています。
AGI肯定派の意見
- ベンチマークでは明確に人間を超えている
- 数学・プログラミング・推論のすべてで最高水準
- 1つのモデルが多領域で人間を超えるのは「汎用的」と呼べる
AGI否定派の意見
- ベンチマークは「特定の形式のテスト」に最適化されているだけ
- 常識的な判断、身体的な作業、社会的な文脈理解はまだ弱い
- 「テストで高得点を取る」ことと「知的に汎用的」は違う
結局、AGIに到達したんですか?
正直に言えば、「AGI」の定義次第です。「特定のテストで人間を超える」という意味なら、すでに到達しています。「あらゆる知的作業で人間と同等以上」という意味なら、まだです。Google自身も「研究・工学領域での実用的な問題解決が目的」と述べていて、AGIという言葉は慎重に避けています。
Googleは「AGIに到達した」とは言っていません。「研究・エンジニアリング分野で最も難しい問題を解決するためのツール」として位置づけています。
企業への実務インパクト — 何が変わるのか
「すごいのはわかったけど、うちの会社に関係あるの?」——多くの経営者がこう思うでしょう。
Vertex AI経由の早期アクセス
Gemini 3 Deep ThinkはGoogle Cloud のVertex AIを通じて早期アクセスプログラムが提供されています。研究・R&D部門向けですが、企業が評価を始められる段階に入っています。
AIモデル選定の見直しサイクル
うちは今ChatGPTを使っていますが、Geminiに乗り換えるべきですか?
「乗り換え」ではなく「使い分け」を考えましょう。Deep Thinkが特に強いのは複雑な推論・分析タスクです。カスタマーサポートの自動化なら現行ツールで十分。R&Dや高度なデータ分析なら、Gemini 3 Deep Thinkの評価を始める価値があります。
具体的に活用できる分野
Gemini 3 Deep Thinkが特に威力を発揮する分野は以下の通りです。
- 研究開発: 新素材の探索、化合物の解析、論文の分析
- 金融: 複雑なリスクモデリング、市場分析
- 医療: 診断支援、創薬候補の探索
- 製造: 品質管理の最適化、設計シミュレーション
- ソフトウェア開発: 難易度の高いアルゴリズム設計、バグの根本原因分析
Deep Thinkは従来のGeminiモデルよりも推論に時間がかかり、API利用料も高くなります。すべてのタスクにDeep Thinkを使うのではなく、「本当に複雑な推論が必要なタスク」に限定して使うのが現実的です。
AIモデルの性能競争が企業に突きつける課題
Gemini 3 Deep Thinkの登場は、企業のAI戦略に重要な課題を突きつけています。
モデル選定の見直しサイクルを短縮する
2025年にはAIモデルの性能が半年ごとに大幅に向上しています。年に1回のモデル評価では追いつかない時代に入りました。四半期ごとに主要モデルの性能を評価し、必要に応じて切り替える体制が必要です。
マルチモデル戦略の採用
1つのAIモデルに依存するのではなく、タスクに応じて複数のモデルを使い分ける「マルチモデル戦略」が重要になっています。
| タスク | 推奨モデル | 理由 |
|---|---|---|
| 複雑な推論・分析 | Gemini 3 Deep Think | 推論性能が圧倒的 |
| 日常的な文書作成 | ChatGPT / Claude | コスパが良い |
| コード生成 | Claude / Gemini | コーディング性能が高い |
| 画像生成 | DALL-E 3 / Midjourney | 専門特化 |
AI戦略の策定やモデル選定には、合同会社四次元のような専門家のサポートを活用することもおすすめです。
まとめ
- Gemini 3 Deep ThinkがARC-AGI-2で84.6%、人間平均(60%)を大幅に超えた
- 数学オリンピック金メダル、Codeforces Elo 3455など全方位で最高記録
- 「AGIに到達したか」は定義次第。Google自身はAGIとは呼んでいない
- 企業はVertex AI経由で評価を開始可能
- AIモデル選定の見直しサイクルを四半期単位に短縮すべき
- マルチモデル戦略でタスクに応じた最適なモデルを使い分ける
AIの性能向上スピードは加速しています。重要なのは「どのモデルが最強か」を追いかけることではなく、自社のビジネス課題に最適なモデルを素早く評価・導入する仕組みを作ることです。
よくある質問(記事のおさらい)
84.6%です。人間の平均スコアが約60%、従来AIの最高が20%以下だったため、大幅な性能向上です。
ベンチマーク上では人間を超えていますが、Google自身はAGIとは呼んでいません。「特定テストでの高得点」と「あらゆる知的作業での汎用性」は異なるため、定義次第です。
Google CloudのVertex AIを通じて早期アクセスプログラムが提供されています。研究・R&D部門での複雑な推論・分析タスクに特に有効です。
乗り換えではなく使い分けがおすすめです。複雑な推論・分析はGemini 3 Deep Think、日常的な文書作成はChatGPTやClaudeなど、タスクに応じた使い分けが効果的です。
従来のGeminiモデルより推論時間が長く、API利用料も高めです。すべてのタスクに使うのではなく、複雑な推論が必要なタスクに限定して使うのが現実的です。