2月19日、Google DeepMindがGemini 3.1 Proをリリースしました。
「.1のマイナーアップデートでしょ?」と思った方、それは大きな間違いです。推論性能がGemini 3 Proの2倍以上に向上し、出力トークン数も大幅に拡大。Googleが初めて「.1」という増分バージョニングを使ったこと自体が、このモデルの位置づけを物語っています。
スペックの何がすごいのか
ベンチマーク:推論性能が2倍
Gemini 3.1 Proの最大の売りは推論能力の向上です。
| ベンチマーク | Gemini 3 Pro | Gemini 3.1 Pro | 向上率 |
|---|---|---|---|
| ARC-AGI-2 | 約35% | 77.1% | 2倍超 |
| コーディング | 高 | さらに向上 | — |
| マルチモーダル | 高 | さらに向上 | — |
ARC-AGI-2は、AIが「まったく新しいパターンの論理問題」を解く能力を測るベンチマークです。単なる知識の暗記ではなく、未知の問題に対する推論力を評価するため、AIの「本当の賢さ」を測る指標として注目されています。
ベンチマークの数字だけ聞いてもピンと来ないんですが、実務で何が変わるんですか?
一番わかりやすい変化は、複雑な分析タスクの精度が上がることです。例えば、契約書の矛盾点を見つける、財務データから異常値を検出する、コードのバグを推論で特定する——こうした「考えて答えを出す」タスクの正確性が大幅に改善されます。
入出力スペック
- コンテキストウィンドウ:100万トークン(書籍約3冊分)
- 出力上限:65,536トークン(約5万字の日本語)
- 対応形式:テキスト、画像、音声、動画、PDF、コードリポジトリ
従来のモデルは出力が4K〜8Kトークン程度でした。65Kトークンなら、50ページの報告書や詳細なビジネスプランを1回のプロンプトで生成できます。「途中で切れる」問題がほぼ解消されたと言えます。
新機能:MEDIUM思考レベル
Gemini 3.1 Proでは、思考の深さを制御するthinking_levelパラメータにMEDIUMが追加されました。
| 思考レベル | 用途 | コスト | 速度 |
|---|---|---|---|
| LOW | 単純なタスク | 低い | 高速 |
| MEDIUM(新) | バランス重視 | 中程度 | 中速 |
| HIGH | 複雑な推論 | 高い | 低速 |
コスト管理の観点から、タスクごとに思考レベルを切り替えるのは良さそうですね。
その通りです。例えばFAQの自動回答にはLOW、契約書レビューにはHIGH、一般的なメール作成にはMEDIUM——という使い分けで、APIコストを30〜50%削減できるケースがあります。
中小企業が注目すべき3つのポイント
1. コードリポジトリまるごと読める
100万トークンのコンテキストで、中規模のコードベース(数千ファイル)をまるごと読み込ませることが可能に。自社システムの全体を理解した上でバグ修正や機能追加を提案させられます。
GoogleはGemini CLIも同時にアップデートしており、ターミナルから直接Gemini 3.1 Proを使ったコーディング支援が可能です。GitHub Copilotでもパブリックプレビューとして利用可能になりました。
2. 長文ドキュメントの一括分析
100ページ超のPDF、複数の契約書、過去1年分の会議議事録——こうした大量のドキュメントを1回のプロンプトで分析し、要約・比較・問題点の抽出ができます。
3. コスト効率の改善
MEDIUM思考レベルの追加により、「すべてのタスクに最高性能を使う」必要がなくなりました。合同会社四次元のようなAI導入支援企業と連携し、タスクごとの最適な設定を見つけることで、月間のAI利用コストを大幅に抑えられます。
競合との比較
| Gemini 3.1 Pro | Claude Opus 4.6 | GPT-4o | |
|---|---|---|---|
| コンテキスト | 100万トークン | 20万トークン | 12.8万トークン |
| 出力上限 | 65,536 | 32,000 | 16,384 |
| 推論(ARC-AGI-2) | 77.1% | 非公開 | 非公開 |
| 価格(入力/100万トークン) | $1.25 | $15.00 | $2.50 |
コンテキストと出力はGeminiが圧倒的ですが、実際の使い勝手はどうなんですか?
ベンチマークではGemini 3.1 Proが有利ですが、Claudeは日本語の自然さやコーディング能力で定評があります。GPT-4oはエコシステムの広さが強み。「1つのモデルが全てにおいて最強」という状況ではないので、タスクに応じた使い分けが重要です。
まとめ
- Gemini 3.1 Proは推論性能が前モデルの2倍以上(ARC-AGI-2: 77.1%)
- コンテキスト100万トークン、出力65Kトークンで長文処理が圧倒的
- MEDIUM思考レベルの追加でコスト最適化が容易に
- API、Vertex AI、Geminiアプリ、NotebookLM、GitHub Copilotで利用可能
- 競合との使い分けが重要。「全タスクGemini」ではなく、タスクに最適なモデルを選ぶ
よくある質問(記事のおさらい)
ARC-AGI-2ベンチマークで77.1%を達成し、前モデルGemini 3 Proの2倍以上の推論性能です。未知の論理問題を解く能力が大幅に向上しています。
書籍約3冊分、中規模のコードベース(数千ファイル)、100ページ超のPDF複数本を一度に読み込ませて分析できます。長文ドキュメントの一括処理に特に威力を発揮します。
入力は100万トークンあたり$1.25で、GPT-4o($2.50)やClaude Opus 4.6($15.00)と比較してコスト効率が高いのが特徴です。MEDIUM思考レベルを活用することでさらにコストを抑えられます。
コードベースの一括分析、長文ドキュメント(契約書・議事録)の要約・比較、タスク別の思考レベル切り替えによるコスト最適化が主な活用シーンです。合同会社四次元のようなAI導入支援企業への相談もおすすめです。