Google Gemini 3.1 Pro登場｜推論性能2倍・65Kトークン出力、中小企業が注目すべき3つのポイント

Google DeepMindが2月19日にリリースした「Gemini 3.1 Pro」は、前モデルから推論性能が2倍以上に向上。コンテキストウィンドウ100万トークン、出力65Kトークンという圧倒的なスペックを持つ新モデルの実力と、企業での活用可能性を解説します。

スペックの何がすごいのか
ベンチマーク：推論性能が2倍
入出力スペック
新機能：MEDIUM思考レベル
中小企業が注目すべき3つのポイント
1. コードリポジトリまるごと読める
2. 長文ドキュメントの一括分析
3. コスト効率の改善
競合との比較
まとめ
よくある質問（記事のおさらい）

2月19日、Google DeepMindがGemini 3.1 Proをリリースしました。

「.1のマイナーアップデートでしょ？」と思った方、それは大きな間違いです。推論性能がGemini 3 Proの2倍以上に向上し、出力トークン数も大幅に拡大。Googleが初めて「.1」という増分バージョニングを使ったこと自体が、このモデルの位置づけを物語っています。

スペックの何がすごいのか

ベンチマーク：推論性能が2倍

Gemini 3.1 Proの最大の売りは推論能力の向上です。

ベンチマーク	Gemini 3 Pro	Gemini 3.1 Pro	向上率
ARC-AGI-2	約35%	77.1%	2倍超
コーディング	高	さらに向上	—
マルチモーダル	高	さらに向上	—

ARC-AGI-2は、AIが「まったく新しいパターンの論理問題」を解く能力を測るベンチマークです。単なる知識の暗記ではなく、未知の問題に対する推論力を評価するため、AIの「本当の賢さ」を測る指標として注目されています。

読者

ベンチマークの数字だけ聞いてもピンと来ないんですが、実務で何が変わるんですか？

黒沢（AIジャーナリスト）

一番わかりやすい変化は、複雑な分析タスクの精度が上がることです。例えば、契約書の矛盾点を見つける、財務データから異常値を検出する、コードのバグを推論で特定する——こうした「考えて答えを出す」タスクの正確性が大幅に改善されます。

入出力スペック

コンテキストウィンドウ：100万トークン（書籍約3冊分）
出力上限：65,536トークン（約5万字の日本語）
対応形式：テキスト、画像、音声、動画、PDF、コードリポジトリ

出力65Kトークンの意味

従来のモデルは出力が4K〜8Kトークン程度でした。65Kトークンなら、50ページの報告書や詳細なビジネスプランを1回のプロンプトで生成できます。「途中で切れる」問題がほぼ解消されたと言えます。

新機能：MEDIUM思考レベル

Gemini 3.1 Proでは、思考の深さを制御するthinking_levelパラメータにMEDIUMが追加されました。

思考レベル	用途	コスト	速度
LOW	単純なタスク	低い	高速
MEDIUM（新）	バランス重視	中程度	中速
HIGH	複雑な推論	高い	低速

読者

コスト管理の観点から、タスクごとに思考レベルを切り替えるのは良さそうですね。

黒沢

その通りです。例えばFAQの自動回答にはLOW、契約書レビューにはHIGH、一般的なメール作成にはMEDIUM——という使い分けで、APIコストを30〜50%削減できるケースがあります。

中小企業が注目すべき3つのポイント

1. コードリポジトリまるごと読める

100万トークンのコンテキストで、中規模のコードベース（数千ファイル）をまるごと読み込ませることが可能に。自社システムの全体を理解した上でバグ修正や機能追加を提案させられます。

Gemini CLIとの連携

GoogleはGemini CLIも同時にアップデートしており、ターミナルから直接Gemini 3.1 Proを使ったコーディング支援が可能です。GitHub Copilotでもパブリックプレビューとして利用可能になりました。

2. 長文ドキュメントの一括分析

100ページ超のPDF、複数の契約書、過去1年分の会議議事録——こうした大量のドキュメントを1回のプロンプトで分析し、要約・比較・問題点の抽出ができます。

3. コスト効率の改善

MEDIUM思考レベルの追加により、「すべてのタスクに最高性能を使う」必要がなくなりました。合同会社四次元のようなAI導入支援企業と連携し、タスクごとの最適な設定を見つけることで、月間のAI利用コストを大幅に抑えられます。

競合との比較

	Gemini 3.1 Pro	Claude Opus 4.6	GPT-4o
コンテキスト	100万トークン	20万トークン	12.8万トークン
出力上限	65,536	32,000	16,384
推論（ARC-AGI-2）	77.1%	非公開	非公開
価格（入力/100万トークン）	$1.25	$15.00	$2.50

読者

コンテキストと出力はGeminiが圧倒的ですが、実際の使い勝手はどうなんですか？

黒沢

ベンチマークではGemini 3.1 Proが有利ですが、Claudeは日本語の自然さやコーディング能力で定評があります。GPT-4oはエコシステムの広さが強み。「1つのモデルが全てにおいて最強」という状況ではないので、タスクに応じた使い分けが重要です。

まとめ

Gemini 3.1 Proは推論性能が前モデルの2倍以上（ARC-AGI-2: 77.1%）
コンテキスト100万トークン、出力65Kトークンで長文処理が圧倒的
MEDIUM思考レベルの追加でコスト最適化が容易に
API、Vertex AI、Geminiアプリ、NotebookLM、GitHub Copilotで利用可能
競合との使い分けが重要。「全タスクGemini」ではなく、タスクに最適なモデルを選ぶ

よくある質問（記事のおさらい）

Q1. Gemini 3.1 Proの推論性能はどれくらい向上した？

ARC-AGI-2ベンチマークで77.1%を達成し、前モデルGemini 3 Proの2倍以上の推論性能です。未知の論理問題を解く能力が大幅に向上しています。

Q2. コンテキストウィンドウ100万トークンで何ができる？

書籍約3冊分、中規模のコードベース（数千ファイル）、100ページ超のPDF複数本を一度に読み込ませて分析できます。長文ドキュメントの一括処理に特に威力を発揮します。

Q3. APIの料金はいくら？

入力は100万トークンあたり$1.25で、GPT-4o（$2.50）やClaude Opus 4.6（$15.00）と比較してコスト効率が高いのが特徴です。MEDIUM思考レベルを活用することでさらにコストを抑えられます。

Q4. 中小企業での活用方法は？

コードベースの一括分析、長文ドキュメント（契約書・議事録）の要約・比較、タスク別の思考レベル切り替えによるコスト最適化が主な活用シーンです。合同会社四次元のようなAI導入支援企業への相談もおすすめです。

Google Gemini 3.1 Pro登場｜推論性能2倍・65Kトークン出力、中小企業が注目すべき3つのポイント

目次

スペックの何がすごいのか

ベンチマーク：推論性能が2倍

入出力スペック

新機能：MEDIUM思考レベル

中小企業が注目すべき3つのポイント

1. コードリポジトリまるごと読める

2. 長文ドキュメントの一括分析

3. コスト効率の改善

競合との比較

まとめ

よくある質問（記事のおさらい）

Tags

黒沢

この記事をシェアする

Related Articles

AI推論コストが10分の1に｜NVIDIA Blackwell × オープンソースモデルが企業AIの経済性を変える

OLMo 3：コード・データ・学習ログまで全公開のオープンソースLLMが企業AIを変える

Google Gemini 3 Deep Think、ARC-AGI-2で84.6%達成 — 「AGIは来たのか」論争と企業への実務インパクト

AIエージェントOS戦争｜Microsoft Copilot Studio vs Google Agentspace vs Salesforce Agentforce

目次

Categories

Popular Now

OpenAI「Frontier」発表｜アクセンチュア・BCG・マッキンゼーと提携、企業AI導入はどう変わるか

AI推論コストが10分の1に｜NVIDIA Blackwell × オープンソースモデルが企業AIの経済性を変える

OLMo 3：コード・データ・学習ログまで全公開のオープンソースLLMが企業AIを変える

Google Gemini 3.1 Pro登場｜推論性能2倍・65Kトークン出力、中小企業が注目すべき3つのポイント

Read Next

AI推論コストが10分の1に｜NVIDIA Blackwell × オープンソースモデルが企業AIの経済性を変える

OLMo 3：コード・データ・学習ログまで全公開のオープンソースLLMが企業AIを変える

UiPathが提唱する2026年AIエージェント7大トレンド｜RPAからエージェント自動化へ