AI
AI INSIGHT 経営課題をAIで解決|経営者のためのAIメディア
Google Gemini 3.1 Pro登場|推論性能2倍・65Kトークン出力、中小企業が注目すべき3つのポイント
技術

Google Gemini 3.1 Pro登場|推論性能2倍・65Kトークン出力、中小企業が注目すべき3つのポイント

2026-02-25
2026-02-25 更新

Google DeepMindが2月19日にリリースした「Gemini 3.1 Pro」は、前モデルから推論性能が2倍以上に向上。コンテキストウィンドウ100万トークン、出力65Kトークンという圧倒的なスペックを持つ新モデルの実力と、企業での活用可能性を解説します。

2月19日、Google DeepMindがGemini 3.1 Proをリリースしました。

「.1のマイナーアップデートでしょ?」と思った方、それは大きな間違いです。推論性能がGemini 3 Proの2倍以上に向上し、出力トークン数も大幅に拡大。Googleが初めて「.1」という増分バージョニングを使ったこと自体が、このモデルの位置づけを物語っています。

スペックの何がすごいのか

ベンチマーク:推論性能が2倍

Gemini 3.1 Proの最大の売りは推論能力の向上です。

ベンチマーク Gemini 3 Pro Gemini 3.1 Pro 向上率
ARC-AGI-2 約35% 77.1% 2倍超
コーディング さらに向上
マルチモーダル さらに向上

ARC-AGI-2は、AIが「まったく新しいパターンの論理問題」を解く能力を測るベンチマークです。単なる知識の暗記ではなく、未知の問題に対する推論力を評価するため、AIの「本当の賢さ」を測る指標として注目されています。

読者
読者

ベンチマークの数字だけ聞いてもピンと来ないんですが、実務で何が変わるんですか?

黒沢(AIジャーナリスト)
黒沢(AIジャーナリスト)

一番わかりやすい変化は、複雑な分析タスクの精度が上がることです。例えば、契約書の矛盾点を見つける、財務データから異常値を検出する、コードのバグを推論で特定する——こうした「考えて答えを出す」タスクの正確性が大幅に改善されます。

入出力スペック

  • コンテキストウィンドウ:100万トークン(書籍約3冊分)
  • 出力上限:65,536トークン(約5万字の日本語)
  • 対応形式:テキスト、画像、音声、動画、PDF、コードリポジトリ
出力65Kトークンの意味

従来のモデルは出力が4K〜8Kトークン程度でした。65Kトークンなら、50ページの報告書や詳細なビジネスプランを1回のプロンプトで生成できます。「途中で切れる」問題がほぼ解消されたと言えます。

新機能:MEDIUM思考レベル

Gemini 3.1 Proでは、思考の深さを制御するthinking_levelパラメータにMEDIUMが追加されました。

思考レベル 用途 コスト 速度
LOW 単純なタスク 低い 高速
MEDIUM(新) バランス重視 中程度 中速
HIGH 複雑な推論 高い 低速
読者
読者

コスト管理の観点から、タスクごとに思考レベルを切り替えるのは良さそうですね。

黒沢
黒沢

その通りです。例えばFAQの自動回答にはLOW、契約書レビューにはHIGH、一般的なメール作成にはMEDIUM——という使い分けで、APIコストを30〜50%削減できるケースがあります。

中小企業が注目すべき3つのポイント

1. コードリポジトリまるごと読める

100万トークンのコンテキストで、中規模のコードベース(数千ファイル)をまるごと読み込ませることが可能に。自社システムの全体を理解した上でバグ修正や機能追加を提案させられます。

Gemini CLIとの連携

GoogleはGemini CLIも同時にアップデートしており、ターミナルから直接Gemini 3.1 Proを使ったコーディング支援が可能です。GitHub Copilotでもパブリックプレビューとして利用可能になりました。

2. 長文ドキュメントの一括分析

100ページ超のPDF、複数の契約書、過去1年分の会議議事録——こうした大量のドキュメントを1回のプロンプトで分析し、要約・比較・問題点の抽出ができます。

3. コスト効率の改善

MEDIUM思考レベルの追加により、「すべてのタスクに最高性能を使う」必要がなくなりました。合同会社四次元のようなAI導入支援企業と連携し、タスクごとの最適な設定を見つけることで、月間のAI利用コストを大幅に抑えられます。

競合との比較

Gemini 3.1 Pro Claude Opus 4.6 GPT-4o
コンテキスト 100万トークン 20万トークン 12.8万トークン
出力上限 65,536 32,000 16,384
推論(ARC-AGI-2) 77.1% 非公開 非公開
価格(入力/100万トークン) $1.25 $15.00 $2.50
読者
読者

コンテキストと出力はGeminiが圧倒的ですが、実際の使い勝手はどうなんですか?

黒沢
黒沢

ベンチマークではGemini 3.1 Proが有利ですが、Claudeは日本語の自然さやコーディング能力で定評があります。GPT-4oはエコシステムの広さが強み。「1つのモデルが全てにおいて最強」という状況ではないので、タスクに応じた使い分けが重要です。

まとめ

  • Gemini 3.1 Proは推論性能が前モデルの2倍以上(ARC-AGI-2: 77.1%)
  • コンテキスト100万トークン、出力65Kトークンで長文処理が圧倒的
  • MEDIUM思考レベルの追加でコスト最適化が容易
  • API、Vertex AI、Geminiアプリ、NotebookLM、GitHub Copilotで利用可能
  • 競合との使い分けが重要。「全タスクGemini」ではなく、タスクに最適なモデルを選ぶ

よくある質問(記事のおさらい)

Q
Q1. Gemini 3.1 Proの推論性能はどれくらい向上した?
A

ARC-AGI-2ベンチマークで77.1%を達成し、前モデルGemini 3 Proの2倍以上の推論性能です。未知の論理問題を解く能力が大幅に向上しています。

Q
Q2. コンテキストウィンドウ100万トークンで何ができる?
A

書籍約3冊分、中規模のコードベース(数千ファイル)、100ページ超のPDF複数本を一度に読み込ませて分析できます。長文ドキュメントの一括処理に特に威力を発揮します。

Q
Q3. APIの料金はいくら?
A

入力は100万トークンあたり$1.25で、GPT-4o($2.50)やClaude Opus 4.6($15.00)と比較してコスト効率が高いのが特徴です。MEDIUM思考レベルを活用することでさらにコストを抑えられます。

Q
Q4. 中小企業での活用方法は?
A

コードベースの一括分析、長文ドキュメント(契約書・議事録)の要約・比較、タスク別の思考レベル切り替えによるコスト最適化が主な活用シーンです。合同会社四次元のようなAI導入支援企業への相談もおすすめです。

Tags

Google Gemini LLM AI活用 推論
黒沢 この記事の筆者

黒沢

AI INSIGHT

テック系メディアで記者として活動後、AI専門ライターに。現在は合同会社四次元にてOpenAI・Google・Anthropicなど主要企業の動向を追い、最新ニュースを発信。

この記事をシェアする

記事一覧に戻る