2026年3月5日、OpenAIはフラグシップモデル「GPT-5.4」を発表しました。推論・コーディング・エージェント機能を1つのモデルに集約し、さらにAIがPCを直接操作する「ネイティブ・コンピュータ操作」を初めて搭載した点が最大の注目ポイントです。
この記事では、GPT-5.4の主要な新機能、ベンチマーク結果、料金体系、そして企業が具体的にどう活用できるかを整理します。結論から言えば、GPT-5.4は「AIを使う」から「AIに任せる」への転換点となるモデルといえるでしょう。
ネイティブ・コンピュータ操作|AIがPCを直接動かす
GPT-5.4のコンピュータ操作機能
GPT-5.4の最大の新機能は、ネイティブなコンピュータ操作(Computer Use)です。OpenAIが一般用途モデルにPC操作を組み込んだのはこれが初めてとなります。
具体的には、スクリーンショットを認識し、マウスクリックやキーボード入力を自律的に実行できます。ブラウザの操作、フォーム入力、アプリの切り替え、ファイルの保存といった作業をAIが一貫して行えるようになりました。
ベンチマークでは人間を超える精度
| ベンチマーク | GPT-5.4 | GPT-5.2 | 人間 |
|---|---|---|---|
| OSWorld-Verified(PC操作) | 75.0% | 47.3% | 72.4% |
| WebArena-Verified(ブラウザ操作) | 67.3% | - | - |
| Online-Mind2Web(スクリーンショット認識) | 92.8% | - | - |
OSWorld-Verifiedで75.0%を達成し、人間のベンチマーク(72.4%)を初めて超えました。GPT-5.2の47.3%から大幅な飛躍です。
コンピュータ操作って、AnthropicのClaude Computer Useとどう違うのでしょうか?
Claudeが先行していた分野ですが、GPT-5.4はOSWorldベンチマークで75%と、競合を上回るスコアを出しています。加えて100万トークンの長大なコンテキストと組み合わせることで、複数アプリをまたぐ長時間ワークフローにも対応できる点が差別化ポイントです。
100万トークン対応とTool Search|コスト効率の革新
100万トークンのコンテキストウィンドウ
GPT-5.4は最大105万トークンのコンテキストウィンドウをサポートします。これにより、大量のドキュメントやコードベースを一度に処理し、長期的なタスクの計画・実行・検証が可能になりました。
Tool Search:トークンコスト47%削減
もう一つの注目機能がTool Searchです。従来のモデルでは、利用可能なツールの定義をすべてプロンプトに含める必要があり、トークン消費が膨大になっていました。
Tool Searchでは、モデルが必要なツールを検索して動的に呼び出す仕組みにより、ツール定義のトークン消費を平均47%削減します。API経由で多数のツールを使うエージェント構築において、コスト削減効果は非常に大きいといえます。
API料金体系
| モデル | 入力(1Mトークン) | 出力(1Mトークン) | コンテキスト上限 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 105万トークン |
| GPT-5.4 Pro | $30.00 | $180.00 | 105万トークン |
272Kトークンを超える入力の場合、入力価格が2倍・出力価格が1.5倍になります。大規模コンテキストを常用する場合はコスト試算が必要です。
GPT-5.4 Thinking|思考途中で方向修正が可能に
Mid-Response Steeringの概念
ChatGPT上で利用できるGPT-5.4 Thinkingには、Mid-Response Steering(思考途中での指示変更)という新機能が搭載されています。
従来のモデルでは、回答が完成するまで待ってから修正指示を出す必要がありました。GPT-5.4 Thinkingでは、モデルが最初に思考プランを提示し、ユーザーはそのプランを確認しながら途中で方向を修正できます。
途中で修正できると、具体的に何が変わるのですか?
たとえば「市場分析レポートを作って」と依頼して、モデルが「競合5社を分析します」と計画を出した段階で「3社でいい、代わりに財務データを深掘りして」と指示変更できます。最初からやり直す必要がないので、作業時間とトークンの両方を節約できます。
2つのティア構成
GPT-5.4には2つのティアが用意されています。
| ティア | 対象プラン | 特徴 |
|---|---|---|
| GPT-5.4(Thinking) | Plus / Team / Pro | 標準的な推論・コーディング・PC操作 |
| GPT-5.4 Pro | Pro / Business / Enterprise / Edu | 高度な推論タスク向け、より深い思考 |
44職種で専門家を超えるパフォーマンス|GDPvalベンチマーク
GPT-5.4の専門業務ベンチマーク
OpenAIが独自に開発したGDPvalベンチマークでは、米国GDP上位9業界の44職種にわたる実務タスクでモデルの能力を測定しています。営業プレゼン作成、会計スプレッドシート作成、緊急医療スケジューリング、製造図面作成など、実際の業務成果物を求める内容です。
主要な結果
- 専門家との比較:GPT-5.4は83.0%のタスクで専門家と同等以上(GPT-5.2は70.9%)
- スプレッドシートモデリング:68.4% → 87.3%に大幅向上
- プレゼン資料:人間評価者の68%がGPT-5.2より優れていると回答
- 事実誤り:個別の主張レベルで33%減少、回答全体でのエラー含有率は18%減少
事実誤りの減少は、GPT-5.2で課題とされていたハルシネーション問題への対策が進んだことを示しています。特に正確性が求められる業務での信頼性向上は大きな進歩です。
企業導入の実践ポイント|何から始めるべきか
企業でのGPT-5.4活用
GPT-5.4の機能を企業で活用するには、段階的なアプローチが有効です。
ステップ1:コンピュータ操作の自動化
まずはルーティンのPC操作から自動化を始めるのが現実的です。
- データ入力・転記作業の自動化
- Webフォームへの定型入力
- 複数システム間のデータ連携
ステップ2:Tool Searchを活用したエージェント構築
APIを使ったエージェント開発では、Tool Searchによるコスト削減メリットを活かせます。
- 社内ツールのAPI連携
- CRM・ERP連携による業務自動化
- カスタマーサポートの自律対応
ステップ3:Thinking機能による高度な意思決定支援
Mid-Response Steeringを活用すれば、対話的にレポートや分析を仕上げられます。
- 経営レポートの対話的作成
- 市場調査・競合分析
- 財務モデリング
いきなり全社導入ではなく、まずは1つの部門・1つの業務から試すことをおすすめします。コンピュータ操作機能はまだ新しい技術なので、重要な業務での本格運用前に十分な検証期間を設けましょう。
- ネイティブPC操作で人間を超える精度(OSWorld 75%)
- 100万トークン対応で大規模ドキュメント処理が可能
- Tool SearchでAPIコスト47%削減
- 事実誤り33%減で信頼性向上
- Mid-Response Steeringで作業効率アップ
- GPT-5.4 Proは高額(入力$30/1M、出力$180/1M)
- 272Kトークン超で料金が1.5〜2倍に
- コンピュータ操作はセキュリティリスクの評価が必要
- 既存ワークフローへの統合にはエンジニアリングコストがかかる
まとめ
GPT-5.4は、OpenAIが推論・コーディング・PC操作を1つのモデルに統合した意欲的なリリースです。
- ネイティブ・コンピュータ操作でOSWorld 75.0%を達成(人間超え)
- 105万トークンのコンテキストウィンドウで長大な業務フローに対応
- Tool Searchでトークンコスト47%削減、エージェント構築のコスト障壁を低減
- Mid-Response Steeringで思考途中の方向修正が可能に
- GDPvalで44職種の83%において専門家と同等以上のパフォーマンス
- 事実誤り33%削減で信頼性が向上
まずは自社の定型業務でコンピュータ操作機能を試し、効果を検証するところから始めてみてはいかがでしょうか。AI導入・活用でお悩みの場合は、合同会社四次元までお気軽にご相談ください。
参考リンク:
ChatGPT上のGPT-5.4 ThinkingはPlus(月額$20)以上のプランで利用可能です。無料プランでは利用できません。API経由では入力$2.50/1Mトークン、出力$15.00/1Mトークンの従量課金となります。
OpenAIはセキュリティ対策を講じていますが、AIにPC操作を委ねるため、導入前に自社のセキュリティポリシーとの整合性を確認する必要があります。特に機密データへのアクセス範囲やログ管理の仕組みを事前に設計することが重要です。
GPT-5.4は汎用的な推論・コーディング・PC操作向けで、Plus/Team/Proプランで利用可能です。GPT-5.4 Proはより深い推論が必要な高難度タスク向けで、Pro/Business/Enterprise/Eduプランで利用できます。API料金はProが約12倍高くなります。
データ入力・転記などの定型PC操作、複数システム間のデータ連携、レポート作成、市場調査が特に向いています。GDPvalベンチマークではスプレッドシートモデリングで87.3%のスコアを記録しており、表計算を伴う業務での活用が期待されます。AI導入の具体的な進め方については合同会社四次元にご相談ください。
API利用時にツール定義をすべてプロンプトに含める代わりに、モデルが必要なツールを動的に検索・選択する仕組みです。これにより、ツール定義に使うトークンを平均47%削減でき、多数のツールを連携させるエージェント開発のコスト効率が大幅に向上します。