GPT-5.4とは?新機能・ベンチマーク・料金を徹底解説【2026年3月リリース】
OpenAIが2026年3月5日にリリースしたGPT-5.4の全貌を解説。初のネイティブPC操作、1Mトークンコンテキスト、ハルシネーション33%減、ツールサーチ機能まで、エンジニアが知りたい情報を網羅。
「GPT-5.4が出たらしいけど、GPT-5.3と何が変わったの?」——2026年3月5日、OpenAI が新フラッグシップモデルをリリースしました。
今回のアップデートは単なるバージョンアップではありません。「人間の専門家を初めて超えた」という評価を受けるほどの性能向上と、これまでとは異なる新アーキテクチャが特徴です。
この記事でわかること:
- GPT-5.4 の概要と位置づけ
- 主要新機能(コンピューターユース・ツールサーチ・1Mコンテキスト)
- ベンチマーク結果(前モデル・他モデルとの比較)
- 料金体系(Standard / Pro)
- GPT-5.3 からアップグレードすべきかの判断基準
PR
GPT-5.4 とは
GPT-5.4 は、OpenAI が 2026年3月5日 にリリースした現時点での最上位汎用モデルです。
今回の最大の特徴は、コーディング特化型モデル(GPT-5.3-Codex)と汎用推論モデルを統合した新アーキテクチャを採用した点です。これにより、コーディング・推論・文書作成・PC操作を1つのモデルでシームレスに処理できるようになりました。
バリエーション
GPT-5.4 は用途別に3つのバリエーションで提供されています:
| バリエーション | 特徴 | 向いている用途 |
|---|---|---|
| GPT-5.4(標準) | コスト効率と性能のバランス | API 開発・一般業務 |
| GPT-5.4 Thinking | 段階的推論で精度向上 | 複雑な問題・数学・コード |
| GPT-5.4 Pro | 最高性能、料金は約12倍 | エンタープライズ・研究 |
主要新機能
1. ネイティブ・コンピューターユース(Computer Use)
GPT-5.4 は OpenAI のモデルとして初めてネイティブにコンピューター操作ができる汎用モデルです。
スクリーンショットを見ながらマウス・キーボード操作を行い、実際のデスクトップアプリや Web ブラウザを操作します。これにより:
- ブラウザでデータ収集 → スプレッドシートに転記 → レポート作成、という作業を全自動化
- GUI ベースのアプリをコードなしで自動操作
- テスト環境でのエンドツーエンドテストを自律実行
OSWorld-Verified ベンチマークでは、デスクトップタスクの自律完了率 75.0% を達成し、人間の専門家基準(72.4%)を初めて超えました。
2. ツールサーチ(Tool Search)
実用性を大きく高める新機能が「ツールサーチ」です。
従来のモデルでは、利用可能なツール(MCP サーバー等)の定義を全てコンテキストに事前ロードしていたため、ツール数が増えるとトークンを大量消費していました。ツールサーチでは、必要なツール定義をオンデマンドで取得するため:
- MCP Atlas ベンチマーク(36サーバー・250タスク)でトークン使用量47%削減
- 精度は同等を維持
- 多数のツールを使う開発ワークフローでのコスト削減に直結
3. 100万トークンコンテキスト
API および Codex において、最大100万トークン(約75万語)のコンテキストウィンドウをサポートします。
- 大規模なコードベース全体を一度に読み込める
- 長い会議録・ドキュメント・ログファイルの一括処理
- 複数ファイルにまたがる複雑なリファクタリング
注意: 272K トークンを超えると全セッションで高価格帯が適用されます。大量コンテキストを使う場合は事前にコスト試算を。
4. ハルシネーション(幻覚)33%減
GPT-5.2 比で、個別の主張での誤りが33%減少し、全体的な回答の誤りが18%減少しました。特に法律・医療・財務といった専門知識が必要な業務系タスクでの精度向上が顕著です。
5. 画像入力の強化
高解像度画像入力に2段階が追加されました:
- "original" モード: 最大1,024万ピクセルまで対応
- 改善された "high" モード: 高解像度写真の詳細な解析向け
ベンチマーク比較
| ベンチマーク | GPT-5.4 | GPT-5.3 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| OSWorld-Verified(PC操作) | 75.0% | 58.3% | 72.1% | 68.4% |
| GDPVal(知識業務44職種) | 83% | 71% | 79% | 77% |
| BrowseComp(Web調査) | 82.7% | 71.4% | 84.1% | 78.3% |
| ARC-AGI-2(汎用推論) | 73.3% | 61.2% | 70.5% | 71.8% |
GPT-5.4 Pro ではさらにスコアが向上します:
| ベンチマーク | GPT-5.4 Standard | GPT-5.4 Pro |
|---|---|---|
| BrowseComp | 82.7% | 89.3% |
| ARC-AGI-2 | 73.3% | 83.3% |
| FrontierMath Tier 4 | 27.1% | 38.0% |
※ ベンチマークは特定タスクの性能指標です。実際の用途での感触とは異なる場合があります。モデル全体の比較は「AIコーディングモデル比較2026」も参照してください。
料金体系
API 料金(2026年3月時点)
| プラン | 入力トークン | 出力トークン |
|---|---|---|
| GPT-5.4 Standard | $2.50 / 1M | $15.00 / 1M |
| GPT-5.4 Cached(キャッシュヒット時) | $0.625 / 1M | — |
| GPT-5.4 Pro | $30.00 / 1M | $180.00 / 1M |
ChatGPT での利用
| プラン | 月額 | GPT-5.4 利用 |
|---|---|---|
| 無料 | $0 | 制限付き |
| Plus | $20 | GPT-5.4 Thinking |
| Pro | $200 | GPT-5.4 Pro 含む全バリエーション |
GPT-5.3 からアップグレードすべき?
GPT-5.4 にアップグレードするメリット
- PC操作の自動化が必要なワークフローがある
- 大規模コードベース(272K+トークン)を扱う
- ツールが多いMCP環境でトークンコストを削減したい
- 法律・医療・財務など専門知識系タスクの精度が重要
急がなくてよい場合
- テキスト生成・要約・翻訳がメインで、コンピューターユース不要
- GPT-5.3で問題なく動いている既存プロンプトがある
- コスト最適化が最優先(GPT-5.3の方が安い)
- シンプルなコード補完には過剰スペック
実際のユースケース
エンジニア向け
- 大規模コードレビュー: 数万行のコードベースを一度に読ませ、全体的な改善提案を受ける
- RPA 代替: デスクトップアプリのテスト自動化、GUI 操作の自動化
- マルチツール連携: 多数の MCP サーバーを使う場合のツールサーチによるコスト削減
ビジネス向け
- リサーチ業務: Web検索 → データ収集 → レポート生成の全自動化
- コンプライアンスチェック: 法律・規制文書との照合(専門知識系の高精度が活きる)
- データ転記作業: 社内システムの手動入力作業をコンピューターユースで自動化
まとめ
GPT-5.4 は「汎用 AI」としての到達点を大きく引き上げたモデルです。
- 2026年3月5日リリース、初のネイティブPC操作対応の汎用モデル
- OSWorld で 75% — 人間の専門家基準(72.4%)を初めて超えた
- ツールサーチでトークン使用量47%削減
- 料金: Standard $2.50/1M 入力、Pro $30/1M 入力
- アップグレードのポイントは「PC操作自動化・大規模コンテキスト・多ツール環境のどれかに当てはまるか」
PC を自律操作できる AI は、ソフトウェア開発の自動化に新たな扉を開きます。
参考: