ITぽんずテックブログ

AIツール活用9 min readPR

GPT-5.4とは？新機能・ベンチマーク・料金を徹底解説【2026年3月リリース】

OpenAIが2026年3月5日にリリースしたGPT-5.4の全貌を解説。初のネイティブPC操作、1Mトークンコンテキスト、ハルシネーション33%減、ツールサーチ機能まで、エンジニアが知りたい情報を網羅。

2026年3月11日

#gpt#openai#ai-model#computer-use#llm

「GPT-5.4が出たらしいけど、GPT-5.3と何が変わったの？」——2026年3月5日、OpenAI が新フラッグシップモデルをリリースしました。

今回のアップデートは単なるバージョンアップではありません。「人間の専門家を初めて超えた」という評価を受けるほどの性能向上と、これまでとは異なる新アーキテクチャが特徴です。

この記事でわかること：

GPT-5.4 の概要と位置づけ
主要新機能（コンピューターユース・ツールサーチ・1Mコンテキスト）
ベンチマーク結果（前モデル・他モデルとの比較）
料金体系（Standard / Pro）
GPT-5.3 からアップグレードすべきかの判断基準

PR

GPT-5.4 とは

GPT-5.4 は、OpenAI が 2026年3月5日 にリリースした現時点での最上位汎用モデルです。

今回の最大の特徴は、コーディング特化型モデル（GPT-5.3-Codex）と汎用推論モデルを統合した新アーキテクチャを採用した点です。これにより、コーディング・推論・文書作成・PC操作を1つのモデルでシームレスに処理できるようになりました。

バリエーション

GPT-5.4 は用途別に3つのバリエーションで提供されています：

バリエーション	特徴	向いている用途
GPT-5.4（標準）	コスト効率と性能のバランス	API 開発・一般業務
GPT-5.4 Thinking	段階的推論で精度向上	複雑な問題・数学・コード
GPT-5.4 Pro	最高性能、料金は約12倍	エンタープライズ・研究

主要新機能

1. ネイティブ・コンピューターユース（Computer Use）

GPT-5.4 は OpenAI のモデルとして初めてネイティブにコンピューター操作ができる汎用モデルです。

スクリーンショットを見ながらマウス・キーボード操作を行い、実際のデスクトップアプリや Web ブラウザを操作します。これにより：

ブラウザでデータ収集 → スプレッドシートに転記 → レポート作成、という作業を全自動化
GUI ベースのアプリをコードなしで自動操作
テスト環境でのエンドツーエンドテストを自律実行

OSWorld-Verified ベンチマークでは、デスクトップタスクの自律完了率 75.0% を達成し、人間の専門家基準（72.4%）を初めて超えました。

2. ツールサーチ（Tool Search）

実用性を大きく高める新機能が「ツールサーチ」です。

従来のモデルでは、利用可能なツール（MCP サーバー等）の定義を全てコンテキストに事前ロードしていたため、ツール数が増えるとトークンを大量消費していました。ツールサーチでは、必要なツール定義をオンデマンドで取得するため：

MCP Atlas ベンチマーク（36サーバー・250タスク）でトークン使用量47%削減
精度は同等を維持
多数のツールを使う開発ワークフローでのコスト削減に直結

3. 100万トークンコンテキスト

API および Codex において、最大100万トークン（約75万語）のコンテキストウィンドウをサポートします。

大規模なコードベース全体を一度に読み込める
長い会議録・ドキュメント・ログファイルの一括処理
複数ファイルにまたがる複雑なリファクタリング

注意: 272K トークンを超えると全セッションで高価格帯が適用されます。大量コンテキストを使う場合は事前にコスト試算を。

4. ハルシネーション（幻覚）33%減

GPT-5.2 比で、個別の主張での誤りが33%減少し、全体的な回答の誤りが18%減少しました。特に法律・医療・財務といった専門知識が必要な業務系タスクでの精度向上が顕著です。

5. 画像入力の強化

高解像度画像入力に2段階が追加されました：

"original" モード: 最大1,024万ピクセルまで対応
改善された "high" モード: 高解像度写真の詳細な解析向け

ベンチマーク比較

ベンチマーク	GPT-5.4	GPT-5.3	Claude Opus 4.6	Gemini 3.1 Pro
OSWorld-Verified（PC操作）	75.0%	58.3%	72.1%	68.4%
GDPVal（知識業務44職種）	83%	71%	79%	77%
BrowseComp（Web調査）	82.7%	71.4%	84.1%	78.3%
ARC-AGI-2（汎用推論）	73.3%	61.2%	70.5%	71.8%

GPT-5.4 Pro ではさらにスコアが向上します：

ベンチマーク	GPT-5.4 Standard	GPT-5.4 Pro
BrowseComp	82.7%	89.3%
ARC-AGI-2	73.3%	83.3%
FrontierMath Tier 4	27.1%	38.0%

※ ベンチマークは特定タスクの性能指標です。実際の用途での感触とは異なる場合があります。モデル全体の比較は「AIコーディングモデル比較2026」も参照してください。

料金体系

API 料金（2026年3月時点）

プラン	入力トークン	出力トークン
GPT-5.4 Standard	$2.50 / 1M	$15.00 / 1M
GPT-5.4 Cached（キャッシュヒット時）	$0.625 / 1M	—
GPT-5.4 Pro	$30.00 / 1M	$180.00 / 1M

ChatGPT での利用

プラン	月額	GPT-5.4 利用
無料	$0	制限付き
Plus	$20	GPT-5.4 Thinking
Pro	$200	GPT-5.4 Pro 含む全バリエーション

GPT-5.3 からアップグレードすべき？

GPT-5.4 にアップグレードするメリット

PC操作の自動化が必要なワークフローがある
大規模コードベース（272K+トークン）を扱う
ツールが多いMCP環境でトークンコストを削減したい
法律・医療・財務など専門知識系タスクの精度が重要

急がなくてよい場合

テキスト生成・要約・翻訳がメインで、コンピューターユース不要
GPT-5.3で問題なく動いている既存プロンプトがある
コスト最適化が最優先（GPT-5.3の方が安い）
シンプルなコード補完には過剰スペック

実際のユースケース

エンジニア向け

大規模コードレビュー: 数万行のコードベースを一度に読ませ、全体的な改善提案を受ける
RPA 代替: デスクトップアプリのテスト自動化、GUI 操作の自動化
マルチツール連携: 多数の MCP サーバーを使う場合のツールサーチによるコスト削減

ビジネス向け

リサーチ業務: Web検索 → データ収集 → レポート生成の全自動化
コンプライアンスチェック: 法律・規制文書との照合（専門知識系の高精度が活きる）
データ転記作業: 社内システムの手動入力作業をコンピューターユースで自動化

まとめ

GPT-5.4 は「汎用 AI」としての到達点を大きく引き上げたモデルです。

2026年3月5日リリース、初のネイティブPC操作対応の汎用モデル
OSWorld で 75% — 人間の専門家基準（72.4%）を初めて超えた
ツールサーチでトークン使用量47%削減
料金: Standard $2.50/1M 入力、Pro $30/1M 入力
アップグレードのポイントは「PC操作自動化・大規模コンテキスト・多ツール環境のどれかに当てはまるか」

PC を自律操作できる AI は、ソフトウェア開発の自動化に新たな扉を開きます。

参考:

PR

関連記事

2026年5月21日

Composer 2.5 完全解説｜特徴・他モデルとの比較・料金プランを徹底まとめ【2026年5月】

Cursorが2026年5月18日にリリースしたComposer 2.5を徹底解説。Composer 2からの改善点、Claude・GPT-5.5・Geminiとのコスト比較、学習技術の詳細、Cursorプランの料金まで網羅。

2026年5月8日

AnthropicがSpaceXと計算資源契約を締結｜Claude Codeの上限2倍・宇宙データセンター構想まで解説

2026年5月、AnthropicがSpaceXのColossus 1データセンターとの計算資源契約を発表。Claude Code利用制限の倍増、GPU22万台規模の背景、マスクの態度変化、宇宙データセンター計画まで詳しく解説します。

2026年5月8日

AnthropicがClaudeで金融業界を自動化——財務モデル・KYC・ピッチデッキを生成するAIエージェント群を公開

AnthropicがGitHubで公開した金融サービス向けClaudeエージェント集を徹底解説。投資銀行・株式リサーチ・PEファンド・ウェルスマネジメントを対象に、DCFモデル作成・KYCスクリーニング・月次決算クローズなどを自動化するエージェントの使い方を紹介。