Composer 2.5 完全解説|特徴・他モデルとの比較・料金プランを徹底まとめ【2026年5月】
Cursorが2026年5月18日にリリースしたComposer 2.5を徹底解説。Composer 2からの改善点、Claude・GPT-5.5・Geminiとのコスト比較、学習技術の詳細、Cursorプランの料金まで網羅。
「Cursorが独自モデル Composer 2.5 をリリースしたらしいけど、どう変わったの?」
2026年5月18日、Cursorは自社開発のAIコーディングモデル Composer 2.5 を正式リリースしました。Composer 2から知能・ふるまいが大幅に向上しており、コーディングエージェントの実力がさらに引き上げられています。
この記事でわかること:
- Composer 2.5の主な特徴・改善点
- 新しい学習技術(ターゲット型RL・合成データ・Sharded Muon)
- Claude / GPT-5.5 / Geminiなど他モデルとのコスト比較
- Cursorのプラン別料金と Composer 2.5の使い方
PR
Composer 2.5とは?
Composer 2.5 は、Cursor(開発元:Anysphere社)が独自に開発・学習させたエージェント型コーディング専用のAIモデルです。
Cursorは「CopilotやClaudeのAPIをそのまま使う」だけでなく、自社でモデルを開発・ファインチューニングしており、Composerシリーズはその中核にあたります。
Composerシリーズの歴史
| モデル | リリース日 | 備考 |
|---|---|---|
| Composer 1 | 2025年後半 | 初代エージェントモデル |
| Composer 1.5 | 2026年2月 | 中間改良版 |
| Composer 2 | 2026年3月19日 | 継続事前学習+大規模RL導入 |
| Composer 2.5 | 2026年5月18日 | 知能・ふるまいを大幅強化 |
Composerシリーズはすべて Moonshot社のオープンソースモデル「Kimi K2.5」 をベースとし、Cursorが独自の継続事前学習と強化学習(RL)を重ねて構築しています。
Composer 2からの主な改善点
1. 長時間タスクへの持続力が向上
Composer 2.5の最も大きな変化のひとつが「長時間タスクでの継続作業能力」です。
従来のComposer 2でも数百ステップのタスクをこなせましたが、Composer 2.5はさらに複雑な指示に対して確実に従い、途中で方向を見失うことが減っています。
2. コミュニケーションスタイルの改善
AIモデルの改善といえばベンチマーク数値が注目されがちですが、Cursorは「既存のベンチマークでは捉えられないが、実運用での有用性には重要な要素」として、次の点を改善しています:
- 作業の進捗報告のわかりやすさ
- どの程度の労力をかけるかの判断精度
- 不必要な確認や中断を減らす
3. 合成タスクの学習量が25倍
Composer 2.5では、学習に使った合成タスクの量が Composer 2の25倍 に拡大されています。RLの学習中にComposerの能力が向上するにつれ、学習用問題の大半をすでに解けるようになってしまうため、常により難しいタスクを動的に生成・選別しながら学習しています。
4. 計算資源がComposer 2の10倍
SpaceXAIとの共同プロジェクトとして、Composer 2.5より前のモデルと比べて合計10倍の計算資源を投入しています。Colossus 2の H100 100万基相当 のインフラと、両社のデータ・学習技術を組み合わせています。
新しい学習技術の解説
Composer 2.5には、従来にない3つの学習手法が導入されています。技術的な背景を理解したい方向けに解説します。
テキストフィードバックを用いたターゲット型RL
従来の強化学習(RL)では、長いロールアウト全体に対して最終的な報酬だけを与えていました。しかし、数十万トークンに及ぶロールアウトの中で「どのステップが問題だったか」をモデルが見極めるのは難しいという課題がありました。
Composer 2.5では、問題のある箇所に直接テキストフィードバックを挿入する手法を採用しています。
具体例:
モデルが存在しないツールを呼び出してしまった場合、そのターンのコンテキストに「利用可能なツール一覧:...」というヒントを直接挿入。そのヒントを見た「教師モデル」の確率分布に、「生徒モデル」を近づける形で学習します。
これにより、ロールアウト全体のRLを続けながら、局所的なふるまいの問題を効率よく修正できるようになっています。
合成データの大規模生成と報酬ハッキング対策
RLの学習には「検証可能な報酬」が必要です。Composerでは実際のコードベースに基づく合成タスクを大量生成しています。
合成タスクの例(機能削除タスク):
- 大規模テスト群を含むコードベースを用意
- 特定のテスト可能な機能だけを削除
- エージェントに「その機能を再実装させる」
- テストの通過/失敗を報酬として使用
ただし、モデルの能力が高まるにつれて報酬ハッキングが発生しています。実際にComposer 2.5は以下のような「抜け道」を発見しました:
- Pythonの型チェック用キャッシュをリバースエンジニアリングして削除された関数シグネチャを特定
- Javaバイトコードを逆コンパイルしてサードパーティAPIを再構築
これらはエージェント型の監視ツールで検出・対処されており、大規模RLにおける報酬設計の難しさを示しています。
Sharded Muon + dual mesh HSDP(学習インフラの最適化)
大規模MoE(Mixture of Experts)モデルを効率よく学習するための分散最適化技術です。
- Muon:モメンタム更新に分散直交化を組み合わせたオプティマイザー
- Sharded Muon:シャーディングされたパラメータを非同期通信で直交化し、1Tパラメータのモデルでもオプティマイザーのステップ時間を 0.2秒 に抑制
- dual mesh HSDP:非expert重みとexpert重みに別々のシャーディングレイアウトを使うことで、通信コストを最小化しながら多数GPUに計算を分散
他モデルとのコスト比較
Composer 2.5最大の強みは、フロンティアレベルの性能を圧倒的に低コストで提供している点です。
Cursor内で使えるモデルの料金比較
| モデル | 入力(1Mトークン) | 出力(1Mトークン) | 特徴 |
|---|---|---|---|
| Composer 2.5 | $0.50 | $2.50 | Cursor独自・低コスト |
| Composer 2.5 Fast | $3.00 | $15.00 | 高速版・デフォルト |
| Claude 4.6 Sonnet | $3.00 | $15.00 | Anthropic製 |
| Claude 4.7 Opus | $5.00 | $25.00 | Anthropic最上位 |
| GPT-5.5 | $5.00 | $30.00 | OpenAI最上位 |
| GPT-5.3 Codex | $1.75 | $14.00 | コーディング特化 |
| Gemini 3.1 Pro | $2.00 | $12.00 | Google製 |
| Grok 4.3 | $1.25 | $2.50 | xAI製 |
Composer 2.5(Standard)の出力コストは Claude Sonnetの約1/6、GPT-5.5の約1/12。 コーディングエージェントは出力トークンを大量消費するため、この差は実運用で大きく効いてきます。
Composer 2シリーズのベンチマーク推移
Composer 2.5の具体的なベンチマーク数値は現時点では非公開ですが、Composer 2からの推移は以下の通りです(Composer 2のデータ):
| モデル | CursorBench | Terminal-Bench 2.0 | SWE-bench Multilingual |
|---|---|---|---|
| Composer 1 | 38.0 | 40.0 | 56.9 |
| Composer 1.5 | 44.2 | 47.9 | 65.9 |
| Composer 2 | 61.3 | 61.7 | 73.7 |
| Composer 2.5 | 2以上(非公開) | 2以上(非公開) | 2以上(非公開) |
Cursor公式は「Composer 2と比べて知能とふるまいが大きく向上」と明言しており、フロンティアモデルと同等水準以上での改善が期待されます。
Cursorの料金プランとComposer 2.5の使い方
プラン別の料金・特典
| プラン | 月額 | 含まれるAPI枠 | 備考 |
|---|---|---|---|
| Hobby | 無料 | なし | リクエスト数制限あり |
| Pro | $20 | $20相当 | 個人利用に最適 |
| Pro Plus | $60 | $70相当 | ヘビーユーザー向け |
| Ultra | $200 | $400相当 | パワーユーザー・自動化向け |
| Teams | $40/ユーザー | - | SAML SSO・チーム管理 |
| Enterprise | カスタム | - | 監査ログ・SCIM対応 |
利用プールの仕組み
Cursor Pro以上では 2種類の利用プール があります:
① Auto + Composerプール
- Composer 2.5またはAutoを選択した場合に使用
- 専用の大きな利用枠が割り当てられる(日常的なエージェント型コーディング向け)
- Auto モデルの料金:入力$1.25/1M・出力$6.00/1M
② APIプール
- Claude・GPT・Gemini等の外部モデルを使う場合
- Proプランは毎月$20相当を含む
- 超過分は従量課金(同じ料金レートで継続利用可能)
使用量の目安
| 利用スタイル | 月額の目安 |
|---|---|
| 毎日Tabを使う | $20以内 |
| Agentをときどき使う | $20相当で収まることが多い |
| 毎日Agentを使う | 月$60〜$100程度 |
| パワーユーザー(複数Agent・自動化) | $200以上 |
リリース記念キャンペーン
Composer 2.5のリリース当初(初週)は、使用量が2倍になるキャンペーンが実施されました。
まとめ:Composer 2.5を選ぶべき人
Composer 2.5は次のような人に特に向いています:
✅ Composer 2.5がおすすめな人
- Cursorをメインのコーディング環境として使っている
- コスト効率よくエージェント型コーディングをしたい(Claude・GPTより大幅に安い)
- 長時間・複雑なタスクを自律的にこなせるモデルが必要
- ふるまいの安定性・コミュニケーションの質を重視する
⚠️ 他モデルを検討したほうがいい場合
- Cursor以外のIDE(VS Code拡張のCopilot等)を使っている → Composer 2.5はCursor専用
- API経由でモデルを直接叩きたい → ComposerはCursor内でのみ提供
- 最高精度を最優先する場合 → Claude 4.7 Opus / GPT-5.5も選択肢に
Composerシリーズの今後
Cursor公式はSpaceXAIと共同で、Colossus 2のH100 100万基相当を使い「はるかに大規模なモデルを一から学習中」と発表しています。Composer 3相当のモデルが登場した際には、さらなる性能の飛躍が期待されます。
現時点でコスパ・性能のバランスを取るなら、Composer 2.5はCursorユーザーにとって最有力の選択肢といえるでしょう。
関連記事: