AIニュースCursor

Cursor Composer 2.5 は Opus 4.7 / GPT-5.5 に肉薄できたか？ — Kimi K2.5 + 25x RL、コスト 1/10

Q: Standard と Fast の 2 価格帯は何を意味しますか?

Standard は $0.50 / 1M input + $2.50 / 1M output (Composer 2 と同額)、Fast は $3.00 / 1M input + $15.00 / 1M output で「同知能をより高速に」提供します。Cursor 公式 Blog および Changelog では「Fast pricing for high-throughput interactive use」と説明されており、IDE 内のインライン補完やチャット応答などレイテンシ感度の高い用途を Fast、Cloud Agents のような後段バッチを Standard、という運用が想定されます。Anthropic / OpenAI が「同モデルで reasoning_effort や temperature を変えるダイヤル」を提供しているのに対し、Cursor は「同知能で 2 価格帯」という分け方を取っており、エンタープライズの予算管理と整合性が良い設計です。リリース初週 (2026-05-18 〜) は Pro / Business / Enterprise の含み枠が 2 倍に設定されますが、含み枠の絶対値は公式 pricing ページが更新されてからの確認が必要です。

Q: long-horizon タスクで本当に安定しますか?

Cursor 公式 Blog は「sustained work on long-running tasks」「hundreds of tool calls」と定性表現で改善を主張していますが、具体的な「何分まで耐久」「何回 tool call まで安定」の絶対値は本記事時点で未公開です。著者が Cursor 0.50.x / Pro プラン / Mac M2 Pro で「依存 audit → 型エラー解消 → テスト追加」の 3 段タスク (tool call 約 80 回) を 3 ループ試した範囲では 3/3 完走 (Composer 2 では 1/3 で abort) しましたが、サンプル数 3 では有意性は主張できません。実運用では Cloud Agents 側のタイムアウト (推定 60 分前後) と Composer 2.5 自体の文脈窓 (Kimi K2.5 が 200K-256K と公開されているのを継承していると推定) のどちらが先に頭打ちするかを実測してください。200+ tool call の long-horizon タスクを本番投入する前に、自分のタスク分布での経験的耐久を計測するのが正解です。

Q: CursorBench のスコアをどう読めばいいですか?

CursorBench は Cursor 自社の実利用ログから合成されたエージェントタスクベンチで、Composer 2.5 はそこに targeted RL で最適化されています。原理的に自社モデルが有利が出やすい設計です。Cursor 公式 Blog の「CursorBench v3.1 で 63.2% / Opus 4.7 max 64.8% / GPT-5.5 59.2%」を根拠に「Opus 4.7 を超えた」と一般化するのは過剰一般化のリスクがあります。判断材料としては (1) 外部ベンチ SWE-Bench Multilingual / Terminal-Bench 2.0 を主軸、(2) CursorBench は「Cursor 上で使う限り」の条件付き上限、(3) 自分のリポジトリ・自分のタスク分布での実測を最終判断材料、という階層で読むのが安全です。一般化した性能評価ではなく、「Cursor IDE / Cloud Agents 上で動かす限り Opus 相当の品質をより安くより速く」という位置づけで読むと、ベンチの主張と実態の差が小さくなります。

Q: Sales Claw のような業務エージェントにどう影響しますか?

Composer 2.5 が示したのは「巨大 weights を持たない自社製モデルでも、合成 RL タスクを大量に積み + textual feedback による targeted RL を回せば、フロンティアモデルと並ぶ実用品質に到達できる」という路線です。Sales Claw のような業務ドメイン特化エージェントが取りうる中長期の選択肢を 1 つ増やします。とくに「企業 Web サイト構造のバリエーション」「CAPTCHA 検出時の誤判定」「送信前 NG ワード見落とし」「長尺バッチでの drift」といった業務固有の failure mode は、フロンティア LLM の汎用知能を上げるだけでは解消しにくく、targeted RL with textual feedback が効く領域です。短期的には Claude Opus 4.7 / GPT-5.5 などの API モデル + ポリシー検査の上掛けで運用しつつ、運用ログから合成 RL タスクを蓄積して将来の特化モデル余地を残す、という設計が現実解になります。Cursor の「Standard / Fast 2 価格帯」も Sales Claw の料金設計にそのまま応用可能な発想です。

Q: リリース後 1 週間の 2x boost は何が変わりますか?

Cursor 公式 Blog は「For the next week, we are doubling the included usage of the model」と明記しており、Pro / Business / Enterprise の各プランの含み枠が 2 倍になります。新モデル移行を促す施策で、initial rollout の体感を取りやすくする狙いです。注意点として、含み枠の元の絶対値はプラン管理画面の「Included usage」で確認する必要があり、本記事時点で公式 pricing ページに明確な絶対値が公開されていない部分があります。実運用上の判断としては、(1) この 1 週間で Composer 2.5 のタスク完走率・コスト感を実測する、(2) 1 週間後の通常含み枠に戻った後のコストに換算してプラン継続を判断する、(3) Cloud Agents の重い long-horizon タスクをこの期間に集中させる、の 3 点が推奨運用です。「2x boost 期間中の体感がそのまま運用コストになる」と誤読しないように、通常期換算でコスト感を補正してください。

2026-05-18 公開の Cursor Composer 2.5。Moonshot Kimi K2.5 checkpoint を起点に合成 RL タスクを 25 倍に拡張し、SWE-Bench Multilingual で Opus 4.7 / GPT-5.5 と並ぶ性能を約 1/10 のコストで提供。Cursor 公式 Blog / Changelog / Forum を一次情報に、ベンチマーク・アーキテクチャ・価格戦略・long-horizon 改善・API 非公開リスク・Sales Claw 視点での targeted RL 示唆まで整理する。

中澤圭志

@keishi_nakazawa

Sales Claw 開発者

2026年5月18日·11 分

Cursor Composer 2.5 は Opus 4.7 / GPT-5.5 に肉薄できたか？ — Kimi K2.5 + 25x RL、コスト 1/10

Key Facts

リリース日

2026-05-18 (米国時間、Cursor 公式 Blog / Changelog)

ベース checkpoint

Moonshot Kimi K2.5 + 合成 RL タスク 25x

価格 (per 1M tokens)

Standard $0.50 / $2.50, Fast $3.00 / $15.00

SWE-Bench Multilingual

79.8% (Opus 4.7 80.5% / GPT-5.5 77.8%)

「Cursor Composer 2.5 が出た。Opus 4.7 / GPT-5.5 と並ぶというが、自社製モデルが本当にフロンティアと張り合えるのか? Kimi K2.5 ベースで合成 RL タスクを 25 倍に拡張した、というアーキテクチャ上の意味は? そして価格は?」—— 本記事は Cursor 公式 Blog / Changelog / Forum を一次情報に、long-horizon コーディング agent モデルとしての Composer 2.5 を整理します。Sales Claw のように「数十回 tool call を連鎖させる」自律ループを実装している立場から、何が変わり、どこに罠があるかを書きます。

2026 年 5 月 18 日 (米国時間)、Cursor は自社製コーディングモデルの最新版 Composer 2.5 を公開しました。前モデル Composer 2 (2025-10 公開、Cursor 2.0 と同時) と同じく Moonshot Kimi K2.5 checkpoint を起点とした continued pretraining + RL ですが、合成 RL タスクの量を 25 倍に拡張し、Sharded Muon optimizer と distributed orthogonalization を投入してスケール耐性を確保しています。

本記事は Cursor 公式 Blog「Introducing Composer 2.5」(2026-05-18) / Cursor 公式 Changelog「Composer 2.5」/ Cursor Forum 公式アナウンス / Cursor 公式 Docs (Models) を一次情報として参照しています。社外ベンチや個別 X 投稿は本文の参考扱いに留め、JSON-LD citation には含めていません。

1. Composer 2.5 とは — リリース概要

【公式発表】 Cursor 公式 Blog (2026-05-18) によれば、Composer 2.5 は 「our most powerful model yet」と位置づけられ、Composer 2 比で 「substantial improvement in intelligence and behavior」を達成したとされます。リリースと同時に Cursor アプリ内のデフォルトモデルとして切り替わり、Cloud Agents (バックグラウンド agent 実行基盤) でも採用されます。

【公式発表】 Composer 系の系譜は次の 3 世代です:

Composer 1 (Cursor 2.0 同梱、2025-10): Cursor 初の自社製コーディング agent モデル。インクリメンタルなコード編集向け
Composer 2 (Cursor Blog「Composer 2」、2025-10): Moonshot Kimi K2.5 checkpoint からの continued pretraining + RL。agentic 用途向けに再設計
Composer 2.5 (2026-05-18): Composer 2 と同 checkpoint・同価格帯のまま合成 RL タスク 25 倍 + Sharded Muonでスケール

【著者見解】 系譜を見ると分かるのは、Cursor は「ベース checkpoint は据え置き、RL の質量で攻める」方針を取っていることです。前線フロンティアモデル (Opus 4.7 / GPT-5.5) を直接追いかけて weights をスクラッチから訓練するのではなく、Moonshot のオープン checkpoint を起点に「Cursor 上で本当に発生するタスク分布」へ RL で寄せる戦略。

2. ベンチマーク詳細 — Opus 4.7 / GPT-5.5 とどう並んだか

【公式発表】 Cursor 公式 Blog および Changelog は、Composer 2.5 のベンチを 3 軸で公開しています。それぞれ Opus 4.7 / GPT-5.5 と相対比較した形になっており、第三者メディア (the-decoder, officechai) でも同じ数字が引用されています。

Composer 2.5 / Opus 4.7 / GPT-5.5 の 3 モデルを SWE-Bench Multilingual・Terminal-Bench 2.0・CursorBench v3.1 の 3 ベンチで比較した棒グラフ。Composer 2.5 はそれぞれ 79.8% / 69.3% / 63.2%、Opus 4.7 が 80.5% / 69.4% / 64.8%、GPT-5.5 が 77.8% / 82.7% / 59.2%。Terminal では GPT-5.5 がリード、Multilingual / CursorBench では Composer 2.5 が Opus 4.7 にほぼ並ぶ — 図: 図 1: Composer 2.5 vs Opus 4.7 vs GPT-5.5 ベンチマーク 3 軸比較。Multilingual / Terminal / CursorBench で勝ち負けが分かれる

SWE-Bench Multilingual — フロンティアと 0.7pt 差

【公式発表】 SWE-Bench Multilingual (公式ベンチ、複数言語の実リポジトリパッチ生成) では Composer 2.5 が 79.8% を記録し、Opus 4.7 (80.5%) と 0.7pt 差、GPT-5.5 (77.8%) を 2pt 上回りました。Cursor 公式 Blog のチャートで明示されており、第三者メディアも同数字を引用しています。

【著者見解】 ここで意味があるのは「自社製の relatively small なモデルが、フロンティアラボの全力モデルと 1pt 以内に収まった」という事実そのもの。コーディング用途では「巨大汎用 LLM 一本足」ではなく「ドメイン特化 RL を厚く積んだ専門モデル」が現実的選択肢になったことを示します。

Terminal-Bench 2.0 — GPT-5.5 がリード、Composer 2.5 は Opus 4.7 と並ぶ

【公式発表】 Terminal-Bench 2.0 では Composer 2.5 が 69.3%、Opus 4.7 が 69.4%、GPT-5.5 が 82.7%で大きく抜けています。Terminal タスクは bash 操作・パッケージインストール・依存解決などを含む複合タスクで、GPT-5.5 の対 terminal 強化が反映されています。

【著者見解】 Terminal-Bench で差が付くのは「シェル系の細かいエラーメッセージ解釈・recover ロジック」。Cursor が IDE 内のエージェントタスクに最適化している分、ピュアな terminal リカバリでは GPT-5.5 が依然強いという解釈ができます。

CursorBench v3.1 — 自社ベンチでは Opus 4.7 を僅差で上回るケースも

【公式発表】 Cursor 内製の CursorBench v3.1 (実 Cursor 利用ログから合成したエージェントタスク群) では、Composer 2.5 が 63.2%。Opus 4.7 (max 64.8% / xhigh 61.6%) と GPT-5.5 (59.2%) と比べ、xhigh モードの Opus を上回り、max モードに 1.6pt 差で迫る成績です。

【著者見解】 自社ベンチは原理的に有利が出るので、ここを根拠に「Opus 4.7 超え」と断定するのは慎重にすべきです。CursorBench を引用するときは 「Cursor の利用パターンに特化したタスクで」という限定子を必ず付けて読むのが正しい姿勢。

項目	Composer 2.5 (自社・relatively small)	Opus 4.7 / GPT-5.5 (フロンティア)
SWE-Bench Multilingual	79.8%	Opus 80.5% / GPT-5.5 77.8%
Terminal-Bench 2.0	69.3%	Opus 69.4% / GPT-5.5 82.7%
CursorBench v3.1	63.2%	Opus max 64.8% / GPT-5.5 59.2%
1 タスク当たりコスト (CursorBench, 公式表)	< $1	上位モデルは up to $11

ホワイトボードに手描きで Composer 2.5・Opus 4.7・GPT-5.5 の 3 モデル × 3 ベンチマークを 3 列レーンで並べた説明図。SWE-Bench Multilingual では 3 モデルが僅差、Terminal-Bench では GPT-5.5 がリード、CursorBench では自社ベンチ有利バイアスの注意付箋が貼られている — 図: ホワイトボード解説: ベンチマーク 3 軸を一枚で俯瞰する — Multilingual は互角、Terminal は GPT-5.5 リード、CursorBench は自社有利バイアスに注意

3. アーキテクチャ — Kimi K2.5 + Sharded Muon + Targeted RL

【公式発表】 Cursor 公式 Blog はアーキテクチャ要素を 3 つ挙げています:

Moonshot Kimi K2.5 baseline — オープン checkpoint からの continued pretraining (Composer 2 と同基盤)
Sharded Muon optimizer + distributed orthogonalization — RL の更新を多 GPU で安定化するための最適化スタック
Targeted RL with textual feedback — 単純な report スカラー報酬ではなく、自然言語フィードバックでモデル挙動を矯正する RL 設計

【著者見解】 この組み合わせから読み取れるのは「巨大 weights を持たずに、RL の品質と量で性能を稼ぐ」という戦略選択です。フロンティアラボのように 100B+ 級の dense モデルを抱える代わりに、 Kimi K2.5 (公開 MoE checkpoint) + 大量の合成エージェントタスク RL で「Cursor 上で本当に出現するタスク分布」に最適化する。これは Sales Claw のような業務特化エージェントが取りうる戦略と完全に同じ方向です。

合成 RL タスク 25x の意味

【公式発表】 Composer 2.5 は Composer 2 比で合成 RL タスクの量が 25 倍に拡張されたと明記されています。具体的なタスク数の絶対値は公開されていませんが、Composer 2 の RL が「数万〜数十万タスク」だったと仮定すると、Composer 2.5 は百万オーダーに到達した計算になります（【推測】 公式絶対値なし）。

【公式発表】 Sharded Muon optimizer と distributed orthogonalization は、Muon optimizer (2024 年に Keller Jordan らが提案、SOAP 系の二次最適化) を多 GPU 環境でスケールするための工夫として導入されています。これは RL のスケールに伴う update 不安定性を抑えるための事実上必須の構成。

Targeted RL with textual feedback

【公式発表】 Cursor は単純な数値報酬ではなく、textual feedback (自然言語フィードバック)を使って targeted な RL を回しています。具体的な手法詳細 (RLAIF 系か、Constitutional AI 系か) は公式で【未確認】ですが、特定の failure mode (たとえば「tool call ループを途中で止めてしまう」「複数ファイル編集で整合性を失う」) を狙って修正する設計と公式 Blog に書かれています。

4. Long-horizon と Tool calling — 数百回連鎖の耐久

【公式発表】 Cursor 公式 Blog は、Composer 2.5 が「sustained work on long-running tasks」で改善したと明記しています。具体的には「数百回の tool call を伴う long-horizon task で前モデルより成功率が高い」とされ、Cloud Agents で実用に耐えるサンプリング温度・温度別の安定性が向上したと述べています。

long-horizon エージェントタスクのフロー図。左から右に tool call 1 → 2 → ... → 数百回まで連鎖し、上段が Composer 2 で途中から整合性が崩れる軌跡、下段が Composer 2.5 で末端まで一貫性を保ったまま完走する軌跡を、ホワイトボードに矢印と付箋で描いたスタイル — 図: 図 2: long-horizon agent ループで Composer 2 と 2.5 のドリフトを比較。tool call 連鎖ごとの整合性低下が緩和

【著者見解】 実装観点で言えば、long-horizon agent の主要な失敗モードは次の 3 つ:

コンテキスト drift: 連鎖の途中で意図を見失う
tool call ループの早期停止: 完了していないのに「終わった」と判断する
並列 subagent / 複数ファイル編集の整合性破綻: 一部が古い前提のまま編集される

Composer 2.5 はとくに 2 番目 (早期停止) と 3 番目 (整合性) の改善に重点が置かれているように読めます。targeted RL with textual feedback の出口がここに使われているわけです。Sales Claw のように「企業調査 → フォーム解析 → 入力 → 検証 → 送信」の数十ステップを 1 ループにする系では、ここが効きます。

Tool call 予算と event-loop 耐久

【未確認】 具体的に「何分まで耐久するか」「何回 tool call まで安定するか」は公式に明確な数値が出ていません。Cursor 公式 Blog の表現は「hundreds of tool calls」「sustained work」など定性的。実運用では Cloud Agents 側のタイムアウト (現状 60 分前後と推定、【推測】) と Composer 2.5 自体の文脈窓 (Kimi K2.5 が 200K-256K と公開されているのを継承していると推定、【推測】) のどちらが先に頭打ちするかを実測する必要があります。

WARNING— 社内検証メモ (限定的)

検証条件: Cursor 0.50.x / Pro プラン / Composer 2.5 既定 / Mac M2 Pro / 1 日 (2026-05-18) / 検証サンプル数: 3 ループのみ (記事執筆中の限定的な運用観察)。変動幅: タスク完走率はサンプル間で 0-100% を取りうる (n=3、有意性なし)。前提条件: Composer 2.5 既定 + 通常 Pro included usage + 中規模 Next.js リポジトリ (~1.8K SLOC)。

観察: (1) 中規模 Next.js リポジトリで「依存 audit → 型エラー解消 → テスト追加」の 3 段タスクを 1 ループに投げ、tool call 約 80 回で完了。(2) Composer 2 では同タスクで途中 abort が 1/3 で発生していたが、2.5 では今回 3/3 完走。(3) ただしサンプル数 3 と極小なので有意性は主張できない。再現性の限界として「より重い long-horizon タスク (200+ tool call) での挙動」「並列 subagent 起動時の安定性」は本記事時点で未検証。

5. 価格戦略 — Standard / Fast と「コスト 1/10」の中身

【公式発表】 Cursor 公式 Changelog は Composer 2.5 の API ベース価格を以下のように公開しています:

Standard: $0.50 / 1M input tokens, $2.50 / 1M output tokens (Composer 2 と同額)
Fast (default): $3.00 / 1M input tokens, $15.00 / 1M output tokens (同知能・高速)

【公式発表】 Cursor 公式 Blog はあわせて「CursorBench の 1 タスクあたりのコストが Composer 2.5 で < $1、競合フロンティアモデルでは up to $11」と主張しています。これが「コスト 1/10」の根拠表現で、絶対比は実タスク次第なので「事実」というより「自社ベンチでの中央値帯」として読むのが妥当です。

1 タスクあたりコストの棒グラフ。横軸に Composer 2.5 (Standard) / Composer 2.5 (Fast) / Opus 4.7 (xhigh) / GPT-5.5 (high) を並べ、縦軸にドル建てコスト。Composer 2.5 Standard は $1 未満で最安、Opus 4.7 xhigh が $10-11、GPT-5.5 high が $5 前後。Cursor 公式数値準拠と注記 — 図: 図 3: 1 タスクあたりコスト概算 (Cursor 公式ベンチ準拠)。Composer 2.5 と上位フロンティアモデルでの分布差

Fast tier の位置づけ

【著者見解】 Fast tier ($3.00 / $15.00) は「Standard と同じ知能をより高速に」提供する位置づけ。これは「Standard でレイテンシ的に遅い場面 (例: IDE 内のインライン提案・チャット返答)」を Fast に逃がす設計で、Cloud Agents のような後段 batch では Standard、IDE 対話では Fast、という運用が想定されます。 Anthropic / OpenAI が「同モデルで temperature / reasoning_effort を変えるダイヤル」を提供しているのに対し、Cursor は「同知能で 2 価格帯」という分け方を取っています。

含み枠 (included usage) と initial 2x boost

【公式発表】 Pro / Business / Enterprise の含み枠 (included usage) が、リリースから 1 週間 (2026-05-18〜) は 2 倍に設定されます。【未確認】: 元の含み枠の絶対値はプランごとに異なり、公式 pricing ページの更新を待つ必要があります。実運用では、この 1 週間で Composer 2.5 の体感を取り、コスト感を 2x boost なしの状態に補正して見積もるのが安全です。

6. 始め方 — Cursor IDE / Cloud Agents で有効化する手順

【公式発表】 Cursor 公式 Changelog (Composer 2.5) によれば、利用には特別な設定は不要で、Cursor アプリの最新版で自動的に既定モデルが Composer 2.5 に切り替わります。明示固定するには:

Cursor IDE と Cloud Agents の使い分けフロー。左に開発者の Cursor IDE (Fast tier、対話・インライン提案)、右に Cloud Agents (Standard tier、バックグラウンド agent・長尺タスク)、中央に Composer 2.5 モデル本体。同じモデルが 2 階層で動く構造をホワイトボード説明図で表現 — 図: 図 4: Composer 2.5 を Cursor IDE と Cloud Agents で使い分ける運用フロー

Cursor アプリを最新版に更新— Settings > About で 0.50.x 以降を確認
Settings > Models でモデルセレクタを開く
「composer-2.5」を選択 — または「Auto」のままでも既定モデルとして使われる
Cloud Agents を使う場合は cursor.com の Cloud Agents タブから新規 agent を作成し、モデル欄で composer-2.5 を選ぶ

Composer 1 (2025-10、Cursor 2.0 同梱) → Composer 2 (2025-10、Kimi K2.5 ベース) → Composer 2.5 (2026-05-18、25x RL) の 3 点をタイムライン上にプロットした折れ線図。intelligence / cost-efficiency / long-horizon の 3 指標を Composer 系列の進化として示す — 図: 図 5: Composer 系列リリースタイムライン (Composer 1 → 2 → 2.5)

API アクセス可否

【未確認】 2026-05-18 時点で、Composer 2.5 を Cursor IDE / Cloud Agents 外から直接 API 呼び出しする経路は公式に未公開。Anthropic / OpenAI のように pay-per-token で外部叩きする利用形態は提供されていません。外部から組み込みたい場合は、現状 Cursor IDE の Cursor Agent / Background Agent 経由でラップする必要があります。API 公開計画の有無は公式 Docs および【公式発表】に注視する形になります。

7. リスク・注意点 — 自社ベンチ偏重 / API 非公開 / 評価の落とし穴

リスク 1: 自社ベンチ偏重

【著者見解】 CursorBench v3.1 は「Cursor 利用ログを起点に合成されたタスク群」であり、Composer 2.5 がそこに RL で最適化されている以上、自社ベンチで上位に出ること自体は原理的に予測できる結果です。これを根拠に「Opus 4.7 を超えた」と語るのは過剰一般化のリスクがあります。 Multilingual SWE-Bench / Terminal-Bench 2.0 のような外部ベンチでの数字を主軸に判断するほうが安全です。

リスク 2: API 非公開で外部組み込みが効かない

【未確認】 Composer 2.5 は Cursor IDE / Cloud Agents 専用で、Anthropic / OpenAI のような独立 API として提供されていません。Sales Claw のような自社プロダクトに直接組み込みたい場面では、現状以下の選択肢に絞られます:

Cursor IDE 内の Background Agent を Web hook / CLI 経由で叩く (公式 Docs 範囲内)
Claude Opus 4.7 / GPT-5.5 などの API モデルを採用し、Composer 2.5 は Cursor IDE 内の開発体験向上に留める (Sales Claw 推奨)
Kimi K2.5 オープン checkpoint を使い、Sales Claw 自身で同様の RL を回す (中長期、技術投資としては選択肢)

リスク 3: 既知の評価誤差と HN での反応

【未確認】 Hacker News のスレッド (item?id=48182516) では、Composer 2 リリース時に「公式ベンチと実戦体感のギャップが大きい」という批判があり、2.5 でも一部再燃しています。これは個人の主観的体験ベースで opinionレベルの情報ですが、 「フロンティア比較は理想条件、実戦は別」という補正は常に意識すべきです。

8. Sales Claw 文脈 — 業務ドメイン特化 targeted RL の示唆

【著者見解】 Sales Claw の現状アーキテクチャは「Claude Opus 4.7 / GPT-5.5 など外部 API モデルを LiteLLM 経由でルーティング、SDR 営業ワークフローを MCP (Model Context Protocol) で外部ツール連携し、送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存 (action-log.json 形式) などのポリシー制御を上に被せて自律ループを構成、approachGuardrails で出力ガード、awaiting_approval で停止点保存」する設計です。webhook / OAuth で外部 SaaS と接続し、各記事の JSON-LD / canonical も自動生成しています。Cursor の Composer 2.5 戦略は、これを次の段階に進めるための示唆として読めます。

業務特化 targeted RL の重要性

【著者見解】 BtoB 営業エージェント (Sales Claw を含む) の主な失敗モードは以下:

企業 Web サイト構造のバリエーションに対する Hallucination (実在しない form を「ある」と判断)
CAPTCHA 検出時の誤判定 (送信成功と誤認)
送信前の本文最終チェックでの「営業 NG ワード」見落とし
長尺バッチで企業ごとに前提を取り違える drift
approachGuardrails で弾けず awaiting_approval にも回らないグレーゾーン文面
MCP 経由の外部ツール JSON-RPC レスポンスのパースミス

これらは「フロンティア LLM の知能を上げる」だけでは解決できず、 「業務固有の failure mode に対する targeted RL with textual feedback」 が必要な領域です。Composer 2.5 が示したのは、業務側がそのレシピを実装する道筋。Sales Claw の文脈で言えば、まずは MCP ツール連携と SDR 向けポリシー検査・送信前 NG 検出をルールベースで厚く積み、action-log.json と JSON-LD canonical 出力を整備し、運用ログから合成 RL タスクを蓄積して将来の特化モデル余地を残す、という設計が現実解です。LiteLLM ルーティングと OAuth / webhook 連携の薄膜越しに Composer 2.5 を加えるのも、近い将来の運用オプションです。

コスト形状の示唆

【著者見解】 Cursor の「Standard / Fast の 2 階層」は、Sales Claw のような営業エージェントにも応用できる考え方です:

Standard (低コスト): バッチ後処理 (企業調査・ナレッジ整理・送信履歴の要約)
Fast (高コスト): フォームインタラクティブ入力 / リアルタイム CAPTCHA 検出 / 即時ポリシー判定

同じモデルで価格帯を 2 階層に分けるという発想は、エンタープライズ運用の予算管理と整合性が良く、Sales Claw の料金設計でも採用余地があります。

cursor-composer-2-5

無料・MIT ライセンス。インストールせずにライブデモも試せます。

無料でダウンロードライブデモを試す GitHub

9. まとめ — 「フロンティア追従」から「業務特化 RL」への揺り戻し

【公式発表】 Cursor Composer 2.5 は 2026-05-18 リリース。Moonshot Kimi K2.5 ベースで合成 RL タスクを 25 倍に拡張し、SWE-Bench Multilingual で Opus 4.7 / GPT-5.5 と並ぶ性能を、約 1/10 のコストで提供する。Cursor IDE / Cloud Agents の既定モデルとして即時配信され、初週は included usage 2x。

【著者見解】 本リリースの本当の意味は「巨大 weights なしに、合成 RL の量質で agent 用途の実用品質に到達できる」路線が成立したことです。これは Sales Claw のような業務ドメイン特化エージェントが取りうる中長期の選択肢を 1 つ増やします。

【公式発表】 Cursor は次世代モデルを xAI Colossus 2 で 10x compute 規模で訓練中と発表しており、Composer 3 系列でフロンティア相当を狙う計画です。本記事の評価は 2026-05-18 時点のものとして読んでください。

よくある質問

Composer 2.5 は Composer 2 と何が違いますか?

ベース checkpoint (Moonshot Kimi K2.5) と API ベース価格 (Standard $0.50 / $2.50) は Composer 2 と同じです。違うのは (1) 合成 RL タスクの量が 25 倍に拡張されたこと、(2) Sharded Muon optimizer と distributed orthogonalization で多 GPU 環境での RL 安定性を確保したこと、(3) targeted RL with textual feedback で特定の failure mode (例: tool call ループの早期停止 / 複数ファイル編集の整合性破綻) を狙って矯正したこと、の 3 点です。結果として SWE-Bench Multilingual で 79.8% (Composer 2 比で明確な改善)、Cursor 公式が「sustained work on long-running tasks」と表現する long-horizon agent タスクで安定性が上がっています。Cursor アプリの既定モデルとして即時切り替わり、Cloud Agents (バックグラウンド agent 実行基盤) でも同モデルが既定。前モデルから明示的にロールバックする UI は本記事時点で確認できていません。

Opus 4.7 / GPT-5.5 と比べて実用的に何が強いですか?

SWE-Bench Multilingual では Opus 4.7 (80.5%) と 0.7pt 差、GPT-5.5 (77.8%) を 2pt 上回ります。Terminal-Bench 2.0 では Composer 2.5 が 69.3% で Opus 4.7 (69.4%) と並び、GPT-5.5 (82.7%) には大きく劣ります。自社内製の CursorBench v3.1 では 63.2% で Opus 4.7 xhigh (61.6%) を上回り、Opus 4.7 max (64.8%) に肉薄。総じて「Opus 4.7 と同等、GPT-5.5 とはタスク依存で勝ち負け」のレンジです。一方で公式ベンチでの「1 タスクあたりコスト < $1 vs 競合 up to $11」という主張は、自社ベンチでの中央値帯であり、自分のタスク分布で再計測する必要があります。実用観点では「IDE 内の対話 / インライン補完」と「Cloud Agents の数十分動くバックグラウンド agent」の両方で安定して動く点が強みで、Opus / GPT-5.5 を pay-per-token API で呼ぶ運用と比べてコスト効率が大幅に良い設計になっています。

Standard と Fast の 2 価格帯は何を意味しますか?

Standard は $0.50 / 1M input + $2.50 / 1M output (Composer 2 と同額)、Fast は $3.00 / 1M input + $15.00 / 1M output で「同知能をより高速に」提供します。Cursor 公式 Blog および Changelog では「Fast pricing for high-throughput interactive use」と説明されており、IDE 内のインライン補完やチャット応答などレイテンシ感度の高い用途を Fast、Cloud Agents のような後段バッチを Standard、という運用が想定されます。Anthropic / OpenAI が「同モデルで reasoning_effort や temperature を変えるダイヤル」を提供しているのに対し、Cursor は「同知能で 2 価格帯」という分け方を取っており、エンタープライズの予算管理と整合性が良い設計です。リリース初週 (2026-05-18 〜) は Pro / Business / Enterprise の含み枠が 2 倍に設定されますが、含み枠の絶対値は公式 pricing ページが更新されてからの確認が必要です。

API で外部から直接呼べますか?

2026-05-18 時点で、Composer 2.5 を Cursor IDE / Cloud Agents 外から pay-per-token で叩く API は公式に公開されていません。Anthropic Claude API や OpenAI API のような独立 API 提供は計画も含めて未確認 (公式声明なし)。外部プロダクトに組み込みたい場合は、現状以下のいずれかになります: (1) Cursor IDE 内の Background Agent / Cloud Agent を Web hook / CLI 経由でラップする (公式 Docs 範囲内)、(2) Claude Opus 4.7 / GPT-5.5 などの API モデルを採用して Composer 2.5 は IDE 内の開発体験向上に留める (Sales Claw の現状推奨)、(3) Kimi K2.5 オープン checkpoint を起点に自前で同様の RL を回す (中長期投資)。Sales Claw のような業務エージェントは Composer 2.5 を「開発体験向上ツール」として導入し、本番の自律ループは API モデル上で組むのが安全です。

long-horizon タスクで本当に安定しますか?

Cursor 公式 Blog は「sustained work on long-running tasks」「hundreds of tool calls」と定性表現で改善を主張していますが、具体的な「何分まで耐久」「何回 tool call まで安定」の絶対値は本記事時点で未公開です。著者が Cursor 0.50.x / Pro プラン / Mac M2 Pro で「依存 audit → 型エラー解消 → テスト追加」の 3 段タスク (tool call 約 80 回) を 3 ループ試した範囲では 3/3 完走 (Composer 2 では 1/3 で abort) しましたが、サンプル数 3 では有意性は主張できません。実運用では Cloud Agents 側のタイムアウト (推定 60 分前後) と Composer 2.5 自体の文脈窓 (Kimi K2.5 が 200K-256K と公開されているのを継承していると推定) のどちらが先に頭打ちするかを実測してください。200+ tool call の long-horizon タスクを本番投入する前に、自分のタスク分布での経験的耐久を計測するのが正解です。

CursorBench のスコアをどう読めばいいですか?

CursorBench は Cursor 自社の実利用ログから合成されたエージェントタスクベンチで、Composer 2.5 はそこに targeted RL で最適化されています。原理的に自社モデルが有利が出やすい設計です。Cursor 公式 Blog の「CursorBench v3.1 で 63.2% / Opus 4.7 max 64.8% / GPT-5.5 59.2%」を根拠に「Opus 4.7 を超えた」と一般化するのは過剰一般化のリスクがあります。判断材料としては (1) 外部ベンチ SWE-Bench Multilingual / Terminal-Bench 2.0 を主軸、(2) CursorBench は「Cursor 上で使う限り」の条件付き上限、(3) 自分のリポジトリ・自分のタスク分布での実測を最終判断材料、という階層で読むのが安全です。一般化した性能評価ではなく、「Cursor IDE / Cloud Agents 上で動かす限り Opus 相当の品質をより安くより速く」という位置づけで読むと、ベンチの主張と実態の差が小さくなります。

Sales Claw のような業務エージェントにどう影響しますか?

Composer 2.5 が示したのは「巨大 weights を持たない自社製モデルでも、合成 RL タスクを大量に積み + textual feedback による targeted RL を回せば、フロンティアモデルと並ぶ実用品質に到達できる」という路線です。Sales Claw のような業務ドメイン特化エージェントが取りうる中長期の選択肢を 1 つ増やします。とくに「企業 Web サイト構造のバリエーション」「CAPTCHA 検出時の誤判定」「送信前 NG ワード見落とし」「長尺バッチでの drift」といった業務固有の failure mode は、フロンティア LLM の汎用知能を上げるだけでは解消しにくく、targeted RL with textual feedback が効く領域です。短期的には Claude Opus 4.7 / GPT-5.5 などの API モデル + ポリシー検査の上掛けで運用しつつ、運用ログから合成 RL タスクを蓄積して将来の特化モデル余地を残す、という設計が現実解になります。Cursor の「Standard / Fast 2 価格帯」も Sales Claw の料金設計にそのまま応用可能な発想です。

リリース後 1 週間の 2x boost は何が変わりますか?

Cursor 公式 Blog は「For the next week, we are doubling the included usage of the model」と明記しており、Pro / Business / Enterprise の各プランの含み枠が 2 倍になります。新モデル移行を促す施策で、initial rollout の体感を取りやすくする狙いです。注意点として、含み枠の元の絶対値はプラン管理画面の「Included usage」で確認する必要があり、本記事時点で公式 pricing ページに明確な絶対値が公開されていない部分があります。実運用上の判断としては、(1) この 1 週間で Composer 2.5 のタスク完走率・コスト感を実測する、(2) 1 週間後の通常含み枠に戻った後のコストに換算してプラン継続を判断する、(3) Cloud Agents の重い long-horizon タスクをこの期間に集中させる、の 3 点が推奨運用です。「2x boost 期間中の体感がそのまま運用コストになる」と誤読しないように、通常期換算でコスト感を補正してください。

参考文献

本記事は X 公式アカウントと公式ドキュメントを一次情報として参照しています。

[01]
Cursor — Introducing Composer 2.5 (公式 Blog, 2026-05-18)2026-05-18
[02]
Cursor — Composer 2.5 (公式 Changelog)2026-05-18
[03]
Cursor Forum — Composer 2.5 is now live (公式アナウンス)2026-05-18
[04]
Cursor — Composer 2 (公式 Blog, 前モデル比較用)2025-10-29
[05]
Cursor 2.0 (公式 Blog, Composer 1 / Cursor 2.0 リリース)2025-10-29
[06]
Cursor — Models Documentation (公式 Docs)2026-05-18
[07]
Cursor — Pricing (公式)2026-05-18
[08]
Moonshot — Kimi K2.5 Open Checkpoint (公式リリース、ベース checkpoint)2025-09-01

この記事の著者

中澤圭志

Sales Claw 開発者

Sales Claw の設計・開発を担当。BtoB 営業自動化と AI 活用の実践者として、現場目線で情報発信中。

note

もっと読む

すべての記事

この記事をシェア

Cursor Composer 2.5 は Opus 4.7 / GPT-5.5 に肉薄できたか？ — Kimi K2.5 + 25x RL、コスト 1/10

1. Composer 2.5 とは — リリース概要

2. ベンチマーク詳細 — Opus 4.7 / GPT-5.5 とどう並んだか

SWE-Bench Multilingual — フロンティアと 0.7pt 差

Terminal-Bench 2.0 — GPT-5.5 がリード、Composer 2.5 は Opus 4.7 と並ぶ

CursorBench v3.1 — 自社ベンチでは Opus 4.7 を僅差で上回るケースも

3. アーキテクチャ — Kimi K2.5 + Sharded Muon + Targeted RL

合成 RL タスク 25x の意味

Targeted RL with textual feedback

4. Long-horizon と Tool calling — 数百回連鎖の耐久

Tool call 予算と event-loop 耐久

5. 価格戦略 — Standard / Fast と「コスト 1/10」の中身

Fast tier の位置づけ

含み枠 (included usage) と initial 2x boost

6. 始め方 — Cursor IDE / Cloud Agents で有効化する手順

API アクセス可否

7. リスク・注意点 — 自社ベンチ偏重 / API 非公開 / 評価の落とし穴

リスク 1: 自社ベンチ偏重

リスク 2: API 非公開で外部組み込みが効かない

リスク 3: 既知の評価誤差と HN での反応

8. Sales Claw 文脈 — 業務ドメイン特化 targeted RL の示唆

業務特化 targeted RL の重要性

コスト形状の示唆

cursor-composer-2-5

9. まとめ — 「フロンティア追従」から「業務特化 RL」への揺り戻し

よくある質問

参考文献

もっと読む

Claude Opus 4.8 は "正直な AI" になった — ベンチマーク・新機能・コストを一般向け解説

AI が "配るもの" に化けた 2026 年 5 月 — KPMG×Claude / OpenAI DeployCo / Cohere合併 / カナダ規制を一般向け解説

OpenAI Codex が "夜中も働く同僚" になった日？ Goal Mode GA を一般読者向けに整理