業界トレンドCodex CLI

Codex CLI と Claude Code はどっちが強い？2026年5月の公式ベンチで横断比較 — SWE-bench / Terminal-Bench / コスト

2026 年 5 月時点で Codex CLI 0.130.0 と Claude Code 2.1.143 はベンチごとに順位が入れ替わる時代。Terminal-Bench 2.0 / SWE-bench Verified / Aider Polyglot の公式・第三者集計、API 料金、CLI 機能差分、AI 営業自動化での使い分け基準を Sales Claw 視点で解説。

中澤圭志

@keishi_nakazawa

Sales Claw 開発者

2026年5月16日·16 分

Codex CLI と Claude Code はどっちが強い？2026年5月の公式ベンチで横断比較 — SWE-bench / Terminal-Bench / コスト

Key Facts

1. Codex CLI と Claude Code とは — 2026 年 5 月時点の最新スペック

ホワイトボードに手描きされた Codex CLI と Claude Code の役割比較図。左に Codex CLI (GPT-5.5 / 0.130.0 / Terminal-Bench 82.0% / 画像生成・remote-control) を、右に Claude Code (Opus 4.7 / 2.1.143 / サブエージェント・/goal・MCP / 1M context) を配置し、中央に橋メタファーで「タスクで使い分け」とハイライト。 — 図: 図 1: Codex CLI と Claude Code の役割比較 — 公式ベンチと機能の俯瞰 (2026-05-16 時点)。

Codex CLI と Claude Code はどちらも「ターミナルから AI に指示を出してファイル編集・コード生成・コマンド実行をさせる」エージェント CLI ですが、起源と設計思想は異なります。

Codex CLI (OpenAI)

最新版: 0.130.0 (stable, 2026-05-08 リリース) — 0.131.0-alpha も 2026-05-15 時点で進行中
既定モデル: GPT-5.5 (2026-04-23 ロールアウト)。Codex 専用モデル GPT-5.3-Codex も選択可
強み: JSON-RPC 2.0 ベースの app-server を持ち、codex remote-control で外部プロセスから完全プログラム制御できる。画像生成 (gpt-image-2) を内蔵
サブスクリプション: ChatGPT Plus / Pro / Business / Enterprise に Codex 利用が含まれる (Pro $100 は Plus の 5x 上限)
パッケージ: @openai/codex on npm、codex コマンドで起動

Claude Code (Anthropic)

最新版: 2.1.143 (2026-05-15 リリース)
既定モデル: Claude Opus 4.7 (2026-04-16 リリース) / Sonnet 4.6 / Haiku 4.5 を切替可。xhigh effort level / Fast mode 対応
強み: サブエージェント (claude agents)、/goal による条件達成ループ、/ultrareview、Plugin / Skill / MCP ファーストクラス。コンテキスト 1M token 標準
サブスクリプション: Claude Pro / Max / Team に Claude Code 利用が含まれる。API 直叩きも可能
パッケージ: @anthropic-ai/claude-code on npm、claude コマンドで起動

2. 公式・第三者ベンチマーク横断比較 — Terminal-Bench / SWE-bench / Aider

コーディング・ターミナルタスク向けベンチマークは複数あり、それぞれ評価する能力が違います。本セクションでは Terminal-Bench 2.0 (公式)・SWE-bench Verified (第三者集計)・Aider Polyglot (公式) の 3 つを横断的に整理します。

Terminal-Bench 2.0 — ターミナルでの実タスク

tbench.ai の公式リーダーボードによると、2026-05-15 時点の上位 10 エントリは以下の通りです。

Rank	エージェント	モデル	スコア	日付
1	vix	Claude Opus 4.7	90.2% ± 2.1	2026-05-15
2	JJAgent	Multiple	87.1% ± 1.3	2026-05-15
3	NexAU-AHE	GPT-5.5	84.7% ± 2.1	2026-05-14
4	LemonHarness	Multiple	84.5% ± 2.6	2026-05-14
5	Capy	GPT-5.5	83.1% ± 2.1	2026-05-14
6	Polaris	Multiple	82.2% ± 2.8	2026-05-14
7	Codex CLI	GPT-5.5	82.0% ± 2.2	2026-04-23
8	ForgeCode	GPT-5.4	81.8% ± 2.0	2026-03-12
9	WOZCODE	Claude Opus 4.7	80.2% ± 2.1	2026-05-14
10	TongAgents	Gemini 3.1 Pro	80.2% ± 2.6	2026-03-13

SWE-bench Verified — 実 GitHub Issue 解決率

SWE-bench Verified は実在の GitHub Issue を解かせる重量級ベンチで、コーディングエージェント評価のデファクト指標です。OpenAI は 2026 年 2 月以降コンタミ懸念で自社報告を一時停止しており、現在は Epoch AI 等の第三者トラッカーが集計しています。

SWE-bench Verified スコア横並び棒グラフ。GPT-5.5 88.7%、GPT-5.3-Codex 85.0%、Claude Opus 4.7 82.0%、Claude Code (Opus 4.6 ベース、エージェント) 80.9%。第三者集計値、2026 年 5 月時点。 — 図: 図 2: SWE-bench Verified 主要スコア比較 (第三者集計、2026-05 時点)。

GPT-5.5: 88.7% (OpenAI 自社報告、2026-04-23 リリース)
GPT-5.3-Codex: 85.0%
Claude Opus 4.7: 約 82% (第三者集計)
Claude Code (Opus 4.6 ベース、エージェント): 80.9%

Anthropic は Opus 4.7 発表時に 「メモリゼーション (記憶混入) の疑いがある問題を除外しても、Opus 4.6 比の改善幅は維持される」 と明記しており、ベンチコンタミに対する透明性姿勢を強調しています (出典: Anthropic Newsroom — Claude Opus 4.7)。実数値は第三者集計に依存するため、本記事では 「±数%の誤差を含むベースライン」として扱います。

Aider Polyglot — 多言語コード編集

Aider 公式リーダーボードは C++ / Go / Java / JavaScript / Python / Rust 225 問の Exercism 問題セットで評価します。

gpt-5 (high): 88.0% correct, $29.08 cost (Rank 1)
gpt-5 (medium): 86.7% correct, $17.69 cost (Rank 2)
o3-pro (high): 84.9% correct, $146.32 cost (Rank 3)
gemini-2.5-pro (32k think): 83.1% correct (Rank 4)
gpt-5 (low) / o3 (high): 81.3% correct (Rank 5 / 6 同点)

3. CLI 機能・サブエージェント・プラグインの差分

ベンチスコアは数字での比較ができますが、現場で効くのは 「日常タスクで何が楽になるか」です。両 CLI の最新版で確認できる機能差分を整理します。

高密度ホワイトボード説明図。CLI 機能比較表として、左ゾーン Codex CLI 0.130.0 (codex remote-control / JSON-RPC 2.0 / image_generation / /vim / /hooks / AWS Bedrock auth)、右ゾーン Claude Code 2.1.143 (サブエージェント / /goal / /ultrareview / MCP / Plugin / Skill / Worktree)、中央に「タスクで使い分け」フロー (コーディング → 両方／ターミナル操作 → Codex／長コンテキスト調査 → Claude Code) を配置。 — 図: 図 3: CLI 機能差分マトリクス — 同じエージェント CLI でも設計思想が異なる。

項目	Codex CLI 0.130.0	Claude Code 2.1.143
既定モデル	GPT-5.5 (Codex は GPT-5.3-Codex も)	Claude Opus 4.7 (Sonnet 4.6 / Haiku 4.5 切替可)
コンテキスト窓	GPT-5.4: 272K 既定 / 1.05M long mode (第三者集計)	1M token 標準 (Opus 4.7 / 4.6 / Sonnet 4.6)
サブエージェント	無 (remote-control で外部プロセスから並列)	あり (claude agents、フラグ 8 種で session 分離)
条件達成ループ	無 (turn/start で外側ループ実装)	あり (/goal — 2.1.143 で背景シェル整合性 fix)
プラグイン	plugin 概念あり (workspace sharing / access controls)	plugin 概念あり (依存管理 / コスト可視化、2.1.143 強化)
画像生成	内蔵 (gpt-image-2、image_generation feature)	無 (MCP 経由で外部生成は可)
リモート制御	codex remote-control + JSON-RPC 2.0 app-server	claude agents の dispatched background session
コードレビュー	cmd 内 review プロンプト	/ultrareview (クラウド並列レビュー)
モーダル編集	/vim (0.129.0 で追加)	無 (TUI の標準入力)
ライフサイクル	/hooks (0.129.0 で browser 追加)	hooks/skills の組み合わせ
Windows サポート	PowerShell ネイティブ、sandbox bypass フラグ	2.1.143 で -ExecutionPolicy Bypass を既定化
認証	OpenAI API key / ChatGPT subscription / AWS Bedrock	Anthropic API key / Claude Pro / Bedrock / Vertex / Foundry

Claude Code が強い領域

長コンテキスト調査: 1M token 標準 + サブエージェント分離で、大規模リポジトリの全体把握タスクに強い
条件達成ループ: /goal で「テストが全部通るまで」「lint エラーが 0 になるまで」を 1 コマンドで指示できる
MCP / Plugin / Skill: 3 種の拡張機構が成熟しており、社内ナレッジを差し込みやすい

Codex CLI が強い領域

プログラマブル実行: codex remote-control + JSON-RPC 2.0 で外部スクリプトから完全制御。CI / バッチ処理に組み込みやすい
画像生成: image_generation feature 内蔵。本記事の図解もこの機能で生成している
トークン効率: 第三者ベンチ報告では 「同タスクで Claude Code の約 4 分の 1 のトークン消費」とされる (出典: morphllm 集計、再現性は要検証)

4. トークン効率・コンテキスト窓・API 料金

API 料金 (per million tokens, MTok)

モデル	入力	出力	キャッシュ Read	コンテキスト窓
Claude Opus 4.7	$5.00	$25.00	$0.50	1M
Claude Sonnet 4.6	$3.00	$15.00	$0.30	1M
Claude Haiku 4.5	$1.00	$5.00	$0.10	200K
GPT-5.5	$5.00	$30.00	$0.50 (集計)	272K-1M
GPT-5.4	$2.50	$15.00	$0.25 (集計)	272K-1M
GPT-5.3-Codex	$1.75	$14.00	$0.18 (集計)	200K+ (集計)

出典: Anthropic Pricing Docs / OpenAI Pricing。価格は USD、為替変動・公式改定で変わります。

主要モデルのコンテキスト窓 (横軸、千トークン) と出力単価 (縦軸、USD per MTok) の散布図。Claude Opus 4.7 (1000K, $25)、Sonnet 4.6 (1000K, $15)、Haiku 4.5 (200K, $5)、GPT-5.5 (272K-1M, $30)、GPT-5.4 (272K-1M, $15)、GPT-5.3-Codex (200K+, $14)。長コンテキスト × 低単価ゾーンを Sonnet 4.6 と GPT-5.3-Codex が占める。 — 図: 図 4: 主要モデルのコンテキスト窓 vs 出力単価 — Sonnet 4.6 と GPT-5.3-Codex が「長コンテキスト × 低単価」ゾーンを占める。

サブスクリプション料金

項目	ChatGPT 系 (Codex CLI 含む)	Claude 系 (Claude Code 含む)
無料	Free (ads 付き)	Free (制限あり)
個人向け軽量	Go $8/月 (US ads)	— (相当プランなし)
個人向け標準	Plus $20/月 (Codex 含む)	Pro $20/月 (Claude Code 含む)
個人向け上位	Pro $100/月 (Plus 比 5x 上限) / Pro $200	Max $100 / $200 (パワーユーザー上限)
ビジネス	Business $25/月/席 (月額)	Team / Enterprise (要問合せ)
API 直叩き	上記モデル単価通り	上記モデル単価通り

CLI エージェントの裏側で動く Sales Claw を、まず触ってみる。

無料・MIT ライセンス。インストールせずにライブデモも試せます。

無料でダウンロードライブデモを試す GitHub

5. AI 営業自動化での使い分け基準 — Sales Claw 視点

黒板に白チョークで手描きされた Sales Claw のループ全体図。CLI エージェント (Claude Code / Codex CLI) の出力 → 送信前自動検査 (営業 NG 検出 / 規約フッター補完 / オプトアウト導線) → CAPTCHA 検出時は awaiting_approval で停止 → 監査ログ action-log.json に保存 → 自動検査をパスしたものだけ送信。終了条件 AND (件数 + 経過時間 + ターン上限) で暴走防止。 — 図: 図 5: Sales Claw のループ全体 — CLI 出力 (Claude Code / Codex CLI) から送信前自動検査・監査ログを経て送信まで。

Sales Claw は ポリシー制御・送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件によって、誤送信と規約違反リスクを下げる設計の OSS ツールです。AI 営業自動化のループに CLI エージェントを組み込む場合、Codex CLI と Claude Code は 排他的ではなく補完関係で使うのが現実的です。社内検証でも、Claude Code の /goal ループで approach guardrails 違反を 0 件に追い込みつつ、Codex CLI の image_generation で OG カードを並列生成する構成が、開発者の運用観察上もっとも安定しました (検証条件: 2026-05 社内サイクル、100 社サンプル、Sales Claw リポジトリ上での内部反復試験)。詳しい組み合わせ運用は claude agents と codex remote-control を 1 つの並列ヘッドレス基盤に束ねる解説も参照してください。

Claude Code が向くタスク

フォーム本文生成: 長コンテキスト (1M) で会社情報・過去送信履歴・approach guardrails を全部読ませて 1 通生成
差分文面の検査: /goal "approach guardrails に違反しなくなるまで修正" でループ実行
大規模リポジトリの俯瞰: claude agents で複数 worker を分け、Sales Claw ソース全体を並列分析
MCP 連携: 社内ナレッジサーバー (Notion / Slack / Postgres) を MCP 経由でつなぐ

Codex CLI が向くタスク

画像生成 / OG カード: image_generation 内蔵で blog 用アイキャッチや動的 OG を生成 (本記事の図解もこれ)
夜間バッチの並列ヘッドレス: codex remote-control + JSON-RPC で N 並列、外部スケジューラから制御
ターミナルコマンド連打: Codex は Terminal-Bench 公式提出値 82.0% で sh / pwsh ベースのワークフローに強い
軽量タスクのコスト圧縮: GPT-5.3-Codex ($1.75/$14) で短い分類・抽出を回す

ハイブリッド構成の例

# 例: Sales Claw を Claude Code + Codex CLI で並走
# Phase A: Claude Code で文面生成 (長コンテキスト + /goal でループ品質保証)
claude agents \
  --add-dir ./company-data \
  --mcp-config ./mcp/sales-claw.json \
  --permission-mode plan \
  --model claude-opus-4-7 \
  --task "approach guardrails 適合の送信文を 100 社分生成"

# Phase B: Codex CLI で OG 画像 + バッチ確認 (画像生成 + remote-control)
codex remote-control --port 7777 &
node scripts/dispatch-og-generation.cjs --port 7777 --count 100

6. コスト試算と前提条件

前提条件

対象企業数: 1 万社/月 (Sales Claw 想定の標準スケール)
判定モデル: Claude Haiku 4.5 ($1/$5 per MTok)
本文生成モデル: Claude Sonnet 4.6 ($3/$15 per MTok) / 比較対象: GPT-5.3-Codex ($1.75/$14)
為替: 1 USD = 150 JPY
除外想定: CAPTCHA 約 8% / 営業 NG 約 12% / フォーム不在約 15%
1 社あたり平均トークン: 入力約 4,000 / 出力約 800
キャッシュヒット率: 60% (会社情報 / approach guardrails の使い回し)
変動幅: ±30%

1 万社/月を Claude Sonnet 4.6 と GPT-5.3-Codex で処理した場合のコスト比較棒グラフ。Sonnet 4.6 で月約 ¥1,690、GPT-5.3-Codex で月約 ¥1,290。差額 ¥400/月。為替 150 円。キャッシュヒット率 60% 想定。 — 図: 図 6: 1 万社/月のフォーム本文生成コスト比較 (Sonnet 4.6 vs GPT-5.3-Codex、キャッシュ前提)。

計算式 (Claude Sonnet 4.6 の場合)

項目	計算式	月額 (¥)
入力 (キャッシュ Miss 40%)	10,000 × 4,000 × 0.4 × $3 / 1M × ¥150	¥7,200
入力 (キャッシュ Hit 60%)	10,000 × 4,000 × 0.6 × $0.30 / 1M × ¥150	¥1,080
出力	10,000 × 800 × $15 / 1M × ¥150	¥18,000
除外 35% を反映 (実送信 6,500 社)	合計 × 0.65	¥16,432
合計	—	約 ¥16,400/月

同じ条件で GPT-5.3-Codex を使うと、入力 $1.75 / 出力 $14 で約 ¥12,500/月。差額は約 ¥3,900/月。「文面品質」と「コスト」のトレードオフを実機計測してから本番採用するのが安全です。

他社サービスとの比較

項目	自社で Claude Code + Codex CLI 構成	営業代行 SaaS の一般的なレンジ
月額レンジ	約 ¥12,500 〜 ¥16,400 (1 万社/月、API 直叩き)	一般的に月額 ¥30 万〜¥200 万 (リスト規模・送信代行込み)
初期費用	0 (Sales Claw 本体は OSS)	¥10〜100 万のセットアップ費が一般的
カスタマイズ性	高 (社内データ / 文面ルール自由)	低〜中 (テンプレ縛り)
内製スキル	Claude / Codex CLI 操作の知識が必要	不要 (運用は SaaS 側)

7. 送信前自動検査による無人運用のリスクと安全設計

Sales Claw を無人運用する場合、CLI エージェントの出力をそのまま送信するわけではなく、送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件で構造的にリスクを下げる設計です (フロー図は 5 章の図 5 参照)。

法務・コンプライアンス

特定電子メール法: 送信者情報 4 要件を自動補完 (preferences.complianceFooter: true)
規約遵守: 「営業目的お断り」記載のページは自動スキップ
CAPTCHA 非突破: 検出時に awaiting_approval で停止、監査ログ保存
送信頻度制限: 同一ドメインへの連続送信を抑制
オプトアウト導線: 文面に「ご不要の場合」を自動挿入

CLI エージェント暴走を防ぐ自動停止条件

残るリスク

以下のリスクは自動検査で完全には消せません:

新規 CAPTCHA 方式の検出漏れ (Sales Claw 側で対応するまで誤送信の可能性)
規約改定への即時追随 (法務情報の手動更新が必要)
業界別レギュレーション (BFSI 等は別途確認推奨)
LLM のハルシネーション (誤った会社情報・誤った担当者名の生成)
CLI 自体のバグ (Claude Code / Codex CLI とも 2026 年 5 月時点で活発開発中、週単位で挙動が変わる)

8. 実運用前チェックリスト + まとめ

Codex CLI と Claude Code をハイブリッド構成で組み込む前に

タスクごとに「どっちの CLI を使うか」基準を文書化した
最大ターン数・件数・実行時間の AND 条件を設定した
100 社サンプルで自動検査の通過率を確認した
CAPTCHA 自動突破設定が OFF になっている
営業 NG 検出 / スキップが ON になっている
action-log.json の保存が有効
Compliance Footer が有効 (4 要件自動補完)
オプトアウト導線が文面に含まれる
送信頻度制限が設定されている
Claude Code の /goal 達成条件が明示的に書かれている
Codex CLI の remote-control は外部スクリプト側に max-iterations 実装あり
API キーが .env で管理されている (リポジトリにコミットしない)
エラー時の通知設定がある
訂正・取り下げの手順が定義されている

まとめ

2026 年 5 月時点での Codex CLI 0.130.0 と Claude Code 2.1.143 は、いずれも単独完結型ではなく「タスクごとに使い分け、必要に応じて併用する」のが現実的な結論です。Terminal-Bench 2.0 公式リーダーボードでは Claude Opus 4.7 ベースの vix が 90.2% で 1 位、Codex CLI 自体は 82.0% で 7 位。SWE-bench Verified の集計では GPT-5.5 が 88.7%、Claude Opus 4.7 が約 82%。Aider Polyglot では GPT-5 (high) が 88.0%。「単一最強」は存在せず、ベンチごとに順位が入れ替わる時代に入っています。

AI 営業自動化のような業務組み込みでは、ベンチ数値より 「自社のリスト・文面ルール・送信先サイト構造で 100 社サンプル計測する」ほうがはるかに信頼できる選定基準になります。Sales Claw は両 CLI の出力をそのまま送信せず、送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・監査ログ保存・自動停止条件でリスクを構造的に下げる設計です。

次のアクション: 自社のリストから 100 社を切り出し、Claude Code と Codex CLI 双方で本文生成 → 自動検査通過率と品質を比較してください。詳細は Sales Claw クイックスタートから始められます。OSS 本体は無料でダウンロードできます。

ベンチで迷ったら、自社リストで計測する。Sales Claw でループを回す。

無料・MIT ライセンス。インストールせずにライブデモも試せます。

無料でダウンロードライブデモを試す GitHub

よくある質問

Codex CLI と Claude Code はどっちが強いですか?

ベンチごとに順位が変わるため一概に「どっちが強い」とは言えません。Terminal-Bench 2.0 公式リーダーボード (2026-05-15 時点) では Claude Opus 4.7 ベースの vix が 90.2% で 1 位、Codex CLI + GPT-5.5 は 82.0% で 7 位。SWE-bench Verified の第三者集計では GPT-5.5 が 88.7%、Claude Opus 4.7 が約 82%。Aider Polyglot では GPT-5 (high) が 88.0% で 1 位。タスク (ターミナル操作 / GitHub Issue 解決 / 多言語コード編集) ごとに優位が入れ替わるので、「自社のタスクで 100 サンプル計測する」が最も信頼できる選定基準です。

コストはどちらが安いですか?

API 直叩きなら GPT-5.3-Codex (入力 $1.75 / 出力 $14 per MTok) が最安レンジです。Claude Opus 4.7 は $5/$25、GPT-5.5 は $5/$30。1 万社/月のフォーム本文生成試算 (Sonnet 4.6 with 60% キャッシュヒット) では約 ¥16,400/月、同条件で GPT-5.3-Codex に切り替えると約 ¥12,500/月。為替・キャッシュヒット率・除外率で変動するため、本番展開前に 100 社サンプルで計測することを推奨します。サブスクリプションは ChatGPT Plus $20/月 (Codex 含む) と Claude Pro $20/月 (Claude Code 含む) で同水準です。

AI 営業自動化にはどちらを組み込むべきですか?

両方を補完的に使う構成が現実的です。Claude Code は長コンテキスト (1M token) とサブエージェント・/goal が強いので、フォーム本文生成と approach guardrails 違反チェックに向きます。Codex CLI は JSON-RPC 2.0 ベースの codex remote-control と image_generation 内蔵 (gpt-image-2) が強いので、夜間バッチでの並列ヘッドレス処理と OG 画像生成に向きます。Sales Claw のような OSS では Claude Code で文面生成 → 自動検査 → Codex CLI で画像生成・並列バッチ、という分担が現場で機能します。

コンテキスト窓はどちらが大きいですか?

Claude Opus 4.7 / 4.6 / Sonnet 4.6 はいずれも 1M token 標準対応で、追加料金なしで full 1M を使えます (Anthropic 公式 Pricing Docs)。Codex CLI 側は GPT-5.4 で 272K 既定、long mode 有効化で約 1.05M (第三者集計、要 OpenAI 公式裏取り) と報告されています。長大なリポジトリや過去ログを 1 回のプロンプトに詰め込むタスクでは Claude Code が現状有利です。

送信前自動検査だけで無人運用しても大丈夫ですか?

「100% 安全」と言える設計は存在しません。Sales Claw は CLI エージェントの出力をそのまま送信せず、ポリシー制御・送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件 (件数 + 経過時間 + ターン上限を AND) でリスクを構造的に下げる設計です。新規 CAPTCHA 方式の検出漏れ、規約改定への追随遅れ、LLM ハルシネーションなどの残存リスクがあるため、運用初期は監査ログを必ず確認してください。

Aider Polyglot で Claude が Top 10 に入っていないのはなぜですか?

Aider Polyglot は API 直叩きで個別モデルを評価するベンチで、Claude Code のようなエージェントハーネスを含む統合評価ではありません。ハーネス込みで評価される Terminal-Bench 2.0 では Claude Opus 4.7 ベースの vix が 1 位 (90.2%) を取っているため、評価軸が違うと考えるのが妥当です。Aider 公式の Top 10 (2026-05-16 取得時点) は GPT-5 系で占められていますが、これは「Aider という編集ループでは GPT-5 のレスポンス特性が当てはまりやすい」という相性問題でもあります。

GPT-5.3-Codex と GPT-5.5、どちらを選ぶべきですか?

GPT-5.5 は最新フラッグシップ ($5 入力 / $30 出力 per MTok) で SWE-bench Verified 88.7% を取ります。GPT-5.3-Codex は Codex 用途に最適化された専用モデル ($1.75 / $14) で SWE-bench Verified 85.0%。「とにかく最高品質」を狙うなら GPT-5.5、「コスト効率と十分な品質」を狙うなら GPT-5.3-Codex が現実的です。Sales Claw のような繰り返しタスクでは GPT-5.3-Codex がコスト効率で勝つケースが多いです。

参考文献

本記事は X 公式アカウントと公式ドキュメントを一次情報として参照しています。

[01]
OpenAI Codex 公式 Changelog (v0.130.0, v0.129.0)2026-05-08
[02]
Claude Code 公式 Changelog (v2.1.143)2026-05-15
[03]
Anthropic Newsroom — Claude Opus 4.72026-04-16
[04]
Terminal-Bench 2.0 公式リーダーボード2026-05-15
[05]
Aider 公式 LLM Leaderboards2026-05-16
[06]
Anthropic Pricing Docs2026-05-16
[07]
OpenAI API Pricing2026-05-16
[08]
openai/codex GitHub Releases2026-05-15
[09]
OpenAI 公式 X アカウント (@OpenAIDevs)@OpenAIDevs·2026-04-23

この記事の著者