
Codex CLI と Claude Code はどっちが強い?2026年5月の公式ベンチで横断比較 — SWE-bench / Terminal-Bench / コスト
2026 年 5 月時点で Codex CLI 0.130.0 と Claude Code 2.1.143 はベンチごとに順位が入れ替わる時代。Terminal-Bench 2.0 / SWE-bench Verified / Aider Polyglot の公式・第三者集計、API 料金、CLI 機能差分、AI 営業自動化での使い分け基準を Sales Claw 視点で解説。

中澤 圭志
@keishi_nakazawaSales Claw 開発者

Key Facts
最新版
Codex CLI 0.130.0 (2026-05-08) / Claude Code 2.1.143 (2026-05-15)
既定モデル
GPT-5.5 (2026-04-23) / Claude Opus 4.7 (2026-04-16)
Terminal-Bench 2.0
vix + Opus 4.7 90.2% (1位) / Codex CLI + GPT-5.5 82.0% (7位)
API 料金 (入力/出力)
Opus 4.7 $5/$25 / GPT-5.5 $5/$30 / GPT-5.3-Codex $1.75/$14 per MTok
「Codex CLI と Claude Code はどっちが強いのか?2026 年 5 月時点の公式ベンチで横断的に比べたい。コストもタスク適性も含めて、現場で選べる基準が欲しい」—— 本記事ではこの疑問に対し、Terminal-Bench 2.0 公式リーダーボード・Aider Polyglot・SWE-bench Verified の集計、Anthropic / OpenAI 公式 Docs と GitHub Releases を一次情報として、AI 営業自動化に組み込む現場視点から答えます。
2026 年 5 月時点で、両者の最新版は Codex CLI 0.130.0 (2026-05-08 リリース) と Claude Code 2.1.143 (2026-05-15 リリース) です。背後のフラッグシップモデルは GPT-5.5 (2026-04-23 ロールアウト) と Claude Opus 4.7 (2026-04-16 リリース)。ベンチマーク上の優劣は「どの軸で見るか」で逆転するため、単純な勝ち負けではなく 「タスクごとの適性」 で読むのが現実的です。
本記事は OpenAI Codex 公式 Changelog / Claude Code 公式 Changelog / Anthropic Newsroom / Terminal-Bench 公式リーダーボード (tbench.ai) / Aider 公式ドキュメント / Claude / OpenAI 公式 Pricing ページ を一次情報として参照しています。記事公開時点で確認できる公式情報のみを取り上げ、第三者集計を引用する場合は出典を明示します。
1. Codex CLI と Claude Code とは — 2026 年 5 月時点の最新スペック

Codex CLI と Claude Code はどちらも「ターミナルから AI に指示を出してファイル編集・コード生成・コマンド実行をさせる」エージェント CLI ですが、起源と設計思想は異なります。
Codex CLI (OpenAI)
- 最新版: 0.130.0 (stable, 2026-05-08 リリース) — 0.131.0-alpha も 2026-05-15 時点で進行中
- 既定モデル: GPT-5.5 (2026-04-23 ロールアウト)。Codex 専用モデル GPT-5.3-Codex も選択可
- 強み: JSON-RPC 2.0 ベースの app-server を持ち、
codex remote-controlで外部プロセスから完全プログラム制御できる。画像生成 (gpt-image-2) を内蔵 - サブスクリプション: ChatGPT Plus / Pro / Business / Enterprise に Codex 利用が含まれる (Pro $100 は Plus の 5x 上限)
- パッケージ:
@openai/codexon npm、codexコマンドで起動
Claude Code (Anthropic)
- 最新版: 2.1.143 (2026-05-15 リリース)
- 既定モデル: Claude Opus 4.7 (2026-04-16 リリース) / Sonnet 4.6 / Haiku 4.5 を切替可。
xhigheffort level / Fast mode 対応 - 強み: サブエージェント (
claude agents)、/goalによる条件達成ループ、/ultrareview、Plugin / Skill / MCP ファーストクラス。コンテキスト 1M token 標準 - サブスクリプション: Claude Pro / Max / Team に Claude Code 利用が含まれる。API 直叩きも可能
- パッケージ:
@anthropic-ai/claude-codeon npm、claudeコマンドで起動
2. 公式・第三者ベンチマーク横断比較 — Terminal-Bench / SWE-bench / Aider
コーディング・ターミナルタスク向けベンチマークは複数あり、それぞれ評価する能力が違います。本セクションでは Terminal-Bench 2.0 (公式)・SWE-bench Verified (第三者集計)・Aider Polyglot (公式) の 3 つを横断的に整理します。
Terminal-Bench 2.0 — ターミナルでの実タスク
tbench.ai の公式リーダーボード によると、2026-05-15 時点の上位 10 エントリは以下の通りです。
| Rank | エージェント | モデル | スコア | 日付 |
|---|---|---|---|---|
| 1 | vix | Claude Opus 4.7 | 90.2% ± 2.1 | 2026-05-15 |
| 2 | JJAgent | Multiple | 87.1% ± 1.3 | 2026-05-15 |
| 3 | NexAU-AHE | GPT-5.5 | 84.7% ± 2.1 | 2026-05-14 |
| 4 | LemonHarness | Multiple | 84.5% ± 2.6 | 2026-05-14 |
| 5 | Capy | GPT-5.5 | 83.1% ± 2.1 | 2026-05-14 |
| 6 | Polaris | Multiple | 82.2% ± 2.8 | 2026-05-14 |
| 7 | Codex CLI | GPT-5.5 | 82.0% ± 2.2 | 2026-04-23 |
| 8 | ForgeCode | GPT-5.4 | 81.8% ± 2.0 | 2026-03-12 |
| 9 | WOZCODE | Claude Opus 4.7 | 80.2% ± 2.1 | 2026-05-14 |
| 10 | TongAgents | Gemini 3.1 Pro | 80.2% ± 2.6 | 2026-03-13 |
SWE-bench Verified — 実 GitHub Issue 解決率
SWE-bench Verified は実在の GitHub Issue を解かせる重量級ベンチで、コーディングエージェント評価のデファクト指標です。OpenAI は 2026 年 2 月以降コンタミ懸念で自社報告を一時停止しており、現在は Epoch AI 等の第三者トラッカーが集計しています。

- GPT-5.5: 88.7% (OpenAI 自社報告、2026-04-23 リリース)
- GPT-5.3-Codex: 85.0%
- Claude Opus 4.7: 約 82% (第三者集計)
- Claude Code (Opus 4.6 ベース、エージェント): 80.9%
Anthropic は Opus 4.7 発表時に 「メモリゼーション (記憶混入) の疑いがある問題を除外しても、Opus 4.6 比の改善幅は維持される」 と明記しており、ベンチコンタミに対する透明性姿勢を強調しています (出典: Anthropic Newsroom — Claude Opus 4.7)。実数値は第三者集計に依存するため、本記事では 「±数%の誤差を含むベースライン」として扱います。
Aider Polyglot — 多言語コード編集
Aider 公式リーダーボード は C++ / Go / Java / JavaScript / Python / Rust 225 問の Exercism 問題セットで評価します。
- gpt-5 (high): 88.0% correct, $29.08 cost (Rank 1)
- gpt-5 (medium): 86.7% correct, $17.69 cost (Rank 2)
- o3-pro (high): 84.9% correct, $146.32 cost (Rank 3)
- gemini-2.5-pro (32k think): 83.1% correct (Rank 4)
- gpt-5 (low) / o3 (high): 81.3% correct (Rank 5 / 6 同点)
3. CLI 機能・サブエージェント・プラグインの差分
ベンチスコアは数字での比較ができますが、現場で効くのは 「日常タスクで何が楽になるか」です。両 CLI の最新版で確認できる機能差分を整理します。

| 項目 | Codex CLI 0.130.0 | Claude Code 2.1.143 |
|---|---|---|
| 既定モデル | GPT-5.5 (Codex は GPT-5.3-Codex も) | Claude Opus 4.7 (Sonnet 4.6 / Haiku 4.5 切替可) |
| コンテキスト窓 | GPT-5.4: 272K 既定 / 1.05M long mode (第三者集計) | 1M token 標準 (Opus 4.7 / 4.6 / Sonnet 4.6) |
| サブエージェント | 無 (remote-control で外部プロセスから並列) | あり (claude agents、フラグ 8 種で session 分離) |
| 条件達成ループ | 無 (turn/start で外側ループ実装) | あり (/goal — 2.1.143 で背景シェル整合性 fix) |
| プラグイン | plugin 概念あり (workspace sharing / access controls) | plugin 概念あり (依存管理 / コスト可視化、2.1.143 強化) |
| 画像生成 | 内蔵 (gpt-image-2、image_generation feature) | 無 (MCP 経由で外部生成は可) |
| リモート制御 | codex remote-control + JSON-RPC 2.0 app-server | claude agents の dispatched background session |
| コードレビュー | cmd 内 review プロンプト | /ultrareview (クラウド並列レビュー) |
| モーダル編集 | /vim (0.129.0 で追加) | 無 (TUI の標準入力) |
| ライフサイクル | /hooks (0.129.0 で browser 追加) | hooks/skills の組み合わせ |
| Windows サポート | PowerShell ネイティブ、sandbox bypass フラグ | 2.1.143 で -ExecutionPolicy Bypass を既定化 |
| 認証 | OpenAI API key / ChatGPT subscription / AWS Bedrock | Anthropic API key / Claude Pro / Bedrock / Vertex / Foundry |
Claude Code が強い領域
- 長コンテキスト調査: 1M token 標準 + サブエージェント分離で、大規模リポジトリの全体把握タスクに強い
- 条件達成ループ:
/goalで「テストが全部通るまで」「lint エラーが 0 になるまで」を 1 コマンドで指示できる - MCP / Plugin / Skill: 3 種の拡張機構が成熟しており、社内ナレッジを差し込みやすい
Codex CLI が強い領域
- プログラマブル実行:
codex remote-control+ JSON-RPC 2.0 で外部スクリプトから完全制御。CI / バッチ処理に組み込みやすい - 画像生成:
image_generationfeature 内蔵。本記事の図解もこの機能で生成している - トークン効率: 第三者ベンチ報告では 「同タスクで Claude Code の約 4 分の 1 のトークン消費」とされる (出典: morphllm 集計、再現性は要検証)
4. トークン効率・コンテキスト窓・API 料金
API 料金 (per million tokens, MTok)
| モデル | 入力 | 出力 | キャッシュ Read | コンテキスト窓 |
|---|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | 1M |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | 1M |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | 200K |
| GPT-5.5 | $5.00 | $30.00 | $0.50 (集計) | 272K-1M |
| GPT-5.4 | $2.50 | $15.00 | $0.25 (集計) | 272K-1M |
| GPT-5.3-Codex | $1.75 | $14.00 | $0.18 (集計) | 200K+ (集計) |
出典: Anthropic Pricing Docs / OpenAI Pricing。価格は USD、為替変動・公式改定で変わります。

サブスクリプション料金
| 項目 | ChatGPT 系 (Codex CLI 含む) | Claude 系 (Claude Code 含む) |
|---|---|---|
| 無料 | Free (ads 付き) | Free (制限あり) |
| 個人向け軽量 | Go $8/月 (US ads) | — (相当プランなし) |
| 個人向け標準 | Plus $20/月 (Codex 含む) | Pro $20/月 (Claude Code 含む) |
| 個人向け上位 | Pro $100/月 (Plus 比 5x 上限) / Pro $200 | Max $100 / $200 (パワーユーザー上限) |
| ビジネス | Business $25/月/席 (月額) | Team / Enterprise (要問合せ) |
| API 直叩き | 上記モデル単価通り | 上記モデル単価通り |
5. AI 営業自動化での使い分け基準 — Sales Claw 視点

Sales Claw は ポリシー制御・送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件によって、誤送信と規約違反リスクを下げる設計の OSS ツールです。AI 営業自動化のループに CLI エージェントを組み込む場合、Codex CLI と Claude Code は 排他的ではなく補完関係で使うのが現実的です。社内検証でも、Claude Code の /goal ループで approach guardrails 違反を 0 件に追い込みつつ、Codex CLI の image_generation で OG カードを並列生成する構成が、開発者の運用観察上もっとも安定しました (検証条件: 2026-05 社内サイクル、100 社サンプル、Sales Claw リポジトリ上での内部反復試験)。詳しい組み合わせ運用は claude agents と codex remote-control を 1 つの並列ヘッドレス基盤に束ねる解説 も参照してください。
Claude Code が向くタスク
- フォーム本文生成: 長コンテキスト (1M) で会社情報・過去送信履歴・approach guardrails を全部読ませて 1 通生成
- 差分文面の検査:
/goal "approach guardrails に違反しなくなるまで修正"でループ実行 - 大規模リポジトリの俯瞰:
claude agentsで複数 worker を分け、Sales Claw ソース全体を並列分析 - MCP 連携: 社内ナレッジサーバー (Notion / Slack / Postgres) を MCP 経由でつなぐ
Codex CLI が向くタスク
- 画像生成 / OG カード:
image_generation内蔵で blog 用アイキャッチや動的 OG を生成 (本記事の図解もこれ) - 夜間バッチの並列ヘッドレス:
codex remote-control+ JSON-RPC で N 並列、外部スケジューラから制御 - ターミナルコマンド連打: Codex は Terminal-Bench 公式提出値 82.0% で sh / pwsh ベースのワークフローに強い
- 軽量タスクのコスト圧縮: GPT-5.3-Codex ($1.75/$14) で短い分類・抽出を回す
ハイブリッド構成の例
# 例: Sales Claw を Claude Code + Codex CLI で並走
# Phase A: Claude Code で文面生成 (長コンテキスト + /goal でループ品質保証)
claude agents \
--add-dir ./company-data \
--mcp-config ./mcp/sales-claw.json \
--permission-mode plan \
--model claude-opus-4-7 \
--task "approach guardrails 適合の送信文を 100 社分生成"
# Phase B: Codex CLI で OG 画像 + バッチ確認 (画像生成 + remote-control)
codex remote-control --port 7777 &
node scripts/dispatch-og-generation.cjs --port 7777 --count 1006. コスト試算と前提条件
前提条件
- 対象企業数: 1 万社/月 (Sales Claw 想定の標準スケール)
- 判定モデル: Claude Haiku 4.5 ($1/$5 per MTok)
- 本文生成モデル: Claude Sonnet 4.6 ($3/$15 per MTok) / 比較対象: GPT-5.3-Codex ($1.75/$14)
- 為替: 1 USD = 150 JPY
- 除外想定: CAPTCHA 約 8% / 営業 NG 約 12% / フォーム不在 約 15%
- 1 社あたり平均トークン: 入力 約 4,000 / 出力 約 800
- キャッシュヒット率: 60% (会社情報 / approach guardrails の使い回し)
- 変動幅: ±30%

計算式 (Claude Sonnet 4.6 の場合)
| 項目 | 計算式 | 月額 (¥) |
|---|---|---|
| 入力 (キャッシュ Miss 40%) | 10,000 × 4,000 × 0.4 × $3 / 1M × ¥150 | ¥7,200 |
| 入力 (キャッシュ Hit 60%) | 10,000 × 4,000 × 0.6 × $0.30 / 1M × ¥150 | ¥1,080 |
| 出力 | 10,000 × 800 × $15 / 1M × ¥150 | ¥18,000 |
| 除外 35% を反映 (実送信 6,500 社) | 合計 × 0.65 | ¥16,432 |
| 合計 | — | 約 ¥16,400/月 |
同じ条件で GPT-5.3-Codex を使うと、入力 $1.75 / 出力 $14 で約 ¥12,500/月。差額は約 ¥3,900/月。「文面品質」と「コスト」のトレードオフを実機計測してから本番採用するのが安全です。
他社サービスとの比較
| 項目 | 自社で Claude Code + Codex CLI 構成 | 営業代行 SaaS の一般的なレンジ |
|---|---|---|
| 月額レンジ | 約 ¥12,500 〜 ¥16,400 (1 万社/月、API 直叩き) | 一般的に月額 ¥30 万〜¥200 万 (リスト規模・送信代行込み) |
| 初期費用 | 0 (Sales Claw 本体は OSS) | ¥10〜100 万のセットアップ費が一般的 |
| カスタマイズ性 | 高 (社内データ / 文面ルール自由) | 低〜中 (テンプレ縛り) |
| 内製スキル | Claude / Codex CLI 操作の知識が必要 | 不要 (運用は SaaS 側) |
7. 送信前自動検査による無人運用のリスクと安全設計
Sales Claw を無人運用する場合、CLI エージェントの出力をそのまま送信するわけではなく、送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件で構造的にリスクを下げる設計です (フロー図は 5 章の図 5 参照)。
法務・コンプライアンス
- 特定電子メール法: 送信者情報 4 要件を自動補完 (
preferences.complianceFooter: true) - 規約遵守: 「営業目的お断り」記載のページは自動スキップ
- CAPTCHA 非突破: 検出時に
awaiting_approvalで停止、監査ログ保存 - 送信頻度制限: 同一ドメインへの連続送信を抑制
- オプトアウト導線: 文面に「ご不要の場合」を自動挿入
CLI エージェント暴走を防ぐ自動停止条件
残るリスク
以下のリスクは自動検査で完全には消せません:
- 新規 CAPTCHA 方式の検出漏れ (Sales Claw 側で対応するまで誤送信の可能性)
- 規約改定への即時追随 (法務情報の手動更新が必要)
- 業界別レギュレーション (BFSI 等は別途確認推奨)
- LLM のハルシネーション (誤った会社情報・誤った担当者名の生成)
- CLI 自体のバグ (Claude Code / Codex CLI とも 2026 年 5 月時点で活発開発中、週単位で挙動が変わる)
8. 実運用前チェックリスト + まとめ
Codex CLI と Claude Code をハイブリッド構成で組み込む前に
- タスクごとに「どっちの CLI を使うか」基準を文書化した
- 最大ターン数・件数・実行時間の AND 条件を設定した
- 100 社サンプルで自動検査の通過率を確認した
- CAPTCHA 自動突破設定が OFF になっている
- 営業 NG 検出 / スキップが ON になっている
- action-log.json の保存が有効
- Compliance Footer が有効 (4 要件自動補完)
- オプトアウト導線が文面に含まれる
- 送信頻度制限が設定されている
- Claude Code の /goal 達成条件が明示的に書かれている
- Codex CLI の remote-control は外部スクリプト側に max-iterations 実装あり
- API キーが .env で管理されている (リポジトリにコミットしない)
- エラー時の通知設定がある
- 訂正・取り下げの手順が定義されている
まとめ
2026 年 5 月時点での Codex CLI 0.130.0 と Claude Code 2.1.143 は、いずれも単独完結型ではなく「タスクごとに使い分け、必要に応じて併用する」のが現実的な結論です。Terminal-Bench 2.0 公式リーダーボードでは Claude Opus 4.7 ベースの vix が 90.2% で 1 位、Codex CLI 自体は 82.0% で 7 位。SWE-bench Verified の集計では GPT-5.5 が 88.7%、Claude Opus 4.7 が約 82%。Aider Polyglot では GPT-5 (high) が 88.0%。「単一最強」は存在せず、ベンチごとに順位が入れ替わる時代に入っています。
AI 営業自動化のような業務組み込みでは、ベンチ数値より 「自社のリスト・文面ルール・送信先サイト構造で 100 社サンプル計測する」ほうがはるかに信頼できる選定基準になります。Sales Claw は両 CLI の出力をそのまま送信せず、送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・監査ログ保存・自動停止条件でリスクを構造的に下げる設計です。
次のアクション: 自社のリストから 100 社を切り出し、Claude Code と Codex CLI 双方で本文生成 → 自動検査通過率と品質を比較してください。詳細は Sales Claw クイックスタート から始められます。OSS 本体は 無料でダウンロード できます。
よくある質問
Codex CLI と Claude Code はどっちが強いですか?
コストはどちらが安いですか?
AI 営業自動化にはどちらを組み込むべきですか?
コンテキスト窓はどちらが大きいですか?
送信前自動検査だけで無人運用しても大丈夫ですか?
Aider Polyglot で Claude が Top 10 に入っていないのはなぜですか?
GPT-5.3-Codex と GPT-5.5、どちらを選ぶべきですか?
参考文献
本記事は X 公式アカウントと公式ドキュメントを一次情報として参照しています。
- [01]
- [02]Claude Code 公式 Changelog (v2.1.143)2026-05-15
- [03]Anthropic Newsroom — Claude Opus 4.72026-04-16
- [04]Terminal-Bench 2.0 公式リーダーボード2026-05-15
- [05]Aider 公式 LLM Leaderboards2026-05-16
- [06]Anthropic Pricing Docs2026-05-16
- [07]OpenAI API Pricing2026-05-16
- [08]openai/codex GitHub Releases2026-05-15
- [09]OpenAI 公式 X アカウント (@OpenAIDevs)@OpenAIDevs·2026-04-23


