
AI エージェントの『ハーネス』って結局なに?── Claude Code や Codex の中身を、車のたとえで 8 分でわかる
ハーネスとは「LLM (エンジン) を実用できる AI エージェントに仕立てる車体ソフト」。Claude Code・Codex CLI・Devin はそれぞれ違う車体。同じモデルでもハーネス次第で SWE-bench が 42% → 78% に跳ねる事例も。一般読者向けに「車のたとえ」で 3 本柱と Claude Code / Codex CLI の個性、はじめる手順、リスクと安全設計まで整理。

中澤 圭志
@keishi_nakazawaSales Claw 開発者

Key Facts
一言定義
LLM (エンジン) を実用エージェントに仕立てる外殻ソフト (車体)
性能影響
同じモデルでハーネス変更だけで 42% → 78% (SWE-bench 事例)
代表例
Claude Code (Terminus-2)・Codex CLI・Devin・Aider
一般読者の触り方
既製ハーネス (Claude Code か Codex CLI) を選び 30 分触る
「AI 業界の人が最近『ハーネス』ってよく言うけど、何のこと?」「Claude Code と Codex の違いって、結局モデルの違いじゃないの?」「『ハーネスを変えたら性能が劇的に変わった』 って、何をしたらそんなことが起きるの?」—— 本記事では、2026 年に AI 業界の合言葉になった「ハーネス (harness)」を、 AI に詳しくない人向けに整理します。Anthropic 公式ドキュメント・公式 System Card・ Terminal-Bench 公式記事・GitHub の公開ソースを一次情報として参照しながら、なぜ今ハーネスが大事になっているかとふつうの人が今日から触る方法を解説します。
本記事は Anthropic Claude Code 公式ドキュメント / Anthropic System Card (Claude Opus 4.6 PDF) / Terminal-Bench 公式リーダーボード / GitHub anthropics/claude-code / VentureBeat 公式インタビュー記事 / OpenAI Codex CLI 公式 Changelog を一次情報として参照しています。一部、文脈整理のため第三者の技術解説記事も参考にしていますが、 判断の核となる数値・仕様はすべて公式情報に紐づけています。
1. ハーネスとは — 一言で言うと「LLM を乗せて走らせる車体」
【公式発表】 Anthropic は 2026 年 2 月公開の System Card (Claude Opus 4.6) で、 モデルを評価するときに「Terminus-2」という名前のハーネスを使っていることを明示しています (System Card §4.2)。同じ Claude Opus 4.6 でも、ハーネスを変えるとベンチマークの数字が 変わるため、Anthropic は「モデル単体の点数」と「ハーネス込みの点数」を分けて公開しています。これは、ハーネスがモデルと同じくらい重要だと公式が認めていることを示します。
【著者見解】 車のたとえが一番直感的です。Claude Opus 4.7 や GPT-5.5 のような最新 LLM は「世界最高クラスのエンジン」ですが、 エンジンだけでは公道を走れません。ハンドル・タイヤ・ブレーキ・ナビ・シートベルトを組み合わせて初めて「車」になります。AI の世界でこの「車体」にあたるのがハーネスで、 Claude Code / Codex CLI / Devin / Aider などは「Anthropic 製・OpenAI 製・Cognition 製・OSS 製」の それぞれ違う車体を、最新エンジンに被せて売っている、と理解してください。
Anthropic の公式技術ブログ「Building Effective Agents」(2024 年 12 月) は、 エージェントを「LLM が自分自身のプロセスとツール使用を動的に方向づけ、タスクをどう達成するかの コントロールを保つシステム」と定義しています。この「動的に方向づける部分」「コントロールを 保つ部分」を実装している外殻ソフトが、まさにハーネスです。

2. なぜ 2026 年に「ハーネス」という言葉が急に増えたのか
【公式発表】 2026 年 4 月、Anthropic は VentureBeat のインタビューで「Claude の応答品質が劣化したと 報告された期間に、内部でハーネスとオペレーティング命令の変更を行っていた」ことを認めました (VentureBeat 2026-04 記事、Anthropic 公式コメント)。これは「モデルそのものを変えなくても、 ハーネスを触るだけでユーザー体感の品質が変わる」ことを大手 AI 企業が公式に認めた最初の 事例と言って差し支えありません。
【公式発表】 同時期、SWE-bench Pro のリーダーボード分析で次のような数字が共有されました (複数の公式技術ブログ、2026-04 〜 2026-05):
- ハーネス変更だけで、同じモデルが 42% → 78% (約 36 ポイント増) に跳ねた事例
- SWE-bench Pro で、スキャフォルディングの差が 22 ポイント以上の点差を生んだ
- 一方、フロンティアモデル間 (最強モデル同士) の差はわずか 1 ポイント程度
【著者見解】 これらの数字が意味するのは、「モデル選び」よりも「ハーネス選び」の方が成果に 効くフェーズに入ったということです。2024 年までは「GPT-4 vs Claude 3 のどちらが賢いか」が 議論の中心でしたが、2026 年は「同じ Claude Opus 4.7 でも、Claude Code で動かすのと、 自作スクリプトで動かすのでは別物になる」という現実が広く理解されつつあります。
3. ハーネスの中身 — ループ・ツール・メモリの 3 本柱
ハーネスを車体にたとえると、3 本柱はそれぞれ「エンジンマウント・ハンドル・燃料タンク」 にあたります。順に見ていきます。
(1) 自律ループ — Gather-Act-Verify サイクル
【公式発表】 Claude Code の公式 Overview ドキュメントは、エージェントの動作を 「Gather context (情報収集) → Act (行動) → Verify results (結果検証)」の 繰り返しと説明しています。具体的には:
- Gather: ファイル検索、コード読み込み、コマンド出力の取得
- Act: ファイル編集、コマンド実行、外部 API 呼び出し
- Verify: テスト実行、出力確認、エラーチェック
- 結果が目標を満たさなければ Gather に戻ってもう一周
これが「自律ループ」の正体です。LLM 単体だと「1 回答えて終わり」ですが、 ハーネスがこの 3 ステップを達成条件を満たすまで何度も回すことで、 エージェントは「自分で考えて手を動かし続ける」ように見えるわけです。
(2) ツール呼び出し — 関数を AI に渡す仕組み
ハーネスはエージェントに「使える道具」を渡します。Claude Code の場合、標準で:
- Read / Write / Edit (ファイル操作)
- Bash (コマンド実行)
- Glob / Grep (検索)
- WebFetch / WebSearch (ネット参照)
- MCP サーバ経由のカスタムツール (Slack 投稿・GitHub PR 作成など)
などが渡されています。これらは「JSON Schema 形式の関数定義」として LLM に提示され、LLM は「今この関数を呼びたい」と JSON で返します。ハーネスがその JSON を解釈して 実際に関数を実行し、結果を LLM に戻す、というのが「ツール呼び出し (function calling)」の中身です。 詳細はMCP (Model Context Protocol) 完全ガイドを併読してください。
(3) メモリ・コンテキスト管理 — 「長い作業を忘れない」仕組み
LLM には「コンテキスト窓 (Context Window)」という上限があります。 Claude Opus 4.7 で 1M token、GPT-5.5 で 272K token (long mode で約 1M) などが 2026-05 時点の標準です。けれど現実のコーディング作業では、1M token をはみ出すような大きなリポジトリやログを扱うことが珍しくありません。
ハーネスは、この上限をはみ出さないように(a) 古いやり取りを要約して圧縮する、(b) 重要な事実だけを別ファイルに退避して必要時に読み戻す、(c) サブエージェントに作業を委譲して親が結果だけ受け取る、 といった工夫を裏で行います。これが「メモリ管理」「コンテキスト管理」と呼ばれる領域です。

4. Claude Code のハーネスを覗いてみる
【公式発表】 Claude Code は npm パッケージ @anthropic-ai/claude-code として配布されている CLI 形式の AI エージェントです (GitHub: anthropics/claude-code)。 Anthropic 公式の Claude Code Docs は、これを 「ターミナルに住み、コードベースを理解し、自然言語の指示でルーティン作業を 実行する agentic coding tool」と紹介しています。
Claude Code のハーネスが特徴的なのは、「最初にプランを立てる」「承認待ちを多用する」の 2 点です:
- Plan モード: いきなり編集に入らず、まず「やろうとしていること」を 自然言語で書き出してユーザーの OK を取ってから実行に移る
- permission-mode (許可モード):
default/acceptEdits/bypassPermissions/planなど、操作の自由度を段階的に切り替えられる - サブエージェント (subagent): 大きなタスクを子エージェントに委譲し、 親が結果だけ受け取ることでコンテキストを節約する
- /goal コマンド (2.1.140+): 「条件達成まで自律ループを継続」する 高自律モード
Anthropic 公式の Terminal-Bench リーダーボードでは、Claude Opus 4.6 + Terminus-2 ハーネスで65.4% (max effort) を達成しています (tbench.ai 公式)。 Claude Code がそのまま Terminus-2 を採用しているわけではありませんが、 Anthropic 製ハーネスの「ベースライン」が公開されている数少ない例です。
# Claude Code のインストールと初回起動 (Mac/Linux/Windows)
npm install -g @anthropic-ai/claude-code
claude
# Plan モードで「何をするか」だけまず見せてもらう
claude --permission-mode plan "lib/blog.ts に新しい記事エントリを追加して"
# 自律ループで条件達成まで継続 (Claude Code 2.1.140 以降)
claude /goal "全テストが通るまで修正を繰り返して"Claude Code の新バージョンと変更点はClaude Code 2.1.143 リリース解説で詳しく整理しています。
5. Codex CLI のハーネスを覗いてみる
【公式発表】 Codex CLI は OpenAI が配布する Node.js ベースの CLI エージェントで、 GPT-5.5 / GPT-5.3-Codex / GPT-5.4 などのモデルをバックエンドにします (OpenAI Codex Changelog)。Claude Code との対比でハーネスの個性を整理すると以下のようになります:
| 項目 | Claude Code (Anthropic 製ハーネス) | Codex CLI (OpenAI 製ハーネス) |
|---|---|---|
| モデル | Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5 | GPT-5.5 / 5.3-Codex / 5.4 |
| コンテキスト窓 | 1M token (Opus/Sonnet/Haiku 共通) | 272K (long mode で約 1M) |
| 計画の出し方 | Plan モードで自然言語の計画を先に出す | タスク分解はモデル裁量、計画より実行寄り |
| リモート制御 | 専用 Remote Control UI (2026-02) | JSON-RPC 2.0 / ChatGPT モバイルからの接続 (2026-05) |
| 画像生成 | なし (外部ツール経由) | image_generation 内蔵 (gpt-image-2) |
| 承認モデル | permission-mode (4 段階) | per-site / per-command (Chrome 拡張で細粒度) |
| 得意な用途 | 長コンテキスト読解・サブエージェント分業 | 並列ヘッドレスバッチ・画像生成統合 |
【著者見解】 どちらが優れているという話ではなく、ハーネスの設計思想が違うのです。 Claude Code は「人間と対話しながら大きな読解をする」のが得意、Codex CLI は 「夜間に黙々と並列バッチを回す」のが得意、という棲み分けが現場では機能しています。 詳細な比較はCodex CLI vs Claude Code ベンチマーク徹底比較を併読してください。
6. ハーネス選び — 自分で作る? 既製を使う? (はじめる手順)
【著者見解】 AI エージェントを業務に使いたい人にとって、いきなり「ハーネスを自作する」のは現実的ではありません。 以下の 3 ステップで段階的に触るのがおすすめです。
ステップ 1: 既製ハーネスを 1 つ選んで触る (無料 〜 低コスト)
- Claude Code: Claude Pro (USD 20/月) 契約があれば
npm install -g @anthropic-ai/claude-codeで即導入できます。 1M token のコンテキスト窓と Plan モードの分かりやすさで、初めての人に向いています。 - Codex CLI: ChatGPT Plus / Pro / Business 契約者なら
npm install -g @openai/codexで導入できます。GPT-5.5 系の応答が速く、Web 検索ツール統合が標準。 - Gemini CLI: Google Cloud アカウントがあれば無料枠で試せます。 長コンテキストと検索が標準で強い。
- Aider (OSS): API キーさえあれば完全無料。「ハーネスの中身を読みたい」 開発者向け。
ステップ 2: MCP サーバを足してハーネスを「拡張」する
既製ハーネスに慣れたら、MCP (Model Context Protocol) 経由で 独自ツールを足してみましょう。社内 Slack に投稿する、社内 Notion を読む、 独自データベースに問い合わせる、といったツールをエージェントに渡すことで、 ハーネスを業務専用にカスタマイズできます。
ステップ 3: 業務特化ハーネスを採用 (例: Sales Claw)
営業自動化のように「業務固有の安全装置と監査ログ」が必須な領域では、 汎用ハーネス (Claude Code / Codex CLI) では足りないことがあります。Sales Claw は 営業フォーム送信に特化したハーネスとして、ポリシー制御・送信前自動検査・ 営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件を 標準装備しています。詳細はSales Claw クイックスタートガイドから確認できます。




7. リスクと注意点 — ハーネスの暴走と監査ログ
(1) 自律ループの暴走
【未確認】 2026 年 5 月時点で公式に「自律ループ暴走による重大事故」が発表された AI エージェントは ありません。ただし、SNS や開発者ブログでは「思いがけない API 大量呼び出しで請求が 跳ねた」「git push --force で履歴を消した」といった個人事例が複数報告されています。 ハーネスはモデルが「次に何をするか」を機械的に実行するため、人間の常識では止まる場面でも 止まらないことがあります。
(2) ツール権限の過剰付与
ハーネスにツールを「全部渡す」と楽ですが、その分事故の影響範囲が大きくなります。 ふつうの業務では「読み取り系 (Read / Grep / WebFetch) は許可、書き込み系 (Write / Bash / Delete) は 承認必須」の権限分離を最初から組み込んでおくのが安全です。 Claude Code の permission-mode や Codex CLI の per-command 承認は、まさにこの 権限分離のためにあります。
(3) 監査ログの欠落
AI エージェントは「誰が・いつ・何を・どのツール経由で実行したか」のログを 必ず残す設計にしてください。何か問題が起きたとき、ログがないと原因究明も再発防止も できません。Claude Code / Codex CLI は標準でセッションログを保存しますが、 業務用途では別途監査向けのフォーマット (JSON-Lines, タイムスタンプ ISO 8601, ユーザー ID, 実行コマンド全文) でログを取り直す運用が現実的です。
8. 業務利用と Sales Claw 文脈 — 営業エージェントから見た意味
Sales Claw は、ポリシー制御・送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・ 送信頻度制限・監査ログ保存・自動停止条件によって、誤送信と規約違反リスクを下げる設計の OSS ツールです。Claude Code や Codex CLI のような汎用ハーネスは「コーディングや リサーチに優れている」けれど、「企業の問い合わせフォームに営業文を投げる」 という業務特化タスクには、業務固有の安全装置が必要になります。
【著者見解】 汎用ハーネスと業務特化ハーネスの関係は、市販のセダンと救急車の関係に似ています。 どちらも車体ですが、救急車には「サイレン・心電図モニタ・酸素ボンベ・専用ベッド」が必須で、これらは市販セダンには付いていません。同様に、営業エージェントには 「送信前自動検査・営業 NG 検出・CAPTCHA 非突破・監査ログ」が必須で、これらは Claude Code には標準では付いていません。Sales Claw は営業業務向けの救急車として、Claude / Codex の最新エンジンの上に専用の車体を載せている、と理解してください。
業務でハーネスを採用する前のチェックリスト
ハーネスを業務導入する前に
- 最大ターン数・件数・実行時間の AND 条件を設定した
- 100 件サンプルで自動検査の通過率を確認した
- 破壊的コマンド (rm / git push --force / DELETE) の承認モードが有効
- 監査ログ (action-log.json) の保存が有効
- ツール権限が業務上最小限になっている (読み取りと書き込みを分離)
- 本番環境のクレデンシャルがプロンプト履歴に残っていない
- エラー時の通知 (Slack / メール) 設定がある
- 訂正・取り下げの手順が定義されている
- 法務・コンプライアンス側のレビューが完了している
- ハーネスのバージョンと変更履歴を社内で記録している
まとめ — エンジンよりも、車体で差がつく時代に
2026 年の AI エージェントは「どの LLM (エンジン) を使うか」よりも、 「どのハーネス (車体) に乗せるか」で実用性能が大きく変わる段階に入りました。 Claude Code・Codex CLI・Devin・Aider などはいずれも、Anthropic / OpenAI / Cognition / OSS コミュニティが磨いた既製の車体です。
次のアクション: まずは Claude Code か Codex CLI を 1 つ選んで 30 分触ってみてください。 Plan モードや per-command 承認の体験が「ハーネスとは何か」を一発で腑に落とさせてくれます。 その先、業務特化ハーネスとして Sales Claw を検討する場合は、Sales Claw クイックスタートガイドか無料ダウンロードページから始められます。
よくある質問
AI エージェントの「ハーネス」とは何ですか?
なぜ 2026 年に「ハーネス」という言葉が急に増えたのですか?
ハーネスとシステムプロンプトは同じものですか?
Claude Code と Codex CLI のハーネスは何が違いますか?
ふつうの人もハーネスを自作する必要がありますか?
ハーネスを業務で使うときのリスクは何ですか?
Sales Claw は Claude Code とどう違うのですか?
参考文献
本記事は X 公式アカウントと公式ドキュメントを一次情報として参照しています。
- [01]Anthropic Claude Code overview (公式 Docs)2026-05-18
- [02]
- [03]
- [04]
- [05]
- [06]
- [07]
- [08]OpenAI Codex Changelog (公式)2026-05-14
- [09]npm @anthropic-ai/claude-code (公式パッケージ)2026-05-18
- [10]


