ツール解説AI エージェント

AI エージェントの『ハーネス』って結局なに？── Claude Code や Codex の中身を、車のたとえで 8 分でわかる

ハーネスとは「LLM (エンジン) を実用できる AI エージェントに仕立てる車体ソフト」。Claude Code・Codex CLI・Devin はそれぞれ違う車体。同じモデルでもハーネス次第で SWE-bench が 42% → 78% に跳ねる事例も。一般読者向けに「車のたとえ」で 3 本柱と Claude Code / Codex CLI の個性、はじめる手順、リスクと安全設計まで整理。

中澤圭志

@keishi_nakazawa

Sales Claw 開発者

2026年5月18日·12 分

AI エージェントの『ハーネス』って結局なに？── Claude Code や Codex の中身を、車のたとえで 8 分でわかる

Key Facts

一言定義

LLM (エンジン) を実用エージェントに仕立てる外殻ソフト (車体)

性能影響

同じモデルでハーネス変更だけで 42% → 78% (SWE-bench 事例)

代表例

Claude Code (Terminus-2)・Codex CLI・Devin・Aider

一般読者の触り方

既製ハーネス (Claude Code か Codex CLI) を選び 30 分触る

DATA— まず前提（聞きなれない言葉を 30 秒で整理）

LLM (Large Language Model, 大規模言語モデル): ChatGPT や Claude の「中身」にあたる、文章を生成する AI 本体。たとえるなら「エンジン」。ガソリンを入れれば回るけれど、これだけでは車として走れません。
ハーネス (Harness): LLM を「外の世界で実際に動かす」ための外殻ソフト。「車体・ハンドル・タイヤ・ブレーキを全部足したもの」と理解してください。ツールの呼び出し、過去の作業の記憶、目標達成までのループ、誤操作を防ぐ安全装置などが入っています。
スキャフォルディング (Scaffolding, 足場): ハーネスの一部で、「エージェントを起動する前に組み立てておく設定」のこと。システムプロンプト、使えるツールの一覧、サブエージェントの登録などが含まれます。建築現場の足場のように「先に組んでおく」イメージです。
エージェントループ (Agent Loop): LLM が「考える → ツールを使う → 結果を見る → 次に何をするか考える」を自律的に繰り返す仕組み。「目的地に着くまでハンドルを切り続ける運転動作」と理解してください。ハーネスの一番の中核です。
ベンチマーク (SWE-bench / Terminal-Bench): AI コーディングエージェントの実力を測るテスト。SWE-bench は GitHub の本物のバグ修正課題を AI に解かせる試験、Terminal-Bench はターミナルでのコマンド作業を解かせる試験です。「同じモデルなのにハーネスを変えると点数が大きく変わる」事実が、ここから分かりました。

「AI 業界の人が最近『ハーネス』ってよく言うけど、何のこと?」「Claude Code と Codex の違いって、結局モデルの違いじゃないの?」「『ハーネスを変えたら性能が劇的に変わった』って、何をしたらそんなことが起きるの?」—— 本記事では、2026 年に AI 業界の合言葉になった「ハーネス (harness)」を、 AI に詳しくない人向けに整理します。Anthropic 公式ドキュメント・公式 System Card・ Terminal-Bench 公式記事・GitHub の公開ソースを一次情報として参照しながら、なぜ今ハーネスが大事になっているかとふつうの人が今日から触る方法を解説します。

本記事は Anthropic Claude Code 公式ドキュメント / Anthropic System Card (Claude Opus 4.6 PDF) / Terminal-Bench 公式リーダーボード / GitHub anthropics/claude-code / VentureBeat 公式インタビュー記事 / OpenAI Codex CLI 公式 Changelog を一次情報として参照しています。一部、文脈整理のため第三者の技術解説記事も参考にしていますが、判断の核となる数値・仕様はすべて公式情報に紐づけています。

1. ハーネスとは — 一言で言うと「LLM を乗せて走らせる車体」

【公式発表】 Anthropic は 2026 年 2 月公開の System Card (Claude Opus 4.6) で、モデルを評価するときに「Terminus-2」という名前のハーネスを使っていることを明示しています (System Card §4.2)。同じ Claude Opus 4.6 でも、ハーネスを変えるとベンチマークの数字が変わるため、Anthropic は「モデル単体の点数」と「ハーネス込みの点数」を分けて公開しています。これは、ハーネスがモデルと同じくらい重要だと公式が認めていることを示します。

【著者見解】 車のたとえが一番直感的です。Claude Opus 4.7 や GPT-5.5 のような最新 LLM は「世界最高クラスのエンジン」ですが、エンジンだけでは公道を走れません。ハンドル・タイヤ・ブレーキ・ナビ・シートベルトを組み合わせて初めて「車」になります。AI の世界でこの「車体」にあたるのがハーネスで、 Claude Code / Codex CLI / Devin / Aider などは「Anthropic 製・OpenAI 製・Cognition 製・OSS 製」のそれぞれ違う車体を、最新エンジンに被せて売っている、と理解してください。

Anthropic の公式技術ブログ「Building Effective Agents」(2024 年 12 月) は、エージェントを「LLM が自分自身のプロセスとツール使用を動的に方向づけ、タスクをどう達成するかのコントロールを保つシステム」と定義しています。この「動的に方向づける部分」「コントロールを保つ部分」を実装している外殻ソフトが、まさにハーネスです。

LLM をエンジン、ハーネスを車体に見立てた説明図。中央に大きなエンジン、左右に「ハーネスが足すもの (ツール呼び出し / メモリ / ループ / 安全装置)」と「ハーネスがないとできないこと (ファイル編集 / コマンド実行 / 複数ステップ作業)」を配置し、黄色付箋で『Agent = Model + Harness』のスローガンを強調したホワイトボード説明図 — 図: LLM (エンジン) + ハーネス (車体) = AI エージェント (走る車) の全体像

2. なぜ 2026 年に「ハーネス」という言葉が急に増えたのか

【公式発表】 2026 年 4 月、Anthropic は VentureBeat のインタビューで「Claude の応答品質が劣化したと報告された期間に、内部でハーネスとオペレーティング命令の変更を行っていた」ことを認めました (VentureBeat 2026-04 記事、Anthropic 公式コメント)。これは「モデルそのものを変えなくても、ハーネスを触るだけでユーザー体感の品質が変わる」ことを大手 AI 企業が公式に認めた最初の事例と言って差し支えありません。

【公式発表】 同時期、SWE-bench Pro のリーダーボード分析で次のような数字が共有されました (複数の公式技術ブログ、2026-04 〜 2026-05):

ハーネス変更だけで、同じモデルが 42% → 78% (約 36 ポイント増) に跳ねた事例
SWE-bench Pro で、スキャフォルディングの差が 22 ポイント以上の点差を生んだ
一方、フロンティアモデル間 (最強モデル同士) の差はわずか 1 ポイント程度

【著者見解】 これらの数字が意味するのは、「モデル選び」よりも「ハーネス選び」の方が成果に効くフェーズに入ったということです。2024 年までは「GPT-4 vs Claude 3 のどちらが賢いか」が議論の中心でしたが、2026 年は「同じ Claude Opus 4.7 でも、Claude Code で動かすのと、自作スクリプトで動かすのでは別物になる」という現実が広く理解されつつあります。

3. ハーネスの中身 — ループ・ツール・メモリの 3 本柱

ハーネスを車体にたとえると、3 本柱はそれぞれ「エンジンマウント・ハンドル・燃料タンク」にあたります。順に見ていきます。

(1) 自律ループ — Gather-Act-Verify サイクル

【公式発表】 Claude Code の公式 Overview ドキュメントは、エージェントの動作を「Gather context (情報収集) → Act (行動) → Verify results (結果検証)」の繰り返しと説明しています。具体的には:

Gather: ファイル検索、コード読み込み、コマンド出力の取得
Act: ファイル編集、コマンド実行、外部 API 呼び出し
Verify: テスト実行、出力確認、エラーチェック
結果が目標を満たさなければ Gather に戻ってもう一周

これが「自律ループ」の正体です。LLM 単体だと「1 回答えて終わり」ですが、ハーネスがこの 3 ステップを達成条件を満たすまで何度も回すことで、エージェントは「自分で考えて手を動かし続ける」ように見えるわけです。

(2) ツール呼び出し — 関数を AI に渡す仕組み

ハーネスはエージェントに「使える道具」を渡します。Claude Code の場合、標準で:

Read / Write / Edit (ファイル操作)
Bash (コマンド実行)
Glob / Grep (検索)
WebFetch / WebSearch (ネット参照)
MCP サーバ経由のカスタムツール (Slack 投稿・GitHub PR 作成など)

などが渡されています。これらは「JSON Schema 形式の関数定義」として LLM に提示され、LLM は「今この関数を呼びたい」と JSON で返します。ハーネスがその JSON を解釈して実際に関数を実行し、結果を LLM に戻す、というのが「ツール呼び出し (function calling)」の中身です。詳細はMCP (Model Context Protocol) 完全ガイドを併読してください。

(3) メモリ・コンテキスト管理 — 「長い作業を忘れない」仕組み

LLM には「コンテキスト窓 (Context Window)」という上限があります。 Claude Opus 4.7 で 1M token、GPT-5.5 で 272K token (long mode で約 1M) などが 2026-05 時点の標準です。けれど現実のコーディング作業では、1M token をはみ出すような大きなリポジトリやログを扱うことが珍しくありません。

ハーネスは、この上限をはみ出さないように(a) 古いやり取りを要約して圧縮する、(b) 重要な事実だけを別ファイルに退避して必要時に読み戻す、(c) サブエージェントに作業を委譲して親が結果だけ受け取る、といった工夫を裏で行います。これが「メモリ管理」「コンテキスト管理」と呼ばれる領域です。

ハーネスの内部構造を 3 本柱として図解した説明図。中央に Gather-Act-Verify の自律ループ、左にツール一覧 (Read/Write/Bash/Grep/MCP)、右にコンテキスト圧縮とサブエージェント委譲、上下に「安全装置 (承認・スキップ)」と「監査ログ (誰が・いつ・何を)」を配置したホワイトボード説明図 — 図: ハーネスの 3 本柱 (自律ループ / ツール / メモリ) と両側を挟む安全装置・監査ログ

4. Claude Code のハーネスを覗いてみる

【公式発表】 Claude Code は npm パッケージ @anthropic-ai/claude-code として配布されている CLI 形式の AI エージェントです (GitHub: anthropics/claude-code)。 Anthropic 公式の Claude Code Docs は、これを「ターミナルに住み、コードベースを理解し、自然言語の指示でルーティン作業を実行する agentic coding tool」と紹介しています。

Claude Code のハーネスが特徴的なのは、「最初にプランを立てる」「承認待ちを多用する」の 2 点です:

Plan モード: いきなり編集に入らず、まず「やろうとしていること」を自然言語で書き出してユーザーの OK を取ってから実行に移る
permission-mode (許可モード): default / acceptEdits / bypassPermissions / plan など、操作の自由度を段階的に切り替えられる
サブエージェント (subagent): 大きなタスクを子エージェントに委譲し、親が結果だけ受け取ることでコンテキストを節約する
/goal コマンド (2.1.140+): 「条件達成まで自律ループを継続」する高自律モード

Anthropic 公式の Terminal-Bench リーダーボードでは、Claude Opus 4.6 + Terminus-2 ハーネスで65.4% (max effort) を達成しています (tbench.ai 公式)。 Claude Code がそのまま Terminus-2 を採用しているわけではありませんが、 Anthropic 製ハーネスの「ベースライン」が公開されている数少ない例です。

# Claude Code のインストールと初回起動 (Mac/Linux/Windows)
npm install -g @anthropic-ai/claude-code
claude

# Plan モードで「何をするか」だけまず見せてもらう
claude --permission-mode plan "lib/blog.ts に新しい記事エントリを追加して"

# 自律ループで条件達成まで継続 (Claude Code 2.1.140 以降)
claude /goal "全テストが通るまで修正を繰り返して"

Claude Code の新バージョンと変更点はClaude Code 2.1.143 リリース解説で詳しく整理しています。

5. Codex CLI のハーネスを覗いてみる

【公式発表】 Codex CLI は OpenAI が配布する Node.js ベースの CLI エージェントで、 GPT-5.5 / GPT-5.3-Codex / GPT-5.4 などのモデルをバックエンドにします (OpenAI Codex Changelog)。Claude Code との対比でハーネスの個性を整理すると以下のようになります:

項目	Claude Code (Anthropic 製ハーネス)	Codex CLI (OpenAI 製ハーネス)
モデル	Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5	GPT-5.5 / 5.3-Codex / 5.4
コンテキスト窓	1M token (Opus/Sonnet/Haiku 共通)	272K (long mode で約 1M)
計画の出し方	Plan モードで自然言語の計画を先に出す	タスク分解はモデル裁量、計画より実行寄り
リモート制御	専用 Remote Control UI (2026-02)	JSON-RPC 2.0 / ChatGPT モバイルからの接続 (2026-05)
画像生成	なし (外部ツール経由)	image_generation 内蔵 (gpt-image-2)
承認モデル	permission-mode (4 段階)	per-site / per-command (Chrome 拡張で細粒度)
得意な用途	長コンテキスト読解・サブエージェント分業	並列ヘッドレスバッチ・画像生成統合

【著者見解】 どちらが優れているという話ではなく、ハーネスの設計思想が違うのです。 Claude Code は「人間と対話しながら大きな読解をする」のが得意、Codex CLI は「夜間に黙々と並列バッチを回す」のが得意、という棲み分けが現場では機能しています。詳細な比較はCodex CLI vs Claude Code ベンチマーク徹底比較を併読してください。

DATA— 社内検証メモ — Sales Claw 開発者の運用観察

ざっくり言うと、同じ Claude Opus 4.7 でも Claude Code と Aider では手応えが全然違いました。普通に言うと、ハーネスの個性が成果物の品質に直結する、ということです。

検証条件: Windows 11 / Claude Code 2.1.143 / Claude Opus 4.7 / 同一の Sales Claw リポジトリ
期間: 2026-04-20 〜 2026-05-17 (約 4 週間)
サンプル数: コーディングタスク 38 件、ブログ執筆タスク 18 件、計 56 件の社内ベンチ
観察結果 1: Claude Code の Plan モードは「いきなり編集される事故」をゼロに抑えた
観察結果 2: permission-mode を acceptEdits に上げると体感 2 倍速だが、誤編集も 3 件発生
観察結果 3: サブエージェントで分業した記事執筆は、親 1 名で書くより 1.4 倍速
観察結果 4: Codex CLI の image_generation 統合は、ブログ画像 7 枚生成を約 25 分で完走
観察結果 5: 同じタスクを Aider (OSS) でも試したが、ループ制御が手薄で完走率が低かった (推定)
再現性の限界: サンプル数が小さい (56 件)。タスクの種類・コードベース規模・モデル単価が違うと数値は再現しない可能性が高い

※ あくまで開発者個人の運用観察メモ。一般化には追加検証が必要です。

Sales Claw は、Claude Code / Codex CLI のハーネスの思想を営業自動化に応用した OSS です。

無料・MIT ライセンス。インストールせずにライブデモも試せます。

無料でダウンロードライブデモを試す GitHub

6. ハーネス選び — 自分で作る? 既製を使う? (はじめる手順)

【著者見解】 AI エージェントを業務に使いたい人にとって、いきなり「ハーネスを自作する」のは現実的ではありません。以下の 3 ステップで段階的に触るのがおすすめです。

ステップ 1: 既製ハーネスを 1 つ選んで触る (無料〜低コスト)

Claude Code: Claude Pro (USD 20/月) 契約があればnpm install -g @anthropic-ai/claude-code で即導入できます。 1M token のコンテキスト窓と Plan モードの分かりやすさで、初めての人に向いています。
Codex CLI: ChatGPT Plus / Pro / Business 契約者ならnpm install -g @openai/codexで導入できます。GPT-5.5 系の応答が速く、Web 検索ツール統合が標準。
Gemini CLI: Google Cloud アカウントがあれば無料枠で試せます。長コンテキストと検索が標準で強い。
Aider (OSS): API キーさえあれば完全無料。「ハーネスの中身を読みたい」開発者向け。

ステップ 2: MCP サーバを足してハーネスを「拡張」する

既製ハーネスに慣れたら、MCP (Model Context Protocol) 経由で独自ツールを足してみましょう。社内 Slack に投稿する、社内 Notion を読む、独自データベースに問い合わせる、といったツールをエージェントに渡すことで、ハーネスを業務専用にカスタマイズできます。

ステップ 3: 業務特化ハーネスを採用 (例: Sales Claw)

営業自動化のように「業務固有の安全装置と監査ログ」が必須な領域では、汎用ハーネス (Claude Code / Codex CLI) では足りないことがあります。Sales Claw は営業フォーム送信に特化したハーネスとして、ポリシー制御・送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件を標準装備しています。詳細はSales Claw クイックスタートガイドから確認できます。

AI エージェント導入の 3 ステップを階段状に並べた説明図。左から「ステップ1: Claude Code / Codex CLI を触る (無料〜低コスト)」「ステップ2: MCP で社内ツールを足す」「ステップ3: Sales Claw 等の業務特化ハーネスを採用」を矢印で結び、それぞれの所要時間と難易度を付箋で添えたホワイトボード説明図 — 図: ふつうの人が AI エージェントに触る 3 ステップ。既製 → MCP 拡張 → 業務特化

SWE-bench Pro におけるハーネス差の影響を棒グラフで示した図。同一モデルがハーネスを変えるだけで 42% から 78% に跳ねた事例、モデル間差はわずか 1 ポイントという比較。Sales Claw 作成の編集イラストでサンプル数と前提条件を併記 — 図: SWE-bench Pro でのハーネス差の影響。同じモデルでもハーネス次第で点数が大きく変わる

GPT-5.4 / GPT-5.5 標準 / GPT-5.5 long mode / Gemini 2.5 Pro / Claude (Opus/Sonnet/Haiku 全 1M) のコンテキスト窓を棒グラフで比較した図。Anthropic / OpenAI / Google 公式 Pricing & Docs (2026-05 取得) を出典として注記 — 図: 主要 LLM のコンテキスト窓 (token) 比較。ハーネスはこのキャパを活かしきれるかが鍵

Aider (OSS) + Claude API / Gemini CLI (無料枠) / Claude Code (Claude Pro) / Codex CLI (ChatGPT Plus) / Sales Claw (OSS) + Claude を月額 JPY 棒グラフで比較した図。1 USD = 150 JPY、開発者個人 1 名・月 100h 利用想定の前提条件を併記 — 図: 主要ハーネスの月額目安 (個人〜SMB 想定)。月額 ¥0 〜 ¥4,500 で始められる

7. リスクと注意点 — ハーネスの暴走と監査ログ

(1) 自律ループの暴走

【未確認】 2026 年 5 月時点で公式に「自律ループ暴走による重大事故」が発表された AI エージェントはありません。ただし、SNS や開発者ブログでは「思いがけない API 大量呼び出しで請求が跳ねた」「git push --force で履歴を消した」といった個人事例が複数報告されています。ハーネスはモデルが「次に何をするか」を機械的に実行するため、人間の常識では止まる場面でも止まらないことがあります。

(2) ツール権限の過剰付与

ハーネスにツールを「全部渡す」と楽ですが、その分事故の影響範囲が大きくなります。ふつうの業務では「読み取り系 (Read / Grep / WebFetch) は許可、書き込み系 (Write / Bash / Delete) は承認必須」の権限分離を最初から組み込んでおくのが安全です。 Claude Code の permission-mode や Codex CLI の per-command 承認は、まさにこの権限分離のためにあります。

(3) 監査ログの欠落

AI エージェントは「誰が・いつ・何を・どのツール経由で実行したか」のログを必ず残す設計にしてください。何か問題が起きたとき、ログがないと原因究明も再発防止もできません。Claude Code / Codex CLI は標準でセッションログを保存しますが、業務用途では別途監査向けのフォーマット (JSON-Lines, タイムスタンプ ISO 8601, ユーザー ID, 実行コマンド全文) でログを取り直す運用が現実的です。

8. 業務利用と Sales Claw 文脈 — 営業エージェントから見た意味

Sales Claw は、ポリシー制御・送信前自動検査・営業 NG 検出・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件によって、誤送信と規約違反リスクを下げる設計の OSS ツールです。Claude Code や Codex CLI のような汎用ハーネスは「コーディングやリサーチに優れている」けれど、「企業の問い合わせフォームに営業文を投げる」という業務特化タスクには、業務固有の安全装置が必要になります。

【著者見解】 汎用ハーネスと業務特化ハーネスの関係は、市販のセダンと救急車の関係に似ています。どちらも車体ですが、救急車には「サイレン・心電図モニタ・酸素ボンベ・専用ベッド」が必須で、これらは市販セダンには付いていません。同様に、営業エージェントには「送信前自動検査・営業 NG 検出・CAPTCHA 非突破・監査ログ」が必須で、これらは Claude Code には標準では付いていません。Sales Claw は営業業務向けの救急車として、Claude / Codex の最新エンジンの上に専用の車体を載せている、と理解してください。

業務でハーネスを採用する前のチェックリスト

ハーネスを業務導入する前に

最大ターン数・件数・実行時間の AND 条件を設定した
100 件サンプルで自動検査の通過率を確認した
破壊的コマンド (rm / git push --force / DELETE) の承認モードが有効
監査ログ (action-log.json) の保存が有効
ツール権限が業務上最小限になっている (読み取りと書き込みを分離)
本番環境のクレデンシャルがプロンプト履歴に残っていない
エラー時の通知 (Slack / メール) 設定がある
訂正・取り下げの手順が定義されている
法務・コンプライアンス側のレビューが完了している
ハーネスのバージョンと変更履歴を社内で記録している

まとめ — エンジンよりも、車体で差がつく時代に

2026 年の AI エージェントは「どの LLM (エンジン) を使うか」よりも、「どのハーネス (車体) に乗せるか」で実用性能が大きく変わる段階に入りました。 Claude Code・Codex CLI・Devin・Aider などはいずれも、Anthropic / OpenAI / Cognition / OSS コミュニティが磨いた既製の車体です。

次のアクション: まずは Claude Code か Codex CLI を 1 つ選んで 30 分触ってみてください。 Plan モードや per-command 承認の体験が「ハーネスとは何か」を一発で腑に落とさせてくれます。その先、業務特化ハーネスとして Sales Claw を検討する場合は、Sales Claw クイックスタートガイドか無料ダウンロードページから始められます。

エンジンより、車体で差がつく。Sales Claw の車体を、自分のリストで動かしてみよう。

無料・MIT ライセンス。インストールせずにライブデモも試せます。

無料でダウンロードライブデモを試す GitHub

よくある質問

AI エージェントの「ハーネス」とは何ですか?

ハーネス (harness) とは、LLM (Claude や GPT などの言語モデル本体) を実用できる AI エージェントとして走らせるための「外殻ソフトウェア」のことです。たとえるなら、LLM がエンジン、ハーネスが車体・ハンドル・タイヤ・ブレーキ・ナビ・シートベルトをまとめた「車体」にあたります。ツール呼び出し (function calling)、メモリ・コンテキスト管理、自律ループ (Gather-Act-Verify)、安全装置 (承認・ガードレール)、監査ログをまとめた全体が含まれます。Anthropic は公式 System Card (Claude Opus 4.6) で「Terminus-2」というハーネスをベンチマーク評価に使っていることを明示しており、「モデル単体の点数」と「ハーネス込みの点数」を分けて公開しています。

なぜ 2026 年に「ハーネス」という言葉が急に増えたのですか?

2025 年後半から SWE-bench Pro などのリーダーボードで「同じモデルでもハーネスを変えると点数が大きく変わる」事例が積み上がり、2026 年 4 月に Anthropic が VentureBeat のインタビューで「Claude の応答品質が劣化したと報告された期間に、内部でハーネスとオペレーティング命令の変更を行っていた」と公式に認めたことが決定打になりました。これは「モデルそのものを変えなくても、ハーネスを触るだけでユーザー体感の品質が変わる」ことを大手 AI 企業が公式に認めた最初の事例で、業界全体が「Agent = Model + Harness」という公式に注目するきっかけになりました。

ハーネスとシステムプロンプトは同じものですか?

違います。システムプロンプトはハーネスの一部 (スキャフォルディング層と呼ばれる「先に組み立てる設定」の一部) に過ぎず、ハーネスはもっと広い概念です。ハーネスはシステムプロンプトに加えて、ループ制御 (Gather-Act-Verify の回し方)、ツールディスパッチ (どの関数を呼んで結果をどう戻すか)、コンテキスト圧縮 (古いやり取りの要約)、エラーリトライ、承認フロー、監査ログまで含む全体のことを指します。だからこそ「プロンプトを工夫すれば Claude Code と同じことができる」とはならず、ハーネス全体の設計が問題になります。

Claude Code と Codex CLI のハーネスは何が違いますか?

設計思想が違います。Claude Code (Anthropic 製ハーネス) は「Plan モードで自然言語の計画を先に出してユーザーの OK を取ってから実行」「permission-mode で 4 段階の承認モデル」「サブエージェントで分業」などの「人間と対話しながら大きな読解をする」設計です。Codex CLI (OpenAI 製ハーネス) は「JSON-RPC 2.0 ベースのリモート制御」「image_generation 内蔵 (gpt-image-2)」「per-site / per-command の細かい承認」などの「並列ヘッドレスバッチや画像生成統合」寄りの設計です。コンテキスト窓も Claude 1M / GPT 272K-1M (long mode) と違います。どちらが優れているかではなく、得意なシーンの棲み分けがあると理解してください。

ふつうの人もハーネスを自作する必要がありますか?

いいえ、ふつうの人は自作不要です。Claude Code・Codex CLI・Gemini CLI・Aider などの既製ハーネスを 1 つ選んで 30 分触ってみるのが最短ルートです。Claude Pro (USD 20/月) か ChatGPT Plus (USD 20/月) の契約があれば、npm install -g 一行でインストールできます。慣れたら MCP (Model Context Protocol) 経由で社内 Slack や Notion などのカスタムツールを足してハーネスを「拡張」し、さらに進むと営業フォーム送信のような業務特化タスクに Sales Claw のような業務特化ハーネスを検討する、という 3 ステップが現実的です。

ハーネスを業務で使うときのリスクは何ですか?

主に 3 つです。(1) 自律ループの暴走: ハーネスはモデルの指示を機械的に実行するため、人間の常識では止まる場面でも止まらないことがあります。件数・経過時間・ターン数の上限を AND で必ず設定してください。(2) ツール権限の過剰付与: 読み取り系 (Read / Grep) と書き込み系 (Write / Bash / Delete) を分離し、破壊的コマンド (rm / git push --force / DELETE) には必ず承認層を残してください。(3) 監査ログの欠落: 「誰が・いつ・何を・どのツール経由で実行したか」のログを ISO 8601 タイムスタンプ付きで残す設計にしてください。Sales Claw はこれらを標準装備しています。

Sales Claw は Claude Code とどう違うのですか?

Claude Code は汎用のコーディング・リサーチ向けハーネスで、Sales Claw は営業フォーム送信に特化したハーネスです。市販セダンと救急車の関係に近く、どちらも車体ですが装備が違います。Sales Claw はポリシー制御・送信前自動検査・営業 NG 検出 (「営業目的お断り」記載ページの自動スキップ)・CAPTCHA 検出時停止・送信頻度制限・監査ログ保存・自動停止条件 (件数 + 経過時間 + ターン上限の AND) を標準装備し、Claude Code には標準で付いていない「営業業務向けの安全装置」を載せています。汎用エンジン (Claude / GPT) の上に専用車体を載せる構図と理解してください。

参考文献

本記事は X 公式アカウントと公式ドキュメントを一次情報として参照しています。

[01]
Anthropic Claude Code overview (公式 Docs)2026-05-18
[02]
GitHub anthropics/claude-code (公式 OSS リポジトリ)2026-05-18
[03]
Anthropic System Card — Claude Opus 4.6 (PDF, 公式)2026-02-01
[04]
Anthropic — Introducing Claude Opus 4.7 (公式 Newsroom)2026-04-16
[05]
Anthropic — Building Effective Agents (公式技術ブログ)2024-12-20
[06]
Terminal-Bench on the Claude 4 Model Card (公式リーダーボード)2026-04-16
[07]
VentureBeat — Anthropic reveals harness and operating instruction changes2026-04-22
[08]
OpenAI Codex Changelog (公式)2026-05-14
[09]
npm @anthropic-ai/claude-code (公式パッケージ)2026-05-18
[10]
Anthropic Claude Docs — Tool use overview2026-05-18

この記事の著者

中澤圭志

Sales Claw 開発者

Sales Claw の設計・開発を担当。BtoB 営業自動化と AI 活用の実践者として、現場目線で情報発信中。

note

もっと読む

すべての記事

この記事をシェア

AI エージェントの『ハーネス』って結局なに？── Claude Code や Codex の中身を、車のたとえで 8 分でわかる

1. ハーネスとは — 一言で言うと「LLM を乗せて走らせる車体」

2. なぜ 2026 年に「ハーネス」という言葉が急に増えたのか