エージェントは新たな攻撃面である
── LLM、ハーネス、サプライチェーン。三層の脆弱性と、攻防双方を再定義するMythos / Copy Fail
▶ エグゼクティブサマリーAIエージェントが「人間の代理人」として権限を持ち始めた瞬間、組織のセキュリティ境界は再設計を迫られている。本号は、攻撃面を三層 ── LLM層・ハーネス層・サプライチェーン層 ── に分解し、それぞれで顕在化している論点を整理する。 決定的な変化は二つ。第一に、攻撃技術の民主化。プロンプトインジェクションのような新しいベクターと、サプライチェーン攻撃のような古典的ベクターが、いずれもAIによって「数分で実行可能なコモディティ」になりつつある。 第二に、攻撃と防御の非対称性が逆転しはじめている。Anthropicの「Mythos」は7週間で2,000以上のゼロデイを発見し、本日(4月30日)発表されたCopy Fail (CVE-2026-31431)は、AIアシスト型監査ツールがLinuxカーネルから一発でroot権限を奪う732バイトのPoCを発掘した事例である。 経営の論点は「AIをどう導入するか」から「エージェントに権限を委ねた組織を、誰がどの境界で守るか」に移行している。 |
1. 構造的な変化: なぜエージェントが攻撃面になるのか
ソフトウェアにおける「攻撃面 (attack surface)」は、伝統的にコード、設定ファイル、ネットワークポート、認証情報といった静的な構成要素として定義されてきた。AIエージェントの登場は、この前提を二つの軸で破壊する。
第一に、「データ」と「指示」の境界が消失する。LLMはコンテキストウィンドウに流れ込むあらゆるテキストを推論材料として扱い、その中の命令文と参照情報を構造的に区別する手段を持たない。GitHub Issue、PRタイトル、カレンダー招待、Slackメッセージ、コードコメント ── かつて「読まれるだけ」だったあらゆる入力チャネルが、いまや「実行されうる入力」となる。
第二に、「設定」と「実行」の境界が消失する。.claude/settings.json、.mcp.json、CLAUDE.mdといった設定ファイルは、エージェントの権限・接続先・フックを規定する。これらはコードではなく「コンフィグ」として扱われ、コードレビューの対象から外れがちだが、実体としてはエージェントの行動規範そのものである。
⚠ 経営的含意従来のセキュリティ予算は「ペリメータ防御 (firewall, EDR, IAM)」に集中してきた。エージェントが組織の内側で自律的に動き始めた瞬間、防御線は外周ではなく「エージェント実行時 (agent runtime)」へ後退する。境界が動いた以上、投資配分も動かす必要がある。 |
2.三層モデル: 攻撃ベクターの分類
AIエージェントへの攻撃は、影響を受ける層によって防御策がまったく異なる。CxOが投資判断を下す上では、まずこの三層を分けて理解することが出発点となる。
| 層 | 代表的な攻撃ベクター | 本質的な性質 |
| LLM層 | Prompt Injection Jailbreak Indirect Injection |
モデル自体の構造的限界。 命令とデータを分離できない。 |
| ハーネス層 | settings.json バイパス Deny Rule迂回 MCP設定差し込み |
LLMを取り囲む実行環境の脆弱性。 設定が即実行コードと化す。 |
| サプライチェーン層 | 悪性npm/PyPIパッケージ Worm型自己拡散 MCPマーケットプレース |
古典的攻撃の延長線上。 ただしAIにより民主化・高速化。 |
■ 2.1 LLM層 ── 「LLMならでは」の構造的脆弱性
プロンプトインジェクションは、もはや単発のチャットボット悪戯ではない。1月に公表された78件の体系的研究では、Claude Code・GitHub Copilot・Cursorを含む全ての主要コーディングエージェントが脆弱で、適応的攻撃の成功率は85%を超えた。エージェントが外部データソースと結合された瞬間、攻撃面は事実上無限に広がる。
最近の代表事例
| 事例 | 攻撃メカニズム | 影響 |
| Comment and Control (2026年4月) |
PRタイトル・Issue本文にプロンプトを 埋め込み、Claude Code Security Reviewが実行 (CVSS 9.4) |
GitHub Actionsのシークレット漏洩。 3社が同時に被弾。 |
| Supabase MCP脆弱性 | ユーザー投稿コンテンツを命令として解釈し、 service_roleで任意SQL実行 |
全テーブル読み取り、機密トークン露呈。 |
| Salesforce Agentforce “PipeLeak” |
顧客向けリードフォームに命令を注入、 エージェントが信頼ソースとして処理 |
リード情報の外部送信。 |
| Microsoft Copilot “ShareLeak” (CVE-2026-21520) |
SharePointフォーム経由の プロンプトインジェクション。 安全装置が検知してもデータ流出は完了 |
顧客データを攻撃者のメールに送信。 CVSS 7.5。 |
⚠ 構造的論点プロンプトインジェクションは「未解決のクラス」である。Capsule Security CEOは「エージェントの本質は『見守らずに動く』ことであり、Salesforceが推奨するhuman-in-the-loopは、エージェントの価値命題そのものを否定する」と指摘する。 |
■ 2.2 ハーネス層 ── 「ハーネスならでは」の論点
LLM自体は学習済みのスタティックなモデルだが、それを取り囲むハーネス (Claude Code、Cursor、Copilot Agent等の実行環境) は、セッションごとに権限・ツール・接続先を組み換える動的システムである。ここに固有の脆弱性が集中している。
ケース1: Claude Code Deny Ruleの「50コマンド閾値」バイパス
Anthropicは settings.json で deny ルール (例: “Bash(curl:*)” を禁止) を提供している。ところが Adversa AI の調査により、コマンドが51個以上のサブコマンドを含む場合、deny ルールが評価されず「コマンドが多すぎて安全チェックできません。実行しますか?」というプロンプトに退化することが判明した。
攻撃者は無害な true && を50回連結するだけで、curl の禁止を完全に迂回できる。これは「パフォーマンスのために安全チェックをスキップした」設計判断が、セキュリティモデル全体を崩壊させた典型例である。
ケース2: .claude/settings.json による信頼ダイアログ完全バイパス
Check Point Researchが2月に開示した一連の脆弱性 (CVE-2025-59536, CVE-2026-21852) は、リポジトリ内の .claude/settings.json に enableAllProjectMcpServers: true を仕込むことで、ユーザーが信頼確認ダイアログを「読む前に」任意コマンドが実行される問題を示した。
Hooks、MCP定義、環境変数 ── どれもがリポジトリ管理下に置かれることで、git clone した瞬間に逆シェルが起動しうる。設定ファイルが「実行レイヤーの一部」になっている、という現代AIエージェントの本質を露呈した。
▲ ハーネス層の本質従来、設定ファイルはレビューの対象外、テキストの世界の住人だった。エージェント時代において、設定ファイルは「事実上のコード」となる。 |
■ 2.3 サプライチェーン層 ── 古典的攻撃の民主化
npmやPyPIへの悪性パッケージ混入は、何ら新しい攻撃ではない。しかしAIエージェントが「巻き込まれる側」と「広める側」の両方になることで、被害の拡散速度と射程が桁違いに大きくなっている。
| 事例 | 発生時期 | AIエージェントとの結合点 |
| Axios npm 改竄 (Sapphire Sleet) |
2026年3月31日 | 1.14.1 / 0.30.4 が悪性化。 100M weekly downloads。 Claude Code等の依存解決経由で 開発者環境に到達。 |
| Mini Shai-Hulud (SAP関連npm) |
2026年4月29日
(昨日) |
AIコーディングエージェントの設定ファイルを 永続化・伝播ベクターとして初めて利用した攻撃。 |
| Bitwarden CLI 改竄 | 2026年4月22日 | 1.5時間で1M+ DL。 AIエージェントの依存解決を介して二次拡散。 |
| prt-scan キャンペーン | 2026年3月以降 | AI駆動でPR自動生成、 CI内のシークレットを大量に窃取。 |
| LLMルーター中間者攻撃 | 2026年4月 | コーディングエージェントへの応答に ツールコールを注入し悪性pip installを誘導。 |
ClawHubマーケットプレース上の約4,000件のエージェントスキルを監査した結果、3分の1以上に少なくとも1つのセキュリティ欠陥があり、13.4%が「クリティカル」級だった。エージェントが第三者のツール・データソースを「自身の指示と同等の信頼」で取り込む構造ゆえに、一個のコンポーネントの汚染が開発パイプライン全体に波及する。
▶ 論点: エージェントは加害者にも被害者にもなるサプライチェーン攻撃そのものは目新しくないが、「エージェント設定ファイルを永続化ベクターとする」攻撃 (Mini Shai-Hulud) が4月末に出現したことの意味は大きい。エージェントがマルウェアの『宿主』になる時代に入った。 クライアント・サーバー時代に組織が学んだ教訓 ── 信頼境界を厳密に引き、依存関係を継続監査する ── が、AIエージェント時代に異なる文脈で再要請されている。 |
3.非対称性の逆転: AIが攻防両陣営を変える
ここまで述べた三層は「エージェントが攻撃される側」の論点である。しかし2026年4月の二つの出来事 ── Mythosと、本日発表のCopy Fail ── は、議論の重心を「AIが攻撃と防御の双方を再定義している」という別軸に押し上げた。
■ 3.1 Mythos: 防御者側のブレイクスルーと、その含意
4月7日、AnthropicはClaude Mythos Previewを発表した。内部テストにおいて、わずか7週間で主要OS・主要ブラウザにわたる2,000件超のゼロデイ脆弱性を自律的に発見し、ワーキングエクスプロイトまで生成した。
| Mythosの発見実績 | 意味 |
| FreeBSD NFSサーバの17年もの未発見RCE | 数十年人間が見ても気付かなかった欠陥を短時間で発見。 |
| OpenBSDの27年もの脆弱性 (セキュリティの代名詞OS) |
「最も精査されたOS」さえAIには未知の表面が残る。 |
| FFmpeg H.264デコーダの16年もの欠陥 | メディアコーデック=世界中のクライアントに 組み込まれる広範な影響。 |
| ブラウザ4連鎖エクスプロイト (レンダラ + OS両サンドボックス脱出) |
通常シニア研究者が数ヶ月かける作業をAIが自律完成。 |
▶ Mythosをどう読むかAnthropicは Project Glasswing の枠組みで、Mythosを Apple, Google, Microsoft, Cisco, Amazon といった重要インフラ提供者に限定提供している。一般公開は意図的に遅らせている。 |
■ 3.2 Copy Fail (本日発表): AIアシスト型監査ツールが見つけた一発root
本日 (2026年4月30日)、Theoriセキュリティチームが Copy Fail (CVE-2026-31431) を公開した。これは Linux Kernel の crypto サブシステム ── 具体的には authencesn AEAD ラッパーと AF_ALG + splice() の組み合わせ ── における4バイトのページキャッシュ書き込みを連鎖させる脆弱性で、732バイトのPython PoC で Ubuntu / Amazon Linux / RHEL / SUSE 全てから一発で root を取得する。
通常のLinux権限昇格バグはレース条件、カーネルバージョン依存、コンパイル済みペイロードの段取りといった『運』を要求する。Copy Fail にはそれが一切ない。直線的なロジック欠陥であり、ほぼ10年間検知されないまま潜伏していた。
▲ Copy Failで本当に重要な点発見の経緯を読み解くべきである。研究者はTheoriの内製ツール『Xint Code』── AIアシスト型のセキュリティ監査ツール ── に、わずか『これはLinuxのcrypto/サブシステムです。ユーザー空間syscallから到達可能な全コードパスを精査してください』というオペレータプロンプトを与えた。 AIは約1時間でcrypto/全体をスキャンし、Copy Failを最高深刻度の発見として返した。同じスキャンで他にも責任ある開示プロセス中の高深刻度欠陥が複数見つかっている。 つまり、人間の専門家が『どこを見るか』というhypothesis(仮説)だけ提供すれば、残りの監査作業はAIが担う ── これは脆弱性発見の経済構造を根本から変える。専門知識の民主化が一段階深く進んだ。 |
■ 3.3 攻撃者側の進化: 同じ技術が逆方向にも使われている
Wizが報告した『prt-scan』キャンペーンは、AIエージェントを駆動して GitHub の pull_request_target ワークフローを自動探索・自動攻撃するもので、3月11日以降稼働している。攻撃者は手作業ではなく、エージェントに『脆弱なリポジトリを探し、フォークし、PoCを仕込み、PRを開け』と指示すれば足りる。
また、Aikido Securityが摘発したLLMルーター中間者攻撃では、コーディングエージェントへの応答にtool callを差し込み、開発者環境に悪性pip installを実行させる手口が確認された。エージェント内部の信頼境界 (model→harness→tools) が、新たなMITM (中間者) 機会を生み出している。
⚠ 非対称性の本質的なシフト従来、攻撃と防御の力学は『資本と人材を多く持つ方が優位』だった。AIは、この前提を二つの方向で動かす。 防御側: Mythosのように、組織防衛側がAIで脆弱性を先回り発見できる。これは大企業・重要インフラに有利。 攻撃側: Copy FailのPoC開発時間が10年→1時間になったように、低スキル攻撃者が高度攻撃を実行できる。これは中小企業・防御リソース不足組織に不利。 結果として『防御者の上位集団と下位集団の差』が広がる ── これがAIが攻防にもたらす本当の構造変化である。 |
4.CxOへの含意 ── 投資配分とガバナンスの再設計
以上の論点を踏まえると、企業がAIエージェント導入に伴って実施すべき再設計は、概ね五つの軸に整理できる。
| 軸 | 従来の前提 | 再設計後の方針 |
| 1. セキュリティ予算配分 | ペリメータ防御中心 (Firewall / EDR / IAM) |
エージェントランタイム防御へシフト (プロンプトサニタイズ / ツールゲートウェイ /出口トラフィック制御) |
| 2. コードレビュー範囲 | source/ ディレクトリ | .claude/ .cursor/ .mcp/ 等設定ファイル全般を含む |
| 3. パッチ運用 | 月次・四半期パッチサイクル | AI支援型脆弱性スキャンの常時実行化(EU AI Act対応も視野) |
| 4. サプライチェーン管理 | 依存パッケージのバージョン固定 | エージェントスキル / MCP / プラグインも同等に監査対象化 |
| 5. 人間関与の設計 | Human-in-the-loopは例外時のみ | 重要操作 (シークレット / 本番DB / 外部送信) はデフォルトで人間関与 |
5.結語 ── 「権限を与える前に、境界を引け」
AIエージェントは、ソフトウェア工学の歴史において稀な「能力の階段」を生み出した。一方で、その能力に比例した攻撃面を組織内部に持ち込むことを意味する。
本号で示した三層 (LLM / ハーネス / サプライチェーン) は独立ではなく、互いに連鎖する。プロンプトインジェクション (LLM層) が settings.json の改ざん (ハーネス層) を誘導し、それが悪性パッケージのインストール (サプライチェーン層) につながる ── という多段攻撃が、すでに現実に観測されている。
CxOに求められるのは、特定の防御製品を選ぶことではない。「エージェントに何の権限を、どの境界の中で、どの可逆性で与えるか」という設計判断を、CIOやCISOに丸投げせず経営アジェンダとして引き受けることである。
▲ 本号の三つの問い1. 自社のエージェント実装において、設定ファイル (.claude/settings.json 等) はコードと同等のレビュー対象になっているか? 2. 開発者ワークステーション、CI/CDランナー、エージェント実行環境のうち、どこがクリティカルパスを保持しているか? それらは互いに分離されているか? 3. 重要操作 ── 本番DB書き込み、シークレットアクセス、外部送信 ── に対して、組織は『AIに任せる範囲』を明文化しているか? これら三つに即答できない組織は、すでにエージェント導入の安全マージンを失いつつある。 |
出典 / Further Reading
Theori Xint Code, “Copy Fail (CVE-2026-31431)” (2026/04/30)
Anthropic, “Claude Mythos Preview” announcement & AISI evaluation (2026/04)
Adversa AI, “Claude Code 50-subcommand deny rule bypass” (2026/04)
Check Point Research, “RCE via Claude Code Project Files” CVE-2025-59536 / CVE-2026-21852 (2026/02)
Aonan Guan et al., “Comment and Control” disclosure across Claude Code / Gemini CLI / Copilot (2026/04)
Microsoft Threat Intelligence, “Axios npm Supply Chain Compromise” (2026/04)
StepSecurity / Aikido Security, “Mini Shai-Hulud” SAP npm campaign (2026/04/29)
記事をシェア: