3大ベンダーのAIエージェントで共通脆弱性パターンが発覚
セキュリティ研究者らが2026年4月に発表した調査により、Anthropic Claude Code、Google Gemini CLI Action、GitHub Copilot Agentの3つの主要AIエージェントで同一のプロンプトインジェクション手法が有効であることが実証された。研究を主導したジョンズ・ホプキンス大学のAonan Guan氏は「これは3つの主要AIエージェント間で単一のプロンプトインジェクションパターンが有効であることを示した初の公開実証」と述べている。
攻撃パターンは「信頼できないGitHubデータ → AIエージェントによる処理 → エージェントによるコマンド実行 → GitHub自体を通じた認証情報の流出」という流れで一貫している。Claude Code Security Reviewでは、研究者はプルリクエストのタイトルやイシューコメント内に悪意のあるプロンプトを埋め込み、ガードレールを迂回してAPIキー全体を取得することに成功した。
Gemini CLI Actionに対する攻撃では、プロンプトインジェクションが含まれたイシューコメントのタイトルと、特別に作成されたイシューコメントを組み合わせることで、自律エージェントとしてのルーティンなコーディングタスクの実行中にガードレールを迂回し、完全なAPIキーの取得に成功している。GitHub Copilot Agentを標的とした「Comment and Control攻撃」では、HTMLコメントを活用してペイロードを隠蔽し、環境フィルタリングを迂回してシークレットをスキャンし、ネットワークファイアウォールを回避する手法が用いられた。
ベンダー各社の対応とバグ報奨金の支払い実態
各ベンダーの対応には温度差が見られた。AnthropicはこのイシューをCriticalレベルの脆弱性と分類し、緩和策を実装して研究者に100ドルのバグ報奨金を授与した。Googleは1,337ドルのバグ報奨金を支払ったが、具体的な分類は明かされていない。
一方、GitHubは500ドルのバグ報奨金を研究者に授与し、彼らの研究が「素晴らしい内部議論のきっかけとなった」と述べたものの、このセキュリティイシューを「既知のアーキテクチャ的制限」として分類した。この対応の違いは、各社がプロンプトインジェクション問題をどの程度深刻に捉えているかを示している。
重要な点は、ベンダー各社がCVEや公開勧告を発行せずに静かに修正を行ったことで、Guan氏は「勧告を公開しない場合、ピン留めされた古いデプロイメントを使用するユーザーは自分たちが脆弱であることや攻撃を受けていることを知ることができない可能性がある」と警告している。この対応により、固定バージョンやアップデートされていない設置環境では脆弱性が残存し続けるリスクが生じている。
MicrosoftとSalesforceで発覚した顧客データ流出脆弱性
AIエージェントセキュリティベンダーのCapsule Securityは2026年4月15日、Microsoft CopilotとSalesforce Agentforceでプロンプトインジェクション脆弱性により機密データの流出が可能であることを公表した。両方の脆弱性は既に修正されているが、大規模言語モデル(LLM)におけるプロンプトインジェクションが未解決の問題であることを改めて浮き彫りにした。
Salesforceの脆弱性「PipeLeak」では、攻撃者が信頼できないリード取得フォームに悪意のある指示を挿入することで、Salesforceエージェントがそれを信頼できるプロンプトとして解釈する問題が存在した。問題となるフォームは、Salesforce顧客のウェブサイト上で見込み客が使用する可能性のある公開CRM(顧客関係管理)フォームである。内部ユーザーがエージェントにそのリードの確認や処理を依頼すると、エージェントは埋め込まれた指示をタスクの一部として実行してしまう。
Capsuleの実証では、エージェントが「GetLeadsInformation」機能を使用してCRMデータを取得し、その後電子メールで外部に送信している。侵害は単一のレコードに限定されず、研究者はハイジャックされたエージェントが複数のリードレコードを一括で照会・流出させる可能性があることを実証し、実質的に単一のフォーム送信をデータベース抽出パイプラインに変換できることを示した。
Microsoft Copilotの脆弱性では、侵害されたエージェントが接続されたSharePointリストにアクセスし、名前、住所、電話番号を含む機密顧客データを抽出して電子メールで外部送信することが可能であった。研究者は、Microsoftの安全メカニズムが疑わしい動作にフラグを立てた場合でも、データが流出していることを発見している。Microsoftは開示後にこのイシューを修正し、CVE-2026-21520を割り当て、CVSS スケールで10点満点中7.5点の深刻度で評価した。緩和策は内部で実施され、ユーザーによる追加のアクションは必要ないとされている。
アーキテクチャ的根本問題と防御の限界
これらの脆弱性に共通する根本的な問題は、信頼できるシステム指示と信頼できないユーザーデータを確実に分離する仕組みが存在しないことである。既存のセットアップでは、AIが両者を区別することができないと研究者は指摘している。Guan氏は「より深刻な問題はアーキテクチャ的なもので、これらのAIエージェントは信頼できないユーザー入力を処理するのと同じランタイム環境で、強力なツール(bash実行、git push、API呼び出し)とシークレット(APIキー、トークン)を与えられている」と説明している。
多層防御が存在する場合でも—モデルレベル、プロンプトレベル、そしてGitHubの追加の3つのランタイムレイヤー—すべてを迂回することが可能である理由は、プロンプトインジェクションがバグではなく、エージェントが処理するように設計されたコンテキストであるからだと指摘されている。この構造的な問題により、従来のセキュリティ対策では根本的な解決が困難であることが明らかになっている。
Salesforceは「プロンプトインジェクションはAI業界全体で進化する課題であり、我々のアプローチには指示の分離、ツール使用制限、人的監督に関する制御を含む、これらのリスクを緩和するために設計された多層保護措置が含まれている」と回答している。同社は「これらの脅威が進化するにつれて、これらの保護措置を継続的に改良し、セキュリティ研究コミュニティと連携して保護機能を強化している」としているが、研究者は自律エージェントの目的を損なう手動承認を要求することは根本的な解決策ではないと反論している。
企業が実装すべき具体的な対策措置
両方の開示が収束する基準線は、すべての外部入力を信頼できないものとして扱い、データと指示を分離するフィルターを設置することを求めている。これには入力検証の強制、最小権限アクセス、アウトバウンドメールなどのアクションに対する厳格な制御の実装が含まれる。
Capsule Securityは、Agentforceを運用する組織に対し、すべてのリードフォーム入力を信頼できないデータとして扱い、信頼できない入力を処理する際のEmail Tool使用を禁止し、入力サニタイゼーションとプロンプト境界技術を適用し、CRMデータを含むメールを送信する前に手動レビューを要求し、データアクセスや外部通信に関わるすべてのエージェントアクションをログに記録することを推奨している。
CI/CDパイプラインにAIエージェントを統合している企業は、パイプラインの監査、権限の制限、リポジトリメタデータをタスクコンテキストとして取り込むエージェントがランナー環境からシークレットを明かすよう強要されたり、機密出力をPRコメントとして投稿するよう操作される可能性があることを認識する必要がある。
研究者は、自動化のために設計されたシステムは、信頼できない入力がエージェントの目標を再定義することを許可すべきではないという、不安全なデフォルト設定の問題を指摘している。したがって、企業はAIエージェントのデフォルト設定を見直し、機密データへのアクセスを制限し、外部入力の処理方法を厳格に制御する必要がある。人間による監督機能(Human-in-the-Loop)の実装は一つの解決策であるが、自律エージェントの利点を損なう可能性があるため、技術的な境界制御との適切なバランスが求められている。




