英国AI安全研究所が警告——LLMのサイバー攻撃能力、8ヶ月で2倍に加速中

30超のフロンティアモデルを検証。初級タスク成功率9%→50%、「エキスパート級」突破も2025年に初確認

英国AI安全研究所(AISI)が30以上のフロンティアモデルを対象にした大規模検証レポートを公開。LLMのサイバー攻撃能力は8ヶ月で倍増し、2025年にはエキスパートレベルのタスクを初めて突破。全モデルでジェイルブレイクも発見された。

英国AI安全研究所が出した「全モデル検証レポート」の衝撃

2025年、英国のAI Safety Institute（AISI）が「Frontier AI Trends Report」を公開した。2022年から2025年10月までにリリースされた30以上のフロンティアモデルを対象に、サイバー攻撃能力・生物化学兵器関連知識・自己複製能力・説得力・セーフガードの堅牢性を体系的に検証した、過去最大規模のAI安全評価である。

特徴的なのは、特定のモデル名を一切公開していない点だ。「Claude Mythos」や「GPT-5」といった固有名詞は登場しない。AISIの目的はモデル間のランキングではなく、フロンティアAI全体のトレンドと、そこから生じるリスクの構造的把握にある。その分、データが語る傾向の説得力は圧倒的だ。

サイバー攻撃能力: 8ヶ月で「できること」が倍増

最も注目すべきはサイバー領域の結果だろう。AISIは実際の攻撃シナリオを模したCapture-the-Flag形式のサイバーレンジで各モデルを評価した。

初級レベル（いわゆる「見習いハッカー」相当）のタスクに対する成功率は、2023年末の時点で9%未満だった。それが2025年には平均50%に達している。さらに衝撃的なのは、2025年が「10年以上の実務経験を持つ専門家レベル」のタスクを初めて完了したモデルが出現した年だということだ。

AISIは「モデルが完了可能なタスクの所要時間（人間エキスパート基準）は約8ヶ月で倍増している」と報告している。2023年初頭には10分未満のタスクしかこなせなかったものが、2025年中盤には1時間以上のタスクで40%超の成功率を記録した。

加えて、スキャフォールディング（外部ツールや多段階推論の仕組み）を最適化すると、開発セットでの性能がさらに約10ポイント向上する。トークン効率も改善されており、25%の成功率を達成するのに必要なトークン予算がわずか13%で済むケースもあった。つまり、モデル単体の能力向上に加え、「使い方の最適化」が攻撃能力を二重に加速させている。

全モデルでジェイルブレイク成功——セーフガードは「能力」と無関係

セーフガード（安全装置）の検証結果はさらに深刻だ。AISIのエキスパート・レッドチームが実施したテストでは、テスト対象の全システムでユニバーサルジェイルブレイクが発見された。ジェイルブレイクとは、モデルの安全フィルターを回避して本来禁止されている情報を引き出す手法のことだ。

興味深いのは防御の「コスト」の変化だ。あるモデル（2024年リリース）では、生物兵器関連のジェイルブレイクに専門家がわずか10分で成功した。しかし6ヶ月後にリリースされた別モデルでは、同カテゴリのジェイルブレイクに7時間以上を要した。約40倍の努力増加だ。これはセーフガード技術が進歩している証拠ではあるが、「突破不可能」にはなっていない。

さらにレポートが指摘する最も重要な発見の1つが、モデルの能力水準とセーフガードの堅牢さにはほぼ相関がない（R²=0.097）ということだ。つまり「賢いモデル＝安全なモデル」ではない。セーフガードの強度は純粋に開発企業がセキュリティにどれだけ投資しているかで決まる。プロバイダー間の格差は大きく、一部のモデルは初級レベルのジェイルブレイクにすら脆弱だった。

特にオープンウェイトモデル（重みが公開されているモデル）は「安価かつ手軽にセーフガードを除去できる」と明記されている。オープンソースとクローズドモデルの能力ギャップは現在4〜8ヶ月にまで縮小しており、この傾向が続けばセキュリティリスクの民主化が進む。

自己複製60%超、説得力も向上——「できること」の範囲が急拡大

サイバー攻撃以外の領域でも能力の急伸が確認されている。

自己複製能力（RepliBench）では、2023年初頭に5%未満だった成功率が2025年夏には60%を超えた。2つのモデルがこの水準に到達している。AIが自身のコピーを作成・展開できる能力は、制御不能な自律エージェントの出現リスクに直結する。

生物化学分野では、PhD専門家のベースライン（正答率38〜48%）を60%上回るモデルが出現。2024年末には実験室で実行可能なプロトコルを初めて生成し、トラブルシューティングの助言では専門家を90%上回る成績を記録した。非専門家がAIを使ってウイルス復元プロトコルを作成できる確率は、インターネット検索のみの場合と比べて4.7倍に上昇している。

政治的説得力も見過ごせない。2024年の調査では英国のチャットボット利用者の32%が選挙関連トピックを調査しており、これは有権者全体の約13%に相当する。モデルの計算規模が大きくなるほど説得力は増し、さらにポストトレーニング技術による説得性向上は単なるスケーリング以上の効果を持つ。

「Claude Mythosが最強」なのか？——そうではない

冒頭で述べた通り、AISIのレポートには特定モデルの名前は登場しない。SNSで「Claude Mythosがセキュリティを突破」といった言説が広まっているが、これはレポートの趣旨を誤読している。AISIが示したのはフロンティアモデル全体の能力トレンドであり、特定モデルの優劣ではない。

とはいえ、Claude 4.5 OpusやGPT系列を含む最先端モデルがテスト対象に含まれていることは間違いない。レポートの結論は明確だ——どのプロバイダーのモデルであれ、十分な時間とスキルがあればジェイルブレイクは可能。問題は「どのモデルが強いか」ではなく、「AIの攻撃能力が防御能力を構造的に上回りつつある」という業界全体のトレンドにある。

AISIは「すべてのAIシステムを完全に防御することは困難」と認めた上で、最先端システムの堅牢な防御が「適応バッファ」（社会が有益な応用を展開し、リスクに備える時間的猶予）を生み出し得ると述べている。セキュリティは完璧を目指すものではなく、攻撃者のコストを上げ続ける持久戦だという現実的な認識だ。

何が問われているのか

このレポートが示す最大の教訓は、AIのセキュリティリスクは「将来の懸念」ではなく「現在進行形の現実」だということだ。8ヶ月で能力が倍増するペースが続けば、2026年末には現在のエキスパートレベルのタスクが「中級」扱いになる可能性がある。

企業がすべきことは3つ。第一に、自社システムに組み込んだLLMのセーフガードを定期的に再評価すること。第二に、オープンウェイトモデルを採用している場合は、セーフガード除去のリスクを前提とした多層防御を設計すること。第三に、防御側にもAIを活用した異常検知・監視体制を構築すること。攻撃がAIで加速するなら、防御もAIで加速させるしかない。

AISIは今後もこのトレンドレポートを継続的に更新すると表明している。AIセキュリティは、もはやAI研究者だけの問題ではない。