2026年4月7日、Anthropicが開発した新しいAIモデル「Claude Mythos Preview」の性能が、注目を集めています。多岐にわたるベンチマークテストにおいて、Claude Mythosは従来のモデルを凌ぐ高成績を収めました。特に、ソフトウェアのコーディングタスクにおいて際立った成績を示したことが、専門家の間で話題となっています。このモデルは、機械学習の分野で新たな基準を確立する可能性を持っており、今後さらに研究が進められるでしょう。
Claude Mythos Previewの性能評価
ベンチマークテストの結果、Claude Mythos PreviewはSWE-bench Proで77.8%、Terminal-Bench 2.0では82.0%のスコアを獲得しました。他の評価項目でも、例えばSWE-bench Multimodalで59.0%、GPQA Diamondで94.6%という成績を記録。競合モデルであるOpus 4.6と比較しても、いずれのタスクにおいてもより高いスコアを示しています。これらの結果は、Claude Mythosがプログラミング能力と推論能力の面で目覚ましい進歩を遂げた証拠です。この性能の向上は、AI技術がどのように進化してきたかを示す一つの顕著な例といえるでしょう。
Project Glasswingと限定使用
Anthropicは、Claude Mythos Previewの社会的影響を考慮し、Public Releaseを見送りました。代わりに、Project Glasswingという枠組みの下で、AIの潜在的なセキュリティリスクを管理するとともに、11社のパートナーと連携して限定的に使用されています。この取り組みにより、ソフトウェア脆弱性の発見やサイバー攻撃への予防策が講じられています。例えば、既存のシステムに対するセキュリティスキャンの精度が向上し、それにより深刻な脆弱性が事前に検出されることが期待されています。このアプローチは、AIを利用したセキュリティ戦略の新しいスタンダードを築く可能性を秘めています。
業界と社会における重要性
Claude Mythos Previewのリリースは、サイバーセキュリティの面で大きな影響を与えています。Anthropicは、このモデルがAIの進化によるサイバーセキュリティ強化の手段として機能し得ると見ています。また、Microsoftを含む多くの企業が参加するProject Glasswingでは、AIの活用によるセキュリティリスクの軽減が試みられています。AnthropicのCEOであるDario Amodei氏は、サイバーセキュリティ分野はもはや人間の能力だけで縛られないと述べ、AIの責任ある利用の重要性を強調しました。さらに、業界全体でのAI導入による影響を見据え、政府機関とも連携を進め、法規制の整備にも協力する計画です。
制約されたアクセスと計画
Claude Mythos Previewの公開は見送られたものの、サイバー攻撃への防衛策の一環としてのテスト運用が続けられています。Anthropicはこのモデルの使用を制限しながらも、使用する11社に合計1億ドル相当の利用権限を付与することで、適正な使用方法を探っています。これは、モデルの高い能力が悪用されるリスクを抑えつつ、その利点を最大限に引き出すための計画です。このような制約付きの運用は、AI技術を倫理的かつ安全に展開していくための実践的なアプローチといえるでしょう。
今後の展望
Claude Mythos Previewの能力は、サイバーセキュリティのみならず、他の多くの分野においても応用可能性があります。例えば、金融業界における不正検出やヘルスケア分野での診断支援など、AI技術の革新が期待されています。Anthropicは、業界全体と協力して、AIの進化と社会的なインパクトを管理し、新たなチャレンジに立ち向かう準備を進めています。このことは、AI技術の倫理的利用と、それに伴うリスクの低減を目指した取り組みの一環としても重要です。このモデルの将来のアップデートや新たな適用分野の探索が、今後の注目ポイントとなるでしょう。




