米Anthropicは、大規模言語モデル「Claude Fable 5」のグローバル提供を明日から再開すると発表しました。サイバーセキュリティ分野での悪用リスクへの懸念から一時的な見直しが行われていましたが、米政府との協議や新たな安全対策を経て、再び利用可能になります。今後は、開発企業や政府・研究機関が連携し、AIの「脱獄(ジェイルブレイク)」対策や安全な利活用ルールを整備していく方針です。
Claude Fable 5 提供再開の概要
提供再開は「明日」、対象はグローバル
Anthropicによると、「Claude Fable 5」は明日から再び世界中で利用可能になります。同モデルは高い対話性能と推論能力で注目を集めていましたが、安全性や悪用リスクを精査するため、一部機能の見直しや一時的な制限が行われていました。
新しいフィルタでサイバー関連タスクを厳格に制限
再提供にあたり、Anthropicはサイバーセキュリティ関連のタスクをより厳密に検知・遮断するための新たな「分類器(クラスifier)」を導入しました。これにより、攻撃コードの生成やシステム侵入を助長するようなリクエストを、これまで以上に精度高くブロックすることを目指しています。
一部の通常タスクは既存モデル「Opus 4.8」へフォールバック
新しい安全フィルタは厳格である一方、当面は副作用として、通常のプログラミングやデバッグといった日常的なタスクの一部が、自動的に既存モデル「Opus 4.8」へ切り替わる場合があるとしています。Anthropicは、誤検知(正当なリクエストを不正と判断してしまうケース)を減らしつつ、悪用のみを的確に防ぐよう、今後数週間かけて分類器を継続的にチューニングすると説明しています。
業界横断の「ジェイルブレイク対策」枠組みづくり
Amazon・Microsoft・Googleらと「合意フレームワーク」を策定中
Anthropicは、AIモデルに対して安全ガードレールをすり抜けさせる「ジェイルブレイク(脱獄)」行為への対応について、業界共通の基準づくりを進めていると明らかにしました。具体的には、Amazon、Microsoft、Googleなど、同社が参加する「Glasswing」パートナー企業と協力し、「ジェイルブレイクの深刻度をどう評価するか」「深刻度に応じてAI開発企業はどう対応すべきか」といった点を整理したコンセンサス(合意)フレームワークを草案中だといいます。
他のモデル提供企業にも参加を呼びかけ
この枠組み作りには、既存パートナーに限らず、他のAIモデル提供企業や業界関係者にも参加を呼びかけています。各社がバラバラに対応するのではなく、共通の物差しとルールを持つことで、利用者にとっても分かりやすく、社会的な信頼性の高いAIエコシステムを構築する狙いがあります。
米政府との連携強化と今後の安全対策
モデルの事前評価と情報共有を拡大
Anthropicは、米政府との連携も一段と強化するとしています。今後は、モデルや安全対策の「リリース前アクセス」を政府側に提供し、事前テストや評価を共同で実施する体制を拡大する方針です。また、ジェイルブレイク手法や悪用事例に関する情報共有を行い、リスクの早期発見と対処に取り組むとしています。
共同研究に専任リソースを投入
同社はさらに、政府との共同研究に専任リソースを割り当て、AIモデルのテスト手法や安全ガードレールの高度化に取り組む計画です。これにより、サイバー防御、重要インフラ保護、国家安全保障などの観点から、より実践的な安全性検証が進むことが期待されます。
ユーザーとパートナーへの謝意と「継続的アップデート」の姿勢
Anthropicは今回の発表の中で、Fable 5の一時的な利用制限に対するユーザーの理解と忍耐に謝意を示すとともに、米政府、産業界、研究コミュニティのパートナーが再提供に向けて協力したことに感謝を述べています。同社は、安全対策を一度きりの対応で終わらせるのではなく、「継続的にアップデートし続けるプロセス」として位置づけている点も強調しました。
まとめ:高性能モデル時代の「安全性」とどう向き合うか
Claude Fable 5の再提供は、単に一つのAIモデルが戻ってくるというだけでなく、「高性能な生成AIをどう安全に運用するか」という業界全体の課題が、実務レベルで動き始めたことを示しています。サイバー攻撃やジェイルブレイクへの対策を強化すればするほど、正当な利用への影響(誤検知)とのバランスが問われます。Anthropicが掲げる、政府との共同テストや業界横断の合意フレームワークづくりは、そのバランスを探る一つの試みと言えるでしょう。今後、他社や各国政府がどのように関与し、どのような共通ルールが形成されていくのかが、生成AIの信頼性と普及スピードを左右しそうです。



