AI安全攻防战：Claude Mythos的“危险天赋”与OpenClaw的开源反击

2026年4月上旬，AI安全领域出现了截然不同的局面。Anthropic正式推出了Claude Mythos的预览版——这是一款由于“过于危险”而未能向公众开放的超级模型，能够在无人干预的情况下自主识别各种高危零日漏洞。与此同时，开源AI Agent项目OpenClaw在遭到Anthropic封杀后，仅用48小时便进行了强有力的反击，推出了集成视频生成和“梦境”记忆系统的重大更新。AI安全的天平正在剧烈摇摆，围绕技术边界、开放与管控的博弈已全面展开。

“猛兽出笼”：Claude Mythos的危险天赋与防御使命

4月8日，Anthropic正式官宣推出Claude Mythos Preview大模型，定位高于当前旗舰Claude Opus 4.6的全新能力层级，在代码、推理、自主决策等维度实现跨代提升。在核心基准测试SWE-bench Pro中，Mythos得分从Opus 4.6的53.4%大幅提升至77.8%；在高难度数学推理USAMO 2026中，更是从42.3%飙升至97.6%——几乎满分。

然而，真正让业界震惊的是Mythos在网络安全领域的惊人能力。在内部红队测试中，该模型仅花费不到50美元成本便发现了OpenBSD中存在27年未被检出的TCP SACK零日漏洞；以不到1000美元成本，自主挖掘并实现了FreeBSD NFS的17年远程代码执行漏洞完整利用。在Firefox引擎漏洞利用测试中，Opus 4.6数百次尝试仅成功2次，而Mythos成功181次，自动化安全能力达到行业顶尖水平。

正因如此，Anthropic决定不向公众开放Mythos，仅通过Project Glasswing向约40家机构提供有限访问，参与方仅可将模型用于自身与开源软件的漏洞检测。Anthropic为此提供最高1亿美元API额度，并向开源安全组织捐赠400万美元。Mythos的漏洞发现能力并非来自专门的安全训练，而是源自通用智能的自然溢出——这意味着当大模型足够聪明时，安全能力会作为副产品自动涌现。正如Anthropic在其官方博客中所言：“我们的最终目标是让用户能够安全地大规模部署Mythos级模型——这不仅是为了网络安全，也是为了这些功能强大的模型将带来的无数其他好处”。

开源反击：OpenClaw封杀后的48小时绝地反击

就在Mythos发布前夕，另一场AI圈的“大战”刚刚落幕。4月初，Anthropic突然宣布封禁OpenClaw等第三方工具，不再允许通过Claude订阅免费调用接口，给这一热门开源AI Agent项目带来巨大冲击。

OpenClaw是由奥地利软件工程师彼得·斯坦伯格开发的开源自主AI虚拟助理软件，因图标为红色龙虾被称作“小龙虾”。与传统聊天机器人不同，OpenClaw被设计为可代替用户执行任务的AI智能体，可部署在MacOS、Windows等本地设备上，通过WhatsApp、Telegram等即时通讯平台接收指令，自主完成文件管理、邮件收发、数据处理等复杂任务。黄仁勋曾将其评价为“下一个ChatGPT”和“历史性的开源突破”。

面对封杀，OpenClaw社区仅用48小时便发布了2026.4.5重磅更新，完成强势反击：首次实现原生视频与音乐生成能力，可直接调用Runway、Google Lyria等11家平台模型；同时上线“Dreaming”记忆机制，模仿人类睡眠三阶段自动整理短期记忆并筛选重要信息写入长期记忆。4月8日发布的v2026.4.7版本更进一步，集成Gemma 4与Ollama视觉能力，引入Webhook TaskFlows进行事件驱动编排，新增memory-wiki系统实现持久化知识管理。目前，OpenClaw技能市场已汇聚超4.4万个技能包，用户可在多家大模型间自由切换，降低对单一平台的依赖。这场“封杀与反击”的攻防战，不仅展现了开源社区的强大韧性，也揭示了AI生态中平台与开发者之间微妙的权力博弈。

Claude Mythos的横空出世揭示了AI安全的一体两面——超级智能既是前所未有的安全威胁源，也可能是最强大的网络防御工具。当Mythos能以不到50美元的成本发现人类团队苦寻27年未果的系统漏洞时，传统“先部署后修复”的安全范式已被彻底颠覆。与此同时，OpenClaw的“48小时反击”证明，在AI生态日益多元的今天，任何单一平台的封禁都无法阻挡技术创新与开源协作的洪流。这场围绕AI安全的博弈，将深刻影响未来数年的技术演进方向。