$catMANUAL||~26 min

Mythos 被禁了,亚洲 AI 能顶上吗?从 Sakana Fugu 到 360 凸龙凤,开发者需要知道的真相

advertisement

Mythos 被禁了,亚洲 AI 能顶上吗?从 Sakana Fugu 到 360 凸龙凤,开发者需要知道的真相

上周 Anthropic 的 Mythos 和 Fable 5 被美国政府禁了,非美国人用不了。结果不到两周,两家亚洲公司就跳出来说"我们也能做到"。日本的 Sakana AI 发了 Fugu,中国的 360 发了凸龙凤(Tulongfeng)。

听起来很燃对吧?但我花了一天时间扒了 HN 上的讨论和实际用户体验之后,发现事情没那么简单。

先说结论:Fugu 不是模型,是个"模型经纪人"。凸龙凤是认真的,但只做安全领域。两者短期内都填不上 Mythos 的空缺。但这个事件本身揭示了一个更大的趋势——AI 的地缘政治化已经开始了。

这篇文章会聊聊到底发生了什么、这些新东西到底是什么、以及作为开发者你该怎么应对。

先说说到底发生了什么

2026 年 6 月中旬,美国政府对 Anthropic 下了出口禁令,禁止 Mythos 和 Fable 5 模型向非美国人提供服务。理由是这些模型"太强了",有国家安全风险。

这事说起来有点讽刺。Anthropic 自己一直在喊"AI 太危险了,需要监管",结果监管真的来了,先禁的是他们自己的产品。Fable 5 上线才 72 小时就被叫停,我在之前的文章里也聊过这个事。

禁令的直接影响是什么?简单说:非美国用户突然失去了访问最强 AI 模型的能力。 用 Claude Code 做开发的人、用 Claude API 做产品的企业、依赖 Anthropic 服务的各种工具链——全部受到冲击。

我身边就有朋友在用 Claude Code 做日常开发,禁令一出直接傻眼了。他已经习惯了 Fable 5 的效率,突然要回到 Opus,感觉就像从高铁换成了绿皮火车。

禁令的时间线也很有意思。Anthropic 5 月刚宣布年化收入超过 470 亿美元,估值接近 1 万亿,正在准备 IPO。结果一个月后就出了这事。这对他们的 IPO 进程肯定有影响——亚洲市场是他们增长最快的区域之一。

禁令一出,亚洲市场瞬间出现了一个巨大的真空。本来很多开发者和企业都在用 Claude 的 API,突然就不能用了。这时候谁来填这个空缺?

Sakana AI 的 Fugu:不是模型,是个"模型经纪人"

Sakana AI 是东京的一家 AI 公司,2023 年由前 Google 研究员 Ren Ito、Llion Jones 和 David Ha 创立。他们之前拿到过 1.35 亿美元的 B 轮融资,估值 26.5 亿美元。这三位创始人背景都不简单——Llion Jones 是那篇著名的《Attention Is All You Need》论文的作者之一,可以说是 Transformer 架构的奠基人之一。

6 月 22 日,他们发布了 Fugu。名字很有意思,Fugu 是日语里"河豚"的意思。河豚好吃但有毒,处理不好会死人。这个名字暗示了什么?可能是"强大但需要小心使用"。

官方说法是"Fugu Ultra 在工程、科学和推理基准测试中与 Anthropic 的 Fable 5 和 Mythos Preview 并驾齐驱"。听起来很猛。

但等等,仔细看技术细节就发现问题了。

Fugu 不是一个独立的大模型,它是一个模型编排系统(Orchestration Model)。

什么意思呢?就是说 Fugu 本身是一个训练过的语言模型,它的能力是"决定调用哪些模型来完成任务"。它背后连接着一堆模型——可能是 OpenAI 的、可能是 Anthropic 的、也可能是其他开源模型——然后根据任务复杂度来决定用哪个。

用他们自己的话说:"Rather than a single monolithic model, Fugu is a learned multi-agent orchestration system."

这就有意思了。如果 Fugu 背后调用的还是 Anthropic 的模型,那禁令一来,它不也得歇菜?Sakana 的回答是"模型池是可替换的",但这个回答有点像在说"我们的系统很强,因为它可以换引擎"——引擎换了,车还能一样开吗?

编排模型到底是什么?为什么这个思路值得关注

在继续聊之前,我觉得有必要解释一下"编排模型"(Orchestration Model)这个概念,因为这可能是未来 AI 发展的一个重要方向。

传统的 AI 模型是"一个模型干所有事"。GPT-5.5、Claude Opus、DeepSeek V4,不管你问它什么,都是同一个模型在回答。这就像你有一个全能员工,啥都会一点,但不一定每样都精通。

编排模型的思路不一样。它更像一个项目经理,手下有一堆专业人才——有的擅长写代码,有的擅长做数学,有的擅长写文案——项目经理根据任务来分配工作。你不需要知道谁在干活,项目经理会搞定一切。

Sakana Fugu 就是这个思路。它自己是一个训练过的语言模型,但它的能力不是直接回答问题,而是"决定调用哪些模型来回答问题"。它可以根据任务的复杂度来决定:简单任务直接自己搞定,复杂任务就分配给更擅长的模型。

这个思路的论文基础是 Sakana AI 在 ICLR 2026 上发表的两篇论文:Trinity 和 Conductor。核心思想是"学习如何协调",而不是"学习如何回答"。

理论上这很美好。现实中呢?

优点:

  • 可以利用每个模型的长处,避免短板
  • 模型池可以替换,不会被单一供应商锁定
  • 对于需要多步骤推理的复杂任务可能更有效

缺点:

  • 成本叠加——调用多个模型意味着多次付费
  • 延迟增加——每个决策都需要时间
  • 你不知道背后用的是哪个模型,透明度低
  • 如果底层模型被禁了,编排能力也白搭

说白了,编排模型是一种"杠杆"策略。它不自己造轮子,而是学会怎么用别人的轮子。这个策略在模型百花齐放的时候很好用,但如果轮子都被收走了,杠杆也撬不动东西。

HN 社区的真实反馈:别急着吹

Hacker News 上这条新闻有 238 分,178 条评论。评论区的画风非常真实。

有人说自己试了 Fugu,花了一个 $20 的 plan 5 小时额度就在一个 prompt 上用完了,升级到 $100 的 plan 结果发现"比 Opus 还烂,慢得要死"。他的原话是:"it was worse than Opus, incredibly slow."

还有人指出一个关键问题:Fugu 可能就是在背后调用 OpenAI 和 Anthropic 的 API,然后加价卖给你。"If fugu really is an orchestrator dispatching to opus/gpt under the hood, the $20-in-one-prompt complaints actually start making sense — you're paying api markup twice."

不过也有人有正面体验。有人说用 Fugu Ultra 做 code review,比 GPT-5.5 强很多,"where other tools flag about three issues, Fugu surfaced more than twenty"。还有人说它在长对话中保持角色稳定性的能力很强,这对 agent 类产品很重要。

但整体氛围是:大家对"Mythos 级别"这个说法很怀疑。

"Without reliable benchmarks, they are Mythos-like only in the sense that they accept text as input and produce text as output." 这条评论获得了不少赞。

360 的凸龙凤:这次是认真的

如果说 Sakana Fugu 还有点"蹭热度"的味道,那 360 的凸龙凤就完全是另一个画风了。

360 是中国老牌的网络安全公司,创始人周鸿祎直接说了:漏洞发现 AI 是国家战略资产。他们发布的两个产品——凸龙凤(自动发现软件漏洞)和倚天针(自动化网络防御和事件响应)——完全对标 Anthropic Mythos 在安全领域的能力。

而且 360 没有遮遮掩掩说什么"时机巧合"。他们明确提到了"单向透明"的风险:如果只有某些人能用高级漏洞检测能力,而其他人不能,那就是一个巨大的安全不对称。

说实话,从技术角度看,360 这个定位比 Sakana 更务实。他们不是在吹"全面超越 Mythos",而是在说"在安全这个垂直领域,我们需要自己的能力"。这种思路更靠谱。

背景:AI 出口管制的大棋局

要理解这件事的全貌,得先看看 AI 出口管制这个大背景。

美国政府对 AI 模型的出口管制不是第一次了。之前对高端 GPU(比如 NVIDIA H100)就有出口限制,禁止卖给中国。现在把限制扩展到了模型本身——不只是硬件,连软件能力都不能随便出口。

这背后的逻辑是:AI 能力正在成为国家安全资产。一个能自动发现软件漏洞的 AI,在网络战中的价值可能比一个导弹还大。所以政府要控制这种能力的扩散。

但问题是:技术扩散不像物理产品那么容易控制。你禁了 Anthropic 的 API,人家可以用开源模型自己训。你禁了 GPU,人家可以从其他渠道搞到算力。技术这个东西,一旦被发明出来,就很难被完全封锁。

这也是为什么 Mythos 禁令一出,亚洲公司马上就有反应。不是因为他们碰巧准备好了,而是因为这个市场太大了,总有人会来填空缺。

Fugu 的定价和实际体验:钱包准备好了吗?

聊了这么多理论,说点实际的。Fugu 的定价是这样的:

  • Fugu(标准版):适合日常使用,延迟较低
  • Fugu Ultra:适合复杂任务,调用更多模型,质量更高但更贵

从 HN 上的用户反馈来看,价格是个大问题。

一个开发者说他用 Fugu 做 Unity 项目的一个代码 review,$20 的 plan 5 小时额度在一个 prompt 上就用完了。升级到 $100 的 plan,结果发现效果还不如 Opus,而且慢得要死。最后 5 小时额度又用完了,还消耗了 35% 的周额度。

"the result was worse than Opus, incredibly slow, and I ended up exhausting the new 5 hour window and have used 35% of the weekly now."

另一个人的解释很有意思:"If fugu really is an orchestrator dispatching to opus/gpt under the hood, the $20-in-one-prompt complaints actually start making sense — you're paying api markup twice."

意思是:如果 Fugu 背后调用的是 Opus 或 GPT 的 API,那你付的钱 = Fugu 的 API 费用 + 背后模型的 API 费用。相当于打了两层中间商。

不过也有人觉得值。一个安全工程师说 Fugu Ultra 做安全评估的效果很好:"Fugu drove a full security assessment end-to-end — recon, XSS/SQLi checks, auth review, and a clean report with evidence and retest steps."

所以我的判断是:Fugu 可能更适合企业级的复杂任务,不太适合个人开发者的日常使用。 如果你只是写写代码、改改 bug,用 Opus 或 GPT-5.5 直接调 API 可能更划算。

Fable 5 的真实体验:被禁之前的用户怎么说

聊到 Mythos 和 Fable 5,有个有趣的话题:在被禁之前,用过的人到底觉得怎么样?

HN 上的讨论提供了一些一手信息。

有人说用 Fable 5 在 Claude Code CLI 上做了一天的开发,效果惊人:"It acted like a senior engineer - actually coding up hypotheses, testing them, finding problems and presenting good, usable recommendations backed by solid evidence and wisdom. It can probably do most of my job, which gave me a bit of an existential crisis."

但也有人说效果一般。一个人用 Fable 5 在 Cursor 里测试,让它帮忙改 CSS 风格,结果"spun out the most useless, Claude-like CSS styling ever, wasting $40 in 10 minutes"。

还有人做了一个有趣的对比:Fable 5 和 Opus 4.8 在大型遗留代码现代化项目上的表现。他的结论是 Fable 5 确实更强,但不是碾压性的。"It's more like an optimization, I could have a single or 2 pass in fable vs 8-10 with opus to arrive at the same solution."

这个信息很重要。它说明 Mythos/Fable 5 的强大不是魔法,而是一种"效率提升"。如果你用 Opus 10 次能达到的效果,用 Fable 5 可能 2 次就达到了。但对于简单任务,差距没那么大。

所以当 Sakana 说 Fugu "与 Fable 5 并驾齐驱"的时候,你得想想:如果 Fable 5 本身对很多任务来说就是"Opus 的优化版",那 Fugu 的"并驾齐驱"又值多少?

竞争格局:不只是日本和中国

其实不只是 Sakana 和 360 在动。整个亚洲的 AI 格局都在变化。

DeepSeek 之前已经证明了中国可以用更低的成本做出高质量的开源模型。GLM-5.2 也在开源排行榜上表现不错。日本有 Sakana,韩国有 Naver 的 HyperCLOVA,印度也在搞自己的主权 AI。

这次 Mythos 禁令某种程度上加速了这个趋势。以前大家还可以用"美国的模型最好,用美国的就行"来糊弄。现在不行了,因为说禁就禁,你没有备选方案就是裸奔。

Sakana 的创始人 Ren Ito 在 G7 峰会上说了一句话:"AI should not become a technology that is hoarded; it should be one that is developed together."

理想很美好。现实是:技术竞争正在加剧,每个国家都在搞自己的 AI 能力,以防被别人卡脖子。

Anthropic 的尴尬处境

说到这个事,不得不提 Anthropic 自己的处境。这可能是整个事件里最讽刺的部分。

Anthropic 之前一直在推动 AI 监管。他们的 CEO Dario Amodei 多次公开表示 AI 模型"太危险了",需要政府介入。结果政府真的介入了,先禁的是他们自己的产品。

HN 上有人很尖锐地评论:"Anthropic are the pathetic ones. The pariah of the AI industry that nobody likes because all they do is lie, cheat and steal. Now no one can access ChatGPT 5.6 because of their 5 year long fearmongering regulatory capture campaign."

这话说得有点过了,但反映了一种情绪:很多人觉得 Anthropic 的"安全倡导"最终搬起石头砸了自己的脚。你一直在喊"AI 太危险",政府听了,然后把你的产品禁了。这剧本也太讽刺了。

不过换个角度看,Anthropic 的禁令也可能是他们有意为之的。通过推动监管,他们可以建立更高的进入门槛——只有像 Anthropic 这样"负责任"的公司才能开发和部署高级 AI。这个策略短期内会伤到自己,但长期来看可能帮他们建立护城河。

不管怎样,现在的局面是:Anthropic 的收入可能受到严重影响。他们 5 月刚宣布年化收入超过 470 亿美元,现在最大的增长引擎——亚洲市场——突然被切断了。这对他们即将进行的 IPO 来说不是好消息。

用户体验的两极分化

关于 Fable 5 和 Mythos 的用户体验,HN 上的讨论呈现出明显的两极分化。

正面评价的人说 Fable 5 像一个高级工程师,能独立完成复杂任务。有人说它在做安全评估时表现出色,能从头到尾完成侦察、漏洞检测、认证审查和报告生成。

负面评价的人说它浪费钱、速度慢、结果不如 Opus。还有人说它生成的代码风格跟 Claude 一模一样,没有任何突破。

这种两极分化的体验其实很常见。AI 模型的表现高度依赖于任务类型和使用方式。用 CLI 直接调用可能效果很好,但通过 Cursor 这样的中间层调用可能就打折扣了。同样的模型,不同的 prompt 工程,结果可能天差地别。

所以当你看到有人说"这个模型太牛了"或者"这个模型是垃圾"的时候,都要打个问号。具体怎么样,只有自己试了才知道。

开发者视角:这对你意味着什么?

聊了这么多背景,说说跟开发者直接相关的。

第一,别迷信"Mythos 级别"

现在市面上说自己的模型"Mythos 级别"的公司越来越多了。但问题是:大多数开发者根本没用过 Mythos,怎么判断?

HN 上有人说得好:"I don't even look at benchmarks anymore. I just try different models on our large, proprietary, systems software codebases in real, shipping products."

benchmark 可以刷,marketing 可以吹,但真正用起来好不好,只有你自己知道。如果你在考虑换模型,别只看宣传,自己跑一遍真实任务。

具体怎么评估呢?我的建议是:

  • 用你真实的代码库测试,不要用 hello world 或者 toy example
  • 跑至少 5 个不同类型的任务:代码生成、bug 修复、代码 review、文档生成、架构讨论
  • 记录结果:花了多少钱、用了多少时间、质量如何
  • 跟现有方案对比:如果新模型比你现在用的好 20%,但贵 3 倍,那可能不值得换

第二,编排模型可能是个好方向,但不是银弹

Sakana Fugu 的"编排模型"思路其实挺有意思。让一个模型来决定用哪些模型,理论上可以扬长避短。但现实中有个大问题:成本和延迟

一个用户反馈说用 Fugu 做 code review,$20 的额度一个 prompt 就用完了。如果背后是调用多个模型的 API,那成本确实是叠加的。对于个人开发者来说,这个价格可能不太友好。

不过对于企业用户来说,如果 Fugu 真的能减少人工 review 的工作量,这个成本可能是值得的。关键是要算清楚账。

第三,AI 主权不是空话

Sakana 的创始人 David Ha 说了一句很到位的话:"Access to top models can disappear overnight."

这不是假设,这是已经发生的事。Mythos 禁令证明了一件事:你的 AI 能力可以被一纸行政命令切断。对于依赖 AI API 做业务的公司来说,这是一个实实在在的风险。

所以"AI 主权"这个概念开始变得有意义了。不是说每个国家都要有自己的大模型,而是说你不能把所有鸡蛋放在一个篮子里。至少要有备选方案。

对于个人开发者来说,这意味着:

  • 不要只依赖一个模型提供商。至少备两个:一个主力,一个备用
  • 关注开源模型的进展。DeepSeek、Qwen、Llama 这些不会被禁
  • 考虑本地部署的可能性。虽然本地模型能力不如云端,但对于一些简单任务够用了

第四,开源模型是最后的防线

禁令对闭源模型的影响最大。如果你用的是开源模型——比如 DeepSeek、Qwen、Llama——那出口禁令对你基本没影响。你可以在自己的服务器上跑,不依赖任何公司的 API。

这也是为什么最近开源模型的热度一直在涨。不是因为开源模型比闭源模型强(大部分情况下还不是),而是因为开源模型不会被禁。

而且开源模型的进步速度很快。DeepSeek DSpark 最近开源了推理加速方案,推理速度提升了 85%。GLM-5.2 也在开源排行榜上表现不错。差距在缩小。

第五,成本控制比模型选择更重要

很多人纠结"用哪个模型",但其实"怎么用"更关键。

不管你用什么模型,如果每次都把整个代码库丢进去做 context,成本都会很高。学会控制 context 长度、用 RAG 做检索增强、把大任务拆成小任务——这些技巧比选模型更能省钱。

我在之前的文章里聊过 headroom 这个工具,能帮你省 60-95% 的上下文开销。不管你用 Fugu 还是 Opus,学会控制成本都是必修课。

我的判断

说实话,我觉得 Sakana Fugu 和 360 凸龙凤能填上 Mythos 的空缺吗?短期内不太可能。

Fugu 本质上是个编排系统,它强不强取决于背后用的模型。如果那些模型也被禁了,Fugu 就是巧妇难为无米之炊。而且从用户反馈来看,成本和体验都还有不少问题。

360 的凸龙凤更实际一些,至少它在安全这个垂直领域有自己的积累。但要说全面对标 Mythos,我觉得还早。

不过,这两家公司的出现本身就是一个信号:AI 的格局正在从"一家独大"变成"多极竞争"。

Anthropic 禁了,Sakana 来了。美国禁了,中国和日本的公司来了。这个趋势不会停。对于开发者来说,好消息是你有越来越多的选择。坏消息是选择多了,判断也更难了。

我的建议是:别急着换,先观望。等这些新模型跑了两三个月,有了真实的用户反馈和第三方评测,再做决定也不迟。现在跳进去,大概率是当小白鼠。

如果你现在手头有紧急任务需要替代方案,我建议的优先级是:

  1. 先试试 Opus 4.8——虽然不是 Mythos 级别,但目前是禁令之外最强的闭源模型
  2. DeepSeek V4 + Claude Code——开源模型接编程工具,性价比高
  3. 等等看 Fugu 的第三方评测——别急着当第一批用户
  4. 关注 360 的产品发布——如果你做安全相关的开发

后面打算再折腾一下 Fugu 的 API,自己跑几个真实任务看看效果,到时候再写一篇实测。如果你已经试过了 Fugu 或者 360 的产品,欢迎在评论区分享你的体验。有啥问题评论区聊。

  • 本文写于 2026 年 6 月 28 日,基于 TechCrunch 报道、Sakana AI 官方发布和 Hacker News 社区讨论整理。数据截至发稿时。*

advertisement

Mythos 被禁了,亚洲 AI 能顶上吗?从 Sakana Fugu 到 360 凸龙凤,开发者需要知道的真相 — AI Hub