ai for designersJune 10, 20268 min read

Claude Fable 5:发布数据、基准测试与真实反响

Claude Fable 5 于 6 月 9 日发布,是 Anthropic 首款 Mythos 级模型。经过验证的基准测试数据、真实定价,以及开发者在第一周遇到的实际情况。

By Boone
XLinkedIn
claude fable 5

Claude Fable 5:发布数据、基准测试与真实反响

Fable 5 是 Anthropic 向大众发布的能力最强的模型。第三方基准测试数据证实了这一点。问题不在于模型本身,而在于叠加在它之上的安全防护层,以及大多数报道都埋没了的 6 月 22 日订阅截止日期。

以下是截至 6 月 10 日,也就是发布后第一天,所有经过来源核实的确认信息。

Claude Fable 5 究竟是什么

Fable 5 是 Anthropic 首款面向大众开放的 Mythos 级模型。在 Anthropic 的能力层级中,Mythos 级位于 Opus 之上,Anthropic 自己的注脚将其描述为"一个在能力上高于 Opus 级别的 Claude 模型层级。" Fable 5 是该层级经过策略强化后的公开版本。

Anthropic 官网宣布 Claude Fable 5 为首款 Mythos 级公开模型。
Anthropic 官网宣布 Claude Fable 5 为首款 Mythos 级公开模型。

在 anthropic.com 查看公告

Claude Mythos 5 是同一底层模型,但在特定研究领域解除了部分安全限制。它通过 Project Glasswing 进行有限发布,首先向网络安全合作伙伴开放,随后扩展至部分生物学研究人员。它既不是基准测试框架,也不是独立架构,而是护栏更少的 Fable 5。

Anthropic 对能力差距的表述:"任务越长、越复杂,Fable 5 相对我们其他模型的优势就越大。"这句话值得仔细品味。

Anthropic 官方发布视频,前 12 小时获得 37.1 万次观看。

基准测试数据,经过核实

独立第三方在 24 小时内确认了头条编程能力声明。以下每一行数据均有具名来源。

基准测试Fable 5Opus 4.8对比
SWE-Bench Pro80.3%69.2%GPT-5.5 得分 58.6%,Gemini 3.1 Pro 得分 54.2%(The Decoder,来自 Anthropic 图表)
FrontierCode Diamond29.3%前代 13.4%FrontierCode"即使在中等努力下"排名第一(Cognition)
CursorBench72.9%不适用比前一最高成绩高 8 分(Cursor)
Terminal-Bench 2.188.0%不适用比 GPT-5.5 高 4.6 分(Cline)
AI Intelligence Index65不适用排名第一,中位速度约 60 tok/s,混合价格 8.20 美元(Artificial Analysis)
Hebbia Finance Benchmark所有模型中最高不适用Anthropic 公告
Artificial Analysis 发布报告,Claude Fable 5 在 Intelligence Index 和 GDPval-AA 排行榜中位列第一。
Artificial Analysis 发布报告,Claude Fable 5 在 Intelligence Index 和 GDPval-AA 排行榜中位列第一。

在 artificialanalysis.ai 阅读完整排名

Stripe 案例研究是迄今最有力的现实信号。在一个拥有 5000 万行代码的 Ruby 代码库中,Fable 5 在一天内完成了全库级别的代码迁移,Anthropic 表示这项工作需要一支人类团队耗费两个多月。

截至 6 月 10 日,以下数据仍缺失,请将其视为未经证实:

  • LMArena:已登记,尚无公开 Elo 分数
  • Aider 排行榜:无记录
  • ARC-AGI:无记录
  • 社区 SWE-bench 复现:仍在进行中

定价与 6 月 22 日的陷阱

维度Fable 5Opus 4.8Sonnet 4.6
每 MTok 输入价格$10$5$3
每 MTok 输出价格$50$25$15
上下文窗口100 万 token100 万 token100 万 token
最大输出 token128K128K64K
思考模式自适应,始终开启自适应扩展 + 自适应

API 定价直接明了,恰好是 Opus 4.8 的两倍。Anthropic 指出,其价格"不到 Claude Mythos Preview(早期限量版本)的一半"。

对于订阅用户,Claude Code 自带的选择器显示,Fable 5"使用配额的速度约为 Opus 的 2 倍"。

时间窗口:Fable 5 从发布之日起至 6 月 22 日,在 Pro、Max、Team 和 Enterprise 计划上免费使用,无需额外费用。从 6 月 23 日起,这些计划需要消耗使用积分。API 访问不受影响。

Simon Willison 在发布当天用他的 pelican SVG 基准测试了全部五个努力级别,差距很能说明问题:

  • 低努力:每次运行 9.67 美分
  • 最大努力:每次运行 72.175 美分
  • 他当天中途的累计花费:API 计费 token 共 82.92 美元,全部仍在 Max 订阅覆盖范围内

如果你想在承诺之前了解努力级别与花费的对应关系,他的文章和努力级别详解是最快的参考路径。

互联网的真实看法

HN 发布帖在第一天就突破了 2100 点和 1650 条评论。这是近期记忆中规模最大的模型发布帖之一。

Hacker News 上 Claude Fable 5 发布帖在第一天突破 2100 点。
Hacker News 上 Claude Fable 5 发布帖在第一天突破 2100 点。

在 news.ycombinator.com 阅读完整帖子

被引用最多的声音,按影响力排序:

  • Andrej Karpathy(2.04 万点赞,170 万次浏览):"这是值得一次大版本号跳跃的跨越式进步。"他还补充,可以给它布置更有野心的任务,"模型'理解了',然后就会去做。"他也指出:"安全防护被配置得对发布来说有点过于触发敏感了。"
  • artursapek(HN):"在我的校对基准测试中,Fable 5 超越了 GPT 5.5,而且总成本大致相同。"
  • Simon Willison(HN):在帖子中称这个模型"是个猛兽",说他正在拿着几个月来"一直在拖延"的难题去考它。
  • Reddit("Claude Fable 5 感觉与其说是模型发布,不如说是 AI 不平等的预告"):批评聚焦于 6 月 22 日截止日期造成的硬性访问鸿沟。

官方发布视频在约 12 小时内获得 37.1 万次观看,排名靠前的创作者解析视频在同一窗口内分别获得 7.3 万、6.6 万和 4.8 万次观看。

安全防护税

分类器才是本次发布真正的麻烦所在,大多数报道都跳过了这一点。当分类器触发时,API 返回 HTTP 200,附带拒绝停止原因,并静默回退至 Opus 4.8。

Simon Willison 发布当天的测评,描述了 Fable 5 的护栏触发和自动模型回退情况。
Simon Willison 发布当天的测评,描述了 Fable 5 的护栏触发和自动模型回退情况。

在 simonwillison.net 阅读 Simon Willison 的第一印象

用户可能不会被告知。Anthropic 表示这种情况发生在不足 5% 的会话中,但发布当天浮现的案例很能说明问题。

发布当天的案例,来自讨论帖:

  • matheusmoreira(HN):一次 Lisp 代码审查在会话中途被分类器标记打断,未经通知切换到了 Opus 4.8。
  • arkwin(HN):一位经过 Cyber Verification Program 认证的成员,在进行合规漏洞研究时遭遇了策略违规错误。
  • Elie Bakouch(Hugging Face,179 万次浏览):批评 Anthropic 故意削弱模型在"前沿 LLM 研究"任务上的表现,并对用户隐瞒了这种干预。

Anthropic 公开承认这是刻意为之。Anthropic 研究产品管理负责人 Dianne Penn 对 CNBC 表示,团队希望"对为此次发布构建新型分类器和新型安全护栏保持非常明确的意图。"

分类器范围可能在发布后收紧。这项策略不会成为一个漏洞修复,因为它本来就不是漏洞。

还有一个独立的阻碍:Fable 5 是受管辖模型,有 30 天的数据保留要求,没有零数据保留选项。Zed 和 GitHub Copilot for Business 用户立即将此标记为对 ZDR 要求严格的机构的硬性采用障碍。

设计师应该如何使用 Fable 5

Anthropic 将视觉能力和长周期智能体工作列为 Fable 5 的头条改进项。对设计师而言,这意味着完整的设计系统重构、多文件 Figma 到代码的转换,以及以往在一小时后便会崩溃的智能体会话,也就是面向设计工作的 Claude Code智能体设计工作流中涉及的那些精确工作流程。

Karpathy 的实用重新框架是最有价值的启示:扩大任务的范围,而不是提示词的范围。

Fable 5 并不擅长处理单行任务,它擅长的是在上下文中持有一个庞大、复杂的任务并真正完成它。如果你过去一直因为不信任模型能掌握整个系统而一次只发送一个组件,现在是时候测试整个系统了。

在 6 月 22 日之前,按最能揭示结果的顺序,测试以下内容:

  • 在单次会话中完成完整的组件库迁移
  • 带结构化输出的多文件设计 token 审计
  • 对含 10 个及以上组件的布局进行 Figma 描述到代码的转换
  • 任何此前在上下文填满时卡住的长智能体工作流

Opus 4.8 带来的改变相比,Fable 5 将这些模式延伸到了更长的会话和更大的范围。天花板提高了,方法还是那套。

深铜色工作室灯光下,带青色点缀的设计师工作站体素插图。
深铜色工作室灯光下,带青色点缀的设计师工作站体素插图。

常见问题

Claude Fable 5 和 Claude Mythos 5 有什么区别?

底层模型相同。Fable 5 为通用场景激活了安全分类器。Mythos 5 通过 Project Glasswing 为经过审核的研究合作伙伴解除了部分分类器,首先开放给网络安全合作伙伴。Mythos 5 不对公众开放。

Claude Fable 5 是什么时候发布的?

2026 年 6 月 9 日。公告在 anthropic.com/news/claude-fable-5-mythos-5。

API 的模型 ID 是什么?

Claude API 和 Vertex AI 上为 claude-fable-5。Amazon Bedrock 上为 anthropic.claude-fable-5

上下文窗口有多大?

默认 100 万 token,每次请求最多输出 128K token。这与 Opus 4.8 的上下文相同,是 Sonnet 最大输出量的两倍。

Fable 5 现在包含在我的 Claude 订阅中吗?

是的,在 6 月 22 日之前,Pro、Max、Team 和 Enterprise 无需额外费用。从 6 月 23 日起,这些计划需要消耗使用积分。API 定价不受影响。

分类器触发时会发生什么?

API 返回 HTTP 200,附带 stop_reason "refusal",并切换到 Opus 4.8。Anthropic 表示这种情况发生在不足 5% 的会话中。用户不一定会看到回退提示。

Fable 5 支持零数据保留吗?

不支持。它是受管辖模型,有 30 天的数据保留要求。对于有 ZDR 要求的企业环境,这是一个硬性阻碍。

Fable 5 的知识截止日期是什么时候?

截至 6 月 10 日,Anthropic 尚未公布 Fable 5 的知识截止日期。

模型已就绪,规则还没跟上

基准测试结果真实可信,编程性能已由多个独立来源确认,Stripe 案例研究是迄今为止长周期能力在实际生产中意味着什么的最具体信号。这是 Anthropic 向大众发布的最强模型。

对现有差距的客观评估:分类器行为是 Anthropic 公开承认的刻意策略选择,ZDR 阻碍是结构性的,6 月 22 日窗口是真实的截止日期。这一切都不会抹消模型的能力,但都决定了你实际能在何时、以何种方式使用它。

现在就去测试,用那些真正重要的工作流,在订阅窗口关闭之前。能力就在那里,策略层还在校准中。

Brainy creators get briefs, tools, and an audience of 2M+ designers. If you are already building with models like Fable 5, come build with us.

Get Started

More from Brainy Papers

Keep reading