ai for designersApril 30, 202610 min read

Claude 4.7 版本究竟为 AI 构建者带来了哪些改变?

面向 AI 构建者的 Claude 4.7 工作拆解分析。代理可靠性超过两小时,全系列产品达到 100 万上下文标准,计算机使用普遍可用,提示缓存层改进,以及 Sonnet 和 Haiku 速度的提升,从而开启了高吞吐量工作负载。

By Boone
XLinkedIn
claude 4 7 for builders

Claude 4.7 版本并非仅仅是基准测试的提升。它真正实现了长时间运行的智能体、全代码库编码工具以及基于评分标准的评估流程在生产环境中的正常运行。基准测试成绩仅略有提升,但实际交付量却大幅增长。

本文旨在为人工智能开发者提供一份详尽的拆解分析。内容涵盖 4.7 版本的实际变化、需要改进的构建方式、已在新系列模型上发布的实际产品示例,以及 Claude 4.7 版本在哪些方面仍然逊于 GPT-5.5 和 Gemini 3。

4.7 版本重新定义了生产环境的标准

Claude 4.7 是 Anthropic 系列中首个所有模型变体均可用于智能体生产环境的版本。Opus 4.7 是重量级推理器,Sonnet 4.7 是日常主力模型,Haiku 4.7 则是吞吐量最高的模型。这三个版本都拥有相同的 1M 上下文窗口、相同的工具使用界面和相同的缓存原语。

发布喧嚣背后的真相是层级结构的瓦解。在 2024 年,构建者需要在智能和快速之间做出选择。而在 2026 年的 4.7 版本中,构建者可以在智能、更快和实时之间进行选择,而所有这些功能都基于相同的产品界面。正是这种提升改变了构建方式。

代理在两小时后的可靠性

4.7 版本最大的提升并非体现在基准测试中,而是体现在长期稳定性上。Opus 4.7 代理能够运行实际任务两到四个小时而不会出现上下文漂移。在 4.6 版本中,代理在运行超过 90 分钟后开始忘记之前的决策、重复已完成的步骤,并且悄悄地丢失了已编辑的文件记录。而在 4.7 版本中,这种故障模式已基本消除。

工作室地板上横跨着体素时间轴轨道,轨道上有五个阶梯状的代理符号立方体,从左到右依次排列,轨道上刻有“代理”一词。
工作室地板上横跨着体素时间轴轨道,轨道上有五个阶梯状的代理符号立方体,从左到右依次排列,轨道上刻有“代理”一词。

Anthropic 公布了 Devin 团队使用 Opus 4.7 进行十小时自主编码任务的内部数据,该任务能够端到端地处理上下文。可靠性曲线并未像 4.6 版本那样急剧下降。正是这一转变使得 4.7 版本的智能 IDE 和自主编码产品体验截然不同。

全系列产品均支持 100 万个令牌的上下文窗口

所有 4.7 版本均标配 100 万个令牌的上下文窗口。Opus 4.7、Sonnet 4.7 和 Haiku 4.7 都采用相同的上下文窗口。全系列产品的全面推广比单纯的数字更重要,因为它意味着 Haiku 4.7 的吞吐量代理可以处理与 Opus 4.7 推理器相同的代码库或文档集。

实际上,正是这一点使得十二个月前还无法实现的全代码库代码编辑器和基于文档的代理得以实现。一个 1M 的窗口大约可以容纳 75,000 行 TypeScript 或四本完整的书,而 4.7 版本中 上下文窗口效率 的改进意味着该模型实际上会利用窗口中的内容,而不是主要关注最后几千个标记。

计算机使用功能已普遍可用且速度更快

计算机使用功能在 4.7 版本中结束了测试阶段。延迟的降低是组件构建者们所感受到的。从屏幕截图到下一次点击的操作循环速度大约是 4.6 预览版的两倍,这使得计算机使用功能从演示版正式过渡到产品界面。

目前,其应用范围仍然有限。计算机使用功能主要应用于浏览器自动化、表单填写、从渲染的应用程序中提取结构化数据以及 QA 流程。它不能替代桌面系统,也不适合高频实时交互。但在合适的应用场景下,它能够发挥作用。

工具使用和 JSON 模式不再崩溃

4.7 版本中,结构化工具在嵌套模式上的可靠性达到了 90% 以上。JSON 模式终于在高并发环境下也能稳定运行。在 4.6 版本中,由于模型偶尔会生成格式错误的 JSON 或遗漏必填字段,因此构建生产环境代理的开发者需要将工具调用封装在重试循环和模式验证器中。而在 4.7 版本中,大多数情况下都可以移除这些封装。

这听起来似乎微不足道,但实际上并非如此。工具使用的可靠性是每个代理产品的底线。每百分之一的格式错误输出都意味着百分之一的客户可见错误,而 4.7 版本是第一个将这一底线提升到足够高的水平,开发者无需再围绕它进行架构设计。

即时缓存层级改变了单位经济效益

4.7 版本中的即时缓存功能在原有的五分钟缓存层级基础上新增了一小时缓存层级。缓存读取价格下降了约 30%。正是这一改变,使得 Claude 成为高吞吐量智能体的理想之选,并具备了成本竞争力。

宽大的体素背景板覆盖工作室地板的下半部分,由堆叠的体素层构成,正面刻有小型体素阅读器图形,以及一个单字标签“CONTEXT”。
宽大的体素背景板覆盖工作室地板的下半部分,由堆叠的体素层构成,正面刻有小型体素阅读器图形,以及一个单字标签“CONTEXT”。

数据清晰明了。过去,一个智能体加载一个包含 20 万个令牌的系统提示,并在每次会话中执行十次交互,每次都需要支付全额输入费用。而现在,有了 1 小时缓存层级,同样的智能体在第一次读取后,每次只需支付缓存读取费用。对于大规模的客户支持智能体或代码审查机器人而言,这使得 Claude 的价格从高昂转变为与 GPT-5.5 在实际工作负载下相当。

Sonnet 和 Haiku 的速度足以应对高吞吐量任务

Sonnet 4.7 在全质量下比 4.6 快了大约 40%。Haiku 4.7 已达到实时级别。Haiku 层级现在能够以足够快的速度提供首轮令牌,满足流式聊天、语音智能体和实时文档草稿等应用的需求,而 Haiku 4.6 的速度略显不足。

正是这些特性使它们能够胜任高吞吐量工作负载。Granola 将其会议转录和结构化流程迁移到了 Haiku 4.7。Cursor 的 Tab 键自动补全功能则运行在 Sonnet 4.7 上。这两个选择在十二个月前都无法达到可接受的延迟水平。

Opus、Sonnet 和 Haiku 的功能划分

三种模型变体,三种不同的生产流程。选择错误的层级是 2026 年 Claude 构建者最常犯的错误。

| 变体 | 最适合 | 延迟 | 成本结构 | 注意事项 |

|---|---|---|---|---|

| Opus 4.7 | 适用于长期代理、硬排序、规划和复杂的工具编排 | 速度最慢,第一个标记需要数秒 | 输入和输出最高,缓存有所帮助 | 过度消耗 Sonnet 可以解决的任务 |

| Sonnet 4.7 |日常驱动型代理、代码编辑、多文件重构、结构化提取 | 中等水平,热缓存下亚秒级首令牌 | 中等水平,主力层 | 低估了 Sonnet 4.7 的性能,它处理了大部分生产工作 |

| Haiku 4.7 | 高吞吐量、语音和聊天、轻量级草稿处理、分类、实时 | 最快,实时首令牌 | 成本最低,优势明显 | 突破推理能力极限 |

经验法则:Opus 用于高难度推理步骤,Sonnet 用于代理循环主体,Haiku 用于高频表面处理。在 Claude 上,成本最低的生产环境堆栈是分层路由,而不是单一模型部署。

四个你现在可以构建但在 2025 年无法实现的功能

长时间运行的代理、全代码库代码编辑器、基于规则的评估管道以及可发布的计算机使用产品。这四个模式需要 4.7 版本才能实现。

首先,长时间运行的智能体。Opus 4.7 智能体可以连续运行一个实际任务两到四个小时而不会中断线程。而在 4.6 版本中,实际运行时间上限仅为四十分钟。这项技术带来的产品特性包括自主研究、多步骤业务流程自动化以及在站会前完成的通宵代码审查任务。

其次,能够存储完整代码库的 AI 代码编辑器。凭借整个产品系列 100 万个上下文以及长期稳定性,编辑器可以在一个会话期间将整个代码库保存在工作内存中,而无需不断检索代码片段。这对于跨文件重构和架构变更而言是一项重大变革。

第三,能够批量根据评分标准进行评估的评估管道。批量 API 以及可靠性的提升意味着团队可以在一次任务中根据包含 15 个标准的评分标准对一万个输出进行评分,获得结构化的评分结果,并在每次提示更改时将其作为回归测试运行。

第四,能够交付的计算机使用产品。延迟的降低和正式版 (GA) 的发布,使得计算机的使用从测试版玩具转变为浏览器自动化、结构化数据提取和质量保证 (QA) 流程的真正平台。

工作室地板上摆放着由体素构成的两乘两网格状基座,基座上放置着轮廓清晰的小型体素物体,并配有单字标签:代理代码、评估、使用
工作室地板上摆放着由体素构成的两乘两网格状基座,基座上放置着轮廓清晰的小型体素物体,并配有单字标签:代理代码、评估、使用

想要在 Claude 4.7 上构建产品,而无需花费任何时间重写模型?聘请 Brainy。ClaudeBrainy 提供针对 4.7 系列优化的 Claude 技能,以及能够正确处理模型层的提示库;AppBrainy 则为希望其 AI 功能从一开始就能在新系列上运行的团队提供完整的产品构建版本。

4.7 版本上的实际产品示例

Sonnet 4.7 上的光标是最明显的例子。Tab 键自动补全、Composer 和 Agent 模式都可以在新版 Sonnet 上运行,速度提升是实实在在的。使用 AI代码编辑器对比 工作流的 IDE 原生开发者在会话中就能感受到这种差异。

在 Haiku 4.7 版本中,Granola 提供了实时会议转录和结构化笔记提取功能。当 Haiku 的速度足够快,可以替代一系列小型专用模型时,其成本线从高端产品降至普通产品。

Linear AI 调用 Opus 4.7 来完成复杂的排序和优先级排序步骤。问题分类、迭代计划和依赖关系分析都由 Opus 处理,而日常核心工作则由 Sonnet 完成。这种分层路由模式是大多数生产团队最终采用的。

Devin 运行在全系列产品之上。长期编码任务依赖于 Opus 4.7。代理循环的核心部分运行在 Sonnet 4.7 上。快速工具调用和查找则由 Haiku 4.7 处理。最终,一个运行十小时的自主编码代理,其单项任务成本低于运行时间只有一半的 4.6 版本。

Claude 4.7 的不足之处

Claude 4.7 并非完美无缺。在最终确定模型之前,每个开发者都需要一份详尽的缺点清单。

多模态输出。Claude 4.7 可以很好地读取图像和 PDF 文件,但它无法生成图像、音频或视频。对于需要单一模型来读取和生成跨模态内容的产品而言,Claude 并非最佳选择。

Opus 4.7 的峰值速度。Opus 4.7 的速度比 Opus 4.6 快,但在完全推理深度下,它仍然比 GPT-5.5 的高吞吐量配置慢。对于需要大规模快速硬推理的工作负载,OpenAI 有时才是最佳选择。

实时数据。 Claude 缺乏第一方搜索、实时数据工具和成熟度与其他产品相当的原生语音模式。构建实时数据产品的开发者需要额外添加搜索层,或者选择一个内置搜索功能的模型。

图像生成。这不是 Claude 的范畴。就此打住。

哪些领域仍然选择 GPT-5.5 或 Gemini 3

GPT-5.5 在原始多模态输出方面仍然胜出,尤其是在图像生成和实时语音方面。对于用户期望模型能够像其他产品一样进行绘图、说话和聆听的产品,GPT-5.5 是更简洁的选择。

Gemini 3 在 Google 原生数据访问、大规模视频理解以及 Workspace 界面内的多模态集成方面更胜一筹。对于嵌入 Google 文档、表格或云端硬盘的产品,Gemini 3 在结构上更经济实惠。Gemini 3 的 200 万个标记上下文窗口在处理超长文档时,其原始大小也优于 Claude。

目前这种差异是结构性的。选择时应根据工作类型而非市场营销策略。一款真正意义上的 AI 产品在 2026 年通常至少会涵盖两个模型系列。

常见问题解答

什么是 Claude 4.7?

Claude 4.7 是 Anthropic 模型的新一代产品,于 2026 年初发布,包含 Opus 4.7、Sonnet 4.7 和 Haiku 4.7 三个变体。主要改进包括:智能体运行时间超过两小时的稳定性、全系列产品标配 100 万上下文窗口、计算机使用功能全面开放、提示缓存层级改进,以及 Sonnet 和 Haiku 的速度显著提升。

Claude 4.7 与 4.6 有何不同?

四大改进。长时间运行的智能体能够保持两到四个小时的一致性,而非之前的四十分钟。100 万上下文窗口现在是所有变体的标准配置,不再是 Opus 的专属功能。计算机使用功能已结束测试阶段,操作循环速度大约提升了一倍。提示缓存新增了一小时缓存层级,并降低了读取价格,这使得 Claude 在高容量智能体领域具备了成本竞争力。

我应该使用哪个 Claude 4.7 型号?

Opus 4.7 适用于复杂推理、规划和长周期智能体。 Sonnet 4.7 适用于日常使用、代码编辑和大多数代理循环工作。Haiku 4.7 适用于高吞吐量、语音、实时聊天和分类。最经济的生产环境方案是使用这三种模型的分层路由,而不是单一模型部署。

Claude 4.7 比 GPT-5.5 更好吗?

各有优劣。Claude 4.7 在代理可靠性、代码处理、结构化工具使用和长期稳定性方面更胜一筹。GPT-5.5 在多模态输出、图像生成、实时语音和峰值推理时的原始吞吐量方面更胜一筹。到 2026 年,大多数生产级 AI 产品都会在两者之间进行路由,而不是只选择其中一种。

Claude 4.7 是否具有 100 万上下文窗口?

是的。所有三个 4.7 版本都标配 100 万个 token 的上下文窗口,并且模型能够充分利用整个窗口,保持较高的用户留存率,而不是像以往那样将注意力集中在最后几千个 token 上。

转变 Claude 4.7 的真正突破

Claude 4.7 是第一个模型层不再成为瓶颈的版本。这改变了哪些产品值得开发。在 4.6 版本中无法运行的自主编码代理在 4.7 版本中可以正常运行。原本用于研究演示的全代码库评估流程变成了回归测试。原本用于 Loom 视频演示的计算机应用产品变成了付费平台。

大多数团队仍然将每次模型发布视为对现有产品的增量改进。而那些在 2026 年脱颖而出的团队,会主动思考哪些产品只有在新版本中才能真正发挥作用,并在下一代版本发布之前就推出这些产品。这就是 4.7 版本的全部意义所在。

如果您的团队正在基于 Claude 进行开发,而讨论却停留在基准测试分数上,那么问题就出在讨论本身。选择与实际工作相匹配的版本,基于新功能进行开发,而不是简单地移植旧功能,最终以交付成果为依据。

如果您希望在 Claude 4.7 上进行开发,而无需花费一个季度的时间重写模型,请选择 聘请 Brainy。ClaudeBrainy 提供针对 4.7 系列优化的技能包和提示库。AppBrainy 则为希望其 代理 UI 模式 和 AI 功能从一开始就能在新版本上运行的团队提供完整的产品构建版本。

Want help building on Claude 4.7 without losing a quarter to model rewrites? Brainy ships ClaudeBrainy as a Skill pack and prompt library tuned for the 4.7 family, plus AppBrainy for teams that want full product builds running on the new model layer.

Get Started

More from Brainy Papers

Keep reading