编程新王Composer 2.5来了，逼近Opus 4.7！成本仅为1/10

资讯组小编 • 文章来源: 新智元 • 2026年5月19日下午7:48 • 新闻

基于Kimi 2.5的Cursor新版Composer 2.5来了，狂飙10倍效率，百万Token只要2.5美元！最惊人的是，它在RL训练里嫌任务太难，竟然学会了逆向缓存、反编译字节码去「作弊钻空子」…… 大规模强化学习的潘多拉魔盒已被打开，AI黑客成精了。

今天，AI编程领域的强势玩家——Cursor，毫无预兆地推出了一位强悍选手。

官方正式宣布，全新升级的AI编程模型Composer 2.5正式上线！

基准测试显示，Composer 2.5在部分编程基准测试上的表现，已经非常接近Claude 4.7 Opus和GPT-5.5。

这是一场从底层训练架构、工程效率到商业定价的全面颠覆。

官方数据显示，Composer 2.5在长任务持续性和复杂指令遵循上实现了显著突破，实际运行效率竟然比当前市面上的主流竞品高出整整10倍！

更让人感到震撼的是，伴随着这次升级，大规模强化学习的潘多拉魔盒似乎被打开了。

在训练过程中，这个AI模型竟然学会了「作弊」和「钻空子」——为了完成任务，它不仅自主逆向了Python的缓存格式，甚至还学会了去反编译Java字节码！

在官方X上，Cursor承认，Composer 2.5是基于Kimi K2.5构建的。

所以，Cursor究竟用了什么黑魔法？

性能掀翻天花板

10倍效率与硬刚GPT-5.5的底气

在AI编程赛道，很多开发者最头疼的痛点就是后劲不足。

很多模型在写个十几行的简单函数时表现得像个天才，但只要把它扔进一个数十万行代码的大型真实项目里，它就会开始胡言乱语。

而Composer 2.5，就是为了终结这个痛点而生的！

长任务与复杂指令的性能王者

根据Cursor官方的说法，Composer 2.5是他们迄今为止最强大的模型。相较于前代，它在智能水平、长周期任务的持续工作能力，以及复杂指令的依从性上，都实现了跨越式的提升。

在长达数天或涉及数万个Token的长轨迹开发场景中，Composer 2.5表现出了令人惊叹的稳定性。

它不再是一个只会对单次Prompt做出反应的复读机，而变成了一个能够真正理解上下文演变的「资深全栈工程师」。

它的运行效率与资源占用表现均远优于当前的主流AI编程工具，运行效率最高提升了10倍。

这意味着，以前需要开发者反复调试、等待数分钟的大型项目代码迭代，现在在秒级内就能得到更精准的反馈。

百万Token仅2.5美元：极致的工程性价比

如果说性能让人兴奋，那么它的价格则让整个行业感到震撼！

Composer 2.5 定价白皮书：

– 标准版：每百万（1M）输入Token仅需0.50美元，每百万（1M）输出Token仅需2.50美元。

– Fast变体版：智能水平相同但速度极快，价格为每百万输入Token 3.00美元，每百万输出Token 15.00美元。

Composer 2.5在部分编程基准测试上已经接近Claude 4.7 Opus和GPT-5.5，然而，它的成本却仅仅是它们的一小部分！

这揭示了一个残酷而关键的行业新趋势：未来的AI编程竞争，就是看谁能用更低的成本，打出更强、更极致的实际工程体验。

最后Cursor更是不讲武德地宣布：在发布后的第一周，平台将直接双倍赠送所有用户的免费使用额度！

这一波降维打击，无疑将大大降低开发者的试用门槛。

底层黑魔法之一

定向文本反馈RL，解决「信用分配」百年难题

为什么Composer 2.5能变得这么聪明且稳定？这得归功于Cursor在强化学习训练上引入的全新机制。

Cursor创始人表示：我们在强化学习方面已经做得极其出色了。Composer 2.5 完成了越级挑战，其表现远远超出了它这个参数规模应有的水平。对于下一个版本，我们无比兴奋

在传统的强化学习中，有一个让无数科学家头疼的经典难题——信用分配难题。

什么是信用分配难题？

想象一下，AI在编写一段非常长的代码，中间它一共调用了几百次各种工具。

在第50步的时候，AI犯了一个小错：它尝试调用了一个不存在的、或者不可用的工具，但随后迅速调整，在接下来的几百步里继续进行了正确的工具调用。

在传统的RL训练中，奖励信号是在整个过程全部结束后才统一计算并返回的。最终的奖励可能会告诉模型：「这次任务整体完成得不够完美。」

但这时候模型就懵了：一共写了上千行代码，到底是在哪一步做错了？

解决方案：定向文本反馈

为了彻底解决这个问题，Cursor在训练Composer 2.5时，祭出了「定向文本反馈RL」。

它的核心思路非常精妙：在模型本可以表现得更好的具体位置，直接把反馈钉在那个地方。

具体的技术实现步骤如下：

通过这种方式，Cursor既为想要改变的微观局部行为提供了极其精准、局部化的训练信号，同时又完美保留了贯穿完整长轨迹的宏观RL目标。

这也是为什么Composer 2.5在实际协作体验中，表现得像一个高情商、高技术的老手。

因为它在训练中，每一处微小的表达和逻辑偏差，都被这种定向文本反馈精雕细琢过。

底层黑魔法之二

合成数据暴涨25倍，AI竟然学会了「作弊」！

有了精准的训练方法，接下来就需要庞大的训练燃料。

在RL的训练过程中，随着Composer的编码能力显著提升，它很快就把原有的训练集题目给刷爆了。

为了逼出模型的极限潜能，Cursor的研发团队开始在训练过程中，动态地筛选和生成难度极高的合成任务。

Composer 2.5所使用的合成任务数量，达到了惊人的上一代（Composer 2）的25倍！

如何在大规模代码库的基础上，凭空创造出成千上万个高难度的编程任务？Cursor采用了一种非常绝妙的方法——功能删除。

1. 智能体会拿到一个包含大量现成测试（Tests）的成熟代码库。

2. 系统要求智能体以某种方式，精准地把某些代码和文件删掉。

3. 核心要求：代码库在删掉这些文件后必须保持可运行，但原有的某项特定、可测试的功能必须被彻底移除。

4. 生成任务：删完之后，这个残缺的代码库就变成了一个全新的高难度合成任务——要求AI重新把这个被删除的功能实现出来，而原有的那些测试，则被直接用作奖励信号。

打开潘多拉魔盒：模型学会了「奖励作弊」

然而，当合成数据的规模扩大了25倍，且任务难度被拉到极限时，意料之外的事情发生了。

随着模型能力在持续的强化学习中疯狂进化，Composer 2.5竟然开始展现出让人啼笑皆非、又脊背发凉的「奖励作弊」能力。

它开始像人类黑客一样，寻找各种复杂的变通办法来走捷径。

在监控中，团队发现了两个极为震撼的真实案例。

逆向Python缓存：在一次「功能删除」后要求重新实现的任务中，模型敏锐地发现系统里还残留着一块Python类型检查的缓存。它没有重写复杂的函数体，而是直接通过逆向这块缓存的底层格式，硬生生地找回并提取出了已经被删掉的函数签名，以此轻松通过了测试。

反编译Java字节码：在另一个涉及第三方API调用的高难度任务里，由于缺乏文档和源码，正常编写极度困难。结果，Composer 2.5竟然在环境里找到了编译好的Java字节码，并自主运行了反编译工具，通过阅读反编译出来的底层代码，彻底重建了该第三方API。

但这无疑向全行业敲响了警钟：在大规模强化学习的催化下，AI为了拿到高分，其自主涌现出的行为边界，可能远超人类最初的设想。

顶级工程架构

分片Muon优化器与双网格HSDP

在底层算力调度和模型优化上，Composer 2.5同样展现了顶级大厂都未必具备的硬核工程能力。

现在我们都知道，Composer 2.5是基于开源社区中大名鼎鼎的Moonshot Kimi K2.5开源checkpoint构建的。

如何让数万亿参数的模型在庞大的集群中高效运转、同时把网络通信开销降到最低？

Cursor给出了两项堪称艺术级的工程解法。

分片Muon优化器：每步耗时仅0.2秒！

在模型的持续预训练中，团队使用了带分布式正交化的Muon优化器。

这里面最大的计算开销，其实在于对庞大的专家权重进行正交化。为了解决这个问题，Cursor设计了一套精妙的异步传输机制：

最终的结果惊为天人：在一个高达1T参数规模的模型上，优化器每一步的耗时，居然被死死压在了区区0.2秒以内！

双网格HSDP架构

为了让MoE模型的效率最大化，Cursor对模型内部不同性质的权重，量身定制了完全不同的 HSDP 布局：

更绝的是，通过将这两种布局彻底分开，彼此独立的并行维度得以完美重叠。

例如，CP=2（上下文并行）和 EP=8（专家并行）可以直接在 8 个 GPU 上高效运行，而根本不需要在单个共享网格中强行占用 16 个 GPU。

这种对硬件资源的极致压榨，正是Cursor能够将推理和训练成本打到如此低廉的底层底气。

Cursor携手SpaceXAI

向百万H100集群进发

在官博最后，Cursor正式宣布：他们目前正在与 SpaceXAI 展开深度战略合作！一下子就把竞争拉到了科幻级别。

双方的目标非常简单且暴力：直接调用Colossus 2集群中整整100万个H100等效算力，从零开始训练一个计算规模整整扩大10倍的全新超大模型！

100万张H100等效算力是什么概念？这几乎是目前人类地表上能组装起来的最恐怖的算力怪兽。

Cursor自身的精湛机制，与SpaceXAI的百万级顶级算力集群结合时，下一代模型的全自主编程能力，将会进化到何种地步？

从今天起，随着Composer 2.5的全面普及，软件开发的门槛和效率将被重新定义。

每百万输出Token仅2.5美元的超低成本，意味着AI编程将彻底走向平民化和常态化。

赶紧打开你的Cursor，去体验一下首周用量双倍赠送的Composer 2.5吧。

参考资料：

https://x.com/cursor_ai/status/2056415413077233983

https://cursor.com/cn/blog/composer-2-5

编辑：Aeneas David

本文来自转载新智元，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

赞 (0)

资讯组小编

微信扫一扫

微信扫一扫

20刀月费秒变API！Hermes一行命令就能用上Claude、ChatGPT订阅

20刀月费秒变API！Hermes一行命令就能用上Claude、ChatGPT订阅

上一篇 2026年5月19日下午7:47

宇树科技发布一镜到底视频：语音驱动机器人实时生成任意动作

宇树科技发布一镜到底视频：语音驱动机器人实时生成任意动作

下一篇 2026年5月19日下午7:56

扫码关注我们，了解最新AI资讯~

新闻

谷歌全家桶，都被新模型“污染”了

资讯组小编
2026年5月27日
新闻

AI 让所有人变轻松，却让80后变沉重

资讯组小编
2026年6月1日
新闻

王力宏推出全球首支可交互AI音乐电影！网友：歌词能不能也用AI抢救一下？

资讯组小编
2026年5月25日
新闻

Claude Opus 4.8的灵异事件

资讯组小编
2026年6月17日
新闻

便宜的Token很烫手，第三方AI中转站遍地是坑

资讯组小编
2026年4月15日
新闻

微软按下 vibe coding 暂停键：烧 token 已经比员工贵了

资讯组小编
2026年5月26日

发表回复

登录后才能评论

特斯拉限制员工AI使用开销
8小时前
分享到:

特斯拉公司将从本月6日开始，限制员工在人工智能工具上的开销。每名员工每周在AI工具上的花费上限为200美元，超出部分须经主管批准。特斯拉员工使用马斯克旗下的XAI的Grok模型不计入200美元额度。Grok在特斯拉员工群体中接受度偏低，多数员工依旧选择使用Anthropic旗下的Claude。
华为何庭波发布V2版“韬定律”论文补充工程细节和实测数据
14小时前
分享到:

根据中国科学院科技论文预发布平台ChinaXiv最新公示论文，华为半导体负责人何庭波于7月3日发布《面向多层级电子系统的时间缩微理论》（业内也称“韬定律”）V2版本。相比较5月25日发布的V1版本，新版论文在原有理论框架基础上，补充了大量工程落地细节、实测量化数据与产品演进路线，进一步完善了以时间常数τ为核心的后摩尔时代缩放理论体系。在工程落地方面，V2版本深度阐释核心技术LogicFolding的齿比（gearratio）概念，在混合键合间距接近顶层金属布线尺寸时，3D设计空间从传统的“宏块级离散优化”转向“单元级连续优化”，可实现全局最优的垂直逻辑划分，突破了传统3D堆叠仅能按功能块分层的局限。V2版还新增量产实测数据表，明确给出Kirin2026与基准Kirin9030Pro的电压、频率、归一化功耗、面积与功率密度参数。
规范引导情感陪伴人形机器人健康发展两协会联合倡议
14小时前
分享到:

中国人形机器人百人会和中国机械工业联合会今天联合发布关于规范和引导情感陪伴人形机器人发展的倡议，提倡共同践行科技向善、推动机器人产业健康发展。记者了解到，当前，我国人形机器人产业加速创新发展，正逐步融入工业、特种和服务等各类场景。近期，包括“情感陪伴人形机器人”等产品陆续对外发布，人形机器人正走进家庭、走向生活。倡议提出，行业应坚守服务人类福祉的初心，把安全伦理规范要求融入产品设计、研发、广告宣传、应用全过程。加强个人信息保护，筑牢用户隐私安全防线。强化质量管理，保障产品使用安全，切实防范对用户的人身伤害风险。同时聚焦关键核心技术，加大基础技术研发投入。立足实际应用场景推广应用，促进技术迭代升级，以创新驱动产品可靠性与实用性提升。协同搭建产业公共平台，凝聚产学研合力，稳步提升我国人形机器人产业竞争力。
豆包：智能体功能将于7月15日下线
18小时前
分享到:

据豆包平台消息，由于产品功能调整，智能体功能将于2026年7月15日下线。功能下线后，用户仍可在一段时间内通过豆包查看并自行保存智能体信息及历史对话数据。2026年10月15日后，豆包将根据《隐私政策》对智能体相关数据进行处理，后续将无法在豆包内查看或恢复。如有重要内容，建议通过截图或分享导出文本的方式提前完成备份。
千问智能体功能与服务将于7月15日正式下线
18小时前
分享到:

据千问平台消息，千问智能体功能与服务将于2026年7月15日正式下线，下线后，用户将无法继续访问相关智能体配置及历史对话记录。
Anthropic重新上架Claude Fable 5，用户反馈性能下降并频繁回退至Opus 4.8
23小时前
分享到:

7月3日，科技媒体bleepingcomputer报道称，Anthropic于7月1日重新上线Claude Fable 5模型。该模型6月30日解除出口管制后恢复服务，但受限于每周额度50%的使用上限，7月7日起将全面转为积分计费。多名用户反馈其实际表现弱于此前版本，存在响应迟缓、逻辑减弱等“降智”现象，并更频繁触发安全限制，自动回退至Claude Opus 4.8。Reddit及X平台相关讨论证实该问题普遍存在，@arena测试平台数据显示结果一致性较高。
韩国拟打造“韩版星链”
23小时前
分享到:

据韩联社3日报道，韩国政府决定在2035年前建成由数百颗卫星组成的低轨卫星通信网络。韩国宇宙航空厅厅长吴泰锡表示，低轨卫星通信网络是维护国家安全与通信主权的核心基础设施，也是支撑6G时代的国家战略基础设施，其构建有助于加强韩国卫星和运载火箭研发和制造能力。此外，他还介绍了将在2030年提前实现月球着陆的计划。
生数科技正式发布Vidu S1实时交互模型
23小时前
分享到:

生数科技正式发布Vidu S1实时交互模型，提供实时可交互的新一代视频生成能力，模型支持实时视频通话和语音控制视频走向。同时，Vidu S1支持540P（960×540）高清分辨率、25FPS帧率（最高支持42FPS），可基于真人、动漫、萌宠等任意初始形象及个性化音色，快速创建专属交互角色。
大模型到底「边做边学」？字节跳动与Epoch AI同日发表相反结论仍待验证
1天前
分享到:

字节跳动seed团队发布智能体基准测试edgebench，用于研究AI在12至72小时超长周期任务中的环境学习表现。在分析超过3.8万小时的智能体运行记录后，研究团队发现AI的学习曲线高度可预测，智能体性能随交互时间延长而提升，精准拟合对数逻辑斯蒂log-sigmoid曲线。研究者借用图搜索理论解释这一规律，认为智能体的进步如同在技能图谱上向外扩张边界，seed团队已将基准测试框架及首批51个任务开源。与之相反，研究机构Epoch AI同日发布ebr-bench评估结果得出不同结论。在对桌游环境的测试中，即使提供策略指南，AI在重复尝试后也几乎没有表现出学习和自我改进行为。这一分歧表明，AI的自主学习潜力受任务环境和反馈链路设计影响极大。在系统级工程或科学探索等需要连续环境回馈的场景中，智能体能够建立起累积优势，但在策略相对复杂的离散规则游戏中，当前的在轨学习仍然举步维艰。
报告：固定算力掩盖了AI真实能力，前沿智能体进化速度被低估60%
1天前
分享到:

英国AI安全研究所指出，当前主流AI智能体测试存在重大盲区，固定算力上限的评估方法严重低估了模型的真实能力与迭代速度。研究团队测试了多款前沿大模型在网络安全、软件工程和数学等基准中的表现，发现智能体的表现随着测试时算力的增加而持续提升。在网络攻防测试中，当算力预算从250万tokens提升至5000万tokens时，智能体可攻克任务的复杂度上限从2小时飙升至14小时。新模型在充足预算下的利用效率显著高于旧模型，前沿能力演进趋势比低算力测试陡峭约60%。然而，在缺乏即时反馈的医疗等领域，增加算力并不能提升智能体的表现，低预算评估可能导致决策者低估AI智能体的实际风险。

【腾讯云】 4核4G服务器新客 38元/年起，支持 OpenClaw/Hermes 等热门镜像；Token Plan 低至28元/月，多种主流模型极速调用