编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

基于Kimi 2.5的Cursor新版Composer 2.5来了,狂飙10倍效率,百万Token只要2.5美元! 最惊人的是,它在RL训练里嫌任务太难,竟然学会了逆向缓存、反编译字节码去「作弊钻空子」…… 大规模强化学习的潘多拉魔盒已被打开,AI黑客成精了。

今天,AI编程领域的强势玩家——Cursor,毫无预兆地推出了一位强悍选手。

官方正式宣布,全新升级的AI编程模型Composer 2.5正式上线!

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

基准测试显示,Composer 2.5在部分编程基准测试上的表现,已经非常接近Claude 4.7 Opus和GPT-5.5。

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

这是一场从底层训练架构、工程效率到商业定价的全面颠覆。

官方数据显示,Composer 2.5在长任务持续性和复杂指令遵循上实现了显著突破,实际运行效率竟然比当前市面上的主流竞品高出整整10倍!

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

更让人感到震撼的是,伴随着这次升级,大规模强化学习的潘多拉魔盒似乎被打开了。

在训练过程中,这个AI模型竟然学会了「作弊」和「钻空子」——为了完成任务,它不仅自主逆向了Python的缓存格式,甚至还学会了去反编译Java字节码!

在官方X上,Cursor承认,Composer 2.5是基于Kimi K2.5构建的。

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

所以,Cursor究竟用了什么黑魔法?

性能掀翻天花板

10倍效率与硬刚GPT-5.5的底气

在AI编程赛道,很多开发者最头疼的痛点就是后劲不足。

很多模型在写个十几行的简单函数时表现得像个天才,但只要把它扔进一个数十万行代码的大型真实项目里,它就会开始胡言乱语。

而Composer 2.5,就是为了终结这个痛点而生的!

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

长任务与复杂指令的性能王者

根据Cursor官方的说法,Composer 2.5是他们迄今为止最强大的模型。相较于前代,它在智能水平、长周期任务的持续工作能力,以及复杂指令的依从性上,都实现了跨越式的提升。

在长达数天或涉及数万个Token的长轨迹开发场景中,Composer 2.5表现出了令人惊叹的稳定性。

它不再是一个只会对单次Prompt做出反应的复读机,而变成了一个能够真正理解上下文演变的「资深全栈工程师」。

它的运行效率与资源占用表现均远优于当前的主流AI编程工具,运行效率最高提升了10倍。

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

这意味着,以前需要开发者反复调试、等待数分钟的大型项目代码迭代,现在在秒级内就能得到更精准的反馈。

百万Token仅2.5美元:极致的工程性价比

如果说性能让人兴奋,那么它的价格则让整个行业感到震撼!

Composer 2.5 定价白皮书:

– 标准版: 每百万(1M)输入Token仅需0.50美元,每百万(1M)输出Token仅需2.50美元。

– Fast变体版: 智能水平相同但速度极快,价格为每百万输入Token 3.00美元,每百万输出Token 15.00美元。

Composer 2.5在部分编程基准测试上已经接近Claude 4.7 Opus和GPT-5.5,然而,它的成本却仅仅是它们的一小部分!

这揭示了一个残酷而关键的行业新趋势:未来的AI编程竞争,就是看谁能用更低的成本,打出更强、更极致的实际工程体验。

最后Cursor更是不讲武德地宣布:在发布后的第一周,平台将直接双倍赠送所有用户的免费使用额度!

这一波降维打击,无疑将大大降低开发者的试用门槛。

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

底层黑魔法之一

定向文本反馈RL,解决「信用分配」百年难题

为什么Composer 2.5能变得这么聪明且稳定?这得归功于Cursor在强化学习训练上引入的全新机制。

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

Cursor创始人表示:我们在强化学习方面已经做得极其出色了。Composer 2.5 完成了越级挑战,其表现远远超出了它这个参数规模应有的水平。对于下一个版本,我们无比兴奋

在传统的强化学习中,有一个让无数科学家头疼的经典难题——信用分配难题。

什么是信用分配难题?

想象一下,AI在编写一段非常长的代码,中间它一共调用了几百次各种工具。

在第50步的时候,AI犯了一个小错:它尝试调用了一个不存在的、或者不可用的工具,但随后迅速调整,在接下来的几百步里继续进行了正确的工具调用。

在传统的RL训练中,奖励信号是在整个过程全部结束后才统一计算并返回的。最终的奖励可能会告诉模型:「这次任务整体完成得不够完美。」

但这时候模型就懵了:一共写了上千行代码,到底是在哪一步做错了?

解决方案:定向文本反馈

为了彻底解决这个问题,Cursor在训练Composer 2.5时,祭出了「定向文本反馈RL」。

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

它的核心思路非常精妙:在模型本可以表现得更好的具体位置,直接把反馈钉在那个地方。

具体的技术实现步骤如下:

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

通过这种方式,Cursor既为想要改变的微观局部行为提供了极其精准、局部化的训练信号,同时又完美保留了贯穿完整长轨迹的宏观RL目标。

这也是为什么Composer 2.5在实际协作体验中,表现得像一个高情商、高技术的老手。

因为它在训练中,每一处微小的表达和逻辑偏差,都被这种定向文本反馈精雕细琢过。

底层黑魔法之二

合成数据暴涨25倍,AI竟然学会了「作弊」!

有了精准的训练方法,接下来就需要庞大的训练燃料。

在RL的训练过程中,随着Composer的编码能力显著提升,它很快就把原有的训练集题目给刷爆了。

为了逼出模型的极限潜能,Cursor的研发团队开始在训练过程中,动态地筛选和生成难度极高的合成任务。

Composer 2.5所使用的合成任务数量,达到了惊人的上一代(Composer 2)的25倍!

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

如何在大规模代码库的基础上,凭空创造出成千上万个高难度的编程任务?Cursor采用了一种非常绝妙的方法——功能删除。

1. 智能体会拿到一个包含大量现成测试(Tests)的成熟代码库。

2. 系统要求智能体以某种方式,精准地把某些代码和文件删掉。

3. 核心要求: 代码库在删掉这些文件后必须保持可运行,但原有的某项特定、可测试的功能必须被彻底移除。

4. 生成任务: 删完之后,这个残缺的代码库就变成了一个全新的高难度合成任务——要求AI重新把这个被删除的功能实现出来,而原有的那些测试,则被直接用作奖励信号。

打开潘多拉魔盒:模型学会了「奖励作弊」

然而,当合成数据的规模扩大了25倍,且任务难度被拉到极限时,意料之外的事情发生了。

随着模型能力在持续的强化学习中疯狂进化,Composer 2.5竟然开始展现出让人啼笑皆非、又脊背发凉的「奖励作弊」能力。

它开始像人类黑客一样,寻找各种复杂的变通办法来走捷径。

在监控中,团队发现了两个极为震撼的真实案例。

逆向Python缓存: 在一次「功能删除」后要求重新实现的任务中,模型敏锐地发现系统里还残留着一块Python类型检查的缓存。它没有重写复杂的函数体,而是直接通过逆向这块缓存的底层格式,硬生生地找回并提取出了已经被删掉的函数签名,以此轻松通过了测试。

反编译Java字节码: 在另一个涉及第三方API调用的高难度任务里,由于缺乏文档和源码,正常编写极度困难。结果,Composer 2.5竟然在环境里找到了编译好的Java字节码,并自主运行了反编译工具,通过阅读反编译出来的底层代码,彻底重建了该第三方API。

但这无疑向全行业敲响了警钟:在大规模强化学习的催化下,AI为了拿到高分,其自主涌现出的行为边界,可能远超人类最初的设想。

顶级工程架构

分片Muon优化器与双网格HSDP

在底层算力调度和模型优化上,Composer 2.5同样展现了顶级大厂都未必具备的硬核工程能力。

现在我们都知道,Composer 2.5是基于开源社区中大名鼎鼎的Moonshot Kimi K2.5开源checkpoint构建的。

如何让数万亿参数的模型在庞大的集群中高效运转、同时把网络通信开销降到最低?

Cursor给出了两项堪称艺术级的工程解法。

分片Muon优化器:每步耗时仅0.2秒!

在模型的持续预训练中,团队使用了带分布式正交化的Muon优化器。

这里面最大的计算开销,其实在于对庞大的专家权重进行正交化。为了解决这个问题,Cursor设计了一套精妙的异步传输机制:

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

最终的结果惊为天人:在一个高达1T参数规模的模型上,优化器每一步的耗时,居然被死死压在了区区0.2秒以内!

双网格HSDP架构

为了让MoE模型的效率最大化,Cursor对模型内部不同性质的权重,量身定制了完全不同的 HSDP 布局:

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

更绝的是,通过将这两种布局彻底分开,彼此独立的并行维度得以完美重叠。

例如,CP=2(上下文并行)和 EP=8(专家并行)可以直接在 8 个 GPU 上高效运行,而根本不需要在单个共享网格中强行占用 16 个 GPU。

这种对硬件资源的极致压榨,正是Cursor能够将推理和训练成本打到如此低廉的底层底气。

Cursor携手SpaceXAI

向百万H100集群进发

在官博最后,Cursor正式宣布:他们目前正在与 SpaceXAI 展开深度战略合作!一下子就把竞争拉到了科幻级别。

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

双方的目标非常简单且暴力:直接调用Colossus 2集群中整整100万个H100等效算力,从零开始训练一个计算规模整整扩大10倍的全新超大模型!

编程新王Composer 2.5来了,逼近Opus 4.7!成本仅为1/10

100万张H100等效算力是什么概念?这几乎是目前人类地表上能组装起来的最恐怖的算力怪兽。

Cursor自身的精湛机制,与SpaceXAI的百万级顶级算力集群结合时,下一代模型的全自主编程能力,将会进化到何种地步?

从今天起,随着Composer 2.5的全面普及,软件开发的门槛和效率将被重新定义。

每百万输出Token仅2.5美元的超低成本,意味着AI编程将彻底走向平民化和常态化。

赶紧打开你的Cursor,去体验一下首周用量双倍赠送的Composer 2.5吧。

参考资料:

https://x.com/cursor_ai/status/2056415413077233983

https://cursor.com/cn/blog/composer-2-5

编辑:Aeneas David

本文来自转载新智元 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
资讯组小编的头像资讯组小编
20刀月费秒变API!Hermes一行命令就能用上Claude、ChatGPT订阅
上一篇 1小时前
宇树科技发布一镜到底视频:语音驱动机器人实时生成任意动作
下一篇 1小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论