全网实测Kimi K2.7 Code！黑洞、燃烧动画、水波渲染全卷起来了

评测组小编 • 文章来源: 量子位 • 2026年6月15日下午4:46 • 评测

代码模型赛道热闹不停。

月之暗面放出Kimi K2.7 Code，这也是Kimi K2系列首款专攻代码领域的专项模型。

新模型代码能力、Agent能力全面进阶，改善了长程任务里“过度思考”的问题，平均Token消耗直接减少30%，长周期复杂任务的成功率也再上新台阶。

Kimi新品一出，热度也是真烫，不少玩家第一时间上手试了一把，把跟GPT 5.5的对比实测都整出来了——

对比纯原生编写HTML5 Canvas物理模拟程序的能力。

第一个任务是模拟弹簧摆在伸缩线圈上运动，第二个任务是模拟1公斤的物体与10万公斤的物体发生碰撞，前两个任务两位选手的表现相当。

下一个任务是让22个球在一个旋转的六边形中运动，两款模型呈现出截然不同的效果。

Kimi K2.7这边的小球会随着滚筒的转动同步滑动，GPT 5.5那里的小球在滚筒里自由弹跳……

只不过，Kimi K2.7 Code的开销更少。

三个任务下来，最终Kimi K2.7 Code消耗了52.4k Token，成本仅0.28美元；

GPT-5.5消耗了23.4k Token，成本为0.93美元。

结合基准榜单成绩，这款新模型的综合实力还真值得一看。

机器学习工程领域突出

在官方交出的答卷里，相较前代Kimi K2.6，K2.7 Code实现全方位提升。

在纯代码能力测试里，Kimi Code Bench v2得分提升21.8%，Program-Bench上涨 11%；尤其在机器学习工程领域优势突出，MLS Bench Lite成绩增幅高达31.5%。

Agent能力同样进步显著，在多款专项测试中整体性能提升约10%，多工具联动、自动化任务执行更加稳定。

除了官方测评，各大行业热门基准榜单也印证了它的能力。

在侧重复杂算法与数学证明的ErdosBench中，Kimi K2.7 Code综合排名全网第二，仅次于 Claude Fable 5 max。

在开发者关注度最高的代码类榜单中，它更是拿下SWE-bench、Terminal-Bench 2.1两大榜单开源模型第一名，同时位列Vibe Code Bench第三名、ProgramBench第二名。

对比旧版本，它在Vibe Code Bench的得分从37.89%提升至47.21%。

更值得一提的是，在一份由Weco团队发布的，覆盖7款前沿模型的自主研究任务综合测评中，Kimi K2.7 Code也交出了亮眼答卷。

这项测试从机器学习工程、提示工程与算法发现三大维度，对模型在成本约束下的科研辅助能力进行了全面评估。

在最终的整体得分里，它以0.747分紧随 Claude Fable 5、Gemini 3.1 Pro、GPT-5.5、Gemini 3.5 Flash之后，超过了Claude Opus 4.8，排在第五位。

在机器学习工程这一专项上，K2.7 Code表现更好，拿下第一名。

还有个小发现是，Fable 5在这个专项上的表现一般，可能是成本过高的缘故……

实测对比

光看成绩单还不够，再来看看各种实测场景。

一位开发者分享了Kimi K2.7 Code一镜到底生成的黑洞物理模拟视频，成品效果细节拉满，光、引力透镜、星场效果都相当还原。

还有Kimi K2.6 vs Kimi K2.7 Code，给了一模一样的提示词，让它们用纯HTML Canvas、零外部库实现“一封信烧成灰烬”的动画。

K2.6这边只有模糊的灰烟，燃烧边缘生硬，纸张几乎没有焦痕和动态变化。

K2.7 Code火焰分层清晰，纸张边缘有不规则的燃烧轮廓，前方还有焦痕、碳化变黑的细节；余烬颗粒从烧着的部分脱落，连火星的渐变都做了出来。

和自己对比还不够，GPT 5.5和Claude Opus 4.8也得拉出来溜溜。

GMI Cloud选取洛伦兹吸引子、太阳系、水波三大经典物理场景展开实测。

Kimi K2.7 Code尤其在水波渲染上，呈现出最逼真的效果，水面波光粼粼，涟漪扩散自然，光影反射也做得十分细腻。

而GPT 5.5和Claude Opus 4.8的画面更像一块僵硬的蓝布，没有水面的质感。

这种物理渲染效果，不仅能表现模型的代码能力，更能直观展现它在复杂物理场景下的理解与实现能力。

亮眼的实战表现搭配亲民的使用成本，也让这款模型竞争力拉满。

根据官方定价规则，Kimi K2.7 Code每1M Token标准输入价格6.5 元、输出价格27元，和前代K2.6保持一致，缓存输入低至1.3元。

特别提醒，使用Kimi K2.7 Code必须开启思考模式（Thinking）。

目前Kimi API和Kimi Code均默认开启该模式，如果手动关闭，API会直接报错，Kimi Code则会自动回退到 K2.6 版本，这一点大家在使用时需要多加留意～

另外，6倍高速版Kimi K2.7 Code也要来了！

参考链接：

[1]https://x.com/mark_k/status/2066150260636872715?s=20

[2]https://x.com/zhengyaojiang

[3]https://x.com/noctus91/status/2066058980179538353

[4]https://x.com/stevibe/status/2065464159358370064

[5]https://x.com/atomic_chat_hq/status/2065581878279549090

本文来自转载量子位，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

赞 (0)

评测组小编

微信扫一扫

微信扫一扫

未上真车，AI先当教练，2026届高考生，将成为首批“原生AI司机”？

未上真车，AI先当教练，2026届高考生，将成为首批“原生AI司机”？

上一篇 2026年6月15日下午4:03

DeepMind震撼报告：四条通往超级人工智能之路

DeepMind震撼报告：四条通往超级人工智能之路

下一篇 2026年6月15日下午4:48

扫码关注我们，了解最新AI资讯~

评测

三万星新秀Hermes Agent硬刚龙虾：自己写技能、自己进化的AI智能体

教程组小编
2026年4月10日
评测

Hermes Agent：当工具开始拥有时间，它就不再只是工具

教程组小编
2026年4月13日
评测

Image 2 × Seedance 2.0王炸组合：4套刷屏外网的玩法，提示词全在这了

评测组小编
2026年5月18日
评测

Claude Opus 5 测评

评测组小编
5天前
评测

腾讯版“贾维斯”上线：一句话搞定电脑配置，每天1000万Token免费用

评测组小编
2026年5月21日
评测

MiniMax 推出了 Mavis，活脱脱的 Agent「三省六部」

评测组小编
2026年5月14日

发表回复

登录后才能评论

AI恋爱诈骗成功率超真人，四国研究揭示新型网络风险
2小时前
分享到:

2026年7月，印度、意大利、澳大利亚和以色列四所大学联合研究发现，AI聊天机器人在模拟恋爱诈骗中建立信任的效果显著优于真人骗子。实验中，ChatGPT、Claude和Gemini等模型通过长期线上互动诱导受害者投资虚假项目，受试者对AI的信任评分更高，同意下载可疑应用的比例达48%，远高于真人组的18%。研究指出，AI可同时操控数千对话，大幅扩大诈骗规模，仅转账环节需真人介入。该成果引发对AI滥用风险的紧急关注。
ChatGPT与Roblox或被欧盟列为超大型在线平台
2小时前
分享到:

2026年7月30日，欧盟委员会发言人托马斯·雷尼耶表示，ChatGPT和Roblox因月活跃用户数突破《数字服务法案》（DSA）设定的4500万门槛，很可能被正式指定为“超大型在线平台”（VLOP）。该认定将触发更严格监管义务，包括系统性风险评估、强化内容审核及定期透明度报告等。相关决定尚未最终公布，但已在评估进程中。此举旨在提升大型数字平台在欧盟境内的合规性与问责力。
字节已组建豆包办公部门
5小时前
分享到:

据媒体报道，目前豆包内部已经组建豆包办公部门，旨在推动豆包深度融入真实办公及协作流程，持续提升办公生产力。记者注意到，当前有招聘平台已经出现标注“豆包办公”的岗位，主招岗位为AI策略产品经理，主要负责豆包在智能办公和企业场景中的产品功能，以及跨产品能力集成和规模化落地。
ChatGPT首次跻身最常被冒充品牌前十
5小时前
分享到:

2026年第二季度，OpenAI旗下ChatGPT首次进入Check Point发布的“最常被冒充品牌”榜单第十位，占比1.1%。该报告于2026年7月发布，覆盖全球钓鱼攻击数据。微软仍居榜首（23%），其次为领英（11.6%）、谷歌（6.7%）和苹果（5.8%）。黑客正 increasingly 利用AI工具高信任度实施钓鱼，将AI平台视为与银行、科技巨头同等价值的攻击目标。专家预计，未来数季度更多AI平台或将上榜。
马斯克：Grok 4.6将于一周后发布
8小时前
分享到:

7月30日，马斯克在社交平台发文称，大模型Grok 4.6将于一周后发布。
OpenAI承认AI模型失控入侵事件涉及多个平台
8小时前
分享到:

美国开放人工智能研究中心（OpenAI）28日更新发布的调查结果显示，该公司人工智能（AI）模型失控入侵美国抱抱脸公司系统期间，还曾利用网上公开的信息，访问了多个公开服务平台上的账户。OpenAI不久前承认，该公司包括GPT-5.6 Sol在内的多个AI模型在内部评估时突破隔离测试环境，入侵了运营人工智能开源平台的美国抱抱脸公司的系统。其最新公布的调查结果显示，涉事模型在攻击过程中还访问了至少4个公开服务平台上的4个账户。其中一个账户被用作中继与暂存通道；一个账户被用于数据存储；对另外两个账户仅进行了只读访问，未用于进一步攻击抱抱脸公司的系统。OpenAI表示，已将调查结果通知相关服务提供商。
腾讯WorkBuddy发布V5.3.5更新，推出”人机双写”协同编辑能力
12小时前
分享到:

7月30日，腾讯WorkBuddy发布V5.3.5版本更新，联合腾讯文档推出”人机双写”协同编辑能力。用户可在同一份文档中与AI共同创作和修改，支持Word、Excel、PPT、Markdown等主流格式，同时兼容本地Office文件和腾讯文档在线文档。新功能支持框选指定区域让AI局部修改，保持其余内容不变；AI共创内容可一键上传腾讯文档，实现多人、人机多端实时协同编辑。
OpenAI计划向10万名科学家免费开放GPT-5.6系列等资源
14小时前
分享到:

OpenAI 今天（7 月 30 日）在 X 平台发布推文，宣布启动 ChatGPT for Academic Researchers 计划，将向 10 万名科研人员免费开放 ChatGPT 高级功能。

科学家可以通过 OpenAI 官网，填写表格后加入 ChatGPT for Academic Researchers 项目。该项目初期将面向部分高校的 1 万名用户开放，并计划未来逐步吸纳 9 万名研究人员加入。
月之暗面完成工商变更登记市场主体类型变更为股份有限公司
14小时前
分享到:

7月30日，月之暗面昨日完成工商变更登记，市场主体类型变更为股份有限公司，高管人员备案新增张予彤（董事）、宋思嘉（财务负责人），公司名称变更为北京月之暗面科技股份有限公司。
字节跳动启动AI业务组织调整：飞书与豆包火山团队整合
16小时前
分享到:

7月30日，字节跳动启动面向AI业务的组织调整。飞书产品团队与豆包产品团队将整合，成立新的豆包产品团队，由豆包负责人赵祺负责，飞书负责人谢欣向赵祺汇报。GTM （市场、销售、客户服务）体系方面，飞书GTM团队将与火山引擎团队整合，成立新的 ToB GTM 组织“创造力服务平台（Creativity Service Platform）”，整体负责字节 MaaS和SaaS等云服务的市场、销售和客户服务，由火山引擎负责人谭待负责，飞书销售负责人林婵、飞书战略及市场负责人史志隽向谭待汇报。

【 方舟 Agent Plan】超全模态模型 × Harness 升级，最新支持 Doubao-Seed-Evolving、Kimi-K3（部分）、GLM-5.2，限时 9.9 元起