阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一

OpenRouter Trending榜单冷不丁窜出一匹国产黑马,热度暴涨稳居全球第二。

定睛一看,原来是阶跃星辰新发的Step 3.7 Flash

再一看,不只OpenRouter,这个新模型在AA榜那边也顺手拿了几个第一;

在HuggingFace上开源之后的下载量和讨论也一直没降过温。

这我是真好奇,这新模型到底火在哪了。

于是咱去感受了一波,手把手教我用Blender这种专业3D软件就算了;

它居然还直接带我开飞机,没错,是真的大飞机!!

仪表盘、操纵杆、飞行参数…它一边看屏幕一边讲下一步该按哪个按钮。

当然了,教我开飞机只是节目效果,重点是Step 3.7 Flash自己也起飞了——

Token意义上的速度起飞,输出速度最高416 tokens/s

文章配图-1

不光快吧,人家还省钱,单任务成本压到了Claude Opus 4.6的约1/9,但编程能力却做到了Claude的97%

文章配图-1

只能说,停停停各位先别跑分了,咋感觉Step 3.7 Flash这次换成效率打法了呢。

模型竞赛的赛点,从单次最强挪到了效率优先

其实前两年大模型圈子的画风还比较简单。

大家比的是啥?比谁聪明。

各家埋头刷Benchmark,成绩多拿一两分就能小火一把,当时比拼的核心是模型单次问答能力的上限。

但今年风向变了。

相信大家也都发现,OpenAI、Anthropic、Cursor嘴里念叨的关键词换成了企业级Agent、工具调用、任务交付……随着Agent成为主流落地形态,原先只拼单点性能的老一套竞赛规则不适用了。

在进入真实业务的Agent工作链路后,AI要反复调用工具、多轮检索信息、分步拆解复杂任务。

问题就出在这儿。

一次回答慢两秒,你能忍,但Agent一个任务要调几十次模型,每次都慢两秒,谁的火气都大。

调一次贵一点没感觉,调几十几百次之后,账单突然就开始在你血压上蹦迪了。

这种高频交互带来的调用量暴涨,推理延迟、Token消耗成倍飙升,不光是咱日常用着闹心,开发者和企业的钱包更是遭不住啊。

业内近一年的Agent研究也开始专门引入「预算约束」「成本最优规划」等评价维度,本质上就是因为推理成本已经成为Agent落地的核心瓶颈。

所以现在用AI,真卡住生产的、也急需优化的就是Token效率,具体体现在推理速度调用成本两个维度。

阶跃星辰这次,好像真找到了Agent时代的版本答案:

同样的活儿,Step 3.7 Flash能更快、更便宜地干完。

咱索性就直接上手试一试!

实测Step 3.7 Flash:又快又省钱多模态理解能力

先来看看它看图办事的能力怎么样。

上传了一张灵巧手图片,它能结合外观细节快速确认,还能精准识别分段指节、灰色阻尼指尖、腕部接口等特征。

既然产品确认了,那咱再来看看参数,直接让模型自己去搜,最后给我一张产品表格。

既然产品确认了,那咱再来看看参数,直接让模型自己去搜,最后给我一张产品表格。

文章配图-1

于是Step 3.7 Flash联网搜索了这款灵巧手全维度参数,把厂商信息、硬件配置、负载、售价等内容全给整理了出来。

只不过表格太长,我只截取了结构和感知的一部分。

文章配图-1

在这个任务里,模型分析的内容基本达标,体验下来感觉响应速度确实很快。

工具编排能力

接下来,我们给Step 3.7 Flash一条龙杂活,考考它的工具编排能力,主要看它是否能在长程多轮里稳定调用工具、不跑偏。

比如说,整理报销单。

文章配图-1

想必大家都觉得,搞发票是一件很麻烦的事情。

出差一趟,总会积压四五张发票,要一张张核对金额,还要整理好并填写相应的报销规范。

于是,我把发票全部放在了一个文件夹里,然后把它丢给了Step 3.7 Flash(此处接入了OpenClaw)。

文章配图-1

输入提示词后,就直接让它开干了。

OpenClaw里可以看到任务完成的计时,大概也就不到60秒吧…它就告诉我它干完了。

文件夹里多了两份它写好的文件,一个是报销的Excel文件,列出了报销清单,另一份是给财务的报销说明。

逐一打开来看,也没有任何问题,写的内容完全无误。

文章配图-1

多Agent集群能力

接下来,我们把难度又再拉升一个等级:考考Step 3.7 Flash的多Agent集群能力

官方演示里不是有个「40个Agent扮演产品评测团」的case嘛,我就非常好奇,想要复刻一下。

具体任务是这样的:

一个新的外卖App,准备在「拼单/AI点菜推荐/会员折扣/深夜配送/碳积分」5个新功能里挑重点做。

让40个不同年龄、职业、消费习惯的虚拟用户分别投票并说理由,最后汇总出每个功能的偏好分布和典型反对意见。

当然,不只是给它提示词这么简单。

我们先让Step 3.7 Flash生成40个差异化虚拟用户,覆盖大学生、互联网产品经理、中学教师、夜班护士、自由摄影师等不同人群。

然后再把这40个persona分别投喂给Step 3.7 Flash。

每个Agent要做的是:站在自己的人设视角,对5个功能做排序,选出最想优先上线的功能,并给出支持理由和最不看好的功能。

最后,把40个Agent的结果统一汇总,并生成一个可视化看板。

结果也挺有意思的:40个Agent全部有效返回,没有出现角色混淆或者格式大面积跑偏。

最终投票里,AI点菜推荐拿到11票,排第一;拼单拿到10票,紧随其后;深夜配送8票,会员折扣6票,碳积分5票。

其中还能看到更细的人群分层,比如年轻白领更偏向AI点菜推荐,因为它解决的是「今天吃什么」的高频决策疲劳。

而学生等价格敏感人群,更倾向拼单和会员折扣,因为能凑起送价、摊配送费。

从结果来看,Step 3.7 Flash在这个任务里的表现还是挺稳的:

40个虚拟用户的画像差异明显,投票理由和人设基本能对上,也没有出现大家都选同一个功能的「假共识」。

这波重大利好产品经理啊!让Agent集群先开一轮需求评审会,自己只需要拍板下一步就可以了~

文章配图-1

实测下来,我对Step 3.7 Flash的第一印象就是快。

每个任务,简单的不到一分钟,复杂的也就是几分钟,它就能给我交付出结果。

有句话叫唯快不破。在传统单轮问答里,快一点只是体验更顺。但在Agent场景里,速度直接决定任务能不能用。

官方介绍Step 3.7 Flash时,把这个数字拉到了一个新的工程极限:单任务最高超过400tps

这是什么概念?在没有特别推理加速的前提下,绝大多数模型的推理速度都在100tps以下,主流甚至只在30tps上下。

在Artificial Analysis的速度天梯上,此前最快的GPT-5.3也就70多tps。Step 3.7 Flash是在支持多模态的前提下,硬把速度顶到了400tps。

文章配图-1

海外还有开发者把Step 3.7 Flash和几个主流模型放在一起测,结果发现3.7 Flash跑出了2123 tok/s,一骑绝尘。

文章配图-1

他后来还在NVFP4设置下,把极限吞吐顶到了6000 tok/s,常规上下文长度下也能稳定在2000 tok/s。

文章配图-1

但是光快还不够,Agent也讲究一个性价比为王,这里比的是单位成本能交付多少有效结果。

Step 3.7 Flash的解法,是把性价比做成了可规模化的底气。在OpenRouter上,它的定价是每百万输入token 0.2美元、输出token 1.15美元。

两代Flash背后,阶跃算的是一笔企业账

把视角拉远一点会发现,Step 3.7 Flash并不是一时兴起。

它延续的是阶跃上一代Step 3.5 Flash的打法:追求效率上限、强调实用,在速度、性能和性价比之间找平衡,还支持本地部署。

3.7在这个基础上更进一步,兼顾了更多能力的协同效率,也在成本、稳定性和部署形态上更扛得住长期运行。

这条路能不能跑通,上一代3.5 Flash早就用真金白银验证过了。

今年2月,Step 3.5 Flash发布,两天登顶OpenRouter Trending,一个月内OpenClaw调用量做到了全球第一。

此外,Step 3.5 Flash上线两个多月就量产上车,登陆极氪8X,直接当上了这款旗舰车型的「Agent大脑」。

从开源榜单一路走到量产车机,阶跃Flash系列在真实场景里的可用性和性价比,已经被市场投了票。

还有开发者统计了OpenRouter上60多个服务商的398个核心数据,整理出一张「缓存命中率排行榜」。

阶跃以86.1%排进S档、位列全球第二,仅次于DeepSeek,和DeepSeek、月之暗面一起站在了全球第一梯队。

缓存命中率高,说明它底层的推理系统工程做得好——在长任务、Agent、RAG这些场景里,重复的上下文前缀能被高效复用,直接换来更低成本、更高吞吐、更低延迟。

某些场景下,它的实际推理成本会大幅低于其他模型,速度优势也更明显,尤其适合复杂长任务。

换句话说,在企业级Agent市场,阶跃的模型「非常值钱」

文章配图-1

连续两代Flash的研发思路,其实透出了阶跃对AI商业化路径的判断:

未来大规模落地的AI应用,不会只靠少数昂贵的旗舰模型,而会形成一套由不同能力、成本、部署形态组成的「模型组合」。

高效率的Flash模型,会在Agent、Coding、Search、多模态办公和企业工作流里,承担越来越多的生产任务,成为AI规模化落地的重要基础设施。

这个判断并不孤单。今年Anthropic的ARR,从2025年底的约90亿美元,一路冲到2026年的数百亿美元量级,其中约八成收入来自企业客户。

企业级Agent的商业化潜力,正在被真金白银验证。

说到底,当Agent从Demo走进真实生产,赛点早就从「谁更聪明」,换成了「谁能在单位成本下,把更多真实任务又快又稳地跑完」。

Step 3.7 Flash最近这一波蹿红,是这个新赛点的体现,也是大模型竞速新竞争力的钟声。

体验地址:https://chat.stepfun.com/chats/new

本文来自转载量子位 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
资讯组小编的头像资讯组小编
Kimi Work内测结论:是比Code们更懂中国职场
上一篇 2小时前
新华网拟投11.22亿建”新华语典”:打造权威AI时政智能体
下一篇 1小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论