阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

OpenRouter Trending榜单冷不丁窜出一匹国产黑马，热度暴涨稳居全球第二。

定睛一看，原来是阶跃星辰新发的Step 3.7 Flash。

再一看，不只OpenRouter，这个新模型在AA榜那边也顺手拿了几个第一；

在HuggingFace上开源之后的下载量和讨论也一直没降过温。

这我是真好奇，这新模型到底火在哪了。

于是咱去感受了一波，手把手教我用Blender这种专业3D软件就算了；

它居然还直接带我开飞机，没错，是真的大飞机！！

仪表盘、操纵杆、飞行参数…它一边看屏幕一边讲下一步该按哪个按钮。

当然了，教我开飞机只是节目效果，重点是Step 3.7 Flash自己也起飞了——

Token意义上的速度起飞，输出速度最高416 tokens/s。

不光快吧，人家还省钱，单任务成本压到了Claude Opus 4.6的约1/9，但编程能力却做到了Claude的97%。

只能说，停停停各位先别跑分了，咋感觉Step 3.7 Flash这次换成效率打法了呢。

模型竞赛的赛点，从单次最强挪到了效率优先

其实前两年大模型圈子的画风还比较简单。

大家比的是啥？比谁聪明。

各家埋头刷Benchmark，成绩多拿一两分就能小火一把，当时比拼的核心是模型单次问答能力的上限。

但今年风向变了。

相信大家也都发现，OpenAI、Anthropic、Cursor嘴里念叨的关键词换成了企业级Agent、工具调用、任务交付……随着Agent成为主流落地形态，原先只拼单点性能的老一套竞赛规则不适用了。

在进入真实业务的Agent工作链路后，AI要反复调用工具、多轮检索信息、分步拆解复杂任务。

问题就出在这儿。

一次回答慢两秒，你能忍，但Agent一个任务要调几十次模型，每次都慢两秒，谁的火气都大。

调一次贵一点没感觉，调几十几百次之后，账单突然就开始在你血压上蹦迪了。

这种高频交互带来的调用量暴涨，推理延迟、Token消耗成倍飙升，不光是咱日常用着闹心，开发者和企业的钱包更是遭不住啊。

业内近一年的Agent研究也开始专门引入「预算约束」「成本最优规划」等评价维度，本质上就是因为推理成本已经成为Agent落地的核心瓶颈。

所以现在用AI，真卡住生产的、也急需优化的就是Token效率，具体体现在推理速度和调用成本两个维度。

阶跃星辰这次，好像真找到了Agent时代的版本答案：

同样的活儿，Step 3.7 Flash能更快、更便宜地干完。

咱索性就直接上手试一试！

实测Step 3.7 Flash：又快又省钱多模态理解能力

先来看看它看图办事的能力怎么样。

上传了一张灵巧手图片，它能结合外观细节快速确认，还能精准识别分段指节、灰色阻尼指尖、腕部接口等特征。

既然产品确认了，那咱再来看看参数，直接让模型自己去搜，最后给我一张产品表格。

于是Step 3.7 Flash联网搜索了这款灵巧手全维度参数，把厂商信息、硬件配置、负载、售价等内容全给整理了出来。

只不过表格太长，我只截取了结构和感知的一部分。

在这个任务里，模型分析的内容基本达标，体验下来感觉响应速度确实很快。

工具编排能力

接下来，我们给Step 3.7 Flash一条龙杂活，考考它的工具编排能力，主要看它是否能在长程多轮里稳定调用工具、不跑偏。

比如说，整理报销单。

想必大家都觉得，搞发票是一件很麻烦的事情。

出差一趟，总会积压四五张发票，要一张张核对金额，还要整理好并填写相应的报销规范。

于是，我把发票全部放在了一个文件夹里，然后把它丢给了Step 3.7 Flash（此处接入了OpenClaw）。

输入提示词后，就直接让它开干了。

OpenClaw里可以看到任务完成的计时，大概也就不到60秒吧…它就告诉我它干完了。

文件夹里多了两份它写好的文件，一个是报销的Excel文件，列出了报销清单，另一份是给财务的报销说明。

逐一打开来看，也没有任何问题，写的内容完全无误。

多Agent集群能力

接下来，我们把难度又再拉升一个等级：考考Step 3.7 Flash的多Agent集群能力。

官方演示里不是有个「40个Agent扮演产品评测团」的case嘛，我就非常好奇，想要复刻一下。

具体任务是这样的：

一个新的外卖App，准备在「拼单/AI点菜推荐/会员折扣/深夜配送/碳积分」5个新功能里挑重点做。

让40个不同年龄、职业、消费习惯的虚拟用户分别投票并说理由，最后汇总出每个功能的偏好分布和典型反对意见。

当然，不只是给它提示词这么简单。

我们先让Step 3.7 Flash生成40个差异化虚拟用户，覆盖大学生、互联网产品经理、中学教师、夜班护士、自由摄影师等不同人群。

然后再把这40个persona分别投喂给Step 3.7 Flash。

每个Agent要做的是：站在自己的人设视角，对5个功能做排序，选出最想优先上线的功能，并给出支持理由和最不看好的功能。

最后，把40个Agent的结果统一汇总，并生成一个可视化看板。

结果也挺有意思的：40个Agent全部有效返回，没有出现角色混淆或者格式大面积跑偏。

最终投票里，AI点菜推荐拿到11票，排第一；拼单拿到10票，紧随其后；深夜配送8票，会员折扣6票，碳积分5票。

其中还能看到更细的人群分层，比如年轻白领更偏向AI点菜推荐，因为它解决的是「今天吃什么」的高频决策疲劳。

而学生等价格敏感人群，更倾向拼单和会员折扣，因为能凑起送价、摊配送费。

从结果来看，Step 3.7 Flash在这个任务里的表现还是挺稳的：

40个虚拟用户的画像差异明显，投票理由和人设基本能对上，也没有出现大家都选同一个功能的「假共识」。

这波重大利好产品经理啊！让Agent集群先开一轮需求评审会，自己只需要拍板下一步就可以了~

实测下来，我对Step 3.7 Flash的第一印象就是快。

每个任务，简单的不到一分钟，复杂的也就是几分钟，它就能给我交付出结果。

有句话叫唯快不破。在传统单轮问答里，快一点只是体验更顺。但在Agent场景里，速度直接决定任务能不能用。

官方介绍Step 3.7 Flash时，把这个数字拉到了一个新的工程极限：单任务最高超过400tps。

这是什么概念？在没有特别推理加速的前提下，绝大多数模型的推理速度都在100tps以下，主流甚至只在30tps上下。

在Artificial Analysis的速度天梯上，此前最快的GPT-5.3也就70多tps。Step 3.7 Flash是在支持多模态的前提下，硬把速度顶到了400tps。

海外还有开发者把Step 3.7 Flash和几个主流模型放在一起测，结果发现3.7 Flash跑出了2123 tok/s，一骑绝尘。

他后来还在NVFP4设置下，把极限吞吐顶到了6000 tok/s，常规上下文长度下也能稳定在2000 tok/s。

但是光快还不够，Agent也讲究一个性价比为王，这里比的是单位成本能交付多少有效结果。

Step 3.7 Flash的解法，是把性价比做成了可规模化的底气。在OpenRouter上，它的定价是每百万输入token 0.2美元、输出token 1.15美元。

两代Flash背后，阶跃算的是一笔企业账

把视角拉远一点会发现，Step 3.7 Flash并不是一时兴起。

它延续的是阶跃上一代Step 3.5 Flash的打法：追求效率上限、强调实用，在速度、性能和性价比之间找平衡，还支持本地部署。

3.7在这个基础上更进一步，兼顾了更多能力的协同效率，也在成本、稳定性和部署形态上更扛得住长期运行。

这条路能不能跑通，上一代3.5 Flash早就用真金白银验证过了。

今年2月，Step 3.5 Flash发布，两天登顶OpenRouter Trending，一个月内OpenClaw调用量做到了全球第一。

此外，Step 3.5 Flash上线两个多月就量产上车，登陆极氪8X，直接当上了这款旗舰车型的「Agent大脑」。

从开源榜单一路走到量产车机，阶跃Flash系列在真实场景里的可用性和性价比，已经被市场投了票。

还有开发者统计了OpenRouter上60多个服务商的398个核心数据，整理出一张「缓存命中率排行榜」。

阶跃以86.1%排进S档、位列全球第二，仅次于DeepSeek，和DeepSeek、月之暗面一起站在了全球第一梯队。

缓存命中率高，说明它底层的推理系统工程做得好——在长任务、Agent、RAG这些场景里，重复的上下文前缀能被高效复用，直接换来更低成本、更高吞吐、更低延迟。

某些场景下，它的实际推理成本会大幅低于其他模型，速度优势也更明显，尤其适合复杂长任务。

换句话说，在企业级Agent市场，阶跃的模型「非常值钱」。

连续两代Flash的研发思路，其实透出了阶跃对AI商业化路径的判断：

未来大规模落地的AI应用，不会只靠少数昂贵的旗舰模型，而会形成一套由不同能力、成本、部署形态组成的「模型组合」。

高效率的Flash模型，会在Agent、Coding、Search、多模态办公和企业工作流里，承担越来越多的生产任务，成为AI规模化落地的重要基础设施。

这个判断并不孤单。今年Anthropic的ARR，从2025年底的约90亿美元，一路冲到2026年的数百亿美元量级，其中约八成收入来自企业客户。

企业级Agent的商业化潜力，正在被真金白银验证。

说到底，当Agent从Demo走进真实生产，赛点早就从「谁更聪明」，换成了「谁能在单位成本下，把更多真实任务又快又稳地跑完」。

Step 3.7 Flash最近这一波蹿红，是这个新赛点的体现，也是大模型竞速新竞争力的钟声。

体验地址：https://chat.stepfun.com/chats/new

本文来自转载量子位，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

相关推荐

在Claude Code中使用两大国产模型与世界顶级模型Claude Opus 4.7的火力比拼

三万星新秀Hermes Agent硬刚龙虾：自己写技能、自己进化的AI智能体

阿里让Qwen3.7-Max模拟创业，一年“营收”1400万

Claude Opus 4.8实测封神！强到离谱，也贵到肉痛

谷歌打响反击战，Antigravity 2.0上手：开放模型是步聪明棋

谷歌发布 Android CLI：AI Agent 让安卓开发效率提升3倍

发表回复