400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

400TPS极速狂飙,开启生产级高效率Flash模型范式,直接一刀打穿Agent底价,把全球开发者惊艳到了。

世界上最遥远的距离,不是AI看不懂你的需求,而是你的经费,根本撑不到AI把活干完。

现在,我们进入了「Agent烧钱时代」:模型调用的每一次呼吸,烧的都是真金白银。

但今天,游戏规则变了。

就在刚刚,国产多模态卷王「阶跃星辰」狠狠掀翻了全球大模型的牌桌——Step 3.7 Flash震撼发布。

400TPS 的极速狂飙,以1/9单任务成本实现Claude Opus 4.6 97%性能。它以破局之势向业内宣告——

这不是一次简单的模型迭代,而是一场专为Agent烧钱时代准备的终极降维打击!

Agent时代的模型

应该是什么样子

Agent时代的模型应该是什么样子?

以前,随手丢给模型一张飞机驾驶舱的截图,几百个仪表、按钮、开关密密麻麻,然后只敲几个字:「如何起飞?」

换作过去的多模态模型,它会很礼貌地回答你:「这是一个飞机驾驶舱,包含油门、姿态仪……」——然后就没了下文。

它能描述世界,却进不去世界。

而换成 Step 3.7 Flash,画风完全变了:它自己框选出驾驶舱区域,认出每一个关键仪表的含义,理清「先做什么、再做什么」的操作顺序,最后牵着一只黄色的小鼠标,一步步演示给你看——什么时候推油门、什么时候收起落架。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

它交出的,是一份照着就能做的起飞清单。

这一步跨越看着不起眼,本质却是 AI 从「理解信息」走向「执行任务」的分水岭。

多模态的终点从来不是看懂世界,而是帮人在复杂系统里动手干活。

而这,恰恰就是「Agent 时代」最朴素的定义——AI 不再是聊天框里的嘴替,而是真实工作流里的手替。

竞争已经换了赛道

这两年,我们一直在被「谁家模型分更高」刷屏。

但当 Agent 真正从 Demo 走进生产线,画风立刻变得惨烈起来:模型调用次数暴涨、延迟被无限放大、token 像流水一样烧、搜索一轮接一轮、多步骤任务越拖越长……

于是,一个真正要命的问题浮出水面:谁能用更低的延迟、更低的成本、更高的吞吐,把更多真实任务从头干到尾?

这,正是 Flash 模型的主场。

阶跃星辰这家公司,业内一直叫它「多模态卷王」。三个月前,它的 Step 3.5 Flash 一上线就登顶 OpenRouter Trending,一个月内做到 OpenClaw 调用量全球第一,就此在开发者心里立住了「最强 Agent 基座」的招牌。

今天的 Step 3.7 Flash,是这条路的延续,也是一次加码——离应用场景最近的 Agentic 基座模型。

才一发布,它就在海外开发者中获得了极高的口碑。

有开发者表示,Step 3.7 Flash真的太好用了!

本来他是用Gemini 3.5 Flash写代码,切回Step 3.7 Flash之后,它一下子就找出7个以上的bug。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

有的开发者发现,Step 3.7 Flash这个模型使用起来的速度快得离谱。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

Step 3.7 Flash还支持了mlx-vlm——在128GB内存的 Apple Silicon 设备上,4-bit 量化版本最高可以运行32K上下文长度。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

有人甚至表示,试用完Step 3.7 Flash后,自己第一次认真考虑把它为其他模型的替代方案。得益于MoE,它的速度非常快,在Agent任务上,它非常敏锐,同时又继承了Gemma 4 31B那种出色的写作能力和创造力。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

实测:模型「进了现场」

口说无凭,先上三个亲手就能复现的场景。

第一个,每个打工人的噩梦——报销。把手机里随手拍的 12 张发票一股脑丢给它:角度歪的、拍糊的,餐饮、电子、差旅全混在一起。

Step 3.7 Flash 不光能把每张票上的金额、税额、商户名、消费场景一一认出来,还能判断哪些字段才是报销真正要填的,自动整理成一张统一的表格,再一键导出 Excel 或 CSV。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

它跑通的是「识别 → 理解 → 整理 → 导出」的完整链条,对应的正是企业里那些重复、低效却天天都在发生的行政财务活儿——报销、录入、对账、归档。

这,才是一个 Agent 该干的活。

第二个,在 Blender 里删个方块。你对着一张 Blender 界面截图说「怎么删除这个方块」,模型会自动框选界面,读懂大纲列表、工具栏和当前所处的编辑模式,再给出具体到每一步的操作路径。

Blender 是出了名的专业、信息密度爆炸的 3D 软件——能在这种环境里给出可执行的操作建议,意味着它已经够格进驻专业工具,去当一名「3D 建模助手」。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

第三个,看懂一个 App 的设计。框选一个应用界面,问它「这些设计有什么有趣之处」,它不只是识别页面元素,而是能对界面里不同帖子的设计逻辑、信息组织方式做出专业点评。

模型不止「认得页面」,更开始读懂内容与设计背后的那套语言。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

更狠的是一个训练时压根没教过的「涌现」行为:写完一段前端代码后,模型会自己切到 GUI 里去测试刚生成的页面,看渲染效果、点点交互按钮,再根据看到的结果回头改自己的代码。

写代码 → 看界面 → 改代码,这套组合拳没人教过它,它自己悟出来了。

这,才是「进了现场」该有的样子。

下面,是一个智慧城市综合管理平台界面。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

上传给Step 3.7 Flash后,它给出了非常细致的分析。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

第四个,高速 Deep Research。Step 3.7 Flash能够围绕单一主题进行多源信息检索、对比与结构化总结,生成简洁的 research brief 或决策摘要。

比如,给它的就一句话:「围绕 2026 人形机器人量产,给我一页能拍板的决策摘要。」

它交回来的,是一份开头就敢下判断、中间用一张表把特斯拉、Figure、宇树、智元、1X、Agility 六家的量产进度、估值、成本、风险全摆齐,结尾给三条带时间节点的可执行关注点的页面。

而且每个数字后面都缀着来源和月份。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

这正是 Deep Research 该有的样子:搜索不再是「问一句答一句」的外挂,而是「发现信息不够 → 主动去查 → 判断可不可信 → 再决定下一步」的完整闭环。

第五个,GUI 理解与 Computer Use。

给它一张剪映截图,一句「把这段导出成 1080P、30 帧」,它没急着报步骤,而是先把当前界面看了个透:右上角那个蓝色「导出」按钮在哪、图标是个向上的箭头——位置、颜色、形状全给你定位到位,照着找绝不会点错。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

真正见功力的是两个细节。

一是它瞥了一眼右侧「草稿参数」,发现当前色彩格式其实是 1080i(隔行扫描),主动提醒你导出时要手动改成 1080P(逐行扫描)——这是新手十有八九会忽略、事后才发现画面有问题的坑;二是它注意到时间线上不止这一段,专门点出「导出的是整个项目,不是单独这一个片段」,还顺手教了想单独导出该怎么办。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

它是真把屏幕上的信息当线索在读——既看得懂宏观布局,又抠得出 1080i、整轨导出这些容易翻车的细节,更像一个经验老到、还会提前替你把坑填上的剪辑师傅,而不是只会念操作手册的说明书。

这种「读屏 + 指路 + 防呆」的本事,正是 GUI 理解往「嵌进 App 里的操作引导 Agent」走的底气。

最后,我们还给它来了一个AGI路线图压力测试。

要求是构建一张2026-2030年的AGI发展图谱,节点包括OpenAI、Anthropic、Google DeepMind、xAI、Meta、DeepSeek。

要求预测出每家公司未来模型的发布顺序、各家的模型能力,标记住关键的技术拐点,还要判断哪家公司最有可能率先到达AGI。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

模型很快给出了详尽的AGI发展路线图,还预测了各家模型的AGI能力雏形。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

多、快、好、省,逐个拆

这个模型的亮点,概括起来就是「多快好省」。下面,四个字,我们一个一个拆开看。

多——多模态是 Agent 的「入场券」

过去,多模态被当成模型的加分项:能识图、能做视觉问答,仅此而已。

但在真实的 Agent 工作流里,它是标配。因为现实中的任务,有一大半压根不是规规矩矩的结构化文本,而是藏在 GUI、截图、文档和网页里。

模型连「看」都看不见,又谈何「干」?

Step 3.7 Flash 内建了完整的视觉理解能力(196B + 1.8B ViT)。更妙的是它的取舍:对一个只激活 11B 的小模型来说,把海量视觉常识硬塞进权重里,太奢侈了。

于是阶跃只在权重里保留最核心的推理引擎,把「感知边界」和「世界知识」外推到推理阶段——用 Flash 的「快」,去换推理时的「多看一眼、多查一次」。

效果很硬:在 V*(Python 工具)上拿到 95.3,比肩 Kimi K2.6(96.9)、Gemini 3 Flash(96.3)这些更大的块头;再配上 Visual Search,视觉识别能力直接对标五倍于自己参数量的旗舰。

作为一款一个 11B 激活的模型,这思路,本身就很 Agent。

快——400 TPS,给 Agent 装上快进键

Step 3.7 Flash 用的是稀疏 MoE 架构,总参数 196B + 1.8B(ViT),单次推理却只激活 11B,单请求生成速度最高能到 400 Tokens/秒。

「快」在 Agent 时代不是体验上的加分项,而是能力本身。

道理很朴素:同样一段时间,模型跑得越快,就能多看几眼、多查几遍、多想几轮——迭代次数越多,结果越准。

在动辄几十轮工具调用的高频 Agent、Coding Agent、Search Agent 场景里,延迟每压低一点,整条任务链的体验和成功率就往上抬一截。

比如,一句指令下去,40 个不同身份的虚拟「评测员」被同时拉起,各自从自己的视角去判断同一个产品问题,再实时把它们对 5 个 MVP 方向的偏好汇总成结论。

说白了,就是把一个 Agent 拆成一支几十人的「专家团」并行开工——人多、嘴杂、还快,最后给出的结论自然比一个脑袋拍板更稳、也更说得清道理。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

慢,才是 Agent 最贵的成本。

好——不偏科的「天选打工人」

Agent 能力的本质,从来不是某一项指标登峰造极,而是多种能力在同一条任务链上谁都不掉链子。

很多任务的失败,不是因为模型「算错了」,而是因为链路在某个环节断了。

所以阶跃把 Step 3.7 Flash 往「六边形战士」的方向调:多模态、搜索、工具调用、代码能力一体化打磨,强调的是协同稳定,而不是单点上的峰值。

看一组它和上一代的对比,一个迭代周期的进步相当夸张——GDPval 从 28.0 飙到 45.8,Toolathlon 从 33.3 升到 49.5,ClawEval-1.1 从 43.6 直接干到 67.1。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

ClawEval 衡量的,恰恰是模型「真正闭环完成复杂任务」的本事:理解任务 → 拆解规划 → 在对的时机调对的工具 → 出错了能自救 → 把多步骤的活儿彻底做完。

在这张榜上,67.1 的成绩已经反超 DeepSeek V4 Flash(57.8)和 Kimi K2.6(62.3),逼近 Claude Opus 4.6(70.8)。

再加上 τ²-bench Telecom 在低、中、高三档难度下通过率全部 98% 以上——比起那些「单项学霸」,它更像办公室里老板最信得过的那种员工:执行稳、流程清、不掉链子。

省——真正的杀手锏

如果说前面都是铺垫,这一段才是高潮。

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

Step 3.7 Flash 借鉴了「Advisor(顾问)策略」:让小模型当执行官,全程握着方向盘——调工具、读结果、自己迭代;只在少数几个「拿不准」的关键拐点上(比如做规划、或者连续失败后的自救),才去请教一个更大的「顾问模型」。

结果是:开启 Advisor 模式后,Step 3.7 Flash 用大约九分之一的单任务成本,做到了 Claude Opus 4.6 编码能力的 97%——每个 Agentic 任务 0.19 美元,对手则是 1.76 美元。

同样的活儿,一个收你两毛,一个收你接近两块。这笔账,任何一个要把 Agent 铺到生产线上、按月烧 token 的团队,都算得明明白白。

更省心的还有部署。

Step 3.7 Flash 全面开源,云端、数据中心、本地随便挑:一台 128GB 统一内存的 Mac Studio、AMD Ryzen AI Max+ 395,乃至英伟达 DGX Station 上都能跑;推理侧 vLLM、SGLang、llama.cpp 也全都支持。

对 Claude Code、KiloCode、OpenClaw、Hermes Agent 这些主流 Agent 框架,以及 MCP / Skills 协议,它同样做了兼容适配——接进去,几乎不用重写工作流。

换句话说,不管你用的是哪套脚手架,它都能稳定发挥。

多模态 + 极致效率

这里必须强调:Step 3.7 Flash 不是「全榜屠夫」。

摊开 benchmark,在 Terminal-Bench 2.1(59.5)、Toolathlon(49.5)这些项目上,它不仅落后于 GPT 5.5、Claude Opus 4.7 这些前沿闭源旗舰,也被参数量更大的 DeepSeek V4 Flash(284B)反超。

论「单点最强」,它确实够不着天花板。但这恰恰是它最聪明的地方——它压根就没打算去比谁更聪明。

它赌的是另一条曲线:在「同样的钱、同样的时间,到底能完成多少真实任务」这条性价比前沿上,做到极致。

多模态 + 极致效率的组合,再叠加 Advisor 模式把成本压到对手的零头,让它稳稳占住了「离应用最近」的那一档。

在 Agent 真正大规模上生产线的当下,市场要的往往不是分数最高的那个,而是那个能被持续调用、稳定运行、成本可控的。

而这套打法,对阶跃自己的现实意义也很直接。

这家成立才三年的公司,如今被业内认为要争第一家在「Agent 经济」时代上市的中国大模型公司。

它的底气,来自一组可验证的增长数字:终端 Agent API 调用量连续三个季度增长近 170%,模型在手机端装机量超过 4200 万台,日均服务近 2000 万人次。

而 Step 3.7 Flash,就是把这套「高效智能」叙事钉得更深的又一锤。

Flash 不再是「便宜平替」

很长一段时间里,Flash 模型在大家心里就是「旗舰的青春版」——能力打个折,图的是便宜和快。

但 Agent 时代,正在重写这个定义。

当 Agent 开始钻进企业流程、开发链路、知识工作和自动化系统,模型要同时满足一长串苛刻条件:够快、够稳、够便宜、够可靠,还得够容易被开发者集成和部署。

这时候你会发现,那个「又快、又省、又不掉链子」的 Flash,反而成了生产级 Agent 的地基,而不是替补。

下一阶段的模型竞争,比的不再是峰值智能,而是可规模化的高效智能。

最强的,不一定是分数最高的那个;但一定是那个能被千万次调用、稳定执行任务、还不让你心疼钱包的。

曾经,Flash系列被视作旗舰模型的「平替」;但 Step 3.7 Flash 的出现,彻底扭转了这一认知。

在智能的巅峰对决之外,它开辟了另一条战线:当Scaling Law不可避免地撞上Economic Law,谁能用九分之一的成本输出稳定、不掉链子的生产力,谁就掌握了让Agent真正爆发的密码。

阶跃星辰这一手王炸,不仅把价格打穿,更是把Agent商业化的底层逻辑彻底跑通。

最聪明的模型负责仰望星空,而最务实的 Flash,正在接管整个世界。

本文来自转载新智元 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
存储风暴继续:2030年硬盘出货容量或暴涨3倍,AI贡献占比过半
上一篇 6小时前
人类是如何靠“出卖”自己,喂养出更聪明的AI?
下一篇 6小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论