400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头

400TPS极速狂飙，开启生产级高效率Flash模型范式，直接一刀打穿Agent底价，把全球开发者惊艳到了。

世界上最遥远的距离，不是AI看不懂你的需求，而是你的经费，根本撑不到AI把活干完。

现在，我们进入了「Agent烧钱时代」：模型调用的每一次呼吸，烧的都是真金白银。

但今天，游戏规则变了。

就在刚刚，国产多模态卷王「阶跃星辰」狠狠掀翻了全球大模型的牌桌——Step 3.7 Flash震撼发布。

400TPS 的极速狂飙，以1/9单任务成本实现Claude Opus 4.6 97%性能。它以破局之势向业内宣告——

这不是一次简单的模型迭代，而是一场专为Agent烧钱时代准备的终极降维打击！

Agent时代的模型

应该是什么样子

Agent时代的模型应该是什么样子？

以前，随手丢给模型一张飞机驾驶舱的截图，几百个仪表、按钮、开关密密麻麻，然后只敲几个字：「如何起飞？」

换作过去的多模态模型，它会很礼貌地回答你：「这是一个飞机驾驶舱，包含油门、姿态仪……」——然后就没了下文。

它能描述世界，却进不去世界。

而换成 Step 3.7 Flash，画风完全变了：它自己框选出驾驶舱区域，认出每一个关键仪表的含义，理清「先做什么、再做什么」的操作顺序，最后牵着一只黄色的小鼠标，一步步演示给你看——什么时候推油门、什么时候收起落架。

它交出的，是一份照着就能做的起飞清单。

这一步跨越看着不起眼，本质却是 AI 从「理解信息」走向「执行任务」的分水岭。

多模态的终点从来不是看懂世界，而是帮人在复杂系统里动手干活。

而这，恰恰就是「Agent 时代」最朴素的定义——AI 不再是聊天框里的嘴替，而是真实工作流里的手替。

竞争已经换了赛道

这两年，我们一直在被「谁家模型分更高」刷屏。

但当 Agent 真正从 Demo 走进生产线，画风立刻变得惨烈起来：模型调用次数暴涨、延迟被无限放大、token 像流水一样烧、搜索一轮接一轮、多步骤任务越拖越长……

于是，一个真正要命的问题浮出水面：谁能用更低的延迟、更低的成本、更高的吞吐，把更多真实任务从头干到尾？

这，正是 Flash 模型的主场。

阶跃星辰这家公司，业内一直叫它「多模态卷王」。三个月前，它的 Step 3.5 Flash 一上线就登顶 OpenRouter Trending，一个月内做到 OpenClaw 调用量全球第一，就此在开发者心里立住了「最强 Agent 基座」的招牌。

今天的 Step 3.7 Flash，是这条路的延续，也是一次加码——离应用场景最近的 Agentic 基座模型。

才一发布，它就在海外开发者中获得了极高的口碑。

有开发者表示，Step 3.7 Flash真的太好用了！

本来他是用Gemini 3.5 Flash写代码，切回Step 3.7 Flash之后，它一下子就找出7个以上的bug。

有的开发者发现，Step 3.7 Flash这个模型使用起来的速度快得离谱。

Step 3.7 Flash还支持了mlx-vlm——在128GB内存的 Apple Silicon 设备上，4-bit 量化版本最高可以运行32K上下文长度。

有人甚至表示，试用完Step 3.7 Flash后，自己第一次认真考虑把它为其他模型的替代方案。得益于MoE，它的速度非常快，在Agent任务上，它非常敏锐，同时又继承了Gemma 4 31B那种出色的写作能力和创造力。

实测：模型「进了现场」

口说无凭，先上三个亲手就能复现的场景。

第一个，每个打工人的噩梦——报销。把手机里随手拍的 12 张发票一股脑丢给它：角度歪的、拍糊的，餐饮、电子、差旅全混在一起。

Step 3.7 Flash 不光能把每张票上的金额、税额、商户名、消费场景一一认出来，还能判断哪些字段才是报销真正要填的，自动整理成一张统一的表格，再一键导出 Excel 或 CSV。

它跑通的是「识别 → 理解 → 整理 → 导出」的完整链条，对应的正是企业里那些重复、低效却天天都在发生的行政财务活儿——报销、录入、对账、归档。

这，才是一个 Agent 该干的活。

第二个，在 Blender 里删个方块。你对着一张 Blender 界面截图说「怎么删除这个方块」，模型会自动框选界面，读懂大纲列表、工具栏和当前所处的编辑模式，再给出具体到每一步的操作路径。

Blender 是出了名的专业、信息密度爆炸的 3D 软件——能在这种环境里给出可执行的操作建议，意味着它已经够格进驻专业工具，去当一名「3D 建模助手」。

第三个，看懂一个 App 的设计。框选一个应用界面，问它「这些设计有什么有趣之处」，它不只是识别页面元素，而是能对界面里不同帖子的设计逻辑、信息组织方式做出专业点评。

模型不止「认得页面」，更开始读懂内容与设计背后的那套语言。

更狠的是一个训练时压根没教过的「涌现」行为：写完一段前端代码后，模型会自己切到 GUI 里去测试刚生成的页面，看渲染效果、点点交互按钮，再根据看到的结果回头改自己的代码。

写代码 → 看界面 → 改代码，这套组合拳没人教过它，它自己悟出来了。

这，才是「进了现场」该有的样子。

下面，是一个智慧城市综合管理平台界面。

上传给Step 3.7 Flash后，它给出了非常细致的分析。

第四个，高速 Deep Research。Step 3.7 Flash能够围绕单一主题进行多源信息检索、对比与结构化总结，生成简洁的 research brief 或决策摘要。

比如，给它的就一句话：「围绕 2026 人形机器人量产，给我一页能拍板的决策摘要。」

它交回来的，是一份开头就敢下判断、中间用一张表把特斯拉、Figure、宇树、智元、1X、Agility 六家的量产进度、估值、成本、风险全摆齐，结尾给三条带时间节点的可执行关注点的页面。

而且每个数字后面都缀着来源和月份。

这正是 Deep Research 该有的样子：搜索不再是「问一句答一句」的外挂，而是「发现信息不够 → 主动去查 → 判断可不可信 → 再决定下一步」的完整闭环。

第五个，GUI 理解与 Computer Use。

给它一张剪映截图，一句「把这段导出成 1080P、30 帧」，它没急着报步骤，而是先把当前界面看了个透：右上角那个蓝色「导出」按钮在哪、图标是个向上的箭头——位置、颜色、形状全给你定位到位，照着找绝不会点错。

真正见功力的是两个细节。

一是它瞥了一眼右侧「草稿参数」，发现当前色彩格式其实是 1080i（隔行扫描），主动提醒你导出时要手动改成 1080P（逐行扫描）——这是新手十有八九会忽略、事后才发现画面有问题的坑；二是它注意到时间线上不止这一段，专门点出「导出的是整个项目，不是单独这一个片段」，还顺手教了想单独导出该怎么办。

它是真把屏幕上的信息当线索在读——既看得懂宏观布局，又抠得出 1080i、整轨导出这些容易翻车的细节，更像一个经验老到、还会提前替你把坑填上的剪辑师傅，而不是只会念操作手册的说明书。

这种「读屏 + 指路 + 防呆」的本事，正是 GUI 理解往「嵌进 App 里的操作引导 Agent」走的底气。

最后，我们还给它来了一个AGI路线图压力测试。

要求是构建一张2026-2030年的AGI发展图谱，节点包括OpenAI、Anthropic、Google DeepMind、xAI、Meta、DeepSeek。

要求预测出每家公司未来模型的发布顺序、各家的模型能力，标记住关键的技术拐点，还要判断哪家公司最有可能率先到达AGI。

模型很快给出了详尽的AGI发展路线图，还预测了各家模型的AGI能力雏形。

多、快、好、省，逐个拆

这个模型的亮点，概括起来就是「多快好省」。下面，四个字，我们一个一个拆开看。

多——多模态是 Agent 的「入场券」

过去，多模态被当成模型的加分项：能识图、能做视觉问答，仅此而已。

但在真实的 Agent 工作流里，它是标配。因为现实中的任务，有一大半压根不是规规矩矩的结构化文本，而是藏在 GUI、截图、文档和网页里。

模型连「看」都看不见，又谈何「干」？

Step 3.7 Flash 内建了完整的视觉理解能力（196B + 1.8B ViT）。更妙的是它的取舍：对一个只激活 11B 的小模型来说，把海量视觉常识硬塞进权重里，太奢侈了。

于是阶跃只在权重里保留最核心的推理引擎，把「感知边界」和「世界知识」外推到推理阶段——用 Flash 的「快」，去换推理时的「多看一眼、多查一次」。

效果很硬：在 V*（Python 工具）上拿到 95.3，比肩 Kimi K2.6（96.9）、Gemini 3 Flash（96.3）这些更大的块头；再配上 Visual Search，视觉识别能力直接对标五倍于自己参数量的旗舰。

作为一款一个 11B 激活的模型，这思路，本身就很 Agent。

快——400 TPS，给 Agent 装上快进键

Step 3.7 Flash 用的是稀疏 MoE 架构，总参数 196B + 1.8B（ViT），单次推理却只激活 11B，单请求生成速度最高能到 400 Tokens/秒。

「快」在 Agent 时代不是体验上的加分项，而是能力本身。

道理很朴素：同样一段时间，模型跑得越快，就能多看几眼、多查几遍、多想几轮——迭代次数越多，结果越准。

在动辄几十轮工具调用的高频 Agent、Coding Agent、Search Agent 场景里，延迟每压低一点，整条任务链的体验和成功率就往上抬一截。

比如，一句指令下去，40 个不同身份的虚拟「评测员」被同时拉起，各自从自己的视角去判断同一个产品问题，再实时把它们对 5 个 MVP 方向的偏好汇总成结论。

说白了，就是把一个 Agent 拆成一支几十人的「专家团」并行开工——人多、嘴杂、还快，最后给出的结论自然比一个脑袋拍板更稳、也更说得清道理。

慢，才是 Agent 最贵的成本。

好——不偏科的「天选打工人」

Agent 能力的本质，从来不是某一项指标登峰造极，而是多种能力在同一条任务链上谁都不掉链子。

很多任务的失败，不是因为模型「算错了」，而是因为链路在某个环节断了。

所以阶跃把 Step 3.7 Flash 往「六边形战士」的方向调：多模态、搜索、工具调用、代码能力一体化打磨，强调的是协同稳定，而不是单点上的峰值。

看一组它和上一代的对比，一个迭代周期的进步相当夸张——GDPval 从 28.0 飙到 45.8，Toolathlon 从 33.3 升到 49.5，ClawEval-1.1 从 43.6 直接干到 67.1。

ClawEval 衡量的，恰恰是模型「真正闭环完成复杂任务」的本事：理解任务 → 拆解规划 → 在对的时机调对的工具 → 出错了能自救 → 把多步骤的活儿彻底做完。

在这张榜上，67.1 的成绩已经反超 DeepSeek V4 Flash（57.8）和 Kimi K2.6（62.3），逼近 Claude Opus 4.6（70.8）。

再加上 τ²-bench Telecom 在低、中、高三档难度下通过率全部 98% 以上——比起那些「单项学霸」，它更像办公室里老板最信得过的那种员工：执行稳、流程清、不掉链子。

省——真正的杀手锏

如果说前面都是铺垫，这一段才是高潮。

Step 3.7 Flash 借鉴了「Advisor（顾问）策略」：让小模型当执行官，全程握着方向盘——调工具、读结果、自己迭代；只在少数几个「拿不准」的关键拐点上（比如做规划、或者连续失败后的自救），才去请教一个更大的「顾问模型」。

结果是：开启 Advisor 模式后，Step 3.7 Flash 用大约九分之一的单任务成本，做到了 Claude Opus 4.6 编码能力的 97%——每个 Agentic 任务 0.19 美元，对手则是 1.76 美元。

同样的活儿，一个收你两毛，一个收你接近两块。这笔账，任何一个要把 Agent 铺到生产线上、按月烧 token 的团队，都算得明明白白。

更省心的还有部署。

Step 3.7 Flash 全面开源，云端、数据中心、本地随便挑：一台 128GB 统一内存的 Mac Studio、AMD Ryzen AI Max+ 395，乃至英伟达 DGX Station 上都能跑；推理侧 vLLM、SGLang、llama.cpp 也全都支持。

对 Claude Code、KiloCode、OpenClaw、Hermes Agent 这些主流 Agent 框架，以及 MCP / Skills 协议，它同样做了兼容适配——接进去，几乎不用重写工作流。

换句话说，不管你用的是哪套脚手架，它都能稳定发挥。

多模态 + 极致效率

这里必须强调：Step 3.7 Flash 不是「全榜屠夫」。

摊开 benchmark，在 Terminal-Bench 2.1（59.5）、Toolathlon（49.5）这些项目上，它不仅落后于 GPT 5.5、Claude Opus 4.7 这些前沿闭源旗舰，也被参数量更大的 DeepSeek V4 Flash（284B）反超。

论「单点最强」，它确实够不着天花板。但这恰恰是它最聪明的地方——它压根就没打算去比谁更聪明。

它赌的是另一条曲线：在「同样的钱、同样的时间，到底能完成多少真实任务」这条性价比前沿上，做到极致。

多模态 + 极致效率的组合，再叠加 Advisor 模式把成本压到对手的零头，让它稳稳占住了「离应用最近」的那一档。

在 Agent 真正大规模上生产线的当下，市场要的往往不是分数最高的那个，而是那个能被持续调用、稳定运行、成本可控的。

而这套打法，对阶跃自己的现实意义也很直接。

这家成立才三年的公司，如今被业内认为要争第一家在「Agent 经济」时代上市的中国大模型公司。

它的底气，来自一组可验证的增长数字：终端 Agent API 调用量连续三个季度增长近 170%，模型在手机端装机量超过 4200 万台，日均服务近 2000 万人次。

而 Step 3.7 Flash，就是把这套「高效智能」叙事钉得更深的又一锤。

Flash 不再是「便宜平替」

很长一段时间里，Flash 模型在大家心里就是「旗舰的青春版」——能力打个折，图的是便宜和快。

但 Agent 时代，正在重写这个定义。

当 Agent 开始钻进企业流程、开发链路、知识工作和自动化系统，模型要同时满足一长串苛刻条件：够快、够稳、够便宜、够可靠，还得够容易被开发者集成和部署。

这时候你会发现，那个「又快、又省、又不掉链子」的 Flash，反而成了生产级 Agent 的地基，而不是替补。

下一阶段的模型竞争，比的不再是峰值智能，而是可规模化的高效智能。

最强的，不一定是分数最高的那个；但一定是那个能被千万次调用、稳定执行任务、还不让你心疼钱包的。

曾经，Flash系列被视作旗舰模型的「平替」；但 Step 3.7 Flash 的出现，彻底扭转了这一认知。

在智能的巅峰对决之外，它开辟了另一条战线：当Scaling Law不可避免地撞上Economic Law，谁能用九分之一的成本输出稳定、不掉链子的生产力，谁就掌握了让Agent真正爆发的密码。

阶跃星辰这一手王炸，不仅把价格打穿，更是把Agent商业化的底层逻辑彻底跑通。

最聪明的模型负责仰望星空，而最务实的 Flash，正在接管整个世界。

本文来自转载新智元，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头

相关推荐

给4个模型各发20美元“做播客”：谁赚钱了、谁离职了？

Qwen3.7-Max 测评

实测 ChatGPT Work vs Claude Cowork，OpenAI 这次真追上来了

谷歌Gemma 4深度评测：最强端侧模型并不完美，但很适合手机

美团入场AI浏览器！Tabbit的真实体验

我把昨晚的梦输入AI，它居然直接把我拉进去玩儿了一把？！

发表回复