520,遇见国产「新模王」Qwen3.7-Max!

520,遇见国产「新模王」Qwen3.7-Max!

编辑|+0、杜伟

仅仅一个月后,阿里又带着最强旗舰模型杀回来了!

昨天一早,阿里给了全球开发者一个大大的惊喜,悄悄上线了 Qwen3.7 Preview,包括 Qwen3.7 Max Preview 与 Qwen3.7 Plus Preview 两个版本。

520,遇见国产「新模王」Qwen3.7-Max!

第三方权威评测机构 Arena 放出了这两个模型的榜单成绩,其中 Qwen3.7 Max Preview 与 Qwen3.7 Plus Preview 分别拿下了文本领域、视觉领域的国产模型第一。

520,遇见国产「新模王」Qwen3.7-Max!

左为 Qwen3.7 Max Preview,右为 Qwen3.7 Plus Preview

Qwen3.7 预览版的性能已经如此不俗,让大家对正式版的表现充满了期待。

今天上午,在 2026 阿里云峰会上,阿里全新一代千问旗舰模型 Qwen3.7-Max 登场了!

520,遇见国产「新模王」Qwen3.7-Max!

阿里巴巴集团通义大模型事业部负责人「周靖人」

果然没有令人失望,Qwen3.7-Max 一出手就是王炸。

在 Arena 公布的最新一期全球大模型盲测总榜中,Qwen3.7-Max 总成绩位列国产模型第一:傲视一众国产大模型,包括 Kimi-K2.6、DeepSeek-v4 Pro、GLM-5.1,性能直逼 GPT、Claude、Gemini 等全球最强模型

520,遇见国产「新模王」Qwen3.7-Max!

除了亮眼的总榜成绩,Qwen3.7-Max 特别针对当下被众多厂商押注并布局的 Agent 进行了系统性优化,凭借 Agentic、推理、通用等能力的持续突破,进一步拉高了其作为下一代通用智能体底座的性能上限。

520,遇见国产「新模王」Qwen3.7-Max!

编程智能体方面,Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual 等多个权威测评中均取得 SOTA 表现,其中在 Terminal Bench 2.0-Terminus 上取得最高 69.7 分,超过了 DeepSeek-v4-pro-Max、Claude-Opus 4.6 等一众模型。

通用智能体方面,Qwen3.7-Max 提升明显,在 MCP-Atlas、MCP-Mark、Skillbench 等现实能力评测中表现优异,超越了 GLM-5.1、Kimi-K2.6 等,创下国产新高,并在 Kernel Bench L3 上展示了强大的 GPU 内核优化能力。

而在推理方面, Qwen3.7-Max 表现同样出色,在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心推理测评中均超越了 Claude-Opus 4.6 及所有国产模型。

通用能力与多语言方面,Qwen3.7-Max 在指令遵循评测 IFBench 中得分突破新高达到 79.1 分,在多语言理解和翻译的 WMT24++、MAXIFE 评测中保持领先。

智能体基座能力的全方位跃升,让 Qwen3.7-Max 有了挑战真实运行环境中超长程编程任务的底气。在发布会上,阿里展示了一个 AI 自主迭代的工程创举:

Qwen3.7-Max 被放在了一个全新硬件平台(平头哥训推一体 AI 芯片真武 M890)上,工作空间里只有任务描述、SGLang Triton 参考实现和评测脚本,没有任何其他提示或干预。结果,模型连续编程 35 个小时,自主完成了一个生产级注意力内核算子的优化。并且,经过模型优化的推理内核比 SGLang Triton 官方参考实现取得了 10 倍的加速。效率如此之高的 AI 平替谁不喜欢呢。

模型「化身」一位资深工程师,进行了 432 次内核评估、1158 次工具调用,从编写、编译、性能分析到迭代改进,全程都由自己完成。

520,遇见国产「新模王」Qwen3.7-Max!

在接下来的实测环节,Qwen3.7-Max 在处理复杂智能体任务中的速度和准确度都让人眼前一亮。

一手实测

从零代码开发到复杂工具调度

如果你没有任何编程基础,想要自己做一个电脑上的小工具(比如一个极简的桌面番茄钟),在以前,你需要从零开始学写代码、学配环境、学怎么修 Bug,最后还要学怎么把代码打包成双击就能运行的 .exe 软件。

但现在,在 Qwen3.7-Max 模型强大的原生 Agent 推理能力驱动下,搭配上 Claude Code 这样的执行工具,你只需要下达简短指令「帮我做一个桌面番茄钟应用」,它就能在背后为你摆平一切。

面对模糊的需求,Qwen3.7-Max 展现了极强的产品架构能力。它没有直接开始堆砌代码,而是谋定而后动。在确认了技术栈(Python + PyQt)和功能范围后,模型迅速输出了一份结构化的 Markdown 架构计划,并指挥工具开始执行。

520,遇见国产「新模王」Qwen3.7-Max!

缺少工具?没关系,大模型会调度系统自动安装,全程不需要你操心。在运行中,由于电脑路径不匹配引发了连续的红字报错,当 Claude Code 将报错信息抓取回来后,Qwen3.7-Max 瞬间锁定了错误根源,并展现出惊艳的自我纠错能力。它迅速推理出了好几种替代命令方案进行动态试错。短短几秒内,它就排除了系统环境的干扰,把精美的番茄钟稳稳地弹到了你的桌面上。

520,遇见国产「新模王」Qwen3.7-Max!

有不满意的地方,比如想换个莫兰迪色系,只要一句话,模型就能精准理解审美需求并修改代码,分分钟解决。

520,遇见国产「新模王」Qwen3.7-Max!

如果你想把这个好用的番茄钟发给朋友,只需要下达终极交付指令:「帮我打包成 exe」。Qwen3.7-Max 再次发挥 Agent 本能,识别出环境缺失后,生成对应指令让工具自动安装了打包依赖。经过它在后台的一顿丝滑调度,原本复杂晦涩的代码,变成了一个干干净净的 .exe 文件,安静地躺在你的文件夹里,双击就能用。

520,遇见国产「新模王」Qwen3.7-Max!

如果你觉得让 AI 写个桌面软件只是大模型在代码「舒适区」里的基操,那不妨看看它在真实的互联网环境、CLI 以及 Skill 调用中,是如何展现真正的 Agent 实力的。

我们先调用近期很火的 CLI 工具,首先让 Agent 帮我下载了 opencli,让它具备了直接触达并检索全网信息的能力。

520,遇见国产「新模王」Qwen3.7-Max!

下达指令「使用 opencli 工具,帮我查查小红书上北京必吃的粤菜,附图片」后,Qwen3.7-Max 迅速从零开始「阅读」工具文档,自主摸索出了正确的调用语法。在抓取过程中,程序遭遇了网络超时崩溃,它也自主推理出了修改底层配置的绕路方案来延长等待时间。

520,遇见国产「新模王」Qwen3.7-Max!

520,遇见国产「新模王」Qwen3.7-Max!

你不需要看懂它在后台排除了多少次 Bug,只需几分钟,它就已经把满屏的美食图片稳稳地下载到了你的本地文件夹里。收集完素材后,当然还可以让 Agent 顺手把调研结果快速转为 PPT 和在线文档,完成工作流闭环。

520,遇见国产「新模王」Qwen3.7-Max!

520,遇见国产「新模王」Qwen3.7-Max!

520,遇见国产「新模王」Qwen3.7-Max!

Agent 的另一项核心能力,在于能针对特定场景灵活调用 Skill。

面对一段充满「首先其次最后」、「跨越时空的赞歌」等套路化词汇的游记,只需简短地输入「去 AI 味」,Qwen3.7-Max 准确识别了文字修改的核心诉求,并主动调度了系统内的 Skill。

520,遇见国产「新模王」Qwen3.7-Max!

在完成重写后,模型输出了一份结构化的 Markdown 复盘表格。它条理清晰地列出了自己去除了哪些「填充短语」和「宣传性语言」,并从「直接性」、「真实性」等维度对修改结果进行了量化打分。

520,遇见国产「新模王」Qwen3.7-Max!

从零基础的桌面软件开发,到陌生终端工具的自主摸索,再到高阶文本的技能调度与反思,Qwen3.7-Max 在这三个场景中,展现的不只是单纯的文本生成能力,还有高度成熟的 Agent 独立执行力。

三个月三连更

阿里按下 AI「加速度」

这一连串令人瞩目的榜单成绩与实战效果,是千问大模型近期狂飙的一个缩影。

千问旗舰模型的迭代周期已经卷到「月更」:3 月 20 日,Qwen3.5-Max-Preview 发布;4 月 20 日, Qwen3.6-Max-Preview 发布。到今天,Qwen3.7-Max 又来了。对于用户来说,正在经历「幸福的烦恼」。

520,遇见国产「新模王」Qwen3.7-Max!

图源:@LotusDecoder

能保证一个月推出一代旗舰模型,靠的绝非只是模型团队的「肝」。阿里自今年 3 月成立 ATH(Alibaba Token Hub)组织以来,逐渐形成的芯片、云、模型、应用全栈能力,才最大程度上促成了如今的局面。

其中,平头哥的定制芯片提供了极致的训练与推理效率,阿里云的弹性算力让大规模预训练和部署无缝衔接,模型层的快速迭代又能直接反哺上层应用。这样的垂直整合压缩了沟通成本和工程损耗,让千问的研发节奏可以像互联网产品一样快速滚动。

可以说,千问旗舰模型的加速度,源自阿里全栈 AI 体系的爆发。这种体系化的壁垒优势,要比单个模型的一次刷榜高分更难复制。

千问在走高频迭代路线的同时,也没有放弃对开源社区的深耕。不夸张地说,千问已经成为国产乃至全球开源模型的标杆,几乎每次新发布都会引起极大的关注。

上个月开源的 Qwen3.6-27B 和 Qwen3.6-35B-A3B 更是成为「以小胜大」的代表作,登顶了 HuggingFace 全球开源榜单,在主要编程基准上全面超越了上代更大体量的 Qwen3.5-397B-A17B,也大幅领先同等规模的稠密模型。

520,遇见国产「新模王」Qwen3.7-Max!

这些中小规模的千问模型,凭借极低的部署成本,提供了超越同尺寸甚至跨级挑战的性能,更好地满足了本地部署和定制化的刚需,让全球开发者不自觉地将它们作为默认底座。正如一位用户所说,「阿里正带着千问飞速前进。开源这条赛道卷疯了,但最终是所有人的胜利。」

520,遇见国产「新模王」Qwen3.7-Max!

开源社区的口碑形成了强大的引力场,让开发者「用脚投票」,在 API 调用上愿意为千问模型付费。

上个月,Qwen3.6-Plus 夺得了全球知名大模型 API 调用平台 OpenRouter 日榜和周榜的双料冠军,并首创了单日单模型调用量突破 1.4 万亿 Token 的全球纪录。千问模型在全球开发者心目中的地位可见一斑。

520,遇见国产「新模王」Qwen3.7-Max!

在收获全球开发者心智的同时,千问也悄悄占据了全球 Token 经济的流量入口。如今,Token 正在迅速成为了解决问题的通用输入,而阿里通过千问牢牢抓住了这个发展节点。

智能体软件的地基

正在被铺设

月更旗舰,看似「秀肌肉」,实际上是在为 Agent 时代抢占先机。

不难发现,千问近半年来的模型均指向了同一个主题 —— Agent,其中 Qwen3.5 打造原生多模态智能体,Qwen3.6-Plus 走向现实世界智能体,Qwen3.7-Max 开辟智能体新前沿。每一次新发布都伴随着模型自主规划、工具调用与长程任务执行能力的提升。

此次 Qwen3.7-Max 被寄予厚望。阿里想将它打造成为下一代全能智能体底座,因而不满于其仅仅充当被调用的大脑,也希望通过下沉到硬件层,进行系统级编程与优化。Qwen3.7-Max 在平头哥新 AI 芯片上成功运行 35 个小时超长程智能体任务,是这一转变的有力例证。

不仅如此,Qwen3.7-Max 还涌现出了跨智能体框架的泛化能力。无需专门训练,就能丝滑支持 Claude Code、OpenClaw、Hermes Agent 等框架。这像极了当年操作系统的崛起逻辑,包括 PC 时代的 Windows、移动时代的 Android,通过统一的标准与接口,让开发者在其上繁衍丰富的生态。

千问正在努力搭建 Agent 时代的「标准接口」,让自身成为不同智能体框架的首选底座。这种面向未来的布局,更具有战略眼光。

520,遇见国产「新模王」Qwen3.7-Max!

另外,Agent 时代拼的终归还是模型能力能否站得住脚。阿里深知并一直践行着这一点,并通过开源提升在全球开发者社区中的影响力。当越来越多开发者习惯于使用千问搭建智能体并运行任务时,阿里在下一代 Agentic 软件生态的建设中就能掌握更多话语权。

当下,Anthropic 与 OpenAI 通过「产品驱动」(Claude Code、Codex)路线赢得用户和企业,并在商业市场谋求万亿美元上市。而作为国产大模型代表大厂之一的阿里,选择了一条更难、更宏大的路径,从技术到生态再到话语权,「全都要」。

在这场关键的卡位战中,阿里千问的野心远比我们想象中的更大,它志在成为开发者构建智能体系统时最不可或缺的底层基础设施。

本文来自转载机器之心 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
资讯组小编的头像资讯组小编
知情人士:DeepSeek正在组建Harness团队,对标Claude Code
上一篇 14小时前
一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC
下一篇 14小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论