刚刚，Fable-5之下，智谱开源的GLM-5.2拿下AI编程第一！

评测组小编 • 2026年6月17日下午2:10 • 评测

金磊发自凹非寺

量子位 | 公众号 QbitAI

在Coding这件事上，国产AI又famous了一下。

因为刚刚，在Claude Fable 5之下，开源界里拿下了AI编程第一（全球第二）：

不仅Arena官方用“令人难以置信的里程碑”来形容GLM-5.2取得的成绩，很多网友也是直呼“疯狂”：

不仅如此，在专门评测模型品味（taste）的Design Arena上，GLM-5.2取得全球第一的表现。

以及，在八项权威基准测试中，GLM-5.2的表现也是比较亮眼：

从结果上来看，国产、开源的大模型，可以说在Coding这件事上，首次跻身模型全球御三家（Claude、OpenAI和智谱）。

要知道，此前提到AI界的御三家，那大概率指向的是Claude、OpenAI和谷歌，不过这一次，从实打实的榜单能力来看，谷歌的Gemini实实在在地被GLM淘汰掉了。

而且这几天国外各大博主陆陆续续开始了各种实测。

当然，实测的主角不只是GLM-5.2，他们还把GPT-5.5 High、Opus 4.8 High和Kimi K2.7 Code拉来一起同台竞技。

先说结论：

GLM 5.2表现得极其出色。

实际的对比效果是这样的：

这位博主认为这类测试是在X上比较能体现AI实力的那种，而GLM-5.2的表现已经接近Claude Opus 4.8。

无独有偶。

另一位外国博主同样做了类似的实测，GLM-5.2依旧是稳稳输出，让他直呼道：

This is crazy.

但体感和口碑还只是一方面。

若是深挖一下GLM-5.2，它的亮点还包括：

支持真正可用的1M上下文，并在长程任务中继续保持领先。

换句话说，现在的GLM-5.2可以一口气“吃”下大项目级上下文、跨数小时自主推进。在很长一段时间里，Opus 级别的长任务与大型开发任务，是国产模型与海外旗舰之间很大的gap。

那么当它走进真实工作环境，效果如何？

一波实测，走起~

是真记得，还是只装得下？完整代码库理解

首先我们要测试的是GLM-5.2的记忆力。

因此，我们特意准备了GitHub上的Appsmith项目。

之所以选这个项目，是因为它是一个开源低代码平台，用于构建dashboard、admin panel、IT自动化等内部应用，天然包含前端、后端、插件、部署、权限等复杂模块。

然后我们直接“喂”给GLM-5.2这样的Prompt：

你是资深软件架构师。桌面上的Appsmith是一个完整项目代码库，请先不要修改代码。请完成三件事： 1.梳理项目整体架构，输出核心模块、调用关系和数据流； 2.找出跨模块耦合最重的3处，并说明原因； 3.给出一份可执行的重构路线图，要求不破坏现有接口和测试。

这项任务的重点看模型能否把前端、后端、插件、Git服务、运行时和部署关系串起来。

先来看GLM-5.2的结果（上下）：

可以看到，GLM-5.2先把Appsmith拆成monorepo结构，前端、后端的定位，以及拆分目录也是非常精准。

更关键的是，它把几条主链路串了出来。并且在耦合点判断上，GLM-5.2也抓到了3个关键位置。

接下来是CodeX的表现（上下）：

从输出的效果来看，CodeX的结果更加清爽一些，它直接画出了Appsmith的整体架构图，并且对核心模块的拆解也准确。

两者的判断有不少交集，都抓到了前端Redux/Saga中心化、后端ActionExecutionSolutionCEImpl.java过重，以及CE/EE继承结构的问题。

不过虽然Codex的可读性更强一些，但更像一份结构清晰的技术备忘；而GLM-5.2覆盖更深，文件、链路、风险点和迁移阶段给得更多，像是在给项目做一次工程体检。

跨文件追Bug

第二项实测，我们换成OpenWebUI，测试一个真实工程里常见的问题，跨文件追Bug。

Prompt是这样的：

桌面上的 open-webui项目里有一个线上Bug，请你从全库代码中定位可能原因，给出： 1.最可能的问题链路； 2.涉及文件和函数； 3.修复方案； 4.需要补充的测试用例。不要只看单个文件，请结合调用链分析。

GLM-5.2抓住了一个核心点，也就是DirectConnection流式返回的边界不可靠（上下）。

它把问题定位到“前端把上游SSE分片后再回传，后端按完整事件解析”这条链路，并给出前后端两侧修复方向。

这一关很适合看模型有没有真正沿着调用链走。

如果只看单个文件，很容易给出“加重试”、“加日志”、“检查缓存”这类通用答案。但这个问题真正藏在前端chunk、SSE协议、socket转发和后端JSON解析之间。

新增功能

第三个实测，我们继续用OpenWebUI，任务是新增“会话摘要导出为Markdown”功能：

请在 open-webui项目中新增一个“会话摘要导出为Markdown”的功能： 1.用户可以选择一个历史会话； 2.系统生成结构化摘要； 3.支持导出Markdown； 4.补充必要测试； 5.不要破坏现有接口。请先给出实现计划，再分步骤修改。

对于这个任务，模型需要先理解会话数据怎么存，权限怎么判断，前端菜单入口在哪里，API怎么封装，测试应该放在哪里。

GLM-5.2这一轮更像完整工程交付：

它把“Markdown导出”拆成后端工具、路由、前端API、UI入口和测试五层；最后，它跑出了38个后端测试全部通过。

这就是AgenticCoding真正要看的地方。交付物不能只是一段代码，还要能并入项目。

一口气做多项任务

第四个实测，我们这次尝试让GLM-5.2和CodeX一口完成多个任务。

Prompt是这样的：

基于公开可验证数据，构建一套可追溯、可复现的 2026 年英国 PBSA（学生公寓）行业研究与数据分析包，系统评估学生需求、供给管线、租金走势、运营商格局及投资环境，为内部投资与预算决策提供支持。

在片刻之后，GLM-5.2一口在桌面输出一整个文件夹的内容：

做的图表是这样的（上下）：

也同时生成了一份完整的分析报告：

整体来看，GLM-5.2在文件数量、表格结构、图表覆盖、复现脚本和数据质量控制上更完整，最终更像一套可以拿去内部评审前继续打磨的研究材料包。

什么时候别用1M

不过有一说一，1M上下文并不是什么任务都适用。

如果只是改一个小函数、补一个简单脚本、改一个按钮文案，整库上下文的收益并不明显。很多时候，只给必要文件，模型反而更快、更干净，也更不容易过度设计。

真正适合1M上下文的，可能是下面这几类任务：

整库理解、跨文件追Bug、长期重构、复杂功能新增、多交付物研究项目、超长文档审阅、代码和文档一起分析。

也就是说，1M上下文是为了让它在真实工作里少忘事、少跑偏、少反复问你要背景。

它把长上下文从一个发布参数，拉回了开发者和知识工作者真正熟悉的现场：一个大项目、一堆历史包袱、几个跨模块Bug、一项不能破坏旧逻辑的新需求，以及一整套必须同时交付的报告、表格、图表和脚本。

模型竞争进入长期工作能力阶段

这轮测完，一个最直接感受或许是这样的：

AICoding正在换阶段。

过去大家更关注模型会不会写代码、会不会补全、会不会一次性生成一个Demo。这个阶段比的是单次输出能力。

但现在，开发者开始把模型放进真实工程流里使用。任务不再是写一个孤立函数，而是读完整项目、理解架构、追踪调用链、保持需求约束、修改多处文件、补测试、生成文档，甚至连续十几分钟、几个小时自主推进。

这时候，模型竞争的核心就变了。

上下文长度不再只是参数表上的数字，它开始变成Coding Agent的工作内存。一个Agent要持续工作，就必须记住项目结构、接口约定、历史决策、工具调用结果、中间修改状态和用户最开始给出的边界条件。只要中途忘掉一项，最后产物就可能偏。

所以长上下文真正重要的地方，在于把AI Coding从会写一段代码，推向能做一段工程。

这也是为什么GLM-5.2有机会进入AI Coding里的“御三家”。

在全球CodingAgent进入硬核的长程工程阶段后，开发者正在形成三类主流选择：ClaudeCode、OpenAICodex，以及以GLM-5.2为核心的开源长程CodingAgent路线。

Claude Code代表的是闭源Coding Agent体验的上限，强在工程体感、工具调用和复杂任务推进；
OpenAI CodeX代表的是OpenAI体系下的代码生成和智能体路线，背后有模型、产品和开发者生态的连续投入；
而GLM-5.2代表的，则是另一条同样关键的路线：开源、长上下文、面向真实工程任务的Coding Agent底座。

这条路线的价值，不只在于国产模型也能写代码。

更重要的是，当AI Coding进入大工程阶段，开发者需要的不只是一个云端黑盒。很多团队会关心模型能否私有化，能否接入自己的工具链，能否读内部代码库，能否承载长上下文任务，能否在成本可控的前提下稳定工作。

开源长程Coding Agent路线，正好补上了这块拼图。

如果说前一阶段的AI Coding，比的是谁能更快写出一段能跑的代码；那么下一阶段，比的就是谁能更久地待在项目里，理解它、记住它、改动它，并且不把它弄坏。

这也是GLM-5.2这次最核心的信号：

国产开源模型的竞争，已经不只是在榜单上追分，而是在进入真实开发者工作流，进入长程工程任务，进入AICoding最硬核的牌桌。

而这张牌桌上，GLM-5.2终于有了一个清晰的位置。

本文来自转载，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

赞 (0)

评测组小编

微信扫一扫

微信扫一扫

广东开先河：全省公务员共享一个AI Agent办公大脑

广东开先河：全省公务员共享一个AI Agent办公大脑

上一篇 2026年6月17日下午2:09

马斯克麾下最惨打工人：手滑删掉xAI三周训练数据

马斯克麾下最惨打工人：手滑删掉xAI三周训练数据

下一篇 2026年6月17日下午2:11

扫码关注我们，了解最新AI资讯~

评测

GPT-5.6首批实测来了！精准狙击Mythos

评测组小编
2026年6月10日
评测

Codex自我蒸馏玩法火了！OpenAI员工亲授：复制粘贴就能让AI消灭重复劳动

评测组小编
2026年5月25日
评测

全网实测Kimi K2.7 Code！黑洞、燃烧动画、水波渲染全卷起来了

评测组小编
2026年6月15日
评测

腾讯放了个”小牛马”，会打盹会上厕所，干活还要摸鱼

评测组小编
2026年5月16日
评测

一手实测谷歌Gemini Omni：有点拉，但综合给到一个NPC

评测组小编
2026年5月20日
评测

我做了个测试 Claude API 中转站的 Skill，测完发现水太深了

评测组小编
2026年6月12日

发表回复

登录后才能评论

Fenix Flexin新歌《Rubberz》陷AI生成质疑
3小时前
分享到:

2026年7月下旬，洛杉矶说唱歌手Fenix Flexin（Shoreline Mafia成员）单曲《Rubberz》登顶Billboard Hot 100第58位。歌曲风格突变——从西海岸陷阱转向80年代英式合成流行，并采用仿英口音演唱，引发AI创作质疑。音频分析显示踩镲脆裂、人声低码率失真、混响突兀截断；歌词结构单一、逻辑断裂、押韵机械；现场表演频繁对口型、音域与录音严重不符。多款AI检测工具对歌词、封面图判定AI生成置信度超97%，但音频检测结果仅20%–30%。Fenix称系AutoTune所致，专家反驳该技术无法生成新口音或扩展音域。目前尚无确凿证据证实AI参与，亦无原始工程文件公开佐证。
谷歌Gemini Spark智能体全球开放
3小时前
分享到:

7月31日，谷歌宣布向全球大部分地区开放Gemini Spark个人AI智能体。该智能体已集成至Chrome浏览器，经用户授权后可代为执行收件箱整理、邮件摘要、航班搜索、房源查询等操作。Spark具备提示词攻击防护能力，并将付款等敏感操作严格交由用户手动完成。服务覆盖所有支持Gemini的地区，但暂不包括欧洲经济区、尼日利亚、瑞士和英国；美国用户需订阅Google AI Pro/Ultra，其他地区则需AI Ultra订阅方可使用。
报道称OpenAI面临投资者担忧与竞争压力 IPO或推迟至明年
3小时前
分享到:

据报道，OpenAI可能会将其IPO推迟到明年。参与相关讨论的人士透露，近几个月来，OpenAI的一些大投资者已私下对这家初创公司相对于其增长的现金消耗速度过快表示担忧，而其他投资者则通过向Anthropic投入资金来对冲他们对OpenAI的押注。与此同时，Anthropic的营收增长近期已超过OpenAI，其估值也是如此。据知情人士透露，Anthropic正在加速秋季IPO的计划，并已开始与潜在投资者会面，强调其相对于ChatGPT制造商所保持的领先优势。而最初希望抢在Anthropic之前上市，OpenAI现在可能会等到明年再IPO。
部分美国企业换上中国大模型以降低成本
3小时前
分享到:

从AlphaGo称霸围棋界到ChatGPT面世，美国在算法大模型领域积累了显著的先发优势。但近年中国大模型的崛起对AI格局有所冲击。美国《华尔街日报》等多家媒体提到，中国大模型独角兽月之暗面新一代开源大模型Kimi K3撼动资本市场，并称其与DeepSeek在2025年发布时引发的市场恐慌如出一辙，连马斯克都赞其“令人印象深刻”。一些大型美国公司也开始转向中国大模型。据美联社消息，加密货币交易所Coinbase表示，正在转向使用中国人工智能模型以降低成本。爱彼迎采用了阿里巴巴的Qwen模型，并称赞其“快速且便宜”。
三大唱片公司提议禁AI低质音乐入榜
16小时前
分享到:

2026年7月31日，环球、索尼、华纳等主流唱片公司联合提议，将未达“实质人类创作”标准的AI生成音乐排除在国际排行榜之外。此举旨在遏制未经艺人授权、滥用其作品训练的AI音乐泛滥。新提案严于此前标识化方案，要求上榜歌曲须满足：AI仅作辅助、服务条款合规、训练数据合法授权，且无刷榜嫌疑。目前IFPI表示支持，但各大榜单机构尚未宣布采纳。界定标准细节仍待明确。
马斯克关注DeepSeek X账号，V4-Flash API上线引热议
16小时前
分享到:

2026年7月31日，DeepSeek宣布其DeepSeek-V4-Flash正式版API上线公测；8月1日早，埃隆·马斯克关注DeepSeek官方X账号。此举发生于马斯克7月23日公开肯定中国AI与机器人实力之后，其提及电力供应为中国AI发展关键优势。DeepSeek该API发布帖获超2.5万点赞、5000余次转发，引发行业广泛关注。
四大科技巨头承诺投入2.4万亿美元扩建AI数据中心
21小时前
分享到:

2026年8月1日，Alphabet、Meta、微软和亚马逊宣布未来数年将投入近2.4万亿美元用于数据中心建设。此举旨在应对激增的AI算力需求，现有基础设施已严重不足。支出涵盖租赁、建筑、能源及设备，部分合同履行期长达30年。Alphabet未完成承诺达9020亿美元，Meta接近7000亿美元。尽管多家公司自由现金流转负，仍持续上调资本开支。亚马逊称其AWS扩张节奏堪比早期高速增长阶段，第二季度云营收同比增37%。
OpenAI用Astra模型破解十大数学难题
21小时前
分享到:

2026年8月1日，OpenAI公布其下一代模型Astra内部版本成功解决数学与理论计算机科学领域十项长期悬而未决难题。这些成果全部由AI系统自主生成证明，人类研究员仅负责论文撰写与Lean形式化验证。研究耗资约2000美元（约合13530元人民币）token成本。OpenAI强调署名应如实反映AI贡献，避免将纯AI成果归功于人类。所涉问题涵盖高维球体堆积、非柔性群存在性、康纳斯刚性猜想证伪、量子平行重复定理等，横跨群论、密码学、图论与复杂性理论。
亚马逊提前完成对OpenAI的350亿美元追加投资
1天前
分享到:

2026年7月31日（美国时间周五），亚马逊宣布已全额支付350亿美元追加投资，使其对OpenAI总投资达500亿美元，持股约5%。该投资原定以OpenAI达成上市及技术突破为前提，但因4月OpenAI与微软重签协议、释放合作空间，亚马逊决定提前履约。投资依据为双方2月签署的多年期战略协议。值得注意的是，亚马逊亦是OpenAI竞争对手Anthropic的重要支持者。
稀宇科技将于8月3日开源MiniMax H3多模态视频模型
1天前
分享到:

2026年8月3日0时，稀宇科技将在魔搭社区正式开源MiniMax H3通用多模态视频模型。该模型支持文本、图像、视频、音频统一理解与原生双声道音视频生成，最高达15秒2K分辨率。依托Contextual Omni Representation等核心技术，其2K分辨率推理成本不足主流模型三分之一，768P成本为同类模型一半。模型面向影视、广告、电商等商用场景，具备多模态理解、精准编辑与风格化生成能力。

【 方舟 Agent Plan】限时 9.9 元起，超全模态模型 × Harness 升级，最新支持 Doubao-Seed-Evolving、Kimi-K3（部分）、GLM-5.2