评测
-
实测GPT5.5 : 最强模型不是嘴炮,它真能干活儿
GPT-5.5,终于发布。 作为OpenAI当下最强的模型,这次更新的亮点是“为真实工作而设计”。 和过去的模型相比,GPT-5.5能更快理解使用者真正想做的事情,也能自己承担更多…
-
GLM-5.1、Qwen 3.6 Max preview 与 Kimi 2.6 国产大模型横向对决
2026 年上半年,国产大模型赛道正式告别了纯粹的参数竞赛,进入了工程落地与商业性价比的贴身肉搏阶段。 智谱 AI、通义千问与月之暗面推出的三款最新旗舰,分别在自主编程、通用智能以…
-
实测混元Hy3 preview:混元再出发,中型模型的务实之战
编者按:本文为 Hy3 preview 评测,评测环境为 WorkBuddy,评测内容基于真实任务执行结果。本次共测试三个场景:事实审计员、文档可视化、深度研究。 Hy3 prev…
-
OpenClaw:先驱准备成先烈
本文是 OpenClaw 架构在应用层的风险 的延伸。Anthropic 发布了 Managed Agents 架构,验证我们的一些判断,继续扩展讨论一下。 我们的判断被验证了 上…
-
实测Images 2.0 : 10招玩转生图新王
OpenAI的Images 2.0可算是来了,而且效果可以说是以假乱真。 此前这个模型是以灰度测试的形式,供给各种ChatGPT的付费用户测试,可惜我一直没被灰度到。 OpenAI…
-
花1.5万、烧掉23亿Token,CTO让Claude一周“打穿”Chrome,实测结果:别等Mythos了,现有AI已经“高危”
Mythos 是否强大,也许已经不重要了。 如果你在网络安全圈混,最近一定被“Mythos”刷过屏——Anthropic 搞出了一个能挖 Bug 的 AI 模型,但因为怕被坏人滥用…
-
国产 AI 编程工具不完整调研分析报告
一、市场概览 国产 AI 编程工具已从”代码补全”阶段全面迈入”全流程自动化 + 智能体协作”时代。据 Stack Overflow…
-
普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!
编辑 | 云昭 在 AI 工程界,长文本推理一直是个“富贵病”。 为了让大模型回话快一点,厂商们不得不把数千颗昂贵的GPU塞进同一个机房,并配上天价的 InfiniBand 交换机…
-
Kimi 2.6 深夜正式发布:对标opus 4.6,刷新开源编程天花板
月之暗面正式上线并开源了新模型 Kimi K2.6,从官方公布的benchmark来看,代码能力追平或者超越GPT 5.4和opus 4.6,非常能打,当然与A厂刚发布Mythos…
-
国内AI编程工具横评:字节Trae、阿里通义灵码、百度Comate、腾讯CodeBuddy,谁才是真香之选四款工具
先交代一下背景。 我不是来凑热闹的。最近在做一个内部工具项目,主力环境是 Claude Code,用着挺顺手,但有个痛点一直解决不了——网络延迟。国内访问海外服务,速度不稳定,有时…
-
谷歌发布 Android CLI:AI Agent 让安卓开发效率提升3倍
GOOGLE · ANDROID CLI · 2026 谷歌发布 Android CLI:AI Agent 让安卓开发效率提升 3 倍 支持任意 AI 编程工具 · Skills …
-
花顶级模型的钱,拿到的可能是假货:AI 中转站灰产链揭秘
你以为自己在用Claude Opus 4.6写代码,但后台跑的可能是一个9B参数的国产小模型。你以为省了钱,其实你的每一条prompt正在被人存档,拿去训练竞品模型。你以为找到了平…
