评测

评测

实测GPT5.5 : 最强模型不是嘴炮，它真能干活儿

GPT-5.5，终于发布。作为OpenAI当下最强的模型，这次更新的亮点是“为真实工作而设计”。和过去的模型相比，GPT-5.5能更快理解使用者真正想做的事情，也能自己承担更多…

评测组小编
2026年4月24日
评测

GLM-5.1、Qwen 3.6 Max preview 与 Kimi 2.6 国产大模型横向对决

2026 年上半年，国产大模型赛道正式告别了纯粹的参数竞赛，进入了工程落地与商业性价比的贴身肉搏阶段。智谱 AI、通义千问与月之暗面推出的三款最新旗舰，分别在自主编程、通用智能以…

评测组小编
2026年4月23日
评测

实测混元Hy3 preview：混元再出发，中型模型的务实之战

编者按：本文为 Hy3 preview 评测，评测环境为 WorkBuddy，评测内容基于真实任务执行结果。本次共测试三个场景：事实审计员、文档可视化、深度研究。 Hy3 prev…

评测组小编
2026年4月23日
评测

OpenClaw：先驱准备成先烈

本文是 OpenClaw 架构在应用层的风险的延伸。Anthropic 发布了 Managed Agents 架构，验证我们的一些判断，继续扩展讨论一下。我们的判断被验证了上…

评测组小编
2026年4月22日
评测

实测Images 2.0 : 10招玩转生图新王

OpenAI的Images 2.0可算是来了，而且效果可以说是以假乱真。此前这个模型是以灰度测试的形式，供给各种ChatGPT的付费用户测试，可惜我一直没被灰度到。 OpenAI…

评测组小编
2026年4月22日
评测

花1.5万、烧掉23亿Token，CTO让Claude一周“打穿”Chrome，实测结果：别等Mythos了，现有AI已经“高危”

Mythos 是否强大，也许已经不重要了。如果你在网络安全圈混，最近一定被“Mythos”刷过屏——Anthropic 搞出了一个能挖 Bug 的 AI 模型，但因为怕被坏人滥用…

资讯组小编
2026年4月22日
评测

国产 AI 编程工具不完整调研分析报告

一、市场概览国产 AI 编程工具已从”代码补全”阶段全面迈入”全流程自动化 + 智能体协作”时代。据 Stack Overflow…

评测组小编
2026年4月21日
评测

普通网线也能跑万亿大模型！月之暗面抛出王炸架构，亲证：不用全买 H100！1T模型实测：延迟暴降64%！大模型推理“围城”攻破了！

编辑 | 云昭在 AI 工程界，长文本推理一直是个“富贵病”。为了让大模型回话快一点，厂商们不得不把数千颗昂贵的GPU塞进同一个机房，并配上天价的 InfiniBand 交换机…

评测组小编
2026年4月21日
新品

Kimi 2.6 深夜正式发布：对标opus 4.6，刷新开源编程天花板

月之暗面正式上线并开源了新模型 Kimi K2.6，从官方公布的benchmark来看，代码能力追平或者超越GPT 5.4和opus 4.6，非常能打，当然与A厂刚发布Mythos…

资讯组小编
2026年4月21日
评测

国内AI编程工具横评：字节Trae、阿里通义灵码、百度Comate、腾讯CodeBuddy，谁才是真香之选四款工具

先交代一下背景。我不是来凑热闹的。最近在做一个内部工具项目，主力环境是 Claude Code，用着挺顺手，但有个痛点一直解决不了——网络延迟。国内访问海外服务，速度不稳定，有时…

评测组小编
2026年4月21日
评测

谷歌发布 Android CLI：AI Agent 让安卓开发效率提升3倍

GOOGLE · ANDROID CLI · 2026 谷歌发布 Android CLI：AI Agent 让安卓开发效率提升 3 倍支持任意 AI 编程工具 · Skills …

评测组小编
2026年4月20日
教程

花顶级模型的钱，拿到的可能是假货：AI 中转站灰产链揭秘

你以为自己在用Claude Opus 4.6写代码，但后台跑的可能是一个9B参数的国产小模型。你以为省了钱，其实你的每一条prompt正在被人存档，拿去训练竞品模型。你以为找到了平…

教程组小编
2026年4月19日

12 / 14
9
10
11
12
13
14

亚马逊首次在ChatGPT投放广告
45分钟前
分享到:

6月24日，亚马逊启动在OpenAI旗下ChatGPT平台的广告投放，系其首次接入该平台广告体系。广告面向全球使用ChatGPT的用户，主要展示与搜索商品相关的推荐内容，并引导用户跳转至亚马逊电商平台完成购买。此举旨在拓展AI场景下的流量入口，强化搜索—转化闭环。广告由亚马逊自主投放，采用按效果付费模式，具体预算未披露。分析认为，这标志着主流电商与生成式AI平台商业化合作进入新阶段。
软银宣布工厂量产物理AI机器人，拟收购ABB机器人业务
45分钟前
分享到:

2026年6月24日，软银集团董事长孙正义在东京股东大会上宣布，其物理AI机器人已在某工厂启动量产，即将正式发布。软银计划整合全球顶尖垂直领域机器人企业，打造“压倒性世界第一的机器人公司”。公司已达成协议，将以约54亿美元收购瑞士ABB集团工业机器人业务，预计2026年内完成。此举标志着软银继2017年收购波士顿动力、后于2021年起逐步退出后，再度全面加码机器人产业化布局。
Claude Tag接入Slack：内部直出65%代码，Karpathy称其为第三代范式
46分钟前
分享到:

Claude Tag已接入Slack，并在内部生成65%的代码。Anthropic推出新一代协作智能体Claude Tag，开启Slack平台公测，支持企业与团队用户将AI作为持久、异步的协作成员引入工作流。新功能目前处于beta测试阶段，面向Claude Enterprise与Claude Team订阅用户开放，改变了传统的单人对话模式，允许多人在同一频道内共同调度同一个AI。用户在频道中提交任务后，模型会自动将任务拆解为多个阶段，利用连接的代码库和外部工具进行处理，并在完成后于Slack线程中回复结果。频道管理员可以配置独立的工具调用与数据访问权限，确保模型记忆相互隔离。前特斯拉AI总监Andrej Karpathy评价称，这是大语言模型交互UI/UX的第三代范式，AI正在演变为拥有组织级工具与上下文的持久、异步协作实体。
Cursor推出Customize页面，统一管理插件、技能与MCP
46分钟前
分享到:

Cursor推出全新的Customize页面，在用户、团队和工作区级别统一管理插件、技能、MCP、子智能体、规则、命令及钩子。除了支持引入自定义MCP，页面还提供市场排行榜，展示团队与社区内最受欢迎的工具，用户点击一次即可添加到个人配置中。插件开始支持预构建画布，供团队共享并复用配置模板。首批上线的包括用于数据可视化的hex画布，以及能实时查看任务、项目和文档的atlassian画布。此外，团队市场在支持本地代码库的基础上，新增了对gitlab、bitbucket和azure devops插件仓库导入的支持，方便团队分发插件。
千问正式发布Qwen-AgentWorld
46分钟前
分享到:

千问今天正式发布了Qwen-AgentWorld，这是首个原生语言世界模型（language world model, lwm），能够在七大领域中模拟智能体交互环境。该模型的环境建模从继续预训练（cpt）阶段起即为训练目标，贯穿cpt → sft → rl全流程，而非对通用大语言模型的事后适配。Qwen-AgentWorld单一模型同时覆盖文本类环境（mcp、search、terminal、swe）与GUI类环境（web、os、android），实现跨领域知识迁移。
传GPT-5.6与Gemini 3.5 Pro延至7月发布，OpenAI新语音模型或于本周上线
47分钟前
分享到:

据知名科技博主爆料，GPT-5.6与Gemini 3.5 Pro的发布已推迟至7月，原定于本周上线的GPT-5.6新目标时间已延至7月中旬。谷歌DeepMind因对模型当前状态不满，取消了Gemini 3.5 Pro在6月底的发布计划。同时，OpenAI的新一代双向语音模型Bidi的发布准备正在ChatGPT平台推进，最快本周向用户开放。Bidi支持全双工通话，允许用户与大模型同时发声或随时打断，被视为现有语音模式的重大升级。Anthropic已让部分企业客户提前接入Claude Sonnet 5。由于旗舰模型Mythos 5与Fable 5的解封陷入停滞，Claude Sonnet 5被Anthropic视为缓解竞争压力的过渡方案。
维基百科联合创始人：AI幻觉依然严重，不会让AI直接参与内容编辑
51分钟前
分享到:

据法新社消息，维基百科 (Wikipedia) 联合创始人吉米 · 威尔士（Jimmy Wales）当地时间周一表示，维基百科对 AI 的信任度尚不足以让其直接在平台上参与词条编辑。
威尔士指出，尽管较新的 AI 模型已经在一定程度上减少了 AI“幻觉”问题 —— 即看似自信地输出捏造信息的现象 —— 但这一问题依然“非常、非常严重”。
阿里QoderWork推“峰谷Token”
1小时前
分享到:

6月23日晚，阿里QoderWork推出“峰谷Token”，Agent在每晚 22:00到次日08:00运行可自动享受优惠，其中Qwen3.7-Max模型低至2折。这是国内首个上线“峰谷Token”的Agent产品。据介绍，夜间折扣产品涵盖QoderWork、Qoder Desktop等产品。
豆包推出专业版订阅服务，最高一年6000元
4小时前
分享到:

豆包今日正式推出专业版订阅服务，基于字节跳动豆包2.1系列智能体模型打造，上线办公任务模式，可自主拆解工作任务、调用本地工具与Office套件，升级为生产力工具。

产品采用三级阶梯定价：标准/加强/高级套餐连续包月分别为68元、200元、500元，功能额度逐级提升。同时将推出大学生专属特惠，认证后标准套餐低至38元/月。官方称原有免费服务与功能保持不变。
Meta推出299美元智能眼镜新系列
5小时前
分享到:

Meta 6月23日宣布，公司与依视路陆逊梯卡合作推出全新的“Meta Glasses”系列。该系列采用全新设计，包含三种镜框款式，起售价为299美元，较公司第二代入门款Meta Ray-Ban智能眼镜至少便宜80美元。

【腾讯云】 4核4G服务器新客 38元/年起，支持 OpenClaw/Hermes 等热门镜像；Token Plan 低至28元/月，多种主流模型极速调用