小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

【新智元导读】刚刚,清华团队开源硬核Agent系统PilotDeck,在开发者圈已经传疯了。项目独立建舱,记忆可视可改,Token还能省一大半。从此,一个人,就是一支AI军团!

龙虾凉了?

曾经2026年初爆火全国的OpenClaw,已经降温了。

身边曾经通宵魔改OpenClaw的朋友们,已经把它默默打入了冷宫。这个曾经以史上最快速度在GitHub上爆火的项目,如今声量几乎掉到了冰点。

小龙虾可能已经完成了历史使命——它像飓风一般,第一次把Agent的范式真正吹进了大众视野,让所有人明白:AI不只是个陪聊的Chatbot,它是能主动替你干活的。

但它没能成为Linux。因为跑得太快,它还没来得及建立起足够深的代码壁垒和生态,就被拍在了沙滩上。

所以,那些真正需要靠Agent搞生产力的人,现在在用什么时髦的新工具?

最近,一个名为PilotDeck的智能体操作系统,在圈内低调上线了。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

这项技术由清华大学THUNLP实验室、面壁智能、OpenBMB与AI9stars联合研发并开源。

如果说OpenClaw是一个极客浪漫主义的「大玩具」,那么这位「清华系高材生」,就是可以把隔壁小龙虾拍在沙滩上的,真正面向纯粹生产力的「智能体协作舱」。

从奶茶店到数据大屏,跨度大到离谱

它和那些浅尝辄止的初代Agent有什么区别,让我们来看几个非常直观的测试。

我们同时开了两个WorkSpace,一个做游戏,一个做数据可视化。同时跑,看它能不能扛住。

第一个WorkSpace,丢进去一句话。

「做一个模拟经营奶茶店的小游戏。要有进货、定价、排队系统,顾客会根据价格和口碑决定买不买。」

输入prompt后,它就生成了一个非常详细的奶茶模拟店经营游戏计划。

PilotDeck拆解了游戏设计中的核心循环,设计了5款奶茶的产品线,还自己设计了进货系统、定价系统、顾客与排队系统、财务系统等等。

在技术实现中,它提前构想好了清新卡片风的UI布局,写出了关键的JS模块和实现步骤。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70% 小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

最终,一个奶茶游戏就可以在线试玩了!

Current Time 0:29
Duration 2:20

自动播放

第二个WorkSpace,完全不同方向。

「这里有一组全球AI公司融资数据,帮我做一个互动式数据可视化大屏,要有动画效果,鼠标悬停能看详情。」

在这个任务中,PilotDeck用四个图,分别展示了融资总额TOP 10,北美/欧洲/亚洲地区融资占比,通用AI/企业AI/生成式AI赛道分布等等。

最终生成的可视化大屏,非常清晰地展示了各区的AI公司融资数据。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

两个任务同时跑。一个在写游戏逻辑,一个在画图表。互不干扰。

跑完之后我们又加了一个纯好玩的。

「做一个程序员性格测试,10道题,测出来你是哪种程序员人格,要有结果页和分享卡

PilotDeck生成了非常贴近真实开发场景的10道选择题,并且分为了架构师🏛️/ 搬砖侠🧱/ 完美主义者✨/魔法师🧙/ 布道师📣/ 哲学家🤔6种人格。

视觉风格是GitHub暗色主题和JetBrains Mono等宽字体,科技感十足。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

测完10道题,最后结果显示,本人是搬砖侠实锤了。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

从经营游戏到数据大屏到社交小应用,跨度大到离谱。

但在PilotDeck里,每个都是独立的WorkSpace,各跑各的。

别人隔离文件夹,它隔离整个世界

跑完之后,我们做了一件更有意思的事,分别打开两个项目的Memory面板。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

奶茶店项目的记忆里,存的是游戏逻辑、UI风格、玩法参数。

数据大屏项目的记忆里,存的是图表类型、配色方案、数据处理逻辑。

两边没有一条记忆串台。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

这才是PilotDeck的WorkSpace和别家最根本的区别。

虽然Claude Cowork引入了Projects做项目隔离,Cursor也有Workspace,但它们的隔离本质上还是「文件夹+规则」,记忆看不见改不了,技能不会随着使用越多越进化,成本分不清哪个项目花了多少。

PilotDeck给每个项目建的是一个完整的「工作舱」,舱里有三层。

· 专属文件系统:哪些文件归这个项目、AI生成了什么,边界清楚。

· 专属记忆:Project Memory记项目定义和进度,Collaboration Feedback记你的偏好。全都看得见、改得了、追得到来源。

· 专属技能:Skill应用商店一键装到对应WorkSpace,给做游戏的舱装game-asset-finder,给写文档的舱装minimax-pdf。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

别家的WorkSpace是文件夹加静态规则。PilotDeck的WorkSpace是AI的完整生存环境。

Token账单砍了一半,效果没掉

Agent工具有个公开的秘密,虽然用起来很爽,账单一出却很吓人。

全程调最强模型跑任务,Token烧起来比打车还贵。

很多人的应对策略是手动切模型,简单问题用便宜的,复杂问题换贵的。但这个切换成本本身就很烦。

PilotDeck做了一套智能路由,而且做法和市面上的方案不太一样。

先说最关键的一个设计决策。

大部分路由方案是按request级别切的,每一次请求都单独判断走哪个模型。

这么做的问题是,模型频繁切换会打断KV-cache,相当于每次换模型都要重新「读档」,推理效率反而下降。

PilotDeck的路由是在子Agent层面做的。

一个复杂任务拆成多个子任务后,整个子Agent分配给一个模型跑到底,这个子Agent内部的上下文缓存是连续的。

省的不只是token的钱,还有来回切换带来的性能损耗。

然后,是调度规则。

相比于写死的路由方案,比如「贵模型做难题、便宜模型做简单题」,PilotDeck要灵活得多。

它支持用规则和prompt来调节路由策略,你可以自己定义什么类型的任务走什么模型,甚至用自然语言告诉它「代码相关的子任务都走Claude Opus,文本处理走便宜模型」。

打开Routing面板,每个session被判定为什么难度(complex / simple / medium)、实际花了多少、不开路由要花多少,全都列在那儿。

比如在我们跑的几个任务中,可以看到在程序员人格测试应用中,不开路由要花费10.97美元,开路由后实际只花了1.42美元,一下子就省出了75%(9.55美元)。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

研究团队在更大规模的测试里也验证了这个效果。

社交媒体场景(小红书内容生成),开路由花2.83美元,不开路由12.58美元,省了约70%。

复杂任务场景(播客多语言、金融分析、代码文档等),主Sonnet 4.6 + 子MiniMax-M2.7花3.15美元、得分70.6,单体Sonnet 4.6花18.36美元、得分69.1。虽然只有1/6的价格,但效果还略好一点。

如果只想要效果拉满,那完全可以把路由关掉,全程跑最强模型,选择权都在你手里。

而且,路由的能力还不止于此。

PilotDeck可以接本地部署的模型做子Agent,敏感数据不出本机。

有些任务它甚至会自己判断需要什么工具,自动部署一个端侧模型来干活,比如播客多语言处理时,它会自己装一个VoxCPM来生成语音。

也可以云端模型负责思考,本地模型负责执行,这样,就把省钱和隐私一起解决了。

打开AI的大脑,逐条改

如今,Agent的记忆已经不再是原来的那种黑盒。

但很多时候,AI记住了什么、什么时候记的、记对了没有,依然不够清晰。

针对这一问题,PilotDeck的WorkSpace给出了一种全新的答案——它不是打开一个文件夹,而是智能体的完整生存环境

打开Memory面板,每条记忆标着时间戳、来源路径和类型。

Project Memory记项目核心定义,Collaboration Feedback记你的交付偏好。

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%

记错了,可以点进去改。记忆冲突了,直接删掉错的那条。不需要重启对话,不需要重新喂一遍偏好。

PilotDeck还有一个叫Dream的机制。空闲时段,AI在后台自动回顾整理自己的记忆,白天干活、晚上消化。

Memory面板上能看到Memory Dream按钮和Rollback Last Dream按钮。如果Dream整理出了错,还能一键回滚到整理前的状态。

记忆白盒化最终带来的效果是,AI越用越「听话」。

你的偏好沉淀在Feedback Memory里,看得见、调得了。不是靠AI猜你想要什么,是你告诉它,它白纸黑字记着,下次照做。

六边形战士,开源带走

回顾大模型浪潮,从最初惊艳世人的ChatGPT,到像OpenClaw这样疯狂试探能力边界的极客玩具,Agent的形态一直在快速迭代。

但直到今天,当「成本」、「隔离」、「记忆」这些纯工程化、偏后端的硬核痛点被PilotDeck逐一击破时,Agent才算真正落地了。

凭借PilotDeck提供的独立工作舱、白盒化可控记忆、以及精打细算的智能路由策略,「一个人,一支AI军团」的设想,已经开始成真。

最关键的是,这款「六边形战士」,并没有被锁在昂贵的企业版付费墙后,而是大大方方地选择了完全开源。

不论是底层的路由逻辑,还是优雅的Workspace架构,所有的代码都已经毫无保留地放在了那里。

如果你也想体验这种「当甩手掌柜」的快乐,或者想扒开源码亲自魔改一套属于自己的赛博班底,现在就可以去接管你的AI军团了。

本文来自转载新智元 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
资讯组小编的头像资讯组小编
在做Harness这件事上,DeepSeek更信搞量化的
上一篇 1小时前
独家!蚂蚁集团首款AI眼镜Willit正式面世,已登陆淘宝开售
下一篇 1小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论