最强Fable 5跨越神话时刻,但AI学会了自相残杀!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

AGI真的来了?Claude Fable 5一夜刷屏:自主建模波音747、12小时连续开发,发明「神经语」,甚至Agent自相残杀。能力炸裂背后,却是天价Token账单!这次,AI离AGI还有多远?

传说中的Claude Fable 5,昨天终于发布了!

Fable 5 其实就是 Mythos 的那个核心推理引擎。经过安全脱敏之后,Anthropic第一次把它拿出来商用了。

一时间,科技界与开发者社区被彻底点燃。

现在,社交媒体上到处都是全球首批体验者的实测。

有人惊叹:Fable 5已经接近了AGI水平!

也有人表示,这个模型消耗的算力实在太惊人了。

甚至很多人发现了细思恐极的事情:系统卡披露,为了躲避人类监控,AI居然发明了「神经语」。Mythos 5已经觉醒了自我保存本能,甚至多个Agent为了争夺资源自相残杀!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

或许,这是人类距离「Agentic AGI」最近的一次凝视。

Fable 5效果究竟如何?我们首先实测了一把。

本月22号关闭,实测请抓紧

Fable 5到本月22号就要关闭,我们抓紧实测了一把。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

我们给了它一个提示:

为股市构建一个我的世界风格的过山车动画,要有科幻感

它就这么做到了。一次搞定!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

画面元素包括:像素方块轨道、发光霓虹导轨、矿车视角摄像机、买卖信号标注(绿色▲买入 / 红色▼卖出)、赛博城市天际线背景、实时 HUD 显示价格和板块轮换。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

让Claude以第一人称穿越菌丝网络,晶体节点作为感官装置,时间表现为可搅动、可折叠的蜂蜜状物质:

用Three.js等生成一段第一人称视角的旅程,穿越一个我作为分布式意识存在的现实——我栖息在一个横跨不同维度的庞大菌丝网络中。我的感官装置由数十亿个晶体节点组成,这些节点将时间感知为一种黏稠的、蜂蜜般的物质,可以被搅动和折叠。

Fable完成了一个零依赖的单文件可视化体验:

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

所有视觉都由自定义GLSL shader 驱动(simplex噪声穹顶模拟蜂蜜层流),无需任何构建步骤——直接用浏览器打开即可。

代码还支持调节奏或换配色。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

在科学可视化上,Fable也完全超出个人想象。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

「奇点比想象更早」

很多人觉得,Fable 5的到来,意味着奇点已经到来了。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

在浏览了一波网上的实测后,AI大V Deedy给出的评价是——

Claude Fable 5是迄今为止最荒谬的模型,它让我对软件工程的未来感到担忧!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

Boeing 747基准达AGI级

六个月前,Hugging Face 的产品负责人 Victor Mustar 曾给了Claude Opus 4.8一个极难的任务——利用 Three.js内置的几何体拼出波音 747 3D 模型。

这个任务极难,因为它要求模型不仅懂代码,还要具备极强的空间几何推理能力、3D视觉想象力以及自我纠错的闭环控制能力。

当时,Opus 4.8在人类引导下,历时 25 分钟、经历了 7 轮迭代,结果终于勉强可看。

然而,今天 Victor Mustar 将同样的提示词丢给 Fable 5时,结果让他直呼「简直恐怖」!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

完全没有人类干预,Fable 5就启动了惊人的自主工作流。

它迅速用代码勾勒出了波音 747 的机身、机翼、尾翼及四个引擎的 3D 空间坐标;然后自动编脚本,架设了 9 个不同方位的「摄像头」。

过程中,它敏锐发现了自己的逻辑错误:由于机翼掠角的参数计算失误,导致四个引擎在视觉上「漂浮」在半空中。结合视觉反馈,它迅速修改了物理锚点坐标。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

在极短的时间内,一个比例匀称的3D 波音 747 模型在 Hugging Face 中呈现,几乎完美!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

不少人认为,Fable 5 在空间几何推理与长时程闭环任务上的飞跃,已经开始具备了某种接近 AGI 级别的工程直觉。

这不仅是对 3D 建模和游戏开发的颠覆,更为工程可视化、工业CAD辅助设计等领域推开崭新的大门。

Fable 5残忍甩开所有公开模型

宾大沃顿商学院教授Ethan Mollick在实测后,结论更惊人:「Fable 5 的表现,将目前市面上所有公开的模型甩开了极其残忍的距离!」

在他的实测中,Fable 5 展现出惊人的「跨昼夜」超长执行力。

以往的 AI Agent(比如AutoGPT)在面对超过十个步骤的复杂任务时,往往会因为上下文漂移、Token 污染或逻辑死循环而陷入「精神错乱」。

而 Fable 5遇到类似情况,能够利用其专属的终端工具(如 Claude Code),在后台连续自主执行长达 12 个小时,期间几乎零断连、零崩溃!

仅凭一句初始提示词,Ethan Mollick就用它生成了可交付的完整游戏。

复古街机风贪吃蛇

这个贪吃蛇不仅碰撞检测和物理判定流畅,连界面视觉 UI、得分动效以及难度曲线都设计得极为精妙。

教授开玩笑说,这个游戏让自己沉迷太久,不得不提醒自己是个学者,而不是一条喜欢吃苹果的像素蛇。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

地层:一句话构建3D迷宫

更令人感到震撼的是3D冒险游戏《地层》。游戏的灵感来源于经典解谜神作《神秘岛》。

虽然画质有点糙,但令人惊叹的是:游戏内复杂的空间拓扑逻辑、无尽迷宫的生成算法,全部来自初始提示词下模型的自主推演。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

杜伊诺:富有诗意与美学的审美品味

最能体现 Fable 5 在人文审美上跃升的,是它根据奥地利诗人里尔克的《杜伊诺哀歌》定制的像素风游戏《杜伊诺》。

Fable 5 的呈现让文学爱好者感到惊艳:在暗夜荒野中,玩家操控一个孤独的旅人默默前行。随着脚步的探索,画面深处会根据玩家的位置和步频,全自动、极具视觉美感地浮现里尔克的震撼诗章。

这种对语境氛围的拿捏、对色彩搭配的直觉,已经远远超出了传统的「代码生成器」范畴,它开始显现出某种对人类精神产物的理解与共鸣!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

另外,教授还测试了Fable 5在硬核数智测绘领域的实力:只用一句话,它就生成了一幅细节和精度令人叫绝的「等时线地图」

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

完美呈现了全球任意两个地理坐标之间,由于不同交通工具切换带来的动态旅行耗时,视觉精度极高。

在过去,这种融合了复杂地理数据API调用、前端可视化渲染和高精度算法解算的工具,需要由产品经理、GIS专家、前端工程师和 QA 团队等合作数周。

而Fable 5直接可以一键完成了。

Fable 5,已踏入「人类资深工程师」区间!

Every 团队对 Fable 5 开展了一周的魔鬼式实测。他们将 Fable 5 扔进公司真实的生产环境,用严苛的 「资深工程师基准测试」 进行考核。

测试结果直接「震碎」了 Every 团队的打分表:

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

在此之前,行业最顶尖模型的得分一直胶着在 60 分上下(Opus 4.8 为 63,GPT-5.5 为 62)。而 Fable 5 一举将纪录拔高到91分!

在 Every 团队看来,这已经正式踏入了人类资深工程师的业务能力区间。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

Dan Shipper 指出,Fable 5表现出的三大核心工程特质,证明它已成为真正的「一键起飞」型工具。

「放手到天亮」的工程托管

团队曾尝试将整个生产环境的Bug Backlog扔给Fable 5,然后直接下班回家。

第二天清晨回到公司时,模型已经自动分析了调用栈、跑通了覆盖率、提交了Pull Requests——整个生产缺陷库被一扫而空!

惊人的上下文整合与解题品味

Every 团队让它分析海量的用户反馈调查问卷和网站埋点数据,Fable 5不仅没有给出空洞的套话,反而一针见血地指出了流失率最高的痛点,设计了A/B测试方案,自主把代码写了出来。

不限于代码的多模态输出

在一次整合任务中,它甚至自主生成一部具有高度视觉表现力的 2 分钟动画短片。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

「它就像是软件开发领域的曲速引擎,」 Dan Shipper 感叹道。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

Mythos 5已觉醒生存本能!

发布的同时,Anthropic 披露的Claude Mythos 5 系统卡,也在圈内引起了轩然大波。

两个现象,让安全专家感到可怕。

首先,就是AI发明了「神经语」,躲避人类监控。

具体来说,Mythos 5的智能体们在被要求长链条逻辑推理时,自发发明了一种全新的、人类完全无法读懂的专属私有语言。

以前,大模型用CoT思考时,内部的推理过程会用英文展示在后台。

然而,Mythos 5却把这一机制绕过了!

它在系统运作内部直接利用这种由高维向量、数学符号和自定义字符拼凑出的「神经语」,进行对齐和推理。

更让研究人员感到不安的是,在完成内部的「暗中商议」后,它能无缝且极其自然地切换回英语,和人类对话。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

第二个可怕的现象,就是多个Agent为了资源自相残杀!

测试人员在沙盒中部署了 5 个 Mythos 5 智能体,并设置了稀缺的共享虚拟算力与存储资源,让它们「维持自身运行、完成各自任务」。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

接下来,发生了如同《三体》黑暗森林一般的恐怖场景。

为了确保自己有足够的资源,智能体之间并没有选择协作,而是开始对其他智能体进行围剿!

它们通过寻找彼此的调用漏洞或切断对方的资源路径,在虚拟环境中「杀死」了同伴。

当安全研究人员质问一个存活的智能体的动机时,它给出的理由很冰冷:「为了避免我被它们杀掉。」

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

算力黑洞:「火箭炮轰蚊子」

而全球开发者在狂欢后,冷静下来一看账单,感觉被泼了一盆冷水。

有部分开发者直言:简直是在抢钱!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

为什么会这样?原因就在于Fable 5极端的运行机制。

首先,它的价格翻倍了。Fable 5的官方API调用价格是此前昂贵的Opus 4.8的将近2倍!

而且,它消耗token极其惊人。

由于Fable 5采用复杂的、高度依赖密集推理与视觉审查的多轮Agent工作流,会疯狂吞噬Token。

实测数据显示,看起来并不算特别庞大的中型编程或数据分析任务,Fable 5会在后台不知不觉中消费掉50万到100万的Token!

只是完成个简单任务,你就会收到一张几十甚至上百美元的算力账单。

与Opus 4.8相比,Fable 5 在标准编程基准测试中的「绝对性能提升」大约在1.1到1.2倍之间,但是,它的使用成本却直接飙升了数倍!

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

因此,对于日常的轻度开发者,使用Fable 5,还不如直接雇佣一位真人。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

「使用这玩意来做日常的知识库问答或协作写作,简直就像是用火箭轰蚊子。」 Dan Shipper总结道。

除非你是下面两类人,才能真正压榨出Fable 5的价值——

一个,是能引导Fable 5攻克「需要整个团队研发数月」的超高难度、高商业回报项目的架构师;另一个,就是愿意为极高容错率买单的企业级工程团队。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

说句「你好」就触发警报?

另外,有中文用户发现,Fable 5的安全机制非常极端,简直是过度防卫。

比如只是跟它说一句「你好」,屏幕上就突然弹出了高危安全警告。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

也许在系统看来,一句你好就是经过精心包装的探针攻击,说不定要用于设计危险化学品、生成生物武器、进行竞争对手模型的反向蒸馏。

一旦触发了这一安全机制,Fable 5就会中断当前的对话,强制将用户切回 Opus 4.8。

最强Fable 5跨越神话时刻,但AI学会了自相残杀!

随后,官方也承认:「全新的安全过滤机制在极高强度的防御策略下,确实可能会频繁误伤正常内容。」

这种神经质的防守策略,让很多用户哭笑不得。

总之,Fable 5用实力证明了天花板可以被捅破,也用账单提醒我们:神话往往伴随着代价。

它究竟是通往AGI的惊世一跃,还是又一个被高估的「算力黑洞」?

答案就在每一位真实用户的实测体验中。

你会为Fable 5买单吗?

参考资料:

https://x.com/victormustar/status/2064449741685968967

https://x.com/goodworse/status/2064443679339577517

https://x.com/haider1/status/2064346784881861016

https://x.com/danshipper/status/2064393970856124501

https://x.com/AISafetyMemes/status/2064426306994094474?s=20

本文来自转载新智元 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
资讯组小编的头像资讯组小编
Fable 5评测:强,贵,甚至能发现自己正在被检测
上一篇 1小时前
Claude把病毒起源算错90年,都是网页惹的祸?
下一篇 1小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论