斥资500元/上亿Token，深度横评4个顶尖模型的真实排名～

评测组小编 • 文章来源: 袋鼠帝AI客栈 • 2026年6月17日下午9:35 • 评测

大家好，我是袋鼠帝。

6月，感觉又是模型爆发的月份。

前有MiniMax-M3，然后是Claude Fable 5，到Kimi 2.7-code、GLM-5.2，麻了。

我现在都不想看模型的各种榜单、跑分了，感觉有很多刷榜的嫌疑。

而且，每次我测新模型，都有很多朋友在评论区比较其他模型。

毛选说的好，没有调查就没有发言权，实践是检验真理的唯一标准！

这次就来给大家做个顶级模型横测吧

看了下，kimi最新模型主要是编程能力强，这次我想测多个维度。GLM-5.2的Coding Plan暂时没抢到。。。所以下次测评再带它两吧（主要是模型太多的话，文章会非常的长）

之前在X刷到一位关注很久的大V，对MiniMax-M3评价还挺高的。说体感上接近Opus4.7，我想看看到底是不是真的。

所以，这次国内就先选择MiniMax-M3和DeepSeek V4 Pro这两位。国外模型选择Claude Opus 4.8和GPT-5.5。

本来还想加上Claude Fable 5的…

md，说到这个就来气。我刚充值完Claude Pro会员的第二天，Anthropic就把Fable 5封禁了，服了都。

然后我看网上有人说Cursor上还能用，我打开Cursor一看，确实有Fable 5，但提示要会员，然后我就傻乎乎的充值久违的Cursor会员。

然后，再次使用，就提示Anthropic禁用了这个模型。

靠！不早说，Cursor也是大坑，用不了就不要放那儿啊。或者你早点提示也行啊🤦‍♂️。

所以没办法，还是选了Claude opus 4.8..

最终，选定的参赛选手是Claude opus 4.8、GPT-5.5、MiniMax-M3、DeepSeek V4 Pro，我把他们都接入了codex/Claude Code，用同样的环境，同样的提示词，来一次公平对决。

然后这次为了做横评，也是下了血本，花费了500元，消耗了上亿tokens，希望朋友们多多三连鼓励一下😄

这次我们设计了5个”未来预测+物理世界+商业决策+知识工程+视觉理解”的场景

1、2026世界杯比赛预测

最近不是刚好在世界杯嘛，正好让他们来预测一下世界杯

我把2026年世界杯小组赛分组、各队近5年战绩、FIFA排名全喂进去，让他们预测淘汰赛走势和冠军归属。

主要看它们推理顺不顺、数据分析怎么样、概率给得合不合理、还有能不能自己去搜球队近况和伤病信息等等。还挺考验模型综合能力的。

先说GPT-5.5，表现还挺稳。已经踢完的比赛里，胜负和比分的命中率都到了50%，不算很准，但没乱猜。

给的概率也比较克制，没有动不动就”90%确信”那种。

就是思路偏保守（GPT-5.5性格就是保守，稳重型的），冠军Spain，亚军France，季军Brazil，传统强队三件套，稳但没啥惊喜。

Claude Opus 4.8就比较”精”了。

选Brazil夺冠，France亚军，Spain季军。整套逻辑是自洽的，解释起来也挺像回事。

但看数据，胜平负和比分命中率都只有41.7%，最近10场只中了3场。没那么保守，但预测比赛差点意思 🤔

DeepSeek V4 Pro方向感不错，胜平负命中率50%，跟GPT-5.5持平。具体比分就差了，33.3%。看得出大方向，但细节差一些。

它的预测路线倒是有点意思：Brazil冠军，Portugal亚军，England季军。比传统安全牌大胆，到底是神来一笔还是脑子一热，得等淘汰赛验了。

MiniMax-M3猜France冠军，Germany亚军，Spain季军。

单场命中率跟Claude差不多，胜平负41.7%，比分33.3%。

这一轮中还是ChatGPT 5.5更加稳健，说明在体育赛事中稳健一点，命中的概率会更大🤔

第一把的结果：

ChatGPT 5.5>Claude Opus 4.8>DeepSeek V4 Pro>MniMaxM3

2、上市公司财报分析->3D可视化

这个难度会更进一步。

我安排了一个任务：”分析Apple 2025Q4财报，把营收结构做成3D立体饼图”。

然后看Agent能不能自己完成一条龙：搜财报 -> 提数据 -> 算同比环比 -> 用Three.js做成3D模型

链路越长，中间只要稍微出点岔子，就走远了

这把我们先看看MiniMax-M3的表现：

分析报告应该是这几个里面内容最详细的～

然后MinMax-M3做出来的3D效果真是惊到我了，有点东西啊

然后是GPT-5.5，综合能力确实很强，但是pdf报告生成上面感觉，还是差点意思，内容很少。

但是GPT-5.5 的建模能力那真的没话说，它的大楼虽然比MiniMax-M3差一点儿，但是它做出来河流，以及基本的场景建设还是很🐂的。

接下来是Claude Opus 4.8，感觉3D建模一般啊，但它的页面布局能力还是没话说。

信息层级、模块比例、留白，处理得很稳，看起来更舒服。3D做得一般，但审美到位了。

DeepSeek V4 Pro 的pdf和场景建模可以说都是中规中矩

所以，这一轮MiniMax-M3胜出：

MiniMax-M3>ChatGPT 5.5>Claude Opus 4.8>DeepSeek V4 Pro

3、复刻史上最炫网页

为了测试他们的视觉理解能力，我找了一个动效审美都是天花板的网站：

https://lusion.co

这绝对是我这辈子见过最炫酷的网站（没有之一），可以用震撼来形容。。（目前没有任何一个模型或者 Agent能一次性做到百分百复刻）

GPT-5.5和Claude Opus 4.8都支持视觉理解能力。

MiniMax-M3 也支持了多模态理解，是国产模型中少有的支持多模态的顶尖模型。

我看了一下DeepSeek V4 Pro，还不支持多模态，所以这把它就只有沦为NPC在旁边干瞪眼了。。

首先是我寄予厚望的Codex + GPT-5.5，而且思考程度还开了高。

它吭哧吭哧一顿分析，最后看看它的成果吧：

我服了，第一次给我干成了个幻灯片。。。

我提醒之后，它确实变成网页了。但，做得也太简单了吧，排版都有点乱，而且大部分内容用的是视频里面的截图🤦‍♂️

这把 GPT-5.5 结合Codex，以最强之姿出战，居然拉完了，我是没有想到的。。

接下来再看看 Cursor Agent里面的Claude Opus4.8的表现吧：

emmm，我只能说，比GPT-5.5好点，起码有一些动效，但是离原版效果差得有点远啊，做得也很简单，有点偷懒的赶脚。

看来大家说Claude Opus4.8降智，不是没有道理的。

这个测评中，MiniMax-M3又给我惊到了，它基本上该有的要素都复刻到了，感觉能到个接近70%

这里面只要把一些动画提前做到，直接替换上去，还原程度应该能达到80%多。这个确实是我没有想到的。

所以这一把：MiniMax-M3 > Claude Opus4.8 > GPT-5.5

4、虚拟现实交互，手 = 控制器

这次玩的是AR方向。

用摄像头实时拍手 -> 让模型识别手势 -> 在画面上叠滤镜 -> 用手势切换不同滤镜。

之前在某音刷到过，还挺火的

做起来有点难度：手指关节级别的识别精度、实时性、手势到滤镜的映射逻辑，都得搞定。

GPT-5.5这把倒是快，一轮提示词就交作业了，大概只用了其他模型30%的时间。精细度还有打磨空间，但速度确实让我印象深刻。

PS：是团队里的小t帮忙跑的～

Opus 4.8 在这一轮的亮点是细节洞察。

滤镜区域拉伸成三角形。这让它的方案不只是“手势切换滤镜”，而是更接近真正的空间交互设计。

DeepSeek V4 Pro还不错，但手部识别的稳定性差了一些。

MiniMax-M3这一轮也做的不错，展开的时候层次分明：

手势识别流畅，画面反馈清晰，手跟滤镜之间的联动很自然。

还有个细节是它一次性就给了好几种滤镜，控制台里直接能调用和调试。可玩性拉满了。

这一轮的话，我个人觉得Claude Opus4.8做的挺好，边缘没有那么锐化，就感觉更真实。

Claude Opus 4.8>MiniMax-M3>ChatGPT 5.5≈DeepSeek V4 Pro

5、仓颉Skill-知识蒸馏

熟悉我的朋友应该知道，我之前搞了一个开源项目叫”仓颉Skill”（cangjie-skill），核心就一句话：把一本书蒸馏成Agent能直接调用的Skill。

之前老有人说，所有书AI都学过了，你这个是脱了裤子放屁。

确实，一些大众非常熟悉的书，不太需要这个方式来蒸馏。但是有很多比较小众的书，AI不一定记得清楚，甚至还有很多新书是AI没有训练的。

PS：也不一定非要是书，打开思路，还可以是有价值的视频，也可以是播客，总之任何能提取方法论的资料都可以用cangjie-skill来进行知识蒸馏。

这次我找来一本思想类书《人选天选论》（作者：姜蓝），也就是抖音上百万粉丝的大V 路飞最近分享出来的。

接下来让接入各个模型的Agent搭配cangjie-skill，提取该书的核心论点、关键案例、知识图谱，输出一套结构化Skill。

这个场景考验的是模型的长上下文理解能力，以及信息处理能力。

首先从拆书的层面上来说：

Claude Opus4.8把《人选天选论》拆成了16个Skill

GPT-5.5拆成了10个skill

DeepSeek V4 Pro也拆成了10个skill

MiniMax-M3拆了13个skill

Claude Opus4.8拆的更细，MiniMax-M3次之

然后再看看拆完书之后的问答效果：

GPT-5.5在回答问题上好的一点是能清楚的知道调用了哪些skill，并且还是中文名称

Claude Opus 4.8像一位充满智慧的老者一样，视角犀利的选用skill来回答你的问题，用更通熟易懂的语言告诉你，该怎么改正自己。

DeepSeek V4 Pro更多的是结构清晰，它直接给你提供了操作的方法论，让你明白，最重要的是在于实践而不是在于思考和内耗上。

另一个就是它会更具的你的话拆内容像token一样，把你的话拆成一个一个token分析，更加精准的找到切入点

MiniMax-M3好的一点就是简单明了，基本采取3步走策略，告诉你3步之内你该怎么走，每周一件事该怎么做。

这一轮排名比较主观（因为确实也不太好量化），综合蒸馏能力，和回答效果来看，我觉得是：

Claude Opus 4.8>DeepSeek V4 Pro≈MiniMax-M3>GPT-5.5

综合排名

五轮下来的综合排名大致如下

虽然网上很多人都在说Claude Opus4.8降智了，但它依然排到了第一

比较惊喜的是MiniMax-M3，居然排到了第二。

本来这次开测之前，我预测的是两个国外模型争第一，MiniMax-M3大概率是第三。

DeepSeek 本来就迭代的慢，现在追不上也是正常。

聊聊成本

模型能力测完了，说说大家最关心的：成本。

这次测评总花费：500元

Claude Opus4.8用量8117.7万tokens，用了77%，Cursor是60$/月的会员，换算成¥大约花了314元。

GPT Pro（100$/月）一周的用量还剩21%，换算成¥大约是136元

DeepSeek V4 Pro花了15元

MiniMax-M3是899/月的ultra极速版套餐，用了周限额的16%，大约花了35元。

这样看下来，国产模型还是性价比之王啊

我又查了一下openrouter最近一周的模型调用量，前几名都是国产模型，全球认证的性价比，不得不服。

特别是MiniMax-M3，能力很强，一些场景能跟国外顶级模型打的有来有回，但价格只是它们的零头。

「最后」

开头说了，不想看跑分了，实践是检验真理的唯一标准。

模型到底行不行得自己试试才知道，什么模型更适合自己的业务，自己实践了才知道。

测试下来，Claude Opus4.8的地位还是很稳。

MiniMax-M3也确实到了一个能打的位置：长链路执行、多模态理解、前端审美都不错，再加上感人的价格，感觉很多时候能比Claude更落地。毕竟大多数时候还是要考虑性价比的问题，特别是企业用量很大的场景。

GPT-5.5搭配Codex，平时干活倒是非常稳，但是涉及到语言，审美这块，它确实差点意思。

DeepSeek V4 Pro价格最便宜，但是跟目前一线模型的差距还是有点明显的，毕竟它迭代确实有点慢，需要再多一些时间追赶。

如果大家喜欢这种模型横评，觉得有帮助的话，可以在评论区告诉我，让我知道。顺便多多三连，你们的正反馈是我坚持下去的动力😄

本文来自转载袋鼠帝AI客栈，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

Claude Fable 5 GLM-5.2 Kimi 2.7-code MiniMax M3

赞 (0)

评测组小编

微信扫一扫

微信扫一扫

我用豆包代打腾讯游戏

上一篇 2026年6月17日下午9:34

ChatGPT 丢了半壁江山

下一篇 2026年6月18日上午12:59

扫码关注我们，了解最新AI资讯~

新品

腾讯版Claude Design来了：多人实时同屏审设计稿，一键转代码直通IDE

资讯组小编
2026年5月20日
评测

国产 AI 编程工具不完整调研分析报告

评测组小编
2026年4月21日
评测

GLM-5.1、Qwen 3.6 Max preview 与 Kimi 2.6 国产大模型横向对决

评测组小编
2026年4月23日
评测

腾讯版“贾维斯”上线：一句话搞定电脑配置，每天1000万Token免费用

评测组小编
2026年5月21日
评测

GPT-5.6首批实测来了！精准狙击Mythos

评测组小编
2026年6月10日
评测

很多人突然不玩小龙虾而用Hermes Agent了？跟小龙虾到底有啥不同

评测组小编
2026年4月10日

发表回复

登录后才能评论

Fenix Flexin新歌《Rubberz》陷AI生成质疑
3小时前
分享到:

2026年7月下旬，洛杉矶说唱歌手Fenix Flexin（Shoreline Mafia成员）单曲《Rubberz》登顶Billboard Hot 100第58位。歌曲风格突变——从西海岸陷阱转向80年代英式合成流行，并采用仿英口音演唱，引发AI创作质疑。音频分析显示踩镲脆裂、人声低码率失真、混响突兀截断；歌词结构单一、逻辑断裂、押韵机械；现场表演频繁对口型、音域与录音严重不符。多款AI检测工具对歌词、封面图判定AI生成置信度超97%，但音频检测结果仅20%–30%。Fenix称系AutoTune所致，专家反驳该技术无法生成新口音或扩展音域。目前尚无确凿证据证实AI参与，亦无原始工程文件公开佐证。
谷歌Gemini Spark智能体全球开放
3小时前
分享到:

7月31日，谷歌宣布向全球大部分地区开放Gemini Spark个人AI智能体。该智能体已集成至Chrome浏览器，经用户授权后可代为执行收件箱整理、邮件摘要、航班搜索、房源查询等操作。Spark具备提示词攻击防护能力，并将付款等敏感操作严格交由用户手动完成。服务覆盖所有支持Gemini的地区，但暂不包括欧洲经济区、尼日利亚、瑞士和英国；美国用户需订阅Google AI Pro/Ultra，其他地区则需AI Ultra订阅方可使用。
报道称OpenAI面临投资者担忧与竞争压力 IPO或推迟至明年
3小时前
分享到:

据报道，OpenAI可能会将其IPO推迟到明年。参与相关讨论的人士透露，近几个月来，OpenAI的一些大投资者已私下对这家初创公司相对于其增长的现金消耗速度过快表示担忧，而其他投资者则通过向Anthropic投入资金来对冲他们对OpenAI的押注。与此同时，Anthropic的营收增长近期已超过OpenAI，其估值也是如此。据知情人士透露，Anthropic正在加速秋季IPO的计划，并已开始与潜在投资者会面，强调其相对于ChatGPT制造商所保持的领先优势。而最初希望抢在Anthropic之前上市，OpenAI现在可能会等到明年再IPO。
部分美国企业换上中国大模型以降低成本
3小时前
分享到:

从AlphaGo称霸围棋界到ChatGPT面世，美国在算法大模型领域积累了显著的先发优势。但近年中国大模型的崛起对AI格局有所冲击。美国《华尔街日报》等多家媒体提到，中国大模型独角兽月之暗面新一代开源大模型Kimi K3撼动资本市场，并称其与DeepSeek在2025年发布时引发的市场恐慌如出一辙，连马斯克都赞其“令人印象深刻”。一些大型美国公司也开始转向中国大模型。据美联社消息，加密货币交易所Coinbase表示，正在转向使用中国人工智能模型以降低成本。爱彼迎采用了阿里巴巴的Qwen模型，并称赞其“快速且便宜”。
三大唱片公司提议禁AI低质音乐入榜
15小时前
分享到:

2026年7月31日，环球、索尼、华纳等主流唱片公司联合提议，将未达“实质人类创作”标准的AI生成音乐排除在国际排行榜之外。此举旨在遏制未经艺人授权、滥用其作品训练的AI音乐泛滥。新提案严于此前标识化方案，要求上榜歌曲须满足：AI仅作辅助、服务条款合规、训练数据合法授权，且无刷榜嫌疑。目前IFPI表示支持，但各大榜单机构尚未宣布采纳。界定标准细节仍待明确。
马斯克关注DeepSeek X账号，V4-Flash API上线引热议
15小时前
分享到:

2026年7月31日，DeepSeek宣布其DeepSeek-V4-Flash正式版API上线公测；8月1日早，埃隆·马斯克关注DeepSeek官方X账号。此举发生于马斯克7月23日公开肯定中国AI与机器人实力之后，其提及电力供应为中国AI发展关键优势。DeepSeek该API发布帖获超2.5万点赞、5000余次转发，引发行业广泛关注。
四大科技巨头承诺投入2.4万亿美元扩建AI数据中心
20小时前
分享到:

2026年8月1日，Alphabet、Meta、微软和亚马逊宣布未来数年将投入近2.4万亿美元用于数据中心建设。此举旨在应对激增的AI算力需求，现有基础设施已严重不足。支出涵盖租赁、建筑、能源及设备，部分合同履行期长达30年。Alphabet未完成承诺达9020亿美元，Meta接近7000亿美元。尽管多家公司自由现金流转负，仍持续上调资本开支。亚马逊称其AWS扩张节奏堪比早期高速增长阶段，第二季度云营收同比增37%。
OpenAI用Astra模型破解十大数学难题
20小时前
分享到:

2026年8月1日，OpenAI公布其下一代模型Astra内部版本成功解决数学与理论计算机科学领域十项长期悬而未决难题。这些成果全部由AI系统自主生成证明，人类研究员仅负责论文撰写与Lean形式化验证。研究耗资约2000美元（约合13530元人民币）token成本。OpenAI强调署名应如实反映AI贡献，避免将纯AI成果归功于人类。所涉问题涵盖高维球体堆积、非柔性群存在性、康纳斯刚性猜想证伪、量子平行重复定理等，横跨群论、密码学、图论与复杂性理论。
亚马逊提前完成对OpenAI的350亿美元追加投资
1天前
分享到:

2026年7月31日（美国时间周五），亚马逊宣布已全额支付350亿美元追加投资，使其对OpenAI总投资达500亿美元，持股约5%。该投资原定以OpenAI达成上市及技术突破为前提，但因4月OpenAI与微软重签协议、释放合作空间，亚马逊决定提前履约。投资依据为双方2月签署的多年期战略协议。值得注意的是，亚马逊亦是OpenAI竞争对手Anthropic的重要支持者。
稀宇科技将于8月3日开源MiniMax H3多模态视频模型
1天前
分享到:

2026年8月3日0时，稀宇科技将在魔搭社区正式开源MiniMax H3通用多模态视频模型。该模型支持文本、图像、视频、音频统一理解与原生双声道音视频生成，最高达15秒2K分辨率。依托Contextual Omni Representation等核心技术，其2K分辨率推理成本不足主流模型三分之一，768P成本为同类模型一半。模型面向影视、广告、电商等商用场景，具备多模态理解、精准编辑与风格化生成能力。

【 方舟 Agent Plan】限时 9.9 元起，超全模态模型 × Harness 升级，最新支持 Doubao-Seed-Evolving、Kimi-K3（部分）、GLM-5.2