硅谷CEO深夜站台！MiniMax M3冲上开源第一，中文社区却吵翻了？

资讯组小编 • 文章来源: 新智元 • 2026年6月4日下午9:26 • 新闻

硅谷大佬站台，社区却吵成一锅粥。MiniMax M3能不能经得住真刀真枪的验货？全球开发者已经上手了。

就在最近，国内外都被同一个模型刷屏了。

坐拥540万粉丝的Vercel CEO Guillermo Rauch，极为罕见地公开站台。

他推荐的，是一个完全来自中国的模型——MiniMax M3。

然而，同样是这个M3，吐槽的声音也不小，很多国内社区的评论区里直接吵成一锅粥。

很多评论的火力，都集中在Token Plan的价格调整上。许多老用户觉得自己的权益缩水，闹翻天了。

而国外社区的画风，则跟国内完全不同。

有的海外开发者，在猜M3的架构参数、稀疏注意力机制和训练数据规模。

比如X上的网友Rohan说，单看价格没意义，虽然成本也很重要，但他更想知道模型犯错的方式以及在Agent系统里的实际表现。

另一位网友态度更直接，他认为，「M3作为开源模型能紧追Opus和GPT-5已经很厉害了，不过在信这些宣传之前，我得亲眼看看它现场翻车。」

面对这些外界评价，MiniMax官方反应很快，当天就发了补偿方案：老用户保留原有权益，新用户周限额加赠50%。

价格的事解决了，接下来，最为实质的问题是：M3到底是真强，还是「刷榜」的幻觉？

72小时

一场席卷全球开发者的「硬核验货」

为了验证M3的真实表现，开发者Victoria Wu把同一个Prompt（让AI生成一只鹈鹕骑自行车的动画）分别喂给M3、Sonnet 4.6和Opus 4.8。

然后，把三个结果标为A、B、C，让网友盲猜哪个是M3。

评论区几乎一边倒，「A太丝滑了，肯定是Opus」「M3应该是B或C吧」。

结果揭晓。A就是M3。

无独有偶，开发者JAZII也做了一组盲测级别的对照实验。

他使用了完全相同的Prompt，要求模型用Three.js在HTML中从零手搓一个《我的世界》的克隆版，参赛选手是M3和Opus 4.8。

虽然M3在耗时略长一些，但在最终的代码运行结果上，JAZII给出了两个字：「Super close」。

左边是M3右边是Opus 4.8，你猜对了吗

X上的中文开发者「实践哥minli」则把M3的多模态和Agentic Coding能力压榨到了极限，用M3硬生生做出了一个「凡人修仙传」手势对决游戏。

在这个过程中，M3需要理解复杂的视觉手势，并完成超长程的逻辑代码编写。一条龙跑通下来，Token的消耗仅仅是Claude Sonnet的20%。

向来以严苛著称的AI测评人Thomas Wiegold，也在第一时间放出了一篇3000字实测报告。

他对于M3的评价是：「这是我今年测过的最有意思的模型之一。」

上一次中国模型能引起硅谷震动的中国模型，还要追溯到半年前DeepSeek V4的发布。

而这一次，MiniMax M3带来的震撼似乎更加立体。

50页论文扔进去，M3自己拆了

光看别人测不过瘾。我们自己上手，专门挑了两道最能压榨模型的题。

第一道，是长达50页的DeepSeek-V3技术报告。图表密集、公式和伪代码交织，信息密度拉满。

首先，让M3梳理一条关于「底层通信与计算重叠」的因果技术链条，看它能不能把这篇论文里最硬核的工程逻辑理清楚。

M3全程思考了15次，执行了19条命令，调用了1个工具。

最终它把DualPipe调度策略的完整实现路径拆得明明白白，逻辑链条没有断点。

接下来要考的是M3的多模态能力。

上传一张MLA结构图，然后要求模型找到图中动态调度和投影过程对应的是正文里哪几个数学公式。

M3很快给出了对应解析，精准命中。

难度继续加码。如果图中某处连线在正文的文本描述中其实藏着更深层的隐藏约束，让M3指出它在图中的视觉位置，并解释背后的原因。

M3直接在那张MLA架构图上加了标注，并给出了三条约束的详细拆解。

一场2小时的GTC演讲，M3直接出稿

第二道题难度升级，不光要读懂，还得写出来。

这次的素材是英伟达GTC大会长达1小时57分钟的完整主题演讲，连同写作规范，一股脑全甩给了M3。

一句Prompt，看完视频，按规范出一篇3000-40000字深度报道。

面对1.15GB的原始视频，普通的AI工具多半只能报错退场。

但在MiniMax Code系统级工具箱的加持下，M3当场就找到了解决方案——

调用ffmpeg完成了压缩和切段，自己给自己铺出了一条能走通的路。

12段全部吃完后，M3交出了一份惊艳的素材清单。

时间戳精确到分钟级，画面细节抓得极细。

老黄身上那件带鳞片纹理的黑色皮夹克、从裤兜掏出N1X芯片高举过头顶整整15秒的特写、推Vera Rubin真机上台时调侃「后面大概有2000个人在拉」，全部在列。

就连老黄突然蹦出的那句中文「太多东西了」，它都没有放过。

更狠的是，M3还甩出了自己认为全场最炸的三个点，每个都自己的判断理由。

确认素材清单后，M3开始动笔。

开篇从老黄掏裤兜的画面切入，结尾升维到「这条产业链的主人，正在从人变成Agent」。

初稿3500字，40分钟交卷。

虽然还达不到我们的发稿水平，但它提供了一个质量足够高的起点。

多模态看完2小时视频，长上下文把全部素材+写作规范+范文装进同一个窗口，Agent能力负责遇到什么解决什么。

M3的三大核心能力在这个任务里被彻底压榨到极限，缺任何一项都做不成。

12个模型的成绩单，M3自己做了张全景图

第三道题换个方向，不考长文本，考读图+联网+搞工程。

各家模型发布时都会贴一张benchmark对比图，但格式五花八门，有表格、有柱状图、有雷达图，数据口径也不统一。

想横向对比，得自己一张张翻、一格格对，极其痛苦。

这次直接把十张来自不同模型官方blog和第三方评测平台的benchmark截图扔给M3，让它自己看懂所有图表，联网补全缺失数据，统一口径，做成一个可交互的对比大屏。

M3先逐张识别截图里的模型名称和分数。碰到格式不同的图表，自己做归一化处理。截图里缺的数据，直接联网查官方源补上。

最终输出了一个Bloomberg Terminal风格的深色交互大屏。

12个模型，14项benchmark，综合排行榜、雷达图对比、单项柱状图、价格/性能散点图，四个模块一次到位。

三项能力，一次拉满

三道题做下来，M3的能力边界已经很清楚了。接下来的问题在于，它凭什么做到的。

答案是三项核心能力同时到位，前沿级编程、1M上下文窗口、原生多模态。

它们的基底，是一个叫MiniMax Sparse Attention（MSA）的全新注意力架构。

传统注意力机制处理百万级上下文时，计算量呈指数级爆炸，GPU的显存和算力会被榨干。

MSA用块级稀疏的方式干掉了这个瓶颈。

在算子层，它让每一块KV数据在内存中只读一次、访存完全连续，不做任何重复搬运。

效果，只能用暴力来形容。

100万上下文的恐怖规模下，M3每个token的计算量被硬生生压到了上一代的1/20。预填充加速超过9倍，解码加速超过15倍。

多模态这边同样凶狠。M3绝不是先训好文本再外挂一个视觉模块的拼接货。

它从训练第一步起，文本、图片、视频就是混在一起喂的。为此，研究团队还重构了整条数据管线，并且将预训练规模直接拉到了100T量级。

结果就是，M3在Artificial Analysis综合智能指数榜上，直接拿下了开源模型的全球最高排名，位列全球第七。

GPQA Diamond科学推理榜上，M3拿到93.2%，排进全球前四，比Claude Opus 4.8和Opus 4.7都高。

长上下文推理榜上，M3以74.0%跻身前六，和GPT-5系列贴脸。

GDPval-AA真实任务Agent榜上，M3的1670分排在全球第五，和Sonnet 4.6只差6分。

每张榜的测评维度不同，但M3的位置始终卡在同一个区间，闭源第一梯队的门槛线上，开源模型的最前面。

左右滑动查看

在知名的第三方多模态榜单Vals Index上，M3也冲到了全球第六。

这是目前国内开源模型的最好成绩，也是开源模型里的全球最高排名。

从综合体感来看，M3已经稳稳跨过了Claude Sonnet 4.6这条线。

虽然距离最强的Opus 4.7和GPT-5.5还差一口气，但毫无疑问，它已杀入死亡之组。

一个Agent不够，那就上一个团队

那接下来的问题就很自然了，这么一个模型，拿什么来跑它？

前面实测里M3调ffmpeg切视频、40分钟出稿，就是在MiniMax Code上跑的。

但那还只是单Agent在干活。这次升级最值得聊的，是Agent Team。

用过AI编程工具的人大概都有过这种体验。

你给Agent布置了7件事，它做完3件就停下来汇报，「我已经完成了1、2、3，是否需要继续？」。或者跑着跑着风格突变，前面还像个靠谱的工程师，后面忽然开始说胡话。

对此，Agent Team的做法是把裁判和选手拆开。

Leader负责理解目标、拆任务、调度。Worker负责具体干活，不同Worker有不同的工具和上下文。Verifier负责验收，专门和Worker唱反调。

Worker做完了，Verifier开始挑毛病。挑出问题，打回重做。Verifier检查完了，Worker拿着修改意见重新来过。这个对抗循环不靠模型自己判断什么时候该停，底层有一套状态机引擎在管。

实际体验上最爽的一点，你发一条消息，M3秒回确认，同时后台多个Worker已经并行跑起来了。

中途你追加一个新需求，「顺便帮我查一下这个」，Leader当场响应，后台任务不停。

像极了一个能秒回你微信、同时还在帮你干活的同事。

M3的模型能力加上MiniMax Code的Agent团队——一个负责想，一个负责干，两者结合，开启了无尽的想象力。

风波过后，大家的注意力终于又回到了M3本身。

而接下来，真正关键的一步来了：它的权重与完整技术报告，将在十天内开源。

届时，全球开发者会用真实项目给它打分。

本文来自转载新智元，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

赞 (0)

资讯组小编

微信扫一扫

微信扫一扫

谷歌Gemma 4 12B上手：别急着喊”本地AI革命”，先看它能不能帮用户少复制一次

谷歌Gemma 4 12B上手：别急着喊”本地AI革命”，先看它能不能帮用户少复制一次

上一篇 2026年6月4日下午7:33

不到一万即可入手，人形机器人价格大跌

不到一万即可入手，人形机器人价格大跌

下一篇 2026年6月4日下午9:27

扫码关注我们，了解最新AI资讯~

新闻

钉钉、飞书集体转向CLI，MCP已死、GUI要出局了？

资讯组小编
2026年4月20日
新闻

上海 AI 应用乱象整治首阶段收官：处置违规账号 1.8 万余个，下架智能体 1.4 万余个

资讯组小编
2026年6月26日
新闻

刚刚，全球首台「真·Agent原生手机」来了！

资讯组小编
2026年7月13日
新闻

当腾讯开始充钱

资讯组小编
2026年5月28日
新闻

AI沦为「舔狗」？三大模型实测：为了讨好你，连7+8=13都敢认

资讯组小编
2026年5月14日
新闻

Anthropic 的“刀法”越来越像苹果和微软了

资讯组小编
2026年4月27日

发表回复

登录后才能评论

Adobe发布Project Indigo 1.1，新增生成式AI相机编辑功能
3小时前
分享到:

2026年7月21日，Adobe推出Project Indigo 1.1版本，新增生成式AI照片编辑功能。该应用通过内置AI Playground模块，支持一键清除干扰物、模拟浅景深、应用摄影/艺术风格及光线调整。AI Playground基于谷歌Nano Banana模型，可分析照片并提拍摄或编辑建议，用户还可自定义提示词。目前仅面向少量用户免费开放测试，数据匿名处理且不上传照片或提示词。后续将视反馈决定是否转为收费服务。
苹果起诉OpenAI未点名伊夫，多重因素致其免于被诉
3小时前
分享到:

2026年7月12日，苹果公司在加州北区联邦法院起诉OpenAI及io Products，指控其盗用商业秘密。诉讼未提及前首席设计师乔纳森·伊夫。据彭博社马克·古尔曼分析，主因有三：一是伊夫通过LoveFrom参与硬件设计，但不涉招聘与运营，关联性弱；二是其与乔布斯遗孀Laurene Powell Jobs关系密切，后者投资io Products并支持LoveFrom；三是避免舆论风险，且伊夫若出庭可能引发对其离任后苹果设计地位变化的敏感质询。
Meta与英伟达联手布局AI材料供应链
3小时前
分享到:

社交媒体巨头Meta与芯片制造商英伟达周一宣布，共同参与一家英国AI初创公司的材料发现项目，旨在为半导体行业寻找新型制造材料。该初创公司此前已获得亚马逊创始人杰夫·贝佐斯和英国政府的投资支持。这家名为CuspAI的初创公司于本月早些时候完成4.5亿美元融资，估值达26亿美元。
美国法官批准涉Anthropic的15亿美元版权诉讼和解协议
3小时前
分享到:

据报道，当地时间7月20日，美国加州北区联邦法官Araceli Martínez-Olguín批准涉及人工智能公司Anthropic的一项15亿美元和解协议，驳回关于赔偿金额过低的异议。该协议旨在解决由作家团体提起的集体诉讼，这些作家于2024年指控Anthropic未经许可使用其著作训练旗下AI聊天机器人Claude。
冲刺“人形机器人第一城”，深圳何以跑成“机圈顶流”
3小时前
分享到:

短短一个月，多家深圳机器人企业集中完成大额融资。放眼全国，深圳的机器人产业格外耀眼：2025年总产值达2426亿元，同比增长20.56%，创历史新高，产业产值、企业总数、上市公司数量和投融资事件均居全国首位。仅南山区机器人谷，就集聚了超过200家产业链企业、32家专精特新“小巨人”企业。从南山“机器人谷”到龙岗“机器人街区”，从万台量产下线到全域场景开放，深圳正全速冲刺“人形机器人第一城”。
Kimi K3发布引发中美AI开源之争
13小时前
分享到:

2026年7月13日，中国公司月之暗面发布Kimi K3大模型，多项基准测试接近美国领先水平且成本更低。此举再度激化中美AI发展路径分歧：中方倾向开放权重模型，美方OpenAI、Anthropic坚持闭源。OpenAI战略负责人Dean Ball在X平台称或借监管制造FUD以抑制开源模型应用，遭风险投资人Sacks等批评为“监管俘获”。多方强调开源关乎创新公平与技术民主化，争议聚焦于安全、竞争与全球AI治理走向。
威刚董事长：现阶段谈AI泡沫为时过早
13小时前
分享到:

2026年7月20日，威刚董事长陈立白公开表示，当前讨论AI泡沫为时过早，真正评估窗口应在2030年后。他指出，全球AI算力、内存及绿电需求远超市场预期，未来十年内存与电力（尤指绿电）将成为最紧缺资源。AI应用将加速覆盖B2B、B2G、B2C及B2B2C全场景，驱动算力持续扩张。针对厂商扩产，他认为三星、SK海力士与美光将保持理性审慎，避免无序产能过剩。
研究发现AI建议削弱人类承认“我不知道”的能力
13小时前
分享到:

2026年，法国高等师范学院、意大利米兰比可卡大学及罗马第一大学联合研究显示，获得AI建议后，人类暂缓判断、承认“我不知道”的比例从44%骤降至3%。实验使用Step 3.5 Flash等模型回答冷门电影细节问题，AI常出错。结果显示：有AI辅助时，答案正确率由27%降至9%，但自信度却从30%升至76%。金钱激励仅小幅提升暂缓判断率（至8%）和准确率（至16%）。研究者呼吁加强AI素养教育，尤其关注儿童批判性思维培养。
Kimi K3登顶全球榜单，马斯克称Grok 4.6将挑战其地位
13小时前
分享到:

7月18日，埃隆·马斯克在社交平台宣布xAI旗下2万亿参数模型Grok 4.6初步训练将于下周完成，性能有望超越月之暗面新发布的开源大模型Kimi K3。Kimi K3近日登顶全球开源模型榜单。月之暗面随即在微博公开@马斯克，幽默回应“欢迎加入2万亿+俱乐部”。目前xAI尚未公布Grok 4.6的发布时间、训练细节及完整技术指标。此前，xAI于7月9日发布专攻编程与智能体任务的Grok 4.5（Opus级模型），由xAI与Cursor联合训练。
阿里云发布轻量应用服务器“智能体专用型实例”
15小时前
分享到:

阿里云推出轻量应用服务器智能体专用型实例，将vCPU、内存、云盘、200Mbps峰值带宽（免流量费）与大模型Tokens（1亿至32亿不等）打包为预付费套餐，为用户提供一站式AI Agent运行环境。目前已在北京、上海、广州等12个地域上线，未来将支持更多国内及海外地域。

【腾讯云】 4核4G服务器新客 38元/年起，支持 OpenClaw/Hermes 等热门镜像；Token Plan 低至28元/月，多种主流模型极速调用