Gemini 3.1 静悄悄地上线了。外面把它的接管能力吹得神乎其神,说啥直接上手写代码,自己调终端。
很多文章都在写跑分,但是骡子是马,还是要实际看看
我直接拿手里现成的项目跑了两遍。
先说个初步感受,Gemini 3.1就像刚进职场的愣头青,你布置一个任务,他也不问,吭哧吭哧就去干,结果翻车,然后你说他两句,他态度特别好,立马道歉,然后又马上去干,结果又翻车。
你别问我对不对,你就说我快不快吧。
我复原一下过程,大家看一下。
我在Antigravity里面测试,实话说,原来claude Opus 4.6确实就比Gemini 3 要好使,做事有条理,像个资深员工,会先对其颗粒度,领导你要什么,我准备怎么做,你看怎么样。
Gemini 3 本来也会这样,但就是最后出来结果没有claude好,所以claude额度老不够,这次Gemini 3.1来了,我寻思G3这点额度不会浪费了。
好,那来吧,你自己极限你自己应该知道,我说:
新的gemini 3.1可以给我带来那些改变?
他咵咵说了一通,大概有几点:
1. 突破性的复杂推理与逻辑能力(更深度的史料与诗词分析)
2. 更强大的 Agentic(智能体)与代码工程能力(更强的工作流基座)
3. 可控的“思考深度” (Thinking Levels)
4. 纯代码驱动的动态可视化与 UI 生成
5. 百万级上下文与真正的多模态整合
看起来很不错是吧,然后我又问:
和gemini3或者claude4.6的对比,你可以设计几个使用场景,或者项目,我们来测试一下

他瞬间给出3个场景:
测试场景 1:纯交互式 SVG 动画生成(测试前端代码与可视化能力)

Gemini 3.1 的核心升级之一是能直接通过大段文本输出高质量、体积小巧的复杂动态可视化组件。

测试项目:“历史朝代演变的时间轴微缩景观”。

任务描述:要求 AI 仅使用 HTML、原生 CSS 和 SVG(不借助第三方库如 D3.js,也不用外部图片资源),手写构建一个可交互的动态时间轴。

要求包含从“春秋战国”到“大明王朝”的 5 个关键节点。
每个节点点击或悬停时,要有平滑的路径动画展开相关历史事件(例如:展开成一卷竹简的动画效果)。

视觉风格必须符合“高级感、深色模式、具有微小粒子感或光点过渡(C叔历史频道的风格)”。
对比看点:其他模型往往会生成冗长且无法运行的代码,或者动画效果生硬卡顿;我们可以测试 Gemini 3.1 是否能一次性生成运行完美、动画丝滑、且具有高级美感的单文件交互组件。
我一看挺专业,而且野心很大,从春秋战国到大明王朝,我一想这个工作量不小,得跨越多少时间啊,让他干吧,结果1分钟就完事了。

页面是这样的
结果说5个关键节点,真就这5个节点,把上千年的历史都涵盖进去了

然后我又说:你能不能做成动态的,就是网上很火的,历史时间轴在变动,然后跟着时间轴出现一系列历史事件或者人物
其实这个指令也很模糊,什么样的动态,什么叫网上很火,有没有案例?换了claude他一般会问我,你需要的到底是那种,实现方式有几种,你准备怎么做?
结果Gemini 3.1 什么也不问,干

又2分钟,告诉我干完了,说单独把明朝拉出来,就这么个页面,然后事件会往上升,你说做出来吧,做出来了,能不能用吧,也就那样。
完了他还挺骄傲
所以这个案例根本看不出Gemini 3.1强在哪里,当然也是我不懂前端,都让他捣鼓,但显然他没理解我的意图,也不想理解。

那后面2个例子我也不测试了,肯定有问题,所以我直接拿一个我跑通的写文章的工作流,让他跑,简单讲,这个流程包括,选题-搜集资料-写大纲-初稿-审稿-终稿 大致是这样
然后让他跑,上来第一步选题,不错,他给了3个选题角度,询问我一下
然后他就开始搜集资料,直接就跳过大纲,出了初稿,这倒算了,然后我让他继续写,他就跳过2个步骤,直接把终稿写出来了。
很显然,结果不理想,我就问他:你有没有遵循写作的工作流,认真搜集史料,然后也没有审稿的过程?

他态度是真不错,马上道歉,然后咵咵说了整改方案,那就继续吧。
然后整个流程重新来一遍,文章是写出来了,但感觉还是不太对,因为我设置有一个范文理解,就是让他按照范文风格来写,所以我问他:
你参考了我的范文了吗?
然后他又光速滑跪
AUV,还没等我敲上一句“等等,这路子不对”,这孙子已经掉头钻进下一个坑里去了。发现问题、道歉、立马用另一种错法继续死磕。典型的瞎眼执行。它压根就不会停下来问一句:“这方向好像不对,咱要不要画个脑图理一理?”

完全不会。大家在职场肯定遇到这种实习生吧,态度极佳,但屡教不改。
写作这件事上失败了,但是我一直听说Gemini 做前端是最强的,这次3.1应该更强了,所以我又整了个活:
你前面做过一个中国历史进程的网页,但是太简陋了,内容太少了,现在你从头策划一下,我们就来科普春秋战国,做一个类似文明6游戏风格的那种时间轴变化,随着时间推移,展示春秋战国的历史地图疆域变迁,那个国家灭了,那个国家兴起,地域扩展,到最后秦国统一,左边是地图,右边是历史事件变化,要有足够多的事件,还有要有图片来表现这个事件,你先规划怎么设计,给我一个方案,确定了再执行

这次我感觉要求提的还挺细的,然后他分析了72秒,也给我一些建议:
我想象疆域变化,应该是那种地图块颜色会随着势力地域变化而变化,当然我说了我不会前端,也不懂代码,React + Vite + 纯CSS,看起来好像挺专业,总之感觉这次应该可以。

然后他这次咵咵捣鼓了很久,起码用掉40%额度,而且中间他还自己打开浏览器,自己测试,自己修复bug,然后出来个这样的

好了,很明显和我想象中差距甚远,然后我找了个B站史图馆的视频给他看,他又说:

这样一说,我肯定知道是个大工程了
但问题就在这:你 Gemini 3.1 逻辑推理那么牛,刚接到这个活的时候,你看不出这后面有多坑吗?
它完全可以停下来发个预警:“这事儿是个大工程,得重搞底图切片,咱们确定要上吗?”

没有。人家就像个闷葫芦包工队,只管低头死干。
所以实际体验下来,你说3.1强吧,肯定比3.0强,而且确实速度快。
但缺点也是,没规划,起手就是干,中间也不和你沟通,这点和claude相比,确实还是差点意思。
但对付这种听不懂人话的“猛将”,只有一招:死死摁住。
现在我给它提需求,第一句话永远是:“不准立刻写代码。必须先给我出一份 implementation_plan.md,写清楚你要改啥文件、风险在哪。”
我不点头,它一行代码都不准碰。强制进入规划模式。
就这么一招紧箍咒,特别管用。只要你卡住他瞎干的冲动,逼着他先对齐,还是能干活的。
以上就是我的Gemini 3.1 真实体验,希望对你有帮助。

本文来自转载AI博物志 ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。
