Gemini 3.1 真实体验:能力越强,为什么越像个”愣头青”?

Gemini 3.1 静悄悄地上线了。外面把它的接管能力吹得神乎其神,说啥直接上手写代码,自己调终端。

很多文章都在写跑分,但是骡子是马,还是要实际看看

我直接拿手里现成的项目跑了两遍。

先说个初步感受,Gemini 3.1就像刚进职场的愣头青,你布置一个任务,他也不问,吭哧吭哧就去干,结果翻车,然后你说他两句,他态度特别好,立马道歉,然后又马上去干,结果又翻车。

你别问我对不对,你就说我快不快吧。

我复原一下过程,大家看一下。

我在Antigravity里面测试,实话说,原来claude Opus 4.6确实就比Gemini 3 要好使,做事有条理,像个资深员工,会先对其颗粒度,领导你要什么,我准备怎么做,你看怎么样。

Gemini 3 本来也会这样,但就是最后出来结果没有claude好,所以claude额度老不够,这次Gemini 3.1来了,我寻思G3这点额度不会浪费了。

好,那来吧,你自己极限你自己应该知道,我说:

新的gemini 3.1可以给我带来那些改变?

他咵咵说了一通,大概有几点:

1. 突破性的复杂推理与逻辑能力(更深度的史料与诗词分析)

2. 更强大的 Agentic(智能体)与代码工程能力(更强的工作流基座)

3. 可控的“思考深度” (Thinking Levels)

4. 纯代码驱动的动态可视化与 UI 生成

5. 百万级上下文与真正的多模态整合

看起来很不错是吧,然后我又问:

和gemini3或者claude4.6的对比,你可以设计几个使用场景,或者项目,我们来测试一下

配图2

他瞬间给出3个场景:

测试场景 1:纯交互式 SVG 动画生成(测试前端代码与可视化能力)

配图3

Gemini 3.1 的核心升级之一是能直接通过大段文本输出高质量、体积小巧的复杂动态可视化组件。

配图4

测试项目:“历史朝代演变的时间轴微缩景观”。

配图5

任务描述:要求 AI 仅使用 HTML、原生 CSS 和 SVG(不借助第三方库如 D3.js,也不用外部图片资源),手写构建一个可交互的动态时间轴。

配图6

要求包含从“春秋战国”到“大明王朝”的 5 个关键节点。

每个节点点击或悬停时,要有平滑的路径动画展开相关历史事件(例如:展开成一卷竹简的动画效果)。

配图7

视觉风格必须符合“高级感、深色模式、具有微小粒子感或光点过渡(C叔历史频道的风格)”。

对比看点:其他模型往往会生成冗长且无法运行的代码,或者动画效果生硬卡顿;我们可以测试 Gemini 3.1 是否能一次性生成运行完美、动画丝滑、且具有高级美感的单文件交互组件。

我一看挺专业,而且野心很大,从春秋战国到大明王朝,我一想这个工作量不小,得跨越多少时间啊,让他干吧,结果1分钟就完事了。

配图8

页面是这样的

结果说5个关键节点,真就这5个节点,把上千年的历史都涵盖进去了

配图9

然后我又说:你能不能做成动态的,就是网上很火的,历史时间轴在变动,然后跟着时间轴出现一系列历史事件或者人物

其实这个指令也很模糊,什么样的动态,什么叫网上很火,有没有案例?换了claude他一般会问我,你需要的到底是那种,实现方式有几种,你准备怎么做?

结果Gemini 3.1 什么也不问,干

配图10

又2分钟,告诉我干完了,说单独把明朝拉出来,就这么个页面,然后事件会往上升,你说做出来吧,做出来了,能不能用吧,也就那样。

完了他还挺骄傲

所以这个案例根本看不出Gemini 3.1强在哪里,当然也是我不懂前端,都让他捣鼓,但显然他没理解我的意图,也不想理解。

配图11

那后面2个例子我也不测试了,肯定有问题,所以我直接拿一个我跑通的写文章的工作流,让他跑,简单讲,这个流程包括,选题-搜集资料-写大纲-初稿-审稿-终稿 大致是这样

然后让他跑,上来第一步选题,不错,他给了3个选题角度,询问我一下

然后他就开始搜集资料,直接就跳过大纲,出了初稿,这倒算了,然后我让他继续写,他就跳过2个步骤,直接把终稿写出来了。

很显然,结果不理想,我就问他:你有没有遵循写作的工作流,认真搜集史料,然后也没有审稿的过程?

配图12

他态度是真不错,马上道歉,然后咵咵说了整改方案,那就继续吧。

然后整个流程重新来一遍,文章是写出来了,但感觉还是不太对,因为我设置有一个范文理解,就是让他按照范文风格来写,所以我问他:

你参考了我的范文了吗?

然后他又光速滑跪

AUV,还没等我敲上一句“等等,这路子不对”,这孙子已经掉头钻进下一个坑里去了。发现问题、道歉、立马用另一种错法继续死磕。典型的瞎眼执行。它压根就不会停下来问一句:“这方向好像不对,咱要不要画个脑图理一理?”

配图13

完全不会。大家在职场肯定遇到这种实习生吧,态度极佳,但屡教不改。

写作这件事上失败了,但是我一直听说Gemini 做前端是最强的,这次3.1应该更强了,所以我又整了个活:

你前面做过一个中国历史进程的网页,但是太简陋了,内容太少了,现在你从头策划一下,我们就来科普春秋战国,做一个类似文明6游戏风格的那种时间轴变化,随着时间推移,展示春秋战国的历史地图疆域变迁,那个国家灭了,那个国家兴起,地域扩展,到最后秦国统一,左边是地图,右边是历史事件变化,要有足够多的事件,还有要有图片来表现这个事件,你先规划怎么设计,给我一个方案,确定了再执行

配图14

这次我感觉要求提的还挺细的,然后他分析了72秒,也给我一些建议:

我想象疆域变化,应该是那种地图块颜色会随着势力地域变化而变化,当然我说了我不会前端,也不懂代码,React + Vite + 纯CSS,看起来好像挺专业,总之感觉这次应该可以。

配图15

然后他这次咵咵捣鼓了很久,起码用掉40%额度,而且中间他还自己打开浏览器,自己测试,自己修复bug,然后出来个这样的

配图16

好了,很明显和我想象中差距甚远,然后我找了个B站史图馆的视频给他看,他又说:

配图17

这样一说,我肯定知道是个大工程了

但问题就在这:你 Gemini 3.1 逻辑推理那么牛,刚接到这个活的时候,你看不出这后面有多坑吗?

它完全可以停下来发个预警:“这事儿是个大工程,得重搞底图切片,咱们确定要上吗?”

配图18

没有。人家就像个闷葫芦包工队,只管低头死干。

所以实际体验下来,你说3.1强吧,肯定比3.0强,而且确实速度快。

但缺点也是,没规划,起手就是干,中间也不和你沟通,这点和claude相比,确实还是差点意思。

但对付这种听不懂人话的“猛将”,只有一招:死死摁住。

现在我给它提需求,第一句话永远是:“不准立刻写代码。必须先给我出一份 implementation_plan.md,写清楚你要改啥文件、风险在哪。”

我不点头,它一行代码都不准碰。强制进入规划模式。

就这么一招紧箍咒,特别管用。只要你卡住他瞎干的冲动,逼着他先对齐,还是能干活的。

以上就是我的Gemini 3.1 真实体验,希望对你有帮助。

配图19

本文来自转载AI博物志 ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
OpenClaw配置多个智能体教程
上一篇 12小时前
所谓Skill,不过是AI时代的工业垃圾
下一篇 10小时前

扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注