Gemini 3.1 真实体验：能力越强，为什么越像个”愣头青”？

评测组小编 • 文章来源: AI博物志 • 2026年4月11日下午3:39 • 评测

Gemini 3.1 静悄悄地上线了。外面把它的接管能力吹得神乎其神，说啥直接上手写代码，自己调终端。

很多文章都在写跑分，但是骡子是马，还是要实际看看

我直接拿手里现成的项目跑了两遍。

先说个初步感受，Gemini 3.1就像刚进职场的愣头青，你布置一个任务，他也不问，吭哧吭哧就去干，结果翻车，然后你说他两句，他态度特别好，立马道歉，然后又马上去干，结果又翻车。

你别问我对不对，你就说我快不快吧。

我复原一下过程，大家看一下。

我在Antigravity里面测试，实话说，原来claude Opus 4.6确实就比Gemini 3 要好使，做事有条理，像个资深员工，会先对其颗粒度，领导你要什么，我准备怎么做，你看怎么样。

Gemini 3 本来也会这样，但就是最后出来结果没有claude好，所以claude额度老不够，这次Gemini 3.1来了，我寻思G3这点额度不会浪费了。

好，那来吧，你自己极限你自己应该知道，我说：

新的gemini 3.1可以给我带来那些改变？

他咵咵说了一通，大概有几点：

1. 突破性的复杂推理与逻辑能力（更深度的史料与诗词分析）

2. 更强大的 Agentic（智能体）与代码工程能力（更强的工作流基座）

3. 可控的“思考深度” (Thinking Levels)

4. 纯代码驱动的动态可视化与 UI 生成

5. 百万级上下文与真正的多模态整合

看起来很不错是吧，然后我又问：

和gemini3或者claude4.6的对比，你可以设计几个使用场景，或者项目，我们来测试一下

Gemini 3.1 真实体验：能力越强，为什么越像个"愣头青”？

他瞬间给出3个场景：

测试场景 1：纯交互式 SVG 动画生成（测试前端代码与可视化能力）

配图3

Gemini 3.1 的核心升级之一是能直接通过大段文本输出高质量、体积小巧的复杂动态可视化组件。

配图4

测试项目：“历史朝代演变的时间轴微缩景观”。

配图5

任务描述：要求 AI 仅使用 HTML、原生 CSS 和 SVG（不借助第三方库如 D3.js，也不用外部图片资源），手写构建一个可交互的动态时间轴。

配图6

要求包含从“春秋战国”到“大明王朝”的 5 个关键节点。

每个节点点击或悬停时，要有平滑的路径动画展开相关历史事件（例如：展开成一卷竹简的动画效果）。

配图7

视觉风格必须符合“高级感、深色模式、具有微小粒子感或光点过渡（C叔历史频道的风格）”。

对比看点：其他模型往往会生成冗长且无法运行的代码，或者动画效果生硬卡顿；我们可以测试 Gemini 3.1 是否能一次性生成运行完美、动画丝滑、且具有高级美感的单文件交互组件。

我一看挺专业，而且野心很大，从春秋战国到大明王朝，我一想这个工作量不小，得跨越多少时间啊，让他干吧，结果1分钟就完事了。

配图8

页面是这样的

结果说5个关键节点，真就这5个节点，把上千年的历史都涵盖进去了

配图9

然后我又说：你能不能做成动态的，就是网上很火的，历史时间轴在变动，然后跟着时间轴出现一系列历史事件或者人物

其实这个指令也很模糊，什么样的动态，什么叫网上很火，有没有案例？换了claude他一般会问我，你需要的到底是那种，实现方式有几种，你准备怎么做？

结果Gemini 3.1 什么也不问，干

配图10

又2分钟，告诉我干完了，说单独把明朝拉出来，就这么个页面，然后事件会往上升，你说做出来吧，做出来了，能不能用吧，也就那样。

完了他还挺骄傲

所以这个案例根本看不出Gemini 3.1强在哪里，当然也是我不懂前端，都让他捣鼓，但显然他没理解我的意图，也不想理解。

配图11

那后面2个例子我也不测试了，肯定有问题，所以我直接拿一个我跑通的写文章的工作流，让他跑，简单讲，这个流程包括，选题-搜集资料-写大纲-初稿-审稿-终稿大致是这样

然后让他跑，上来第一步选题，不错，他给了3个选题角度，询问我一下

然后他就开始搜集资料，直接就跳过大纲，出了初稿，这倒算了，然后我让他继续写，他就跳过2个步骤，直接把终稿写出来了。

很显然，结果不理想，我就问他：你有没有遵循写作的工作流，认真搜集史料，然后也没有审稿的过程？

配图12

他态度是真不错，马上道歉，然后咵咵说了整改方案，那就继续吧。

然后整个流程重新来一遍，文章是写出来了，但感觉还是不太对，因为我设置有一个范文理解，就是让他按照范文风格来写，所以我问他：

你参考了我的范文了吗？

然后他又光速滑跪

AUV，还没等我敲上一句“等等，这路子不对”，这孙子已经掉头钻进下一个坑里去了。发现问题、道歉、立马用另一种错法继续死磕。典型的瞎眼执行。它压根就不会停下来问一句：“这方向好像不对，咱要不要画个脑图理一理？”

配图13

完全不会。大家在职场肯定遇到这种实习生吧，态度极佳，但屡教不改。

写作这件事上失败了，但是我一直听说Gemini 做前端是最强的，这次3.1应该更强了，所以我又整了个活：

你前面做过一个中国历史进程的网页，但是太简陋了，内容太少了，现在你从头策划一下，我们就来科普春秋战国，做一个类似文明6游戏风格的那种时间轴变化，随着时间推移，展示春秋战国的历史地图疆域变迁，那个国家灭了，那个国家兴起，地域扩展，到最后秦国统一，左边是地图，右边是历史事件变化，要有足够多的事件，还有要有图片来表现这个事件，你先规划怎么设计，给我一个方案，确定了再执行

配图14

这次我感觉要求提的还挺细的，然后他分析了72秒，也给我一些建议：

我想象疆域变化，应该是那种地图块颜色会随着势力地域变化而变化，当然我说了我不会前端，也不懂代码，React + Vite + 纯CSS，看起来好像挺专业，总之感觉这次应该可以。

配图15

然后他这次咵咵捣鼓了很久，起码用掉40%额度，而且中间他还自己打开浏览器，自己测试，自己修复bug，然后出来个这样的

配图16

好了，很明显和我想象中差距甚远，然后我找了个B站史图馆的视频给他看，他又说：

配图17

这样一说，我肯定知道是个大工程了

但问题就在这：你 Gemini 3.1 逻辑推理那么牛，刚接到这个活的时候，你看不出这后面有多坑吗？

它完全可以停下来发个预警：“这事儿是个大工程，得重搞底图切片，咱们确定要上吗？”

配图18

没有。人家就像个闷葫芦包工队，只管低头死干。

所以实际体验下来，你说3.1强吧，肯定比3.0强，而且确实速度快。

但缺点也是，没规划，起手就是干，中间也不和你沟通，这点和claude相比，确实还是差点意思。

但对付这种听不懂人话的“猛将”，只有一招：死死摁住。

现在我给它提需求，第一句话永远是：“不准立刻写代码。必须先给我出一份 implementation_plan.md，写清楚你要改啥文件、风险在哪。”

我不点头，它一行代码都不准碰。强制进入规划模式。

就这么一招紧箍咒，特别管用。只要你卡住他瞎干的冲动，逼着他先对齐，还是能干活的。

以上就是我的Gemini 3.1 真实体验，希望对你有帮助。

配图19

本文来自转载AI博物志，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

Gemini gemini 3.1

赞 (0)

评测组小编

微信扫一扫

微信扫一扫

OpenClaw配置多个智能体教程

OpenClaw配置多个智能体教程

上一篇 2026年4月11日下午3:25

所谓Skill，不过是AI时代的工业垃圾

所谓Skill，不过是AI时代的工业垃圾

下一篇 2026年4月11日下午5:00

扫码关注我们，了解最新AI资讯~

评测

三万星新秀Hermes Agent硬刚龙虾：自己写技能、自己进化的AI智能体

教程组小编
2026年4月10日
评测

我做了个测试 Claude API 中转站的 Skill，测完发现水太深了

评测组小编
2026年6月12日
评测

OpenClaw：先驱准备成先烈

评测组小编
2026年4月22日
评测

实测豆包专业版：327张图3分钟归档，PPT配图“偶开天窗”，数据图表识别仍需“人工兜底”

评测组小编
2026年6月26日
评测

目标1万亿！OpenAI冲刺9月IPO，奥特曼想快，CFO说再等等

资讯组小编
2026年5月21日
评测

千元横测GPT、DeepSeek、Xiaomi、MiniMax的最强模型，我找到了跟Agent们的绝配

资讯组小编
2026年5月3日

发表回复

登录后才能评论

马斯克与奥尔特曼因GPT-5.6上线再度互讽
4小时前
分享到:

2026年7月12日，GPT-5.6模型发布当日，xAI CEO马斯克与OpenAI CEO奥尔特曼在X平台展开激烈交锋。马斯克转发帖文称奥尔特曼“把诈骗提升到新高度”，并嘲讽其听证会发言；奥尔特曼反讽马斯克炒作“太空数据中心”，并调侃“最强模型的证明是埃隆又念念不忘”。马斯克再回应，指OpenAI窃取开源AI项目及苹果技术。双方争议聚焦AI伦理、技术归属与商业宣传，事件发生于全球AI竞争加剧背景下。
布朗大学教授发现AI作弊致期中期末成绩断崖式分化
4小时前
分享到:

2026年7月8日，美国布朗大学福利经济学教授罗伯托·塞拉诺向校学术诚信委员会提交报告，称其课程期中（居家开卷）与期末（线下闭卷）考试成绩出现显著反差：多名期中获90分以上者期末跌至50余分，部分学生甚至弃考。事件源于去年12月校园枪击后调整的考试形式，塞拉诺怀疑AI作弊导致成绩失真，现已取消居家考试及家庭作业评分权重。校方已启动调查，强调对学术诚信零容忍。该案例引发全球教育界对AI作弊防控的广泛讨论。
Kimi K2.7 Code高速版结束Beta正式上线
4小时前
分享到:

2026年7月10日晚，月之暗面宣布K2.7 Code高速版结束Beta测试，成为常驻可选模式。订阅Allegretto及以上会员的用户可在Kimi Code CLI等工具中直接调用该模式。其输出速度达普通版5–6倍，短上下文场景最高260 Token/s，但用量消耗为普通版3倍，价格亦为两倍（1M tokens标准输入/输出分别13元/54元）。该模型与普通版同源，旨在提升长上下文编程效率。
机构：到2029年中国国内算力卡采购额将达到1.44万亿元，将诞生多家市值万亿甚至十万亿的上市企业
5小时前
分享到:

据央视财经，有机构预测，到2029年，中国国内算力卡采购额将达到1.44万亿元。庞大的算力需求让投资机构相信，中国将诞生多家市值万亿甚至十万亿的上市企业。
智谱CEO唐杰发内部信：“GLM 时刻”和万亿俱乐部之后，什么是更重要的事
17小时前
分享到:

7月11日，智谱创始人唐杰，在智谱发布了主题为《巨浪已来》的内部信。其中提到，智谱将不追求短期的应用变现，而是直指AGI的下一个高地：长程任务能力、完全自治的智能体系统、自我进化、极致安全治理。过去半年来，智谱收获了创立以来的高光时刻：市值较半年前上市初期涨了10倍，并在2026年 6月，跻身“万亿港元俱乐部”。
腾讯洽购Manus？知情人士：腾讯仍将保留少数股东地位
20小时前
分享到:

7月11日，有消息称腾讯正在洽谈成为通用AI Agent公司Manus的最大股东，据该消息，由腾讯牵头的中方资本组团以约20亿美元估值从Meta手中回购Manus的全部股权。记者向腾讯方面求证，截至发稿腾讯方面暂无回应。另有知情人士向记者透露，此次交易后，腾讯仍将保持少数股东地位，但不会控股。
谷歌发布可穿戴健康基础模型SensorFM
21小时前
分享到:

2026年7月9日，谷歌研究团队宣布推出可穿戴健康基础模型SensorFM。该模型基于2024年9月至2025年9月全球500万名授权参与者的超20亿小时可穿戴设备数据预训练，覆盖100多个国家及20余种设备机型。模型输入涵盖PPG、加速度计等5类传感器的34个分钟级特征，支持心血管、代谢、心理等6类共35项健康任务。测试显示，SensorFM-B在33项判别任务中领先，线性探针在34项中优于传统监督基线。团队还引入LLM智能体协同优化机制，显著提升预测性能。
阿里潮玩AI设计平台“妙呀”开启全量公测
21小时前
分享到:

7月11日，阿里巴巴旗下潮玩创作者AI设计平台“妙呀”正式开放全量公测。该平台由大麦娱乐与阿里Token Foundry事业部联合推出，为全球首个专注潮玩领域的AI设计工具。创作者仅需输入文字描述，平台即调用多模态AI模型生成设计方案。同步启动“妙呀百万激励计划”，面向公众征集AI潮玩作品，设现金、算力及孵化资源奖励，前三名可直签阿里，获IP孵化、商业合作与流量扶持。此举旨在降低潮玩创作门槛，加速AI赋能原创设计落地。
GPT-5.6 Sol实现自主后训练，RSI指标超前代16.2%
22小时前
分享到:

2026年7月10日，OpenAI发布GPT-5.6 Sol模型，可自主完成对轻量级Luna模型的后训练。该能力在内部评估套件“聚合RSI”中较GPT-5.5提升16.2个百分点。后训练涵盖配置设定、GPU选择、脚本启动与验证等全流程，由模型自动生成指令并执行。研究员Kathy Shi称其具备“自动化研究员”功能。测试显示，使用该模型后，研究人员日均token产出翻倍，pull request与实验数量同步增长。
阿里巴巴启动古代壁画AI重现工程
22小时前
分享到:

7月11日，阿里巴巴公益联合西安美术学院、爱智岛、万相、堆友等机构，在北京正式启动“古壁生辉”古代壁画AI重现工程。该工程聚焦专业修复与AI技术融合，首创“技术人员+视觉大模型+智能体skill”新模式。首期以山西平顺大云院弥陀殿五代壁画《维摩诘经变》为对象，其为全国寺庙道观现存唯一五代壁画。首个AI技能包已上线“堆友”平台，支持高精度纹理还原与历史风格复原。项目旨在提升濒危壁画数字化保护效率与公众可及性。

【腾讯云】 4核4G服务器新客 38元/年起，支持 OpenClaw/Hermes 等热门镜像；Token Plan 低至28元/月，多种主流模型极速调用