Google Gemini 3.5 Flash 测评

评测组小编 • 文章来源: 大模型观测员 • 2026年5月23日上午10:57 • 评测

短的结论：前有拦路虎，后有斩杀线

基本情况：

Gemini Flash 前一代在去年12月发布时，成绩曾十分接近当时的Gemini 3 Pro，但随着5 个月来连续更新了10道题，加上Google 疑似的量化降智，使得旧Gemini 分数一路下降。而新的Gemini 3.5 Flash 则基本回到了原先该在的位置。

但不同的是，3代的Flash 大力出奇迹，使用的Token 大幅高于同代，至今也仍是前三位。而新的3.5 则大幅提升了Token 效率，平均只用到前代的75%，放在同梯队中看只算平均值。不过Google 将单价提升了3倍，使得使用成本大幅上涨，甚至略超大哥Pro，如此一来，Flash 的定位就仁者见仁了。

逻辑成绩：

*1 表格为了突出对比关系，仅展示部分可对照模型，不是完整排序。

*2 题目及测试方式，参见：大语言模型-逻辑能力横评 26-04 月榜，额外新增#63，#64，#65 三题。

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

*4 红字模型代表工作在推理模式下(慢思考)，黑色模型则是对应的非推理模式(快思考)

下面主要对比Gemini 3.5 Flash（下文简称新Flash），与Gemini 3.1 Pro（以下简称Pro）的差异与改进。

优势：

幻觉改善：幻觉一直是困扰Gemini 系列的顽症，Pro 也没有完全解决，前代Flash 也是带病发布。而新Flash 在这方面往前走了一小步。在长上下文任务中，新Flash 表现稍好，内容记忆和检索能力有增强，并且在多Pass 中能输出稳定（但并非全对）的答案。但也需指出，新Flash 的幻觉控制表现仍落后于同梯队的其他模型。
指令遵循：指令遵循是Agent 核心能力之一，前代Flash 就已经在重点提升这方面，甚至略领先同代的Pro。新Flash 则继续精进，一些复杂指令任务，表现也有提升，虽然做不到顶级模型那样稳定精确，但可以偶尔成功一次，并且多Pass 也保持在高水平。与前代一样，新Flash 工作在minimal 档位，普通指令任务也能保持相似准确性，并且Token 只有high 档位的1/10（也证明这种任务不需要开到high 来执行）。而复杂指令确实超过minimal 能力范畴。
编程：Gemini 一直以超强的前端审美著称，到3.5 这一代祖传技术自然没有丢弃。其前端美观度，UI 精细度，细节考虑还是要领先其他模型（不带Skill）一大截。而且在Gemini 3/3.1 这一代，模型整体调教风格偏oneshot，倾向于一次性完成用户需求，并且做大量自行发挥，让第一次输出效果尽可能完整。如果用户是一句话需求，没有预期倒还好，可一旦有预期，Gemini 的自行发挥会让局面失控。而新Flash 很大程度的改善这个问题，变得听话很多，自我发挥部分仍有保留，但也极大克制。新Flash 在前端，客户端领域整体表现能给到B 档，即错误大都能快速修复，而小众垂类性能也会降到C 档，犯错概率大幅上升。新Flash 即便只开到minimal 推理档位，编程相关的性能基本保留，算是定向保留了Agent 相关能力。不过与Gemini 竞争的是北美模型，如此表现也只能算超过了历史上的自己。

不足：

数据洞察：洞察能力是属于万亿级别模型的优势领域，这方面Pro 仍然有绝对的优势，新Flash 拼尽全力，多Pass 综合正确率依然不到Pro 的一半，即便有的任务消耗Token 比Pro 还要高100% 也没有用。不应该使用Flash 做这类任务。

赛博史官曰：

在这场Agentic 转型中，先发者在领跑，后知后觉者在奋起直追，而Google 属于后发者中也靠后的一位，连续发布的两代Pro 以及Flash、Lite，其Agent能力，尤其Coding 能力都在可用线附近逡巡，直到Gemini 3.5 Flash 这一代才算踩上了门槛，而北美的对手们已经拉开两个身位。

不过Gemini 系列仍然有速度优势，多模态也是OpenAI 和 Anthropic 无法企及的，在大模型整体市场中仍有自己一席之地。但战场形势瞬息万变，此刻的优势并不永固，Google 需要到了需要拼尽全力的时刻。

本文来自转载大模型观测员，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。