Google Gemini 3.5 Flash 测评

短的结论:前有拦路虎,后有斩杀线

基本情况:

Gemini Flash 前一代在去年12月发布时,成绩曾十分接近当时的Gemini 3 Pro,但随着5 个月来连续更新了10道题,加上Google 疑似的量化降智,使得旧Gemini 分数一路下降。而新的Gemini 3.5 Flash 则基本回到了原先该在的位置。

但不同的是,3代的Flash 大力出奇迹,使用的Token 大幅高于同代,至今也仍是前三位。而新的3.5 则大幅提升了Token 效率,平均只用到前代的75%,放在同梯队中看只算平均值。不过Google 将单价提升了3倍,使得使用成本大幅上涨,甚至略超大哥Pro,如此一来,Flash 的定位就仁者见仁了。

逻辑成绩:

Google Gemini 3.5 Flash 测评

*1 表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。

*2 题目及测试方式,参见:大语言模型-逻辑能力横评 26-04 月榜,额外新增#63#64#65 三题。

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

*4 红字模型代表工作在推理模式下(慢思考),黑色模型则是对应的非推理模式(快思考)

下面主要对比Gemini 3.5 Flash(下文简称新Flash),与Gemini 3.1 Pro(以下简称Pro)的差异与改进。

优势:

  • 幻觉改善:幻觉一直是困扰Gemini 系列的顽症,Pro 也没有完全解决,前代Flash 也是带病发布。而新Flash 在这方面往前走了一小步。在长上下文任务中,新Flash 表现稍好,内容记忆和检索能力有增强,并且在多Pass 中能输出稳定(但并非全对)的答案。但也需指出,新Flash 的幻觉控制表现仍落后于同梯队的其他模型。
  • 指令遵循:指令遵循是Agent 核心能力之一,前代Flash 就已经在重点提升这方面,甚至略领先同代的Pro。新Flash 则继续精进,一些复杂指令任务,表现也有提升,虽然做不到顶级模型那样稳定精确,但可以偶尔成功一次,并且多Pass 也保持在高水平。与前代一样,新Flash 工作在minimal 档位,普通指令任务也能保持相似准确性,并且Token 只有high 档位的1/10(也证明这种任务不需要开到high 来执行)。而复杂指令确实超过minimal 能力范畴。
  • 编程:Gemini 一直以超强的前端审美著称,到3.5 这一代祖传技术自然没有丢弃。其前端美观度,UI 精细度,细节考虑还是要领先其他模型(不带Skill)一大截。而且在Gemini 3/3.1 这一代,模型整体调教风格偏oneshot,倾向于一次性完成用户需求,并且做大量自行发挥,让第一次输出效果尽可能完整。如果用户是一句话需求,没有预期倒还好,可一旦有预期,Gemini 的自行发挥会让局面失控。而新Flash 很大程度的改善这个问题,变得听话很多,自我发挥部分仍有保留,但也极大克制。新Flash 在前端,客户端领域整体表现能给到B 档,即错误大都能快速修复,而小众垂类性能也会降到C 档,犯错概率大幅上升。新Flash 即便只开到minimal 推理档位,编程相关的性能基本保留,算是定向保留了Agent 相关能力。不过与Gemini 竞争的是北美模型,如此表现也只能算超过了历史上的自己。

不足:

  • 数据洞察:洞察能力是属于万亿级别模型的优势领域,这方面Pro 仍然有绝对的优势,新Flash 拼尽全力,多Pass 综合正确率依然不到Pro 的一半,即便有的任务消耗Token 比Pro 还要高100% 也没有用。不应该使用Flash 做这类任务。

赛博史官曰:

在这场Agentic 转型中,先发者在领跑,后知后觉者在奋起直追,而Google 属于后发者中也靠后的一位,连续发布的两代Pro 以及Flash、Lite,其Agent能力,尤其Coding 能力都在可用线附近逡巡,直到Gemini 3.5 Flash 这一代才算踩上了门槛,而北美的对手们已经拉开两个身位。

不过Gemini 系列仍然有速度优势,多模态也是OpenAI 和 Anthropic 无法企及的,在大模型整体市场中仍有自己一席之地。但战场形势瞬息万变,此刻的优势并不永固,Google 需要到了需要拼尽全力的时刻。

本文来自转载大模型观测员 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
C++之父开撕AI Coding:资深开发者宁愿退休也不愿伺候AI生成的代码
上一篇 19小时前
好莱坞疯找这个中专生做AI电影,但他说:不站AI
下一篇 19小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论