一手实测谷歌Gemini Omni：有点拉，但综合给到一个NPC

评测组小编 • 文章来源: AI新榜 • 2026年5月20日下午5:45 • 评测

作者 | 博雯

编辑 | 张洁

泄密信息漫天飞了小半个月的Gemini Omni，终于在今天凌晨的谷歌I/O 2026大会正式亮相！

不同于传言中的视频生成专用模型，也不是跟着Veo 3命名的”Veo 4“，谷歌DeepMind CEO Hassabis亲自登台宣布：

“我们正迈出下一个重要的一步——Gemini Omni，这是一个可从任何输入创建内容的全新模型。”

也就是说，Gemini Omni是一个真正的“全能”大模型，可以接收任意形式的输入，生成任意内容，视频生成只是其中一部分。

目前Gemini Omni已同步上线所有谷歌产品，AI Plus、Pro和Ultra订阅用户均可通过Gemini或谷歌AI视频创作平台Flow使用。

“AI新榜”第一时间订阅了级别最高的谷歌Ultra会员，对Gemini Omni进行了一手实测。

先说结论，有点拉。

实测前后一致性：

基本保持到位

通过自然语言微调视频，以及在这样的多轮编辑后，仍能保持一致性，是此次Omni重点强调的亮点。

在官方放出的案例中，原始视频是一位小提琴家在室内演奏。分别改变背后环境，切换镜头，甚至完全去掉演奏主体的小提琴后，演奏者的神态、动作、光影效果，细微的演奏手型，还有音乐，都还是完美适配新环境。

不管是精细编辑的效果，还是画面主体的一致性效果，看上去相当惊艳。

左右滑动查看

于是在实测中，我们也先来一次环境与氛围上的替换。

先输入提示词：俯拍视角，两辆车在一个十字路口相撞，其中是一辆蓝色的跑车，氛围惊险刺激。

再进行一次精细的编辑和微调，提示词为：改为夕阳西下的金色时刻，并将蓝色的车改为红色的，两辆车相撞后喷射出彩带和气球，氛围轻松梦幻。

可以看到，车辆颜色和光线环境确实是如实改变了，视频的整体结构和动态也基本保持了连贯，没有出现画面撕裂或失真。

但一个很微妙的点是，对于“撞车”这个瞬间动作，Omni理解得并不好。

两条视频中的两辆车都好像是在“故意”向对方开去，甚至在相撞的瞬间还刻意放缓了速度，调整了一下角度。

怎么说呢，仿佛能看到Omni无形的大手在操控着两辆车完成用户的指令。

其次，我们来检验Omni能否在动态运动中达成一致。

标准是同一个角色在多角度切换中，其面部特征、衣服、道具乃至发型都理应保持稳定，不会出现“同一件衣服，换个角度颜色就变了”的Bug。

输入提示词：中景推轨镜头，一位穿红色连衣裙的女舞者在老火车站跳现代舞，一个跳跃动作后切换为广角固定镜头，延续同一舞蹈动作，保持红裙和火车站背景的完全一致。

这条视频的完成度还是比较让人满意的，舞者的动作连贯连贯，身上那条丝质红色长裙的物理效果真实，镜头从中景切到广角固定镜头也比较丝滑。

Omni还自动加上了一段背景音乐，虽然不算是非常具有艺术情绪，但也基本算是贴合舞蹈氛围。

再进行一次微调，输入提示词：去掉背景音乐，只保留环境音，比如舞蹈动作同步的脚步声和裙摆摩挲声。

这一次就有点问题了，视频前半段是能听到轻微的裙摆飘动和脚掌落地的声音的，但到了后半段，之前的背景乐不知为何又响了起来。

接下来，再测试其对于复杂人物关系和位置的理解能力。

标准是，在多个外貌、服饰各异的角色产生互动时，他们各自的特征并不会因为视角切换而错乱。

输入提示词：过肩镜头，四五位外貌打扮皆不相同的科学家在实验室讨论全息投影，镜头慢慢旋转，注意保持所有人物的容貌和着装不变。

也许是为了完美贴合提示词的“四五位外貌打扮皆不相同的科学家”，Omni也是贴心将给四位科学家男女老少，各色人种一应俱全。在旋转的镜头里，几位人物的外貌、服饰、声音和相对位置关系也基本保持一致。

不过很可惜的是，视频到了后半段突然进行了一次相当生硬的镜头切换。

精细控制？还得再练

编辑和微调也是此次官方放在最前面进行案例宣传的亮点之一。

话不多说，直接拿来最近在韩网爆火的AI生成棒球观赛视频，再丢给Omni一张二次元小姐姐图片（来自谷歌官网演示），让它用图片替换原视频中的人物。

最后的结果呢……只能说是差强人意。

Omni替换上去的人物，只在相对位置上与原视频保持了一致，但对于那种咬唇、眼神躲闪、发现被拍后抿嘴一笑的细微表情，几乎都没有表现出来。

这种在细节生成上的不如意并非个例。

我们通过提示词，生成了一位中年男人在暗室内对着镜子轻声说：“我知道是你做的，别装了”的视频。

原视频的表现还是不错的，除了男人的中文口音稍微有点奇怪，他的口型与每个字基本上都是精确对应的，至于是否表现出了人性化的情绪，这个见仁见智。

但接下来，在我们试图修改男人的台词时，Omni的电子脑不知为何就过载了。

提示词：一位中年男人在暗室内对着镜子轻声说：“520又来了，节日快乐。”

一开始是无法理解“修改台词”这样的描述，直接把新的台词当作字幕打在了视频下方；之后又是一半说原台词，一半说新台词；到最后，更是直接开始口胡了。

光影倒是明亮了一些，表情也变成了微笑，只是一个男人一脸微笑地说“我知道是你做的，别装了”，BGM还是刚才那股阴森色的味儿，简直比原版还要诡异好吗！

只能说，精细控制这块儿，Omni还得练练。

世界知识理解：物理学、世界史成绩不错，但还是有Bug

最后是对于世界的理解。

官方的说法是，Omni基于Gemini旗舰大模型，对于引力、动能和流体力学等物理规则的理解，以及对于世界历史、科学和数学的理解都进一步得到了提高。

话不多说，直接上提示词：生成一条在连锁反应轨道上快速滚动的弹珠。

这个效果还是比较惊艳的，Omni自己想了一套挺复杂的连锁轨道，期间涉及到重力、弹力、离心力等等物理规则，看上去都相当真实。

不过在视频后半段出现了个Bug，一个小球冷不丁变成了两个。

再来一个：一个球沿着一个U形轨道内壁来回滚动，最后停在了轨道最低点。

这个效果就有点奇怪了。

虽然确实是小球沿着U形管来回滚动并停在了最低点，但总觉得重力环境并不在地球，小球轻飘飘的，甚至好像还有点穿模。

最后，我又丢了一条相当简洁有力的提示词过去：生成一段李世民和他老哥“玄武门对掏”的视频。

嗯……虽然背后的“玄武门”的汉字有点问题，俩唐代人物的中文也似乎略带口音，但还是理解了“玄武门对掏”这个中文梗，让李世民李元吉哥俩进行了一次剑拔弩张的会面。

这么看来，Omni的世界历史倒是还修得不错。

实测后感受：静待Seedance 2.1

在今天这场大会之前，Omni的消息就传了很久了。

最早是在5月初，有个用户在Gemini的视频生成页面发现了一行不起眼的小字：”Powered by Omni”，顿时一石激起千层浪。

海内外技术圈都在讨论：这个Omni到底是什么？是去年的谷歌 I/O 2025上的Veo 3的下一代Veo 4，还是一个全新的多模态大模型？

这也是为什么在前期的各路消息里，一会儿是Gemini Omni, 一会又是Veo 4。

而到了5月11日，一条“教授黑板推公式”的Omni内测视频又在X上疯传，浏览量在短短几天内就超过240万。

视频在短短10秒内连续切了数次镜头，有教授的背影，侧脸，还有粉笔写公式的特写，配合粉笔的沙沙声，黑板上完全正确的公式，又将大家的期待值拉到了一个新的高度。

当时的爆料是，Omni已经完全把镜头语言和剪辑深度技能给内化了，多视角镜头切换、自带原生BGM，“直接就能出一条成片”。

但到了今天，Gemini Omni真的千呼万唤始出来，效果却是褒贬不一。

看来还是要期待一下Seedance 2.1了，虽然什么时候出还是个大大的问号。

欢迎分享、点赞、推荐

一起研究AI

本文来自转载AI新榜，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

Gemini Omni 谷歌Google I/O 大会 2026

赞 (0)

评测组小编

微信扫一扫

微信扫一扫

520，遇见国产「新模王」Qwen3.7-Max！

520，遇见国产「新模王」Qwen3.7-Max！

上一篇 2026年5月20日下午5:39

阿里亮出Agent超级地基！首发真武M890，甩出128卡超节点算力王炸

阿里亮出Agent超级地基！首发真武M890，甩出128卡超节点算力王炸

下一篇 2026年5月20日下午6:37

扫码关注我们，了解最新AI资讯~

评测

实测Images 2.0 : 10招玩转生图新王

评测组小编
2026年4月22日
评测

实测豆包专业版：327张图3分钟归档，PPT配图“偶开天窗”，数据图表识别仍需“人工兜底”

评测组小编
2026年6月26日
评测

Claude Opus 4.8 测评

评测组小编
2026年5月29日
评测

Claude 最强模型 Fable 5 全解析：Mythos 级别的怪物

评测组小编
2026年6月10日
评测

发现了个宝藏 AI 算力平台TokenLX ，内置 190+ 模型！

评测组小编
2026年5月30日
评测

Claude「断电」背后：中国基准首次捅开了AI万亿市场「死穴」

评测组小编
5天前

发表回复

登录后才能评论

传GPT-5.6下周开放，Gemini3.5Pro押后携2M上下文上线
1小时前
分享到:

科技博主Leo爆料称，OpenAI可能在7月7日至9日对公众开放GPT-5.6，最早时间指向7月7日。新模型套餐额度会更宽松，OpenAI也在上线前加强安全策略。Google DeepMind的Gemini 3.5 Pro被传暂定7月17日上线。另一博主Astro Polo称，Gemini 3.5 Pro将支持200万token上下文窗口，比Claude Sonnet 5、Claude Opus 4.8、Claude Fable 5当前的100万token上下文高出一倍，更适合处理长代码库、大文档和长对话。
Midjourney申请强制好莱坞影业披露AI使用情况
3小时前
分享到:

2026年7月，AI图像生成公司Midjourney就与迪士尼、环球及华纳兄弟的著作权诉讼，向法院申请撤销证据开示限制。该公司要求三家公司全面披露其内部AI使用情况，包括训练数据来源、提示词记录及生成图像，以验证对方是否存在同类版权素材使用行为。此前法官裁定仅需提交产生‘面向消费者’内容的相关信息，Midjourney称该限制偏袒原告、妨碍公平抗辩。争议焦点在于AI训练中版权图像使用的合法性及行业普遍实践。目前案件仍在审理中。
我国前5个月机器人出口超1037万台
3小时前
分享到:

2026年1—5月，我国机器人出口量达1037.7万台，总值199.9亿元，销往全球150多个国家和地区。欧盟与东盟为主要出口市场。清洁机器人出口额达140亿元，占总额七成以上，依托自主导航、智能集尘等技术优势适配多元海外场景。工业机器人出口约7万台，应用于基建、交通、食品、医药等领域；智能仿生机器人出口超8000台，覆盖巡检、科研及公共服务。
美科技巨头AI基建推高用水压力，间接耗水达直接量12倍
3小时前
分享到:

2026至2027年，微软、谷歌、亚马逊等科技巨头拟投入1万亿美元建设AI基础设施。受数据中心冷却及配套发电影响，其实际用水远超披露值：美国数据中心间接耗水量约为直接用水的12倍。目前仅Meta完整核算间接用水，其余企业多仅报告厂区直接用水。凤凰城等缺水地区成新建数据中心热点，预计2031年当地数据中心总用水占比将超城市用水20%。专家警示，AI基建正加剧区域水资源争夺，而闭环冷却等节水技术尚未覆盖存量设施。
特斯拉限制员工AI使用开销
15小时前
分享到:

特斯拉公司将从本月6日开始，限制员工在人工智能工具上的开销。每名员工每周在AI工具上的花费上限为200美元，超出部分须经主管批准。特斯拉员工使用马斯克旗下的XAI的Grok模型不计入200美元额度。Grok在特斯拉员工群体中接受度偏低，多数员工依旧选择使用Anthropic旗下的Claude。
华为何庭波发布V2版“韬定律”论文补充工程细节和实测数据
21小时前
分享到:

根据中国科学院科技论文预发布平台ChinaXiv最新公示论文，华为半导体负责人何庭波于7月3日发布《面向多层级电子系统的时间缩微理论》（业内也称“韬定律”）V2版本。相比较5月25日发布的V1版本，新版论文在原有理论框架基础上，补充了大量工程落地细节、实测量化数据与产品演进路线，进一步完善了以时间常数τ为核心的后摩尔时代缩放理论体系。在工程落地方面，V2版本深度阐释核心技术LogicFolding的齿比（gearratio）概念，在混合键合间距接近顶层金属布线尺寸时，3D设计空间从传统的“宏块级离散优化”转向“单元级连续优化”，可实现全局最优的垂直逻辑划分，突破了传统3D堆叠仅能按功能块分层的局限。V2版还新增量产实测数据表，明确给出Kirin2026与基准Kirin9030Pro的电压、频率、归一化功耗、面积与功率密度参数。
规范引导情感陪伴人形机器人健康发展两协会联合倡议
21小时前
分享到:

中国人形机器人百人会和中国机械工业联合会今天联合发布关于规范和引导情感陪伴人形机器人发展的倡议，提倡共同践行科技向善、推动机器人产业健康发展。记者了解到，当前，我国人形机器人产业加速创新发展，正逐步融入工业、特种和服务等各类场景。近期，包括“情感陪伴人形机器人”等产品陆续对外发布，人形机器人正走进家庭、走向生活。倡议提出，行业应坚守服务人类福祉的初心，把安全伦理规范要求融入产品设计、研发、广告宣传、应用全过程。加强个人信息保护，筑牢用户隐私安全防线。强化质量管理，保障产品使用安全，切实防范对用户的人身伤害风险。同时聚焦关键核心技术，加大基础技术研发投入。立足实际应用场景推广应用，促进技术迭代升级，以创新驱动产品可靠性与实用性提升。协同搭建产业公共平台，凝聚产学研合力，稳步提升我国人形机器人产业竞争力。
豆包：智能体功能将于7月15日下线
1天前
分享到:

据豆包平台消息，由于产品功能调整，智能体功能将于2026年7月15日下线。功能下线后，用户仍可在一段时间内通过豆包查看并自行保存智能体信息及历史对话数据。2026年10月15日后，豆包将根据《隐私政策》对智能体相关数据进行处理，后续将无法在豆包内查看或恢复。如有重要内容，建议通过截图或分享导出文本的方式提前完成备份。
千问智能体功能与服务将于7月15日正式下线
1天前
分享到:

据千问平台消息，千问智能体功能与服务将于2026年7月15日正式下线，下线后，用户将无法继续访问相关智能体配置及历史对话记录。
Anthropic重新上架Claude Fable 5，用户反馈性能下降并频繁回退至Opus 4.8
1天前
分享到:

7月3日，科技媒体bleepingcomputer报道称，Anthropic于7月1日重新上线Claude Fable 5模型。该模型6月30日解除出口管制后恢复服务，但受限于每周额度50%的使用上限，7月7日起将全面转为积分计费。多名用户反馈其实际表现弱于此前版本，存在响应迟缓、逻辑减弱等“降智”现象，并更频繁触发安全限制，自动回退至Claude Opus 4.8。Reddit及X平台相关讨论证实该问题普遍存在，@arena测试平台数据显示结果一致性较高。

【腾讯云】 4核4G服务器新客 38元/年起，支持 OpenClaw/Hermes 等热门镜像；Token Plan 低至28元/月，多种主流模型极速调用