一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

作者 | 博雯

编辑 | 张洁

泄密信息漫天飞了小半个月的Gemini Omni,终于在今天凌晨的谷歌I/O 2026大会正式亮相!

不同于传言中的视频生成专用模型,也不是跟着Veo 3命名的”Veo 4“,谷歌DeepMind CEO Hassabis亲自登台宣布:

“我们正迈出下一个重要的一步——Gemini Omni,这是一个可从任何输入创建内容的全新模型。”

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

也就是说,Gemini Omni是一个真正的“全能”大模型,可以接收任意形式的输入,生成任意内容,视频生成只是其中一部分。

目前Gemini Omni已同步上线所有谷歌产品,AI Plus、Pro和Ultra订阅用户均可通过Gemini或谷歌AI视频创作平台Flow使用。

“AI新榜”第一时间订阅了级别最高的谷歌Ultra会员,对Gemini Omni进行了一手实测。

先说结论,有点拉。

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

实测前后一致性:

基本保持到位

通过自然语言微调视频,以及在这样的多轮编辑后,仍能保持一致性,是此次Omni重点强调的亮点。

在官方放出的案例中,原始视频是一位小提琴家在室内演奏。分别改变背后环境,切换镜头,甚至完全去掉演奏主体的小提琴后,演奏者的神态、动作、光影效果,细微的演奏手型,还有音乐,都还是完美适配新环境。

不管是精细编辑的效果,还是画面主体的一致性效果,看上去相当惊艳。

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

左右滑动查看

于是在实测中,我们也先来一次环境与氛围上的替换。

先输入提示词:俯拍视角,两辆车在一个十字路口相撞,其中是一辆蓝色的跑车,氛围惊险刺激。

再进行一次精细的编辑和微调,提示词为:改为夕阳西下的金色时刻,并将蓝色的车改为红色的,两辆车相撞后喷射出彩带和气球,氛围轻松梦幻。

可以看到,车辆颜色和光线环境确实是如实改变了,视频的整体结构和动态也基本保持了连贯,没有出现画面撕裂或失真。

但一个很微妙的点是,对于“撞车”这个瞬间动作,Omni理解得并不好。

两条视频中的两辆车都好像是在“故意”向对方开去,甚至在相撞的瞬间还刻意放缓了速度,调整了一下角度。

怎么说呢,仿佛能看到Omni无形的大手在操控着两辆车完成用户的指令。

其次,我们来检验Omni能否在动态运动中达成一致。

标准是同一个角色在多角度切换中,其面部特征、衣服、道具乃至发型都理应保持稳定,不会出现“同一件衣服,换个角度颜色就变了”的Bug。

输入提示词:中景推轨镜头,一位穿红色连衣裙的女舞者在老火车站跳现代舞,一个跳跃动作后切换为广角固定镜头,延续同一舞蹈动作,保持红裙和火车站背景的完全一致。

这条视频的完成度还是比较让人满意的,舞者的动作连贯连贯,身上那条丝质红色长裙的物理效果真实,镜头从中景切到广角固定镜头也比较丝滑。

Omni还自动加上了一段背景音乐,虽然不算是非常具有艺术情绪,但也基本算是贴合舞蹈氛围。

再进行一次微调,输入提示词:去掉背景音乐,只保留环境音,比如舞蹈动作同步的脚步声和裙摆摩挲声。

这一次就有点问题了,视频前半段是能听到轻微的裙摆飘动和脚掌落地的声音的,但到了后半段,之前的背景乐不知为何又响了起来。

接下来,再测试其对于复杂人物关系和位置的理解能力。

标准是,在多个外貌、服饰各异的角色产生互动时,他们各自的特征并不会因为视角切换而错乱。

输入提示词:过肩镜头,四五位外貌打扮皆不相同的科学家在实验室讨论全息投影,镜头慢慢旋转,注意保持所有人物的容貌和着装不变。

也许是为了完美贴合提示词的“四五位外貌打扮皆不相同的科学家”,Omni也是贴心将给四位科学家男女老少,各色人种一应俱全。在旋转的镜头里,几位人物的外貌、服饰、声音和相对位置关系也基本保持一致。

不过很可惜的是,视频到了后半段突然进行了一次相当生硬的镜头切换。

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

精细控制?还得再练

编辑和微调也是此次官方放在最前面进行案例宣传的亮点之一。

话不多说,直接拿来最近在韩网爆火的AI生成棒球观赛视频,再丢给Omni一张二次元小姐姐图片(来自谷歌官网演示),让它用图片替换原视频中的人物。

最后的结果呢……只能说是差强人意。

Omni替换上去的人物,只在相对位置上与原视频保持了一致,但对于那种咬唇、眼神躲闪、发现被拍后抿嘴一笑的细微表情,几乎都没有表现出来。

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

这种在细节生成上的不如意并非个例。

我们通过提示词,生成了一位中年男人在暗室内对着镜子轻声说:“我知道是你做的,别装了”的视频。

原视频的表现还是不错的,除了男人的中文口音稍微有点奇怪,他的口型与每个字基本上都是精确对应的,至于是否表现出了人性化的情绪,这个见仁见智。

但接下来,在我们试图修改男人的台词时,Omni的电子脑不知为何就过载了。

提示词:一位中年男人在暗室内对着镜子轻声说:“520又来了,节日快乐。”

一开始是无法理解“修改台词”这样的描述,直接把新的台词当作字幕打在了视频下方;之后又是一半说原台词,一半说新台词;到最后,更是直接开始口胡了。

光影倒是明亮了一些,表情也变成了微笑,只是一个男人一脸微笑地说“我知道是你做的,别装了”,BGM还是刚才那股阴森色的味儿,简直比原版还要诡异好吗!

只能说,精细控制这块儿,Omni还得练练。

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC


世界知识理解:物理学、世界史成绩不错,但还是有Bug

最后是对于世界的理解。

官方的说法是,Omni基于Gemini旗舰大模型,对于引力、动能和流体力学等物理规则的理解,以及对于世界历史、科学和数学的理解都进一步得到了提高。

话不多说,直接上提示词:生成一条在连锁反应轨道上快速滚动的弹珠。

这个效果还是比较惊艳的,Omni自己想了一套挺复杂的连锁轨道,期间涉及到重力、弹力、离心力等等物理规则,看上去都相当真实。

不过在视频后半段出现了个Bug,一个小球冷不丁变成了两个。

再来一个:一个球沿着一个U形轨道内壁来回滚动,最后停在了轨道最低点。

这个效果就有点奇怪了。

虽然确实是小球沿着U形管来回滚动并停在了最低点,但总觉得重力环境并不在地球,小球轻飘飘的,甚至好像还有点穿模。

最后,我又丢了一条相当简洁有力的提示词过去:生成一段李世民和他老哥“玄武门对掏”的视频。

嗯……虽然背后的“玄武门”的汉字有点问题,俩唐代人物的中文也似乎略带口音,但还是理解了“玄武门对掏”这个中文梗,让李世民李元吉哥俩进行了一次剑拔弩张的会面。

这么看来,Omni的世界历史倒是还修得不错。

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

实测后感受:静待Seedance 2.1

在今天这场大会之前,Omni的消息就传了很久了。

最早是在5月初,有个用户在Gemini的视频生成页面发现了一行不起眼的小字:”Powered by Omni”,顿时一石激起千层浪。

海内外技术圈都在讨论:这个Omni到底是什么?是去年的谷歌 I/O 2025上的Veo 3的下一代Veo 4,还是一个全新的多模态大模型?

这也是为什么在前期的各路消息里,一会儿是Gemini Omni, 一会又是Veo 4。

而到了5月11日,一条“教授黑板推公式”的Omni内测视频又在X上疯传,浏览量在短短几天内就超过240万。

视频在短短10秒内连续切了数次镜头,有教授的背影,侧脸,还有粉笔写公式的特写,配合粉笔的沙沙声,黑板上完全正确的公式,又将大家的期待值拉到了一个新的高度。

当时的爆料是,Omni已经完全把镜头语言和剪辑深度技能给内化了,多视角镜头切换、自带原生BGM,“直接就能出一条成片”。

一手实测谷歌Gemini Omni:有点拉,但综合给到一个NPC

但到了今天,Gemini Omni真的千呼万唤始出来,效果却是褒贬不一。

看来还是要期待一下Seedance 2.1了,虽然什么时候出还是个大大的问号。

欢迎分享、点赞、推荐

一起研究AI

本文来自转载AI新榜 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
520,遇见国产「新模王」Qwen3.7-Max!
上一篇 14小时前
阿里亮出Agent超级地基!首发真武M890,甩出128卡超节点算力王炸
下一篇 13小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论