实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

评测组小编 • 文章来源: 夕小瑶科技说 • 1小时前 • 评测

火山引擎今天上线了全新的语音模型——

豆包音频生成模型 1.0（Seed-Audio 1.0）。

名字变了。

我上次测还是“豆包语音合成模型 2.0”，是去年10月发布的版本，隔了9个月。这次火山没有继续叫“语音合成3.0”，而是叫“音频生成1.0”。

从 语音合成 升级到 音频生成，是一次完爆以往语音体验的升级。

我第一反应是想起上一版2.0里的那个打工人。

那篇里最出圈的就是它，一段十几秒的设计师独白，一开口就让人幻视工位、设计图、未读消息、领导方便说两句的声音。

先放回去16秒。

这次我用新模型Seed-Audio 1.0，给上个版本续上了完整剧情。

整条音频时长是1分10秒，前16秒是原来的那段，你可以直接拉到16秒听后续剧情。

还是那个音色，还是那个状态，只是这次不是他一个人讲，是他和甲方的对话。

这场景有点缺德，甲方老板被吵醒的睡意都能听得出来。还有电话挂断以后「嘟——嘟——嘟——」的忙音，三秒死寂，太真实了。

这一整段，我没有拆开做任何后期，用Seed-Audio 1.0一次生成的。

上一版我觉得最离谱的是：AI 声音终于不像 AI 了。到了今天的Seed-Audio 1.0，我开始觉得，它不只是能「像一个人说话」，还能用声音导演一段情景、一段戏。

我在上一篇推文的评论区见过一个预言，有条留言我一直记着，有人问：什么时候套到番茄小说去？

当时我没法接。

因为语音合成 2.0 时代已经很像真人了，但你要真拿去做有声小说、漫剧、短剧配音，后面还有一堆活儿：分角色、控情绪、配 BGM、加音效、对环境声、剪辑合成。

这次我拿了一段三人漫剧的本子，扔给音频生成 1.0 配音。

一名旁白（青年男性），一名长老（老年男性），一名少年，音色特征明显，台词极具情绪张力。

旁白是低沉醇厚的国风漫剧腔，长老声音苍老沙哑带有居高临下的轻蔑，少年音清亮带有怒气。

人声之外，还有古筝、大鼓、弦乐、脚步摩擦、灵剑出鞘、金属打击、人群哄笑、钟鸣，爽文该有的都有了。

不用先生成角色 A，再生成角色 B，再找 BGM，再叠脚步声、掌风声、火盆声，最后拖进剪辑软件里一层一层对齐。

一段提示词，直接把一段漫剧该有的声音氛围，整包吐出来。

也就是这次Seed-Audio 1.0 最大的升级：

影视级全要素直出。

这几天世界杯正热，佛得角突然火了。

如果你不怎么看球，可能对这个名字很陌生。佛得角是大西洋上的一个岛国，人口 50 多万，这届是他们第一次踢世界杯。

结果第一场就 0:0 逼平西班牙。最出圈的是他们 40 岁的门将 Vozinha，整场做出 7 次扑救，零封西班牙一战成名。

所以我拿这个背景，让音频生成 1.0 做了一段佛得角门将的世界杯解说。

和影视漫剧不一样的，活动赛事要的就是现场感。

不是围着剧情排好的声音设计，是真实的现场反应，现场是混乱的，观众在吼，球场有回声，解说员要跟着赛事节奏和观众情绪讲解。

这段听下来，是乱出了层次，人声要在前面，现场声音在后面，背景人群声没有盖过人声，解说员的情绪是跟着比赛走的，压住、加速、爆发、回落，听起来就像真的在转播席。

到这里我觉得，Seed-Audio 1.0这个「全要素直出」不是只能做影视漫剧。

不知道你还记不记得，豆包语音合成 2.0时期，我们恶搞了一下《冰雪奇缘》经典名场面，还让安娜说了一段绕口令。但最后，视频在艾莎放大招的时候戛然而止，结束了。这还真不是我们在故意卖关子，是语音合成 2.0当时还扛不起这种“大场面”。

这次Seed-Audio 1.0版本，直接补上了上次没完成的大招——人声、背景音、特效声，一把梭哈。特效部分只靠几行提示词：

伴随着一声能量骤然爆发的“轰”的闷响，和大片冰晶瞬间炸开、四散坠地的清脆碎裂声。

出来的成片和原片放在一起，我不说，你自己对比（课代表：特效画面在成片的17s）

我截了原片这段冰晶的音效，AI直出的效果和原片几乎听不出高下。

去年的版本当时已经很惊艳了，情绪是有的，但现在回头听，还是能听出一点 AI 腔，割裂感也是能听出来的，两个人好像不在同一个空间对话。

再听音频生成 1.0，差别就很明显。Seed-Audio 1.0不只是更像真人，所有人说话像是放进了同一个场景里，这场戏是发生在同一个空间里。

这个升级很关键，也很细节。因为影视剧、短剧、漫剧里，观众听的不是一句一句台词和音效，而是一整个场面。

到音频生成 1.0，这条成片级的音频，已经几乎能直接交付了。

做完这些大场面，我又反过来测了一个很安静的 case——诗句。

诗句其实很适合测语音模型，没有剧情、没有什么复杂的音效可以转移注意力，声音好不好，很容易就露馅。同时，能考验一个AI语音模型对文本的语义理解能力。

我给了一段《将进酒》的诗句，你听完大概会和我一个反应，这和微信公众号里的听全文的机器音，根本不是一个东西。

年长男性，声音要浑厚，有岁月感。不是那种播音腔的标准正确，虽是同一个人，但有情绪起伏变化。

很多 AI 读短句没问题，一拉长时间就开始漂，声音前后不一样。这其实对应到音频生成 1.0 另一个很实用的能力：长程延长一致。

单次可以生成 2 分钟，如果你觉得这一版人物状态对了，还能拿这 2 分钟当参考继续往后延。后面再生成几十分钟，音色、语气、环境保持一致性。

这个对有声书、长篇诗文、播客、课程太关键了。

最后我又测了一个轻松点的——四川方言。

这个case纯属想看看之前的方言能力有没有变形。

成都的一条老街，傍晚饭点，人挤人。守着钵钵鸡摊子的老婆婆，一边看着满街乱跑的孙娃儿，一边热络地招呼客人。此起彼伏的叫卖，和着油锅那一声接一声的“滋啦”，织成最滚烫的人间。

◈如何用上Seed-Audio 1.0

测完这一圈，我最大的感受是，豆包音频生成模型 1.0 已经不是单纯的AI 配音工具，是声音导演。语音合成 2.0 那次是解决AI声音像不像人，音频生成 1.0就是解决一段戏的声音如何设计。

任务配音、配乐、音效、剪辑，最后拼到一起是一个人坐在电脑跟前，把谁在说、什么情绪、什么场景、该有什么动静写清楚，交给音频生成 1.0去做。

比如艾莎公主那一段我的提示词是：

提示词不用写得多玄，把四样东西说清楚就行：谁在说（年龄性别+音色）、什么情绪、什么场景、前后中间该有什么声响。

火山方舟上已经上线音频生成 1.0模型，可以直接体验。

传送门：

https://ark.volcengine.com/region:cn-beijing/experience/voice?model=doubao-seed-audio-1-0

其中这次一个新的能力是参考音频生成音频。

上传一段参考音频，就可以生成与参考音色相似的音频。我第一个打工人的case就是把语音合成 2.0的音频上传上去，让音频生成 1.0继续生成的。

具体用法就是在文本输入框中，使用 @就能引用指定音频。同时可以@多个音频，实现多人多音色。

去年_Seedance 2.0_视频生成模型火出圈，让一个人可以做出接近影视成片的视频。豆包音频生成 1.0 给我的感觉很像，一个人可以做出接近成片级的声音。

Seedance 2.0 是视频生成走向成片化的那个时刻，那豆包音频生成 1.0，很像是语音模型走到同一个位置。

声音这件事，从此一个人，就是一支配音团队。

本文来自转载夕小瑶科技说，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

Seed-Audio 1.0 豆包音频生成模型 1.0

赞 (0)

评测组小编

微信扫一扫

微信扫一扫

刚刚，Claude进群了，老板再也不用@我了

刚刚，Claude进群了，老板再也不用@我了

上一篇 1小时前

Seed 2.1 Pro 测评，终于能胜任 Agent 工作了

Seed 2.1 Pro 测评，终于能胜任 Agent 工作了

下一篇 1小时前

扫码关注我们，了解最新AI资讯~

评测

全网实测Kimi K2.7 Code！黑洞、燃烧动画、水波渲染全卷起来了

评测组小编
2026年6月15日
评测

全网实测Gemini Omni！一句话改视频，草图变大片

评测组小编
2026年5月21日
评测

把大模型，压缩到 200MB 内存：面壁智能的新模型，手表也够跑

评测组小编
2026年5月25日
评测

实测 Claude Opus 4.8：活干得更漂亮了，话说得更难听了

评测组小编
2026年5月29日
评测

Image 2 × Seedance 2.0王炸组合：4套刷屏外网的玩法，提示词全在这了

评测组小编
2026年5月18日
评测

Hermes 与 OpenClaw 深度对比：两大 AI Agent 框架该如何选择

教程组小编
2026年4月12日

发表回复

登录后才能评论

亚马逊首次在ChatGPT投放广告
1小时前
分享到:

6月24日，亚马逊启动在OpenAI旗下ChatGPT平台的广告投放，系其首次接入该平台广告体系。广告面向全球使用ChatGPT的用户，主要展示与搜索商品相关的推荐内容，并引导用户跳转至亚马逊电商平台完成购买。此举旨在拓展AI场景下的流量入口，强化搜索—转化闭环。广告由亚马逊自主投放，采用按效果付费模式，具体预算未披露。分析认为，这标志着主流电商与生成式AI平台商业化合作进入新阶段。
软银宣布工厂量产物理AI机器人，拟收购ABB机器人业务
1小时前
分享到:

2026年6月24日，软银集团董事长孙正义在东京股东大会上宣布，其物理AI机器人已在某工厂启动量产，即将正式发布。软银计划整合全球顶尖垂直领域机器人企业，打造“压倒性世界第一的机器人公司”。公司已达成协议，将以约54亿美元收购瑞士ABB集团工业机器人业务，预计2026年内完成。此举标志着软银继2017年收购波士顿动力、后于2021年起逐步退出后，再度全面加码机器人产业化布局。
Claude Tag接入Slack：内部直出65%代码，Karpathy称其为第三代范式
1小时前
分享到:

Claude Tag已接入Slack，并在内部生成65%的代码。Anthropic推出新一代协作智能体Claude Tag，开启Slack平台公测，支持企业与团队用户将AI作为持久、异步的协作成员引入工作流。新功能目前处于beta测试阶段，面向Claude Enterprise与Claude Team订阅用户开放，改变了传统的单人对话模式，允许多人在同一频道内共同调度同一个AI。用户在频道中提交任务后，模型会自动将任务拆解为多个阶段，利用连接的代码库和外部工具进行处理，并在完成后于Slack线程中回复结果。频道管理员可以配置独立的工具调用与数据访问权限，确保模型记忆相互隔离。前特斯拉AI总监Andrej Karpathy评价称，这是大语言模型交互UI/UX的第三代范式，AI正在演变为拥有组织级工具与上下文的持久、异步协作实体。
Cursor推出Customize页面，统一管理插件、技能与MCP
1小时前
分享到:

Cursor推出全新的Customize页面，在用户、团队和工作区级别统一管理插件、技能、MCP、子智能体、规则、命令及钩子。除了支持引入自定义MCP，页面还提供市场排行榜，展示团队与社区内最受欢迎的工具，用户点击一次即可添加到个人配置中。插件开始支持预构建画布，供团队共享并复用配置模板。首批上线的包括用于数据可视化的hex画布，以及能实时查看任务、项目和文档的atlassian画布。此外，团队市场在支持本地代码库的基础上，新增了对gitlab、bitbucket和azure devops插件仓库导入的支持，方便团队分发插件。
千问正式发布Qwen-AgentWorld
1小时前
分享到:

千问今天正式发布了Qwen-AgentWorld，这是首个原生语言世界模型（language world model, lwm），能够在七大领域中模拟智能体交互环境。该模型的环境建模从继续预训练（cpt）阶段起即为训练目标，贯穿cpt → sft → rl全流程，而非对通用大语言模型的事后适配。Qwen-AgentWorld单一模型同时覆盖文本类环境（mcp、search、terminal、swe）与GUI类环境（web、os、android），实现跨领域知识迁移。
传GPT-5.6与Gemini 3.5 Pro延至7月发布，OpenAI新语音模型或于本周上线
1小时前
分享到:

据知名科技博主爆料，GPT-5.6与Gemini 3.5 Pro的发布已推迟至7月，原定于本周上线的GPT-5.6新目标时间已延至7月中旬。谷歌DeepMind因对模型当前状态不满，取消了Gemini 3.5 Pro在6月底的发布计划。同时，OpenAI的新一代双向语音模型Bidi的发布准备正在ChatGPT平台推进，最快本周向用户开放。Bidi支持全双工通话，允许用户与大模型同时发声或随时打断，被视为现有语音模式的重大升级。Anthropic已让部分企业客户提前接入Claude Sonnet 5。由于旗舰模型Mythos 5与Fable 5的解封陷入停滞，Claude Sonnet 5被Anthropic视为缓解竞争压力的过渡方案。
维基百科联合创始人：AI幻觉依然严重，不会让AI直接参与内容编辑
1小时前
分享到:

据法新社消息，维基百科 (Wikipedia) 联合创始人吉米 · 威尔士（Jimmy Wales）当地时间周一表示，维基百科对 AI 的信任度尚不足以让其直接在平台上参与词条编辑。
威尔士指出，尽管较新的 AI 模型已经在一定程度上减少了 AI“幻觉”问题 —— 即看似自信地输出捏造信息的现象 —— 但这一问题依然“非常、非常严重”。
阿里QoderWork推“峰谷Token”
2小时前
分享到:

6月23日晚，阿里QoderWork推出“峰谷Token”，Agent在每晚 22:00到次日08:00运行可自动享受优惠，其中Qwen3.7-Max模型低至2折。这是国内首个上线“峰谷Token”的Agent产品。据介绍，夜间折扣产品涵盖QoderWork、Qoder Desktop等产品。
豆包推出专业版订阅服务，最高一年6000元
4小时前
分享到:

豆包今日正式推出专业版订阅服务，基于字节跳动豆包2.1系列智能体模型打造，上线办公任务模式，可自主拆解工作任务、调用本地工具与Office套件，升级为生产力工具。

产品采用三级阶梯定价：标准/加强/高级套餐连续包月分别为68元、200元、500元，功能额度逐级提升。同时将推出大学生专属特惠，认证后标准套餐低至38元/月。官方称原有免费服务与功能保持不变。
Meta推出299美元智能眼镜新系列
6小时前
分享到:

Meta 6月23日宣布，公司与依视路陆逊梯卡合作推出全新的“Meta Glasses”系列。该系列采用全新设计，包含三种镜框款式，起售价为299美元，较公司第二代入门款Meta Ray-Ban智能眼镜至少便宜80美元。

【腾讯云】 4核4G服务器新客 38元/年起，支持 OpenClaw/Hermes 等热门镜像；Token Plan 低至28元/月，多种主流模型极速调用