Vidu Q3 登顶中国AI视频新王者，一句话生成16秒音视频，音效惊艳

阅读预计 4 分钟

本文转载自Vidu Q3 登顶中国AI视频新王者，一句话生成16秒音视频，音效惊艳

昨天，Vidu Q3 悄悄上线。

16 秒的声画同出，加上自动多镜头切换，还支持精准文字渲染。

我测了 10 个小时后，最大的感受是，一句话出片有保证了。

这句话几个月之前说，我还不信。因为 AI 视频生成，画面进步很快，但声音一直是短板。用 AI 省下的时间，又被后期配音吃回去了。

但是这次 Vidu Q3，可以一次直出 16 秒的音视频。

我就用一句话，做出了一个工厂穿越机视频：

一镜到底， 16 秒，直出。我反复看了好几遍。

因为声音设计绝了。

大门开启的声音、风声灌进来的声音、无人机起飞的声音、玻璃撞碎的声音、螺旋桨的轰鸣声贯穿始终，但不是一成不变的底噪，加速时转速拉高、翻滚时还夹杂尖锐的风声。

螺旋桨声、风声、机械环境音、动作音效、音乐——五层声音各自变化，又和画面完美融合在一起。

连贯到让我以为是真拍的。

下一个 case，我想试试人声。

场景是是废弃地铁站，启示录风格。地铁启动，车厢里一个身影转身说了一句话：最后一班列车，开往虚无。

生成结果里，地铁启动的金属摩擦声、隧道里的风声都在，人物的声音带着地下空间的混响，不是后期硬加的效果，是一次直出的。

音乐、音效、人声、三层声音是一个完整的情绪表达。

测到这里，我突然想起之前看到的一个榜单。

国际权威 AI 基准测试机构 Artificial Analysis 最近更新的视频生成模型排行榜里，Vidu Q3 排名中国第一、全球第二，仅次于马斯克旗下的 xAI Grok imagine video，排在 Runway Gen-4.5、Google Veo 3.1、OpenAI Sora 2 前面。

当时我只是扫了一眼，没太当回事。

现在回头看，这个排名其实挺实的。因为“视听叙事”这件事，真的拉开了差距。AI 理解了“声音在讲故事”这件事。

我对比了所有主流的竞品，大部分产品依旧还是默片，Vidu Q3 是为数不多的支持音画同出的产品，也是全球首个支持 16 秒音视频直出的模型。

接下来，看看 Q3 对电影、动画、漫剧的理解。

用全球最经典恐怖片《闪灵》的经典片段，主角趴在门前喊 Here’s johnny。神态和声音的情绪是对得上的。

再让熊大说一句：熊就要有个熊样儿。

熊大的声音是有具体指向的，憨厚、粗犷、带点东北味儿。

虽然简单，但这个稳定性让我放心了。因为对于批量生产来说，简单但稳定，比复杂但翻车要强太多。你不可能每次都 roll 十遍才出一个能用的。

我又试了个更复杂的，漫画分镜 + 双人对话。

韩漫风格，分成两格，男女对话。Bgm 和人物的声音很符合漫画风格。

第七个测试，现实主义风格。

两个大哥卖瓜，日常对话，对话节奏要自然。真有那个唠嗑的劲儿。

前面的 case，声音是主角，接下来几个 case，也是这次升级的另外两个能力：多镜头自由切换和文字渲染。

马上过年了，我试着做了个最近很火的刨猪汤视频。

我写了三段镜头描述：

生成的结果里，三个镜头的景别切换，农家小院全景，大妈喊着“来嘛来嘛，刨猪汤好咯”。中景是三个年轻人端碗夹肉说“这才年味儿”，最后近景特写是汤端上桌。画面浮现手写体文字“回家过年”，配温暖的民乐。

再比如，一个汽车广告的 case。

一次直出。你看这个镜头调度，航拍跟随展示环境，建立氛围感。车轮特写突出产品细节，溅起水花增加动感。车内启动展示科技感，品牌 LOGO 自然植入。每个镜头都有明确的叙事目的。

什么时候该给特写制造情绪（车轮溅水），什么时候该拉全景交代环境（航拍跟随），AI 都门儿清。

我当时就在想，要是传统拍摄，航拍设备租赁 3000 到 5000 元一天，专业摄影团队 5000 到 10000 元一天，场地还得协调封路。

现在要是把汽车参考图给他，再磨一磨提示词，真就方便多了。

从 Q1 的“多主体一致性”，到 Q2 的“演技生成”，再到 Q3 的“视听生成”，Vidu 团队在做的，是把 AI 视频从“生成画面”推向“完整叙述”。

最后一个案例最简单，就一个镜头：跟随推近到悉尼歌剧院，定格，英文”Sydney”浮现。

测这个是想看英文渲染的效果。结果字体、出现的时机、和画面的融合度都没问题，甚至镜头拉近后，歌剧院的建筑纹理渐渐浮现，还原度很高。

再看日文的。日系治愈动漫风格，樱花盛开的日本乡村小镇车站，火车缓缓驶过。画面中央只显示一对儿情侣，日语デート浮现，字体干净柔和。

我特别研究了一下 Vidu 这个公司，我发现它的产品迭代是能力驱动的。从 Q1 的多主体一致性，到 Q2 的演技生成，再到 Q3 的视听生成，Vidu 团队在做的，是把 AI 视频从“生成画面”推向“创作完整的剧”。

官方说 Q3 是为剧而生，测完这些 case，我觉得这个说法不算夸张。

以前 AI 生成的是素材，你还得剪、还得配音、还得调。现在生成的是完整片段，拼起来就是成品。

我看到了一个行业分水岭。

一边是用 AI 生成素材，另一边是用 AI 完成所有剧情创意。

Vidu 已经在另一边了。

有些体验，确实只有自己跑一遍才知道边界被推到哪了。
如果你也想验证“一句话能不能稳定出片”，我把入口放这儿，方便你直接复现：

登陆 Vidu 官网：https://www.vidu.cn

输入小瑶专属邀请码：XXYKJS，注册即送 500 积分~

或者，高玩们可以直接登陆 Vidu 开发者平台：https://platform.vidu.cn 测试。

有些体验，确实只有自己生成一遍，才会意识到边界已经被推到哪了。