谷歌DeepMind的新语言模型可以为视频生成配乐和对话

发布时间：2024-06-28 11:08:34 栏目：综合精选

导读谷歌的 DeepMind 研究实验室推出了一种名为 V2A(视频转音频)的新型 AI 模型，该模型可以通过生成音轨甚至对话为无声视频注入活力。虽

谷歌的 DeepMind 研究实验室推出了一种名为 V2A(视频转音频)的新型 AI 模型，该模型可以通过生成音轨甚至对话为无声视频注入活力。虽然视频生成技术正在快速发展，但目前大多数系统只能生成无声视频。新的视频转音频 (V2A) 技术通过将视频像素与文本提示相结合，可以实现同步视听创作。

V2A 与 Veo 等视频生成模型配合使用时，可以生成与屏幕上的动作相匹配的音景。这意味着可以添加戏剧性的配乐、逼真的音效或与视频中的角色和情绪相匹配的对话。

创作者可以提供文本提示，引导 AI 产生想要的声音或情绪。V2A 可以生成多种配乐变化，直到用户找到最合适的。

V2A 系统如何工作?

谷歌解释说，V2A 系统首先会压缩视频输入。然后，使用扩散模型，它会从随机噪声中改进音频生成。这种改进由视觉输入和自然语言提示引导，以创建与给定提示相匹配的同步逼真的音频。然后将生成的音频解码为波形并与视频数据相结合。

谷歌表示，通过在训练过程中加入额外数据，该公司增强了这项技术。这些数据包括人工智能生成的注释，这些注释提供了声音的详细描述，以及口头对话的记录。通过整合这些额外信息，谷歌旨在提高其模型生成的音频的质量。

与很多其他需要人工手动调整的视频生成技术不同，谷歌的V2A系统不需要人工调整生成的音频与视频的同步。

通常，将音频与视频对齐需要精心调整各种元素，例如音效、视觉效果和时间，以确保它们完美匹配。通过使用先进的技术，Google 的系统可以自动执行此过程，确保音频和视频准确同步，而无需人工干预。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

猜你喜欢

最新文章

头条推荐

热点文章

点击排行