谷歌DeepMind的新语言模型可以为视频生成配乐和对话

发布时间:2024-06-28 11:08:34 栏目:综合精选

    导读 谷歌的 DeepMind 研究实验室推出了一种名为 V2A(视频转音频)的新型 AI 模型,该模型可以通过生成音轨甚至对话为无声视频注入活力。虽...

    谷歌的 DeepMind 研究实验室推出了一种名为 V2A(视频转音频)的新型 AI 模型,该模型可以通过生成音轨甚至对话为无声视频注入活力。虽然视频生成技术正在快速发展,但目前大多数系统只能生成无声视频。新的视频转音频 (V2A) 技术通过将视频像素与文本提示相结合,可以实现同步视听创作。

    V2A 与 Veo 等视频生成模型配合使用时,可以生成与屏幕上的动作相匹配的音景。这意味着可以添加戏剧性的配乐、逼真的音效或与视频中的角色和情绪相匹配的对话。

    创作者可以提供文本提示,引导 AI 产生想要的声音或情绪。V2A 可以生成多种配乐变化,直到用户找到最合适的。

    V2A 系统如何工作?

    谷歌解释说,V2A 系统首先会压缩视频输入。然后,使用扩散模型,它会从随机噪声中改进音频生成。这种改进由视觉输入和自然语言提示引导,以创建与给定提示相匹配的同步逼真的音频。然后将生成的音频解码为波形并与视频数据相结合。

    谷歌表示,通过在训练过程中加入额外数据,该公司增强了这项技术。这些数据包括人工智能生成的注释,这些注释提供了声音的详细描述,以及口头对话的记录。通过整合这些额外信息,谷歌旨在提高其模型生成的音频的质量。

    与很多其他需要人工手动调整的视频生成技术不同,谷歌的V2A系统不需要人工调整生成的音频与视频的同步。

    通常,将音频与视频对齐需要精心调整各种元素,例如音效、视觉效果和时间,以确保它们完美匹配。通过使用先进的技术,Google 的系统可以自动执行此过程,确保音频和视频准确同步,而无需人工干预。

免责声明:本文由用户上传,如有侵权请联系删除!