Meta推出Movie Gen文本转视频和声音AI模型

发布时间：2024-10-09 10:12:32 栏目：综合精选

导读 Meta 周五推出了 Movie Gen，这是一款由人工智能驱动的文本转视频和声音生成器，旨在根据文本输入创建和编辑视频。Movie Gen 允许用户

Meta 周五推出了 Movie Gen，这是一款由人工智能驱动的文本转视频和声音生成器，旨在根据文本输入创建和编辑视频。Movie Gen 允许用户将照片转换为视频，并根据提示生成或扩展配乐。

此次发布使 Meta 的工具与领先的媒体生成平台(包括尚未公开发布的 OpenAI 的 Sora)相媲美。

Movie Gen 的诞生

Meta 的目标是使创造力民主化，并表示无论是有抱负的电影制作人还是业余内容创作者，每个人都应该“能够使用有助于增强创造力的工具”。

根据他们的最新研究，Movie Gen 允许用户使用简单的文本输入制作自定义视频和声音。相比之下，Movie Gen 的表现优于业内其他模型。

此工具是 Meta 持续致力于与公众分享 AI 研究成果的一部分。Meta 的旅程始于“Make-A-Scene”系列，该系列允许用户创建图像、音频、视频和 3D 动画。借助扩散模型，Meta 升级到 Llama Image 基础模型，从而能够生成更高质量的图像和视频。

Movie Gen 代表了这一发展的第三阶段，它融合了多种模式，为用户提供了比以往更多的控制权。Meta 强调，虽然生成式人工智能提供了令人兴奋的应用，但它并不能取代艺术家和动画师。

相反，Movie Gen 的目标是让用户能够创造性地表达自己并制作高清视频和音频。

Movie Gen 的主要特点

Movie Gen 提供四个主要功能：

1. 视频生成：Movie Gen 使用 30B 参数转换器模型以每秒 16 帧的速度生成长达 16 秒的视频。它集成了文本转图像和文本转视频技术，可精确处理物体运动、主体交互和摄像机移动。

2. 个性化视频生成：Meta 的工具可以拍摄个人图像，并使用文本提示创建个性化视频。据 Meta 称，此功能在保留人类身份和动作方面表现出色。

3. 精确的视频编辑：Movie Gen 允许用户高精度地编辑视频，支持局部编辑(例如添加或删除元素)和全局编辑(例如更改背景或样式)，而不会影响整体内容。

4. 音频生成：Meta 训练了一个 13B 参数模型，可生成长达 45 秒的音频，包括音效、背景音乐和环境声音。所有音频都与视频同步，音频扩展功能可为较长的视频生成连贯的声音。

成果与创新

Meta 的基础模型推动了架构、训练方法和评估协议方面的技术创新。在四项主要功能方面，人类评估者始终更喜欢 Movie Gen，而不是行业替代方案。Meta 分享了一份详细的 92 页研究论文，概述了 Movie Gen 的技术见解。

尽管 Movie Gen 潜力巨大，但 Meta 也承认它存在一些局限性，包括生成时间较长以及需要进一步优化。随着开发的继续，他们正在积极努力改进这些方面。

展望未来

Meta 计划与电影制作人和创作者合作，根据用户反馈改进 Movie Gen。该公司设想未来用户可以制作个性化视频、在 Reels 等平台上分享内容，或为 WhatsApp 等应用生成自定义动画。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

猜你喜欢

最新文章

头条推荐

热点文章

点击排行