Meta推出Movie Gen文本转视频和声音AI模型

发布时间:2024-10-09 10:12:32 栏目:综合精选

    导读 Meta 周五推出了 Movie Gen,这是一款由人工智能驱动的文本转视频和声音生成器,旨在根据文本输入创建和编辑视频。Movie Gen 允许用户

    Meta 周五推出了 Movie Gen,这是一款由人工智能驱动的文本转视频和声音生成器,旨在根据文本输入创建和编辑视频。Movie Gen 允许用户将照片转换为视频,并根据提示生成或扩展配乐。

    此次发布使 Meta 的工具与领先的媒体生成平台(包括尚未公开发布的 OpenAI 的 Sora)相媲美。

    Movie Gen 的诞生

    Meta 的目标是使创造力民主化,并表示无论是有抱负的电影制作人还是业余内容创作者,每个人都应该“能够使用有助于增强创造力的工具”。

    根据他们的最新研究,Movie Gen 允许用户使用简单的文本输入制作自定义视频和声音。相比之下,Movie Gen 的表现优于业内其他模型。

    此工具是 Meta 持续致力于与公众分享 AI 研究成果的一部分。Meta 的旅程始于“Make-A-Scene”系列,该系列允许用户创建图像、音频、视频和 3D 动画。借助扩散模型,Meta 升级到 Llama Image 基础模型,从而能够生成更高质量的图像和视频。

    Movie Gen 代表了这一发展的第三阶段,它融合了多种模式,为用户提供了比以往更多的控制权。Meta 强调,虽然生成式人工智能提供了令人兴奋的应用,但它并不能取代艺术家和动画师。

    相反,Movie Gen 的目标是让用户能够创造性地表达自己并制作高清视频和音频。

    Movie Gen 的主要特点

    Movie Gen 提供四个主要功能:

    1. 视频生成:Movie Gen 使用 30B 参数转换器模型以每秒 16 帧的速度生成长达 16 秒的视频。它集成了文本转图像和文本转视频技术,可精确处理物体运动、主体交互和摄像机移动。

    2. 个性化视频生成:Meta 的工具可以拍摄个人图像,并使用文本提示创建个性化视频。据 Meta 称,此功能在保留人类身份和动作方面表现出色。

    3. 精确的视频编辑:Movie Gen 允许用户高精度地编辑视频,支持局部编辑(例如添加或删除元素)和全局编辑(例如更改背景或样式),而不会影响整体内容。

    4. 音频生成:Meta 训练了一个 13B 参数模型,可生成长达 45 秒的音频,包括音效、背景音乐和环境声音。所有音频都与视频同步,音频扩展功能可为较长的视频生成连贯的声音。

    成果与创新

    Meta 的基础模型推动了架构、训练方法和评估协议方面的技术创新。在四项主要功能方面,人类评估者始终更喜欢 Movie Gen,而不是行业替代方案。Meta 分享了一份详细的 92 页研究论文,概述了 Movie Gen 的技术见解。

    尽管 Movie Gen 潜力巨大,但 Meta 也承认它存在一些局限性,包括生成时间较长以及需要进一步优化。随着开发的继续,他们正在积极努力改进这些方面。

    展望未来

    Meta 计划与电影制作人和创作者合作,根据用户反馈改进 Movie Gen。该公司设想未来用户可以制作个性化视频、在 Reels 等平台上分享内容,或为 WhatsApp 等应用生成自定义动画。

免责声明:本文由用户上传,如有侵权请联系删除!