视频大模型助力网络视听创作

  • 来源:网络视听
  • 关键字:模型,视听,创作
  • 发布时间:2024-05-22 20:13

  文/美图公司创始人、董事长兼首席执行官 吴欣鸿

  美图公司自2014年起,便积极投身于网络视听内容创作的支持与发展。虽然美拍在短视频领域的尝试未能成为主流,但我们并未停止探索和创新。2019年,美图秀秀在原有修图功能的基础上,新增了视频编辑功能,并成功孵化了新的视频编辑产品Wink。目前,Wink已在中国视频编辑市场占据第三位,特别是在日活跃用户方面,已跃居第二,仅次于剪映。2023 年,在美图影像节上,我们发布了多款产品,其中包括多款应用层工具如开拍,也有大模型MiracleVision。开拍作为一款助力口播视频创作的工具,通过AI技术实现了从脚本创作、题词器到智能剪辑一站式服务,极大提高了口播视频的创作效率。而MiracleVision则是美图推出的视觉大模型,专注于图像和视频生成。

  以美图展示的“动物疯狂赛车”短视频为例,完成该短片仅用时半天。整个制作流程均基于美图已上线产品,包括开拍的AI脚本创作、Wink的文声图分镜设计、AI生成视频能力,以及开拍的AI数字人角色等。这一案例充分展示了MiracleVision视频大模型在内容创作领域的强大潜力。

  关于视频大模型的行业格局,我们注意到Open AI在2024年2月初发布的Sora对美图等图像和视频大模型公司产生了较大冲击。Sora的发布让我们看到了明显代差,迫使我们重新评估和调整自身技术路线。因此,我们决定对原有的视觉大模型进行升级,采用全新的“Diffusion Transformer”网络架构对模型进行训练。全新版本将于今年6月正式发布,相信我们在未来将会带给大家更多惊艳的作品。

  美图公司自成立以来已有16个年头,我们一直深耕于应用开发领域,致力于为用户带来更加便捷、高效的创作体验。随着移动互联网蓬勃发展,我们推出了一系列备受欢迎的应用产品,赢得了广大用户的喜爱和认可。如今,大模型应用创新的浪潮席卷而来,我们看到了应用开发者的红利期已经到来。未来至少会有两年甚至三年的时间窗口,让我们有机会在这个领域大展拳脚。

  特别是网络视听领域有很多垂直场景值得应用开发者关注。在这一领域中,有着无数创作可能性和商业机会等待我们去挖掘。同时,我们也在逐步构建AI原生工作流,将原本孤立的工作点串联起来,形成更加高效、智能的创作环境。这种变化不仅提高了创作效率,也让我们能够更好地满足用户需求,为他们带来更加卓越的体验。

  在具体应用方面,美图在AI视频生成、视频编辑和视频渲染等领域均有布局。例如,在视频生成领域,我们致力于实现网文的视频化及AI电商的视频生成;在视频编辑领域,Wink产品拥有成熟的视频修人像技术,并实现了内容替换、图片局部视频化等功能;在视频渲染方面,我们的AI动漫技术已经非常成熟,可以实现风格化的视频生成。此外,我们还在探索Wink画图修复、视频风格迁移等渲染技术。未来,随着我们技术的不断进步和创新,相信这些应用将为用户带来更加丰富的视听体验。

  未来十年,我们认为以Sora为代表的视频大模型2.0只是一个开始。无论是美图推出的MiracleVision视频大模型,还是全球范围内的视频大模型,都是1.0版本。所有这些1.0版本产品生成视频的秒数和动态效果都还有很多局限性。但我们通过Sora看到,整个视频大模型已经能够逐步理解世界的基本规律,如物理和运动等,还将具备更强的涌现能力和创意生成能力。这将为我们带来更加广阔的创作空间和无限可能。

  在这个充满机遇和挑战的时代,美图公司将全力推进自研视频大模型的研发,不断创新突破,为网络视听行业提供更加优质、高效的视频创作工具。我们坚信,在未来的发展中能够创造更多令人惊叹的作品和成果,为用户和行业带来更多惊喜和价值。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: