多模态模型加速短视频生产变革
- 来源:网络视听 smarty:if $article.tag?>
- 关键字:多模态模型,生产,变革 smarty:/if?>
- 发布时间:2024-07-06 19:37
文/梅涛
2022年11月,ChatGPT的出现引起了广泛关注。在过去一年里,人工智能大模型取得的进展,大家有目共睹,特别是多模态的人工智能基础模型,对一个国家未来的通用人工智能发展至关重要。因此,大语言模型领域竞争日趋激烈。
AI为视频产业高质量发展赋能
从2023年7月起,基于ChatGPT-4的发布,几乎每三个月便出现一次技术革新。微软、谷歌等公司呈现日趋激烈的竞争态势,谷歌相继发布了1.0和1.5版本,大语言模型的参数规模已从千亿级跃升至万亿级,其能力亦从几百K提升至百万级水平,充分展现了大语言模型的发展态势,突显了大语言模型的重要性。
如今,大语言模型领域正在发生显著变化,生成式人工智能对个人、组织和公司生产力的影响日益凸显。国内人工智能大模型发展目前有三个明显趋势。首先,基础模型的参数规模正由千亿级逐步向万亿级过渡,这对从事大模型研发的企业来说,将面临严峻挑战。其次,大模型正在从单一的文字模态向多模态时代发展,涵盖视频、3D、图片、声音等多种模态。第三,与国外大语言模型领域的技术相比仍存在差距。
从AI视频方面看,人工智能为视频产业赋能,构成了其潜在价值高达万亿元级别的庞大市场,其内容涵盖了影视剧、动画片、短剧及直播等多方面。短视频制作通常需要经过前期拍摄与后期制作,这需要优秀的剧本、创意、演员、导演、道具及专业工具支持。这一流程往往伴随高成本、长周期、技术难度高等问题。AI技术的赋能,将会为视频产业带来深刻变革。未来,用户和导演能够更加个性化地表达自己的创意与想法,互动性的增强也将为演绎方式带来更多可能性。这将使我们能够制作更高质量、海量且多元化的内容,无疑将是视频产业未来的发展趋势。
AI为技术商业化带来无限可能
2024年2月16日,OpenAI发布首个视频生成大模型Sora。首先,Sora与ChatGPT之间的主要区别在于它们的核心功能和生成内容的类型不同。其次,Sora是一个专注于视频生成的AI模型,它能够从文本或静态图像生成动态视频,并展现较高性价比。第三,Sora生成的视频具有高度一致性和逼真度。在文本理解、单镜头连贯性和画质精细度等方面都处于行业领先位置。
但Sora也有很多不足。其可控性相对较弱,目前仅限于单镜头应用,无法支持多镜头故事性呈现。同时,Sora模型尚未具备超清功能,以及多人交互和物理世界建模的能力。
任何一种技术走向商业化,都需要考虑三个元素:成本、效率、体验。成本方面,据我们了解,Sora的模型成本至少是1万张显卡,其每秒钟粒度成本高达1.5美元。这仅是在每次抽取盲盒均成功的情况下的成本估算,若需多次尝试才能成功,则成本将更高。在效率方面,Sora渲染一个1秒钟的视频需要等待15至20秒。这显示了无论是从成本、效率还是用户体验的角度来看,Sora模型与商业化产品之间仍存在一定距离。
因此,我们将AIGC赋能与内容创作划分为L1至L5共五个阶段,这与自动驾驶技术发展的L1至L5阶段形成对标。目前,无论是Sora,还是我们自身,都尚处于L2阶段,主要聚焦于单镜头内容生成,后续有望逐步迈向L3阶段,即从分镜到连续故事再到完整故事的生成。虽然与用AI生成完整的故事这个目标还有一定距离,但这并不意味着我们必须等到最后一个阶段才开始商业化进程,实际上,每个阶段都有其独特的商业化路径。
当下,技术商业化还面临三个痛点,首先要解决单镜头内容的确定性。导演在制作单镜头内容时,主要考虑镜头类型、意境营造、人物刻画及运镜等因素,缺少任何一个环节,无法把单镜头制作的内容落地。其次是多镜头的主体一致性,这要求我们在保持镜头连贯性的同时,维持角色或物体的ID不变。最后,还要保持多镜头故事的连贯性,这对于构建一分钟、两分钟乃至一两个小时的叙事作品至关重要。只有满足以上三点,AI才能有效赋能影视剧、短剧和短视频的创作。
AI为视频产业带来巨大变革
视频生成模型涉及三大路径,主要包括GAN、自回归模型和扩散模型,其中扩散模型(Diffusion model)为当前主流生成模型。视频生成模型属于多模态模型,主要包括算法、算力等。我们目前收集了60多万个数据,以及20万小时的视频数据,目标是能够充分利用我们掌握的1000万3D数据,通过模型的持续迭代和优化,形成一个庞大的万亿级数据集,这将成为我们模型中的核心资源。
在AI时代,创作者的工作流程呈现显著变化。与传统制作模式不同的是,现在可以把剧本利用文字语言模型进行分镜处理,确定剧本基本框架。创作者基于这个框架制作单镜头内容。在此过程中,创作者与生成流程紧密结合,最终利用工具将各个镜头连贯起来,形成完整的视频作品。这样就极大提高了创作效率并降低了成本。
目前,我们正与咪咕公司合作,将这种技术应用于视频彩铃制作领域。例如,我们曾制作了一部展示成都历史风貌的竖屏彩铃作品。这部作品完全由文字生成,没有涉及任何拍摄过程。相较于传统制作方法,其制作成本降低了十分之一,而效率则提升了十倍以上。
在AI时代,计算设备、硬件和软件都发生了深刻变化。过去50年,我们依赖于CPU和软件构建个人计算设备;未来50年,计算设备和硬件将逐渐从CPU转向GPU,软件则将演变为今天的AI大模型,成为计算平台。创作者只需输入脚本,即可得到完整作品。因此,AI在视频创作领域具有巨大潜力和可能性。
(作者梅涛系上海智象未来科技有限公司创始人兼CEO)