AI 生成视频比ChatGPT 难在哪
- 来源:电脑报 smarty:if $article.tag?>
- 关键字:视频,ChatGPT,AI smarty:/if?>
- 发布时间:2024-01-12 16:52
记者 张书
AIGC闯入视频关
最近多模态大模型在应用端堪称百花齐放,而聊天、搜索、文生图已经没法满足投资者日益增长的兴趣,AI 视频生成工具赶上补位。
阿里、字节近日相继推出AI 视频生成工具,两个工具的共同点都是将静态图变成动态视频。阿里巴巴智能计算研究院开发的Animate Anyone,只需要用户提供一个静态的角色图像,无论是真人、动漫都行,再加上一些动作、姿势,便可将其动画化。字节则是和新加坡国立大学联合推出了Magic Animate,同样是静态图生成动态视频,相比阿里多了一股“社会摇”的味道。
不过在计算机业内人士的实际测评中,AnimateAnyone 和Magic Animate 都不完美,前者难以生成稳定的手部运动生成结果,从而导致扭曲和运动模糊(motion blur);侧面和背面图片的生成效果也逊于人物正面图片生成效果;后者生成效果会有失真,离实际落地应用还有很长一段距离。
几乎同一时间的海外市场,比AI 图生视频更难攻破的AI 文生视频却出现了表现优秀的新玩家——Pika。刚刚完成5500 万美元A 轮融资的Pika,一开放内测就凭借其对语义理解的准确度和画面的超预期精细效果,被业界视作AI 视频“鼻祖”RunwayGen-2 的强势竞争对手。
大家很容易从字面上理解文生视频的意思,但它其实是一项相当新的计算机视觉任务:要求多模态大模型根据文本描述生成一系列时间和空间上都一致的图像。虽然看上去这项任务与文生图极其相似,但它的难度要大得多。就像Pika 联合创始人兼CTOChenlin Meng 在接受采访时所言,目前视频生成仍处于GPT-2 的水平。
技术路线与难点
AI 文生视频最早主要是基于GAN(GenerativeAdversarial Nets,生成式对抗网络)模型和VAE(Variational autoencoder,变分自编码器)进行视频生成。不过这两个框架下生成的视频仅适用静态、单一画面,且分辨率极低,应用范围狭窄。
如今AI 文生视频依赖的主要是两条技术路线,一条是基于Transformer 模型,这也是文本、图像生成中应用最多的大模型底座;另一条则是在视频领域应用更广的扩散模型(Diffusion model)。
谷歌的Phenaki 和清华团队发布的Cog Video都是基于Transformer 模型,即输入文本后利用模型底座将其编码,再将文本转化为视频令牌,进行特征融合后输出视频。但是OpenAI 的前例告诉我们,无论从训练成本,还是从配对数据集的需求来说,Transformer 模型都堪称“吞金兽”,训练成本很高,非一般玩家可以承担。
目前占据AI 文生视频主流的技术路线,还是在语义理解、内容丰富性上更有优势的扩散模型。通过预训练模型进行文本特征提取后,再基于扩散模型进行文本到图片、图片到视频的生成。简单来说,扩散模型即在图片上逐渐添加高斯噪声再进行反向操作,文生视频一般是在文生图基础上增加时间维度再生成视频。
上述阿里、字节的两个AI 视频工具都是走的扩散模型路线,甚至连训练数据很多都是一样的,大多出自现存最大且免费访问的LAION-5B 数据库。但这一技术路线的缺憾在于生成时间久,应用层面则限制了生成视频的时长。
哪种技术路线更强现在还没有定论,但技术实现本身的难点很明确。想要打开市场,AI 文生视频应用需要具备一定时长、优良的画质、创意逻辑以及还原指令要求的能力,计算复杂度显著提升,对算力的需求也更高。而且AI 文生视频不仅涉及自然语言处理、视觉处理,还要融合画面合成技术,跨学科的技术融合也是一大挑战。
另一方面,对高质量配对数据集的需求也会与日俱增。当多模态大模型理解了文字指令内容后,却无法在训练数据库选取到相应素材组合,那么最后呈现的结果可想而知。大量的文本- 视频配对数据将会决定大模型未来生成的预期效果。