谈谈Sora

来源:今日中国
关键字:创作,优秀,阶段
发布时间:2024-03-31 13:46

　　文| 马迪

　　2024年2月16日，当全中国都沉浸在春节假期的喜悦中时，OpenAI发布了旗下首个文生视频（Text-to-Video）大模型Sora，其生成的多段视频质感优秀，媲美电影，我们看到了走在东京街道上的时尚女郎、踏雪而来的猛犸象群、咖啡杯里互相追逐的海盗船、在蜡烛边烤火的小怪兽……全世界都在惊叹“AI产业的‘iPhone时刻’已经到来”，埃隆·马斯克干脆承认“人类输了”。只在测试阶段就引起了如此大的轰动，Sora到底有多优秀？

　　横空出世

　　Sora的名字来自日语“空”，直译过来就是天空；日语中还有一个成语“绘空事”，表示的正是“画出不存在之物、天马行空地创作”之意，完全符合这个文生视频大模型的定位。

　　“文生视频”，就是让大模型根据用户输入的指令快速生成前所未有的AI视频。这种产品并非OpenAI首创。实际上，近几年以文生视频为主业务的初创公司不断涌现，互联网行业巨头如谷歌、Meta、微软也投入了不少人员和精力在这条赛道上，但视频时长和质量一直徘徊不前。2023年最火的AI视频应用是Runway和Pika，它们都能根据文字生成4-6秒的视频，两家公司的创始人都把生成15秒视频作为今年的目标，可见提升AI视频时长是多么的困难。

　　但Sora的出现完全改变了这一切，一出手就建立了绝对优势。一是视频时长，Sora可以生成60秒长视频，完全碾压已有的任何同类产品；二是对“文字提示”的高度理解，还可以对简单的指令进行合理补充，并充满了合理的想象力；三是能在一个视频内实现多角度镜头，分镜切换既符合逻辑又十分流畅；四是体现了对真实世界的理解能力，Sora对于光影反射、物体运动、物体相互作用等细节处理得十分优秀，极大地提升了真实感。

　　除此之外，Sora已经对现实世界的物理规律具备了一定的理解能力。比如一段视频中，男人咬了一口汉堡包后，汉堡上出现了一个咬痕。虽然我们觉得这是理所当然的，但Sora能模拟出这种变化已经一种突破，表明该模型已经开始理解物理规律，这是人工智能的一大进步。

　　珠联璧合

　　之所以能取得如此令人震撼的突破，原因在于OpenAI的解题思路完全不同，其采用的Diffusion Transformer模型，可以说是珠联璧合的一次尝试。

　　Diffusion扩散模型是目前图像生成的主流方式，灵感来自于非平衡热力学。生成图像的过程中就像是把一滴墨水在水中扩散的过程进行倒放。扩散模型的训练过程包括前向扩散和反向扩散：前向扩散会逐步对一张真实的照片随机添加噪声，直到变成纯噪声图片；反向扩散是从纯噪声图片中去除噪声，逐步生成清晰的图像。通过反复迭代训练，模型就会逐渐学会如何更准确地从噪声中重建数据，生成质量越来越高的图像。

　　但刚刚登场的Sora还是一个新手，表现称不上“完美”。我们可以从测试视频中看到一些明显不符合逻辑的bug，比如消失的人物、变形的动作、混乱的空间等。就像刚问世的chatGPT一样，难免有胡言乱语的毛病，这些问题会随着时间的推移和机器学习的深入，得到必然的改善。

　　Sora过于逼真的视频表现带来了对伪造和传播虚假内容的忧虑，尤其是在图片生成领域的深度造假（Deepfake）问题还未解决的当下，AI生成视频更加难辨真伪。OpenAI也考虑到了这些方面的潜在风险，正在开发帮助检测误导性信息的工具，帮助人们标注视频是否是Sora生成的、何时生成的。另外，伦理对抗性测试也在紧锣密鼓地进行，避免AI成为极端暴力、犯罪、仇恨言论、侵权等问题的帮凶。

　　不管是好是坏，Sora都标志着AI视频浪潮即将出现，这股浪潮将颠覆包括影视、广告、游戏在内的整个创意产业。而在我们的目光所及之外，还有更多无法预测的使用场景、创新和突破。未来不仅属于我们，也同样属于AI。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容