能配音效、能对口型,Pika 的“反击”

  • 来源:电脑报
  • 关键字:音效,好莱坞,口型
  • 发布时间:2024-04-06 14:54

  之昂

  好莱坞“审判日”

  “人工智能的世界,一个月等于一年。”重制版《终结者2:审判日》(下简称《终结者2》)的执行制片人内姆·佩雷斯(Nem Perez) 的感慨已经得到证明。当从去年10 月开始制作的《终结者2》终于在今年3 月6 日正式上映,而在今年1 月制作完成时,整个制片团队发现,曾经使用过的AIGC 工具都已经升级了不知道多少回,甚至还出现了Sora 这类颠覆性的创作工具。

  《终结者2》原本是一部33 年前的科幻电影,佩雷斯团队的“重制”并不是我们常见的翻拍经典,而是利用文生图软件Midjourney,文生视频软件Runway、Pika,AI 语音生成软件Eleven Labs,AI 影像设计处理软件ComfyUi、Adobe 等多个AIGC 工具进行创作。尽管还只是一次“实验性质的非盈利尝试”,但这种尝试几乎把传统电影制作的流程彻底颠覆——无论是编剧、导演、场记还是美术指导、拍摄、剪辑,统统被AIGC 所替代。

  当然这部重制影片的口碑远远不及曾开创初代机械美学的《终结者》系列。这部电影是由50 位艺术家在不使用原电影中的任何镜头、对话或音乐的前提下,用AI 创造出了50 个片段,再剪辑拼接而成。因此,有好莱坞影评人认为,这部重制电影根本不算是剧情连贯的剧情片,只是一种模仿或“艺术诠释”。

  但重要的是,这部《终结者2》让市场看到了在AI 参与的背景下,电影创作过程能变得多么高效。而这还是Sora出现前的场景。

  配音都省了,什么原理?

  龙年春节期间,Sora 横空出世,以相较Pika、Runway 跃进级的效果震撼世界。除了极其逼真的视频效果外,在硬性约束上的突破也让人惊叹Open AI的统治力。比如在视频时长方面,Pika只支持3 秒视频,Runway 也只支持4秒,而Sora 直接把时长拉至60 秒,甚至包括不同角度、景深的运镜。

  经过这样的冲击,冷静之后的Pika也终于作出了反击。近日,Pika 在社交平台X 宣布,将上线唇部动作同步功能“Lip Sync”。它可以帮视频中的人物匹配和声音一致的口型,配合ElevenLabs 的音频生成技术,让人物在说话时表现得更自然;没过几天,又公布了可以为视频无缝生成音效的功能“SoundEffects”。公开的视频显示,Pika 生成引擎发动、欢呼声、小号、煎肉声等等音效的方式有两种,一种是给一句提示(Prompt),描述你想要的声音,另一种是直接让Pika 根据视频内容自动生成。

  上述这两个功能表面上只是把我们比较熟悉的AI 配音, 与AI 生成视频相结合,好像难度不大?毕竟对于人类来说,视觉和听觉事件往往同时发生:看到音乐家拨动琴弦自然会流出旋律,酒杯摔碎耳朵会听到破裂声,摩托车加速一定会发出轰鸣声……但是要让机器理解相同起因的视觉和听觉刺激会同时发生,就要在机器视觉- 音频联合学习(Audio-VisualLearning)上下功夫。

  拆解来看,首先要训练基于深度学习、采用了先进的神经网络技术的语音合成模型,其核心思想是通过训练大量数据,自动学习生成语音信号的规律。这种技术能够处理复杂的语言环境和多样性的发音,并且能够生成更为自然、流畅的语音。

  然后就是要让AI 学习怎么准确地把图片或视频识别到相应的音频上。麻省理工大学甘闯团队的3D 视觉和语言基础模型“Foley Music”可以作为一个例子,该模型就是将视频作为输入,检测视频中的人体动作,识别其与乐器之间的交互作用,再预测相应的MIDI 文件即音频文件。

  但到了复杂的视频中,模型要识别每个物体的类别、材料、空间位置,还要判断物体间的高阶互动,比如金属和木棍间以不同速度击打;还要识别整个环境是在雪山还是餐厅等等问题。这都要求多模态模型通过学习得到的物理规则,来组合和调整声音模式的参数,甚至即时创造全新的声音。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: