能配音效、能对口型，Pika 的“反击”

来源:电脑报
关键字:音效,好莱坞,口型
发布时间:2024-04-06 14:54

　　之昂

　　好莱坞“审判日”

　　“人工智能的世界，一个月等于一年。”重制版《终结者2：审判日》（下简称《终结者2》）的执行制片人内姆·佩雷斯(Nem Perez) 的感慨已经得到证明。当从去年10 月开始制作的《终结者2》终于在今年3 月6 日正式上映，而在今年1 月制作完成时，整个制片团队发现，曾经使用过的AIGC 工具都已经升级了不知道多少回，甚至还出现了Sora 这类颠覆性的创作工具。

　　《终结者2》原本是一部33 年前的科幻电影，佩雷斯团队的“重制”并不是我们常见的翻拍经典，而是利用文生图软件Midjourney，文生视频软件Runway、Pika，AI 语音生成软件Eleven Labs，AI 影像设计处理软件ComfyUi、Adobe 等多个AIGC 工具进行创作。尽管还只是一次“实验性质的非盈利尝试”，但这种尝试几乎把传统电影制作的流程彻底颠覆——无论是编剧、导演、场记还是美术指导、拍摄、剪辑，统统被AIGC 所替代。

　　当然这部重制影片的口碑远远不及曾开创初代机械美学的《终结者》系列。这部电影是由50 位艺术家在不使用原电影中的任何镜头、对话或音乐的前提下，用AI 创造出了50 个片段，再剪辑拼接而成。因此，有好莱坞影评人认为，这部重制电影根本不算是剧情连贯的剧情片，只是一种模仿或“艺术诠释”。

　　但重要的是，这部《终结者2》让市场看到了在AI 参与的背景下，电影创作过程能变得多么高效。而这还是Sora出现前的场景。

　　配音都省了，什么原理？

　　龙年春节期间，Sora 横空出世，以相较Pika、Runway 跃进级的效果震撼世界。除了极其逼真的视频效果外，在硬性约束上的突破也让人惊叹Open AI的统治力。比如在视频时长方面，Pika只支持3 秒视频，Runway 也只支持4秒，而Sora 直接把时长拉至60 秒，甚至包括不同角度、景深的运镜。

　　经过这样的冲击，冷静之后的Pika也终于作出了反击。近日，Pika 在社交平台X 宣布，将上线唇部动作同步功能“Lip Sync”。它可以帮视频中的人物匹配和声音一致的口型，配合ElevenLabs 的音频生成技术，让人物在说话时表现得更自然；没过几天，又公布了可以为视频无缝生成音效的功能“SoundEffects”。公开的视频显示，Pika 生成引擎发动、欢呼声、小号、煎肉声等等音效的方式有两种，一种是给一句提示（Prompt），描述你想要的声音，另一种是直接让Pika 根据视频内容自动生成。

　　上述这两个功能表面上只是把我们比较熟悉的AI 配音，与AI 生成视频相结合，好像难度不大？毕竟对于人类来说，视觉和听觉事件往往同时发生：看到音乐家拨动琴弦自然会流出旋律，酒杯摔碎耳朵会听到破裂声，摩托车加速一定会发出轰鸣声……但是要让机器理解相同起因的视觉和听觉刺激会同时发生，就要在机器视觉- 音频联合学习（Audio-VisualLearning）上下功夫。

　　拆解来看，首先要训练基于深度学习、采用了先进的神经网络技术的语音合成模型，其核心思想是通过训练大量数据，自动学习生成语音信号的规律。这种技术能够处理复杂的语言环境和多样性的发音，并且能够生成更为自然、流畅的语音。

　　然后就是要让AI 学习怎么准确地把图片或视频识别到相应的音频上。麻省理工大学甘闯团队的3D 视觉和语言基础模型“Foley Music”可以作为一个例子，该模型就是将视频作为输入，检测视频中的人体动作，识别其与乐器之间的交互作用，再预测相应的MIDI 文件即音频文件。

　　但到了复杂的视频中，模型要识别每个物体的类别、材料、空间位置，还要判断物体间的高阶互动，比如金属和木棍间以不同速度击打；还要识别整个环境是在雪山还是餐厅等等问题。这都要求多模态模型通过学习得到的物理规则，来组合和调整声音模式的参数，甚至即时创造全新的声音。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容