从音频工程师的角度看沉浸音

  • 来源:传播与制作
  • 关键字:音频先驱,3D音频,抽象
  • 发布时间:2019-09-28 19:19

  沉浸式音频先驱

  菲利克斯·克鲁克斯(Felix Krückels)是一名注册音频工程师,毕业于德国代特莫尔德音乐学院,自2012年以来一直从事沉浸式音频工作。当NHK在朗沃公司(Lawo)的帮助下推出其“Super Hi-Vision”超高清项目时,他也伸出了援手。2018年,他成为德国达姆施塔特应用科技大学广播制作和系统设计教授,目前正在进行新维度沉浸式音频的研究。

  当他还是一名学生的时候,他在德国科隆的RTL电视台实习,后来作为一名自由职业者在这家电视台工作。他是2008年欧洲足球锦标赛和2010年世界杯转播的音频工程师,这两场比赛都以5.1环绕声制作。2018年俄罗斯世界杯是其职业生涯的另一个高峰期:它是用Dolby Atmos 3D制作的。

  近距离接触3D音频

  2013年,菲利克斯·克鲁克斯获邀为2013年国际足联联合会杯一个3D音频项目提供支持,目的是探索2014年巴西世界杯3D/沉浸式音频制作的可能性。由杜比组织的一支英国团队进行了一系列测试,最初是基于一个捕捉3D声场的环境声话筒。

  菲利克斯·克鲁克斯建议采用一种等效立体声方法,通过一种类似ORTF的拾音技术,用心型话筒拾取环境声。他的想法是在顶部添加第二个双ORTF话筒设置,总共使用8个麦克风。这个概念证明非常确定无疑,以至于Schoeps开始设计用于室内和室外的ORTF-3D话筒,其中一个原型被用于2014年巴西世界杯决赛。

  然而2014年巴西世界杯决赛制作还需要后期处理和混合(3D声像不适合直播),现场制作出现于2015年在温哥华举行的女足世界杯,在那里整个信号通路(从话筒到混录调音台,到杜比编码器上,以及几乎一直到终端消费者)首次被成功贯通。但这只是迈向2018年俄罗斯世界杯的一步,要知道俄罗斯世界杯的电视转播采用了准ATMOS 3D/沉浸式音频。

  从复杂性到抽象

  被问及3D/沉浸式音频混录是否比5.1或立体声混录更费劲时,他指出,最重要的挑战是3D/沉浸式音頻所产生的“红利特性”:A1/声音监制/音频工程师(同一个人不同的头衔)必须牢记的给予音频内容终端消费者的自由性和灵活性。

  这应归于基于对象的MPEG-H或ATMOS音频材料的性质:最终用户通过改变环境、解说员等声音的声级,可以个性化他们收到的码流。因此,声音监制需要退后一步,做出假设。

  这标志着违背音频工程师需要记住目标观众的收听场景之准则:立体声推出时,工程师必须确保单声兼容性,原因是据估计未来一段时间大部分最终消费者将会继续使用单扬声器播放设备。

  同样的情况也适用于5.1制作,音频工程师被要求提供高质量的立体声缩混,甚至是制作一个单独的立体声混音,因为欧洲和北美大约90%和80%的观众仍然使用立体声电视机。

  在基于对象的NGA音频制作中,这种对收听场景的关注不再可能:声音监制基于给定数量的对象创建一个三维空间。终端消费者自由决定他们是否用双耳耳机、音箱(2、4、6)、条形音箱等聆听3D音频内容。在某种程度上,终端消费者家中的解码器现在与A1混合在一起,结果无法利用NGA音频提供的更多选择。

  记下还音原则:提供给最终消费者的音频对象包含坐标,而不是声道或扬声器编号。这允许终端消费者家中的解码器将沉浸式音频内容还原给可用的扩音系统。还原一个3D/沉浸式音频变成了一个使声音监制设置的声像信息转换/适配为最终消费者家中的真实音箱设置的问题。

  然而,基于对象的分发的个性化成分迫使声音监制检查他们的混音在各种聆听场景中产生预期效果,这些场景可能没有一个符合家庭的还音环境。克鲁克斯使用以下“典型的”参考设置:

  ·9.1(三维音箱设置,亦称为5.1.4)

  ·5.1(包括关于大小音箱的抽象信息)

  ·立体声

  ·双耳耳机

  最多准备了4种参考混音(它们不传送给最终消费者),并根据各种音频呈现/混音进行检查,A1需要定期检查的混音总数至少16个。在提供的“音频呈现”中,有一个由杜比团队和菲利克斯?克鲁克斯开发的名为“酒吧呈现”的作品。在此酒吧呈现中,几乎听不见体育比赛群体观众声,原因是欢呼声和嘘声通常是由在酒吧等观看比赛的观众现场发出的。另一方面,球场音频细节,如踢球、铲球、口哨和抱怨声,需求更突出……

  “A1在电视直播环境中的最终目标是扩大所有相关的环境声,以至于在家里的观众有一种置身于足球比赛、拳击比赛等现场的错觉。”它的基本原则源自电影配乐:看两个人打架而不发出巨大的拳击声,很快就会让人觉得厌烦。

  到目前为止沉浸声进展顺利

  虽然就在不久前,家里的观众还不能使用上面讨论的音频呈现和码流,但它们目前正在推出。MPEG-H(韩国)已经允许观众选择他们感兴趣的码流,并改变他们的声级,而英国的天空电视台和英国电信体育台采用了杜比全景声(Dolby ATMOS)。

  个性化的3D/沉浸式音频可能成为一种有益的痛苦经验:A1提供的任何附加的灵活性都可能导致出现最终用户的调整使音频内容变得模糊,以至于被认为是令人不快的噪声的情况。

  这就解释了为什么沉浸式音频作品的声音监制通常倾向于一种稍微保守的方法,即使用相对较少的华丽点缀。他们知道,他们无法控制家庭观众处理他们收到的音频还原内容的方式,因此选择受到限制。

  这样的制作就其本身而论相对简单,除了增加的维度(高度)外,类似于5.1的情况,这需要在混录调音台添加额外的母线。从操作人员的角度来看,可以很容易地管理增加的维度。

  新的考虑因素包括如何向最终消费者提供额外的选项,如何监听播放内容,以及首先向公众提供哪些个性化选项。

  采用和收视率的关系

  音频内容的质量和可理解度似乎对收视率有很大影响。Krückels举了他在德国一家私营电视频道RTL工作经历为例。他是RTL第二届拳击比赛(2007~2017年)的A1,该比赛采用立体声制作。他认为,这样的赛事特别适合3D/沉浸式音频,可以更好地反映现场的气氛:喧闹人群的回声和直达声(比足球比赛的声音要大得多,他说)、音乐、击打声、讨论声、教练的鼓励声……

  虽然由于欧洲足联的规定,5.1环绕声转播足球比赛是强制性的,但其它体育赛事的音频内容之传送格式并不是一成不变的。RTL的管理层仍然记得,当电视台从4:3切换到16:9宽高比时,观众的流失是如此之多:一些观众抱怨他们再也不能看RTL的节目了。然而,他们没有尝试调整设置或购买新电视机,而是取消了订阅。

  深夜拳击比赛吸引了600万至800万观众,对于德国的一家私营电视台来说,这已经是不小的数目了,因此RTL的管理层宁愿不冒任何风险。此外,在像德国这样的国家,如果告诉某人一种新的音频传输格式允许他们更改评论声级,甚至在他们考虑好处之前,就会引发这样一个问题:如果评论需要调整,那么它到底出了什么问题?

  增加兴奋度

  “音频具有高度情绪化的一面。这种氛围营造出一种在插播简明新闻期间观众在体育场馆或在纽约的幻觉。在一个新闻发布会期间,提供纽约和拍照典型的背景噪声等,轻易就需要10个音箱,但会给信息增添情感和兴奋因素。”

  这对于体育赛事或歌唱比赛来说更为重要。用声音信息把观众包围起来,很简单就产生一种更吸引人的感觉,尽管大多数观众无法准确指出这种体验在哪些方面与以前不同。

  ·监制声音

  从事沉浸式音频工作的声音监制最重要的考虑是他们可以方便地从其调音台监测各种音频呈现和格式(立体声、环绕声、3D声)。mc?调音台允许音频工程师迅速控制所有相关参数。速度非常重要。

  调音台本身只是混音的一个元素,而外部呈现程序添加了其它方面,这使得通过一个用户界面控制所有相关设备的能力变得更加重要。在现场制作期间,是没有时间调整两台乃至3台设备上的设置的。由于与杜比的集成及其开放的Ember+控制协议,Lawo的mc2调音台朝着正确的方向迈出重要一步,证明它们在沉浸式声音领域开拓工作是称职的。

  ·做起来

  抛开所有哲学上的考虑:如何创建一个3D/沉浸式音频混音,使用哪些麦克风以及如何设置它们?

  克鲁克斯说,对于一个体育节目制作,第一步是寻找场馆的“最佳位置”,也就是人们可以听到一切的位置。3D话筒应安装在这里。经验表明这个位置通常靠近一号摄像机,也就是主摄像机。

  3D话筒从顶上悬挂下来,与人群保持适当距离,以避免过多的鼓声、呜呜祖拉(南非喇叭)、不恭语言等的干扰。因此,3D话筒与用于交响乐团整体声音拾音的悬挂式麦克风出于相同的目的。

  由于可理解性和靈活性的原因,补点话筒的位置靠近所有重要的声源。产生的信号的混合后应感觉声音是从9个音箱出来。

  菲利克斯?克鲁克斯喜欢在他的混音中使用三个平面:单声、立体声和环绕声/3D平面。环绕声/3D信息通常只涉及环境声(人群、城市噪音等)。他几乎从不使用“电影效果”,即听众听到飞机从头顶飞过或其它特殊效果,尽管一些广播公司偶尔会用“嗖嗖声”来宣布慢动作即时回放。

  在广播中,只有环境声,也就是群体声,以沉浸式方式被拾音。这是克鲁克斯的“顶面”。他为此声音增加(通常是单声形式)典型的赛场噪声、摄像机附近话筒捕捉到的信号等。最后,他的第三平面(单声)只携带解说员/评论员声,即告诉观众现场发生事情的人产生的信号。Krückels非常小心地保持这三个平面之间的分离,为艺术形式和替代方案留下足够的空间。

  他认为重要的是要有一个固定的环境声混音位置,即使摄像机之间的视频切换可能显示恰恰相反。他说,将音频跟随视频自动替换运用于环境声信号,会很快导致听觉疲劳和不适,因为音频构面的快速演替触发了人类与生俱来的不安全反应。

  这样做效果很好,因为如果摄像机做好工作,人们很容易意识到动作是在场地的左边,即使音频信息似乎指示另一边。这也解释了为什么无论在球场的左边还是右边踢球,踢球的声音总是在中心(单声)。

  克鲁克斯说,这可能是一种折中方式,但为一个很好的方式,尤其是由于进入球场拾音话筒的背景噪声是如此大,以至于移动球场左右边噪声会导致环境声严重的不平衡。

  环绕声/沉浸式音频应该如何混音,有不同的理念吗?欧美似乎有所不同:欧洲人更注重令人信服的人群声,而美国的作品往往偏爱“过度炫耀的”审美。在后一种情况下,将播放器放置在声像的中心并使用高压缩率比提供稳定的声景更重要,音频人工产物关系不大。

  克鲁克斯本人赞同这两者之间的折中——关注细节(比赛现场噪声),同时保持一种真正沉浸式的氛围,让观众有身临其境的感觉。不过,他并不想不惜一切代价增加沉浸感。他说,如果以3D/沉浸式音频对寂静无声的人群拾音时,听起来并不会更生动。另一方面,对于此起彼伏的墨西哥人浪,他喜欢声音从一个音箱传到另一个音箱。

  ·动态效果

  动态效果在环绕声/沉浸式音频场景中非常重要。克鲁克斯说,在广播电视领域,没有它们,音频工程师的所有努力都是白费。30~40dB的动态范围(古典音乐爱好者的偏爱)根本不灵。对于关键信号(语音、音乐、赛场噪声),人耳更喜欢保持在+7~ -10dB LUFS范围内。当考虑到赛场中的声级(例如110dBA)通常比在家里使用的版本(±68dBA)高得多时,这一点就更加重要了。

  考虑到人耳只能听到从大约35dBA开始的声音,这就没有给音频工程师留下多少“空间”。此外,大多数人喜欢保持在±15dB的动态范围内,动态处理的必要性(通过增益调整或使用压缩器)变得显而易见。

  克鲁克斯说,将这一原则巧妙运用的一个解决方案是Lawo的KICK软件。据他说,这是唯一的办法,设法保持踢球和涌进噪音在一个恒定的水平,从而避免有时严酷的声级跳跃和人工产物。

  向最终消费者提供预处理声源只会带来好处。应注意避免压平声源的动态范围使之识别不出:以一个稍微紧凑的形式交付声音元素就绰绰有余了。

  它会迅速发展吗?

  杜比、MPEG和大多数声音工程师都相信,3D/沉浸式音频的确立将比5.1音频要快得多,这主要归功于VR和AR等重要的搭档,即多年来一直在应用3D观看和聆听的游戏。今天的大多数孩子已经熟悉双耳聆听,尽管他们可能无法描述它是什么。头部追踪(当你戴着耳机转过头时,声音不会移动)在大多数游戏机上都有。

  智能手机完全能够解码这些信息。

  音频工程师可以很容易地创作出双耳混音,作为身临其境的声音再现——大多数人几乎会立刻被吸引住,再也不想回到立体声混音。因此,克鲁克斯认为头戴式耳机将在建立沉浸式音频中扮演重要角色。

  他本人不是很喜欢条形音箱,认为它是以某种方式包围听众的一种漂亮的折中。对于真正的3D效果以及从音频工程师的观点来看与之关联的繁重工作,条形音箱或许无法准确体现附加价值。

  汽车里的3D/沉浸式音频呢?这可能是最轻松的应用之一,原因是汽车系一个受控环境,类似于电影院。因此,音响工程师们精确地知道他们的混音在某一辆车里听起来会是什么样子。因此,为某一车型制作一个杜比全景声呈现是非常容易的,并将产生最大的聆听满意度。

  因此,可以肯定地说,3D/沉浸式音频大有前途。

  克里斯蒂安·斯特鲁克(Christian Struck)

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: