机器新闻写作:一场正在发生的革命

  • 来源:读者新周刊
  • 关键字:内容创作,新闻写作
  • 发布时间:2016-02-26 09:46

  【内容提要:聚焦于新闻内容生产的自动化趋势,即基于算法的新闻内容生产和编辑、出版。通过追溯谷歌新闻开启的机器自动选编和推荐新闻的做法,重点介绍了机器新闻目前的发展现状、工作原理和应用前景,并探讨了新闻生产自动化对新闻业、新闻学科以及新闻从业人员的素养要求带来的深远影响。】

  对于不断追求创新和效率的人类而言,内容生产行业无论是出版、报业,还是影视和新闻网站中的内容提供的自动化,并不仅仅是梦想而已。虽然包括文字、音频、视频、动画等多种媒体为载体的内容的生产,不同于衣物鞋帽和各类机电产品的生产,但在后者早已实现大批量自动化生产的今天,在各类自动化手段,从设计、生产到质量检测的各个工艺环节普遍应用的今天,内容生产是否具有机器不可替代的独特性,是值得存疑的。在传统蓝领工种所从事的工作大量被“自动化”后,传统白领工种所从事的工作,很多方面也在逐渐被“自动化”。事实上,从“内容创作”到“内容生产”,这种措辞上的改变,已经传递出某种让“写作”走下神坛的意味。

  【新闻的自动选编】

  就新闻行业的这种自动化浪潮而言,影响最大的早期实践大概要算“Google News”了。2001年,Google当时的首席科学家克里希纳·巴拉特开发出一个与Google搜索核心技术PageRank算法相关的算法StoryRank,可用于新闻的推荐排序,此即“Google News”的前身。“Google News”在不同的国家和地区提供不同的版本,其本质上是一款Web新闻聚合器,其首页更新和新闻推荐都不依赖于人工操作,而是由后台的聚合算法实现。时至今日,在中文“Google新闻”页面的下方,仍有“所有新闻的选择、排序、分类和搜索均由电脑程序自动决定”的说明。而在其“关于Google新闻”说明中,有以下3段意味深长的话:

  Google新闻是一个由计算机生成的新闻网站。它汇集了来自中国大陆超过1000多个中文新闻源的新闻资源,并将相似的报道组合在一起,根据读者的个人喜好进行显示。

  一直以来,新闻读者都是先挑选一种出版物,然后再寻找所关注的标题。为了向读者提供更加个性化的选项以及更加多样化的视点供其选择,我们采取的方式略有不同。在Google新闻中,我们为每项报道提供了指向多篇文章的链接,因此您可以先确定感兴趣的主题,然后再选择要阅读每项报道的具体发布者的网页。点击您感兴趣的标题,然后您就可以直接进入发布该报道的网站。

  我们的文章是由计算机进行选择和排名的,它们会评估某项报道在线显示的频率和所显示的网站及其他因素。因此,对于任何给定的报道都有多样化的视点供您选择。我们将继续添加新闻来源,优化技术,不断改进Google新闻,并努力向更多地区的读者提供这一产品。

  显然,Google新闻所开创的是新闻的机器选编,还不是本文所要着重探讨的新闻的机器写作。但写作和编辑同为新闻内容生产的两个关键环节。在上述“Google新闻”的自动选编推荐中,关键是以下几点:

  1、新闻来源:来自我国大陆1000多个中文新闻源。新闻来源的选择和把关,在很大程度上决定了聚合推荐的新闻的丰富和多样性程度;这实际上是“Google新闻”选择和推荐的样本框,决定了哪些新闻有机会被推荐。

  2、推荐逻辑:即其算法(algorithm)。值得指出的是,StoryRank和PageRank类似,其对一篇报道的推荐和选择,并不是仅仅通过分析报道本身的内容,而是着重分析报道在网上的受关注程度:被哪些网站发布、转发的多少和频率、在网站的什么位置发布等,以此来“计算”有关新闻的价值或重要程度。

  3、推荐而不提供:从新闻作品版权等角度考虑,“Google新闻”只是提供各种新闻不同的新闻来源,有点“述而不作”的味道,具体的新闻则仍需要到各来源网站去阅读。Google新闻的这一做法最大限度地让它避免了各种版权纠纷,换言之,它把自己定位为自己所定义的众多新闻源的精华索引页。

  作为机器编辑肇始的“Google News”,其所开创的基于所选择的样本框进行新闻自动选择和推荐、排序的方法,对各大新闻网站、新闻门户和其他搜索引擎带来了很大的冲击和影响,包括百度新闻等跟风者不少。值得指出的是,在“Google News”最初推出之时,还是Web1.0时代。10年过去,互联网特别是移动互联的发展,使得新闻生产和消费的格局又有了很大的变化。这其中最大的变化就是社会化媒体的兴起,以及基于消费端的用户偏好,被纳入到新闻推荐的算法考虑中,从而可以为用户推荐更加个性化、定制化、动态化的新闻产品和内容。事实上,以“今日头条”等为代表的新闻客户端,都是当初“Google News”所开创的机器新闻编辑产品的变种和升级。

  无论是“Google News”也好,“今日头条”也好,这类产品的出现和风行,揭示了这样一种趋势,即机器学习、深度学习正在改变包括新闻生产在内的诸多之前依赖人力、脑力密集的产业和行业的生态和业态。从工业革命开始,人类的自动化梦想就一直在加速膨胀,试图在一切有可能把人力解放出来的领域,代之以无论是硬件还是软件意义上的“机器”的协助甚至完全自动化。一些前沿创新公司,如Google和百度,都在不约而同地研究无人或者自动驾驶汽车;而在自然语言处理、自动翻译等领域,近年来所取得的进展也是令人侧目的。

  Google的自动翻译近年来在准确性方面有很大提升,相信随着其每时每刻的海量语料的学习,辅之以群智形式的修正反馈,其翻译的水平终将接近或达到专业同步翻译的水准。而百度则在2012年启动了其深度学习研究工作,并于2013年成立深度学习研究院,在2014年聘请人工智能领域的顶级学者吴恩达担任公司首席科学家,负责百度研究院尤其是其“百度大脑”计划。2013年底,百度创始人李彦宏出现在江苏卫视《最强大脑》第一期现场,并对此节目有自己的关注点:“《最强大脑》讲的是人脑,我想的是电脑能不能做。如果你能做到的事情,我通过研究后用电脑也能做到,甚至做得更好,那不是很有意义的一件事吗?”可以预见,在不远的将来,一台连接到特定云端支持网络如百度大脑系统的计算机,在包括人际互动、问题解答等方面达到与“人”几乎一致,并不是不可能的。

  2014年6月8日,一台计算机成功让人类相信它是一个13岁的男孩,成为有史以来首台通过图灵测试的计算机。这被认为是人工智能发展的一个里程碑事件,也进一步验证了图灵的信念,即假以时日,在一定程度上机器是可以有人一样的智能和思维的。

  如果机器真的可以具有人一样的智能,它也许真的可以成为“他”或“她”,从事包括新闻的选编、写作这样的“专业性、创造性工作”。当代最有影响的媒介理论家之一Douglas Rushkoff在其2010年出版的《编程,或者被编程(Program or Be Programmed:Ten Commands for a Digital Age)》一书中写道:随着计算机和网络计算能力的不断提升,“思考本身将不再——至少不再是独一无二地——成为人类的特权”,计算机和网络终将具备写作的能力。

  下面让我们来检视机器新闻写作。

  【机器新闻写作:基于算法的新闻内容生产】

  编辑和写作,就其所需要的人工智能程度而言,显然写作更具挑战性。在机器新闻生产的语境中,机器编辑通常主要指对已有新闻作品的选择和推荐、聚合,很少涉及对成稿的修改;而机器新闻写作,则仍是不折不扣的从无到有的“创作”。

  2014年6月30日,美联社公关主管科福在美联社博客平台发表了一篇随后引起广泛关注和报道的博文《季度营收报道方面的一大飞跃》,介绍了美联社将从当年7月开始,在关于公司季度财务情况的新闻报道方面,全面采用机器新闻写作,其文章撰写软件由一家名叫Automated Insights的公司开发。

  按照美联社商业新闻主管Lou Ferrara的说法,采用基于算法的机器新闻写作后,在无须增加新的人手的情况下,美联社的商业新闻中关于企业季度经营状况的报道量,将增加10多倍,即从原先每季度300篇上升到4400篇,而与此同时将能把之前用于此类报道的记者“解放”出来,让其可以从事更具有创造性和挑战性的新闻策划和新闻源拓展工作。

  把机器或者程序能做的交给机器和程序,从而把人力解放出来,去从事具有创新要求和需要发挥想象力的工作,这是自工业革命以来自动化革命的基本理念。关于机器新闻写作,美联社的看法是,这将让记者“能做回新闻的本职工作,而不是忙于数据处理”,因此,机器新闻写作的引入,并不意味着记者编辑工种的消亡。

  但显然并非所有类型的新闻都适合机器写作,至少目前来看是如此。就美联社的实践而言,其此前已经在用自动化手段提供各种数据式的体育“报道”,但此前主要是整合、综合关于运动员、赛事的各种实时数据,而此次的企业季度经营状况报道则是不折不扣的新闻报道了。尽管如此,可以看出,适合通过机器或算法进行的新闻写作,一般是以各种数据、图表的引用和分析为基础的硬新闻,新闻的主体来源于对数据的引用、解释和分析,具有明显的“数据处理”色彩,可看作是目前方兴未艾的“数据新闻学”的一个分支。

  事实上,在2014年3月,机器新闻就已经露了一手,令新闻界刮目相看。美国时间2014年3月17日早上6时25分,洛杉矶遭遇一次地震冲击,洛杉矶时报在地震发生3分钟后在其网站上发布了第一条新闻,是所有新闻媒体中最先发布的突发新闻报道,而这条新闻是机器人撰就的。以下为该条机器新闻的内容:

  根据美国地质勘探局的消息,星期一早上,在距加州韦斯特伍德约5英里地区,发生了震级为4.7级的浅表地震。地震发生时间是太平洋时间早上6时25分,震中约深5英里。

  据地质勘探局的数据,本次地震震中距离加州贝弗利山庄约6英里,距离加州环球影城约7英里,距离加州Santa Monica约7英里,距离加州Sacramento约348英里。在过去10天,在该地区附近,并无监测到任何震级达到或超过3.0级的地震。

  此消息来自美国地质勘探局的地震通报服务。本条内容是由作者所写的算法自动产生的。

  这里的“作者”,指的是洛杉矶时报的记者兼程序员Ken Schwencke,他所创建的这个名为Quakebot(地震机器人)的算法程序,在地震当天早上他被震醒时,已经自动根据其所收集到的信息,把上面这条新闻写好了。Schwencke所需要做的,是大致审阅后,按下“出版”命令。于是一条新闻就在地震发生后的3分钟内发布了。

  像Quakebot这样的机器人程序,大多是为特定类型的新闻而写作,通常而言是为突发性的短新闻而量身定制的,需要和一些重要的信源或数据平台实时相连,一旦某些条件符合或具备,程序就会自动产生一条新闻,并且可以随着相关数据的累积,持续补充、修改已生成的新闻作品,或者产生一条新的新闻,作为系列作品的一部分。以Quakebot为例,它是专为报道本地的地震警报和犯罪杀人事件类突发新闻而编写的。因此,程序会持续关注、收集相关动态数据,但具体写什么主题、什么角度、什么重点的报道,通常仍需要记者或编辑对程序以输入指令的方式进行关键决策。正是在这个意义上说,机器新闻并不能完全脱离开人工干预。它无法完全替代人工写作,并且主要适用于特定主题、类型、风格的新闻的写作。

  【机器自动写作的工作机理】

  下面以前述Automated Insights公司开发并已经被诸多品牌公司,包括像美联社这样的通讯社采用的自动写作平台Wordsmith为例,简单介绍一下其工作原理与过程。Wordsmith本质上是一种自然语言生成引擎。从公司的名称Automated Insights(自动生成的洞见)可以看出,Wordsmith的最大卖点是从数据到知识、见解和建议的提升和跨越;按照其公司的说法,是“从大数据到高见”,超越了简单的“数据处理”工作范畴,进入到了文本写作这一需要一定“智能”的领域。从其关键技术领域而言,应该是整合了数据库知识发现(KDD)以及自然语言处理(NLP)两个领域,属于人工智能(AI)研究范畴。显然Automated Insights公司的缩写和“人工智能”的缩写皆为“AI”,并非偶然。

  Wordsmith平台的任何一篇“自动生成”的作品的写作流程分以下几个步骤:

  1、获取数据。首先需要消化关于所服务的客户,即报道对象的各种形式的数据和资料,包括以APIs、XML、CSVs以及各种字处理图表等形式的数据,以及第三方(如Google Analytics)提供的相关客户的各种数据(运营、业绩、报道、评价、引述等)。作为一个以数据处理为基础工作的写作平台,Wordsmith可以处理“几乎任何形式或格式的数据”。

  2、分析数据。这里涉及到对各种数据的解析以及内在关联的勾勒,并把它们放在历时性的演变背景中来进行解读。

  3、提炼观点(identify insights)。通过对目标客户各种数据中所呈现的模式和趋势的揭示,并把它们纳入到更大的行业或社会、国家的背景中来解读其意义,从而通过这样的参考和比对,得出一些具有可操作性的意见和建议。

  4、结构和格式(structure&format)。Wordsmith平台需要用其自然语言生成功能对此前的分析和提炼得到的观点进行故事化叙述,并按照需要生成各种形式的文本:长文、短新闻、可视化图表为主的内容、推文、标题导语等等。

  5、出版。Wordsmith平台能够将所生成的文章,通过多种方式,实时发布到客户指定的平台上。

  系统可以根据不同的组织、个人的具体情况和需要,提供个性化内容,涵盖员工表现评估、企业绩效分析报告、行业分析、企业竞争态势分析等,尤其擅长进行客户的财务情况分析和客户的运动、健身情况分析,因为两者都可以实时收集各种动态数据。综合我们对机器新闻各种软件和平台的了解,迄今为止,机器新闻或内容写作,使用最广泛的四大领域是财经、体育、气象地质和健康。支撑诸如Wordsmith这样的自动写作平台有效工作的基础性系统,就是直接来自所报道的组织或个体的各种监测资料、第三方提供的各种监测资料,以及连接到动态更新的云端数据库。

  没有大数据采集和挖掘、分析系统的支撑,机器自动新闻写作就成了无源之水、无本之木。社会的信息传播基础设施和环境发展到今天,随着各种随身通讯设备,如智能手机和各种可穿戴式健康监测设备的普及,加上无处不在的上网条件和实时定位系统,使得我们可以对所关注的个体、群组、组织、行业等,进行多角度的信息收集和描述。社会正变得越来越透明,这是机器自动内容写作风行的前提。当然,从数据到文章,这中间仍有很大的一个鸿沟需要跨越。人工智能研究的进展,正在不断为这样的跨越提供可能。

  一些前沿创新公司如Automated Insights,已经在这个全新的领域取得了令人瞩目的进展,其机器写作平台的采用客户,包括美联社、雅虎、三星、微软等著名品牌。据Automated Insights公司介绍WordSmith在2013年生产了3亿篇各类形式的报告,平均每秒钟生产9.5篇,报告的类型超过100种,预计2014年报告的产量将超过10亿篇/条,通过Wordsmith平台,为超过2000个移动应用提供源源不断的内容产品。正如Wordsmith平台所宣称的,旧式出版模式,是为千百万人生产同一内容产品;新的出版模式下,则是为每一个单一的客户,无论个人还是集体,提供个性化的定制内容产品。

  新闻传播领域的自动化革命已经开始。

  【机器新闻与新闻业的重新定义】

  机器稿件生产系统的出现,将对新闻传播行业带来深刻而长远的变化,这种影响首先体现在对新闻传播行业的重新定义。新闻传播行业的核心是内容的生产与传播。就内容的生产而言,在信息稀缺时代,由于新闻具有特殊的重要性,因此,很多时候我们把内容分为新闻和非新闻类。就传播而言,包含了内容的设计、编排、发布等;此外,人际传播、组织传播等语境下的传播,更多强调的是有效的沟通问题,除了研究沟通的内容,更注重沟通的行为、方式、策略的有效性。机器内容生产的出现和兴起,对于新闻传播行业的影响,主要是内容的生产和编辑、出版或发布、推送方面。首先,在一些综合性通讯社或媒体中,一线内容生产的总体格局可能会发生重大变化。

  在前述财经、气象/地质、体育、健康等领域的常规稿件的生产中,传统的记者写稿环节,可能会解构为记者“指导”下的机器写稿和记者/编辑进行人工修改把关两个环节。记者或编辑将主要通过基于算法的内容管理系统(即CMS)进行审核把关和稿件推荐。其次,稿件生产会越来越依赖于媒体自己建设的数据库以及实时的基于大数据的数据挖掘工作,这意味着在常规新闻写作中,传统的记者现场采访的重要性和必要性可能会有所降低,而中介化在场感的获得和营造将成为关键。第三,稿件内容的发布和推送将会更加个性化、定制化,不同新闻终端消费者收到的内容可能会有不同的版本。基于对内容消费者消费偏好和方式的分析,在新闻发布和推送时作相应的个性化裁剪,是完全可以做到的。

  机器稿件生产将对公关行业带来深远的影响。事实上,这很可能对传统的公关行业带来冲击或重新洗牌,机遇和挑战并存。就机遇而言,至少从Automated Insights的客户看,其中不少是公关公司,负责一些著名品牌公司的企业形象特别是媒体形象的建设和维护。机器公关稿件的批量自动生产,使得传统公关公司负责生产的大量稿件,可以借助机器来高效完成,这就可能成为公关公司提升其服务能力和效率的契机。就挑战而言,公关稿件的机器生成,也可能意味着其重要客户的流失,因为客户现在借助这套稿件生产系统,可以自己轻松完成很大一部分的企业媒体形象建设工作,而不再需要全部外包给公关公司。

  可以看出,新闻传播行业正在快速演变中,行业的信息技术含量会越来越重;与此同时,以往从事软硬件平台设计和开发的一些技术公司,将不可避免地“跨界”涉足内容服务行业,新闻传播中信息服务业的比重会进一步加大。由于大量内容都加上了“时间戳”和地理位置信息,新闻和非新闻类内容的界限,也将更加模糊。

  行业内涵和外延的变化,必然带来新闻传播学科的内涵和外延的变化,这直接体现在其学科的课程体系设置中。近年来,国内外不少新闻传播院校,在“大传播”理念下,纷纷加强了新媒体方面的课程内容比重,包括大量的信息和数据处理技术和信息艺术设计方面的课程。传统的新闻传播、信息科学、艺术设计学科日益交融。

  由此也必然带来新闻传播从业者核心素养要求的变化。自动新闻生产的不断改进和复杂化,将不断挤压新闻业中那些劳动密集型的工作或新闻生产环节,让这些工作或生产环节,就工作量和所花费的时间而言,主要通过机器即可完成,人工的干预和关键决策,本质上仍会起到主导作用,但从工作量上而言,不再需要在创造性要求高度不均的各个环节都同等付出,而只需在一些关键环节上介入即可。记者和编辑,由此需要重新定位自己工作的核心价值到底在哪里,时时考虑自己所从事的工作,是否具有一定智能的软件或机器人也能胜任。

  新闻从业者的不可替代性,从长远来看,必然来自其个性化特色的内容创作和创新编排、设计、内容传播和推送策略的制定等,而不是其他。未来学家Gerd Leonhard把这种人工的价值定位于从事创造性、有想象力的工作的理念,称作“对右脑的回归”。内容产品的生产,一如工业、农业产品的生产,其产业的升级换代,经历自动化的洗牌,将是不可逆转的趋势。从PGC(媒体专业人士的内容生产)到UGC(用户生产内容)再到AGC(算法生成的内容),人类的新闻生产和消费的方式处在不可逆转的丰富和演变之中。当此变局中,我们将如何自处和安身立命?《编程,或者被编程》一书作者Douglas Rushkoff所倡导的危机意识和积极的心态也许是必要的:努力学习,跑赢来自机器的竞争和挑战,掌握主动,做自己命运的主人。

  (本文摘自中国社会科学网,作者:金兼斌,清华大学新闻与传播学院教授)

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: