2000万本书的奥秘
- 来源:IT经理世界 smarty:if $article.tag?>
- 关键字:Ngram Viewer,数据库 smarty:/if?>
- 发布时间:2017-04-20 11:07
这是一个好玩到停不下来的搜索引擎。
Ngram Viewer是Google Labs和哈佛大学学者共同开发的成果,只要用这个工具进行搜索,就可以发现从公元1500年到现在的500多年里,社会的热点如何不停地切换。谷歌在2004法兰克福书展上开始启动谷歌图书馆计划,试图扫描自现代印刷术发明以来全世界所有的印刷书籍。在此基础上,通过OCR识别,建成了世界上最大的电子书数据库。谷歌图书馆计划与Google‘s Partner Program 共同组建成广为人知的 Google Books。
至 2015年10月,这个项目已扫描超过2500万本书,占人类历史上所有出版书目总数的19.2%。Google 对书籍的处理不仅是扫描,还进行了数字化与数据化,通过一系列算法从万亿级别的原始数据中识别出单个的词语和短语,建成了一个语料库,这样就巧妙地避开大多数国家的版权问题。
庞大的数据库催生了一个新学科的成立——Google Ngram Viewer就是借用这个数据库开发的新工具。Ngram Viewer支持8种语言的检索,包括英语、法语、德语、意大利语、西班牙语、俄语、希伯来语、汉语,其中英语数据占到大约56%,汉语约占8%。
网友可输入至多5个不同词汇,透过Ngram Viewer显示的趋势线,观察这些词汇在不同年代出现的频率。当你输入“莎士比亚”,搜索范围设定在1500~2000年的英语书籍里,在他过世后的第92年,即1708年是“热搜”莎士比亚的最高峰,之后1930~1953年,莎翁的著作又一次受到了追捧。与莎士比亚被引用热度不分伯仲的还有福尔摩斯,这位虚构的侦探人物在1971~1979年间,成了街谈巷议的热点。维多利亚时代英国最伟大的作家狄更斯在1917~1923年期间,获得了空前的成功。那个年代大约万分之三的书籍里,都会提到狄更斯的名字,这时候距离作家因为脑溢血和写作疲劳去世,已经过去了约半个世纪。
除了可以看到数据趋势图,原始数据还可从网页免费下载,提供给语言学家、社会学家、人类学家等作进一步的资料分析和研究。《纽约时报》将Ngram Viewer这个全新的可视化工具,称为“通向5000亿单词的文化视窗”。
数据可视化的意义
Ngram Viewer如同一个普通的搜索引擎,输入一个“关键词”,就可以查询它在书籍中出现的频率,而且可以依据年代时间线查询。在搜索栏上方的“from the corpus”里可以切换要查询哪种语言的书籍,其中支持简体中文书籍的内容统计分析。接着,可以在两个年代之间查询书籍数据,时间跨度的范围从1500年到2008年。用户最多可以设定五组关键词来对比,关键词之间用逗号分隔。
我们可以在图表里看到不同关键词在不同年代里被书籍使用的频率,这在统计分析上可以做出很多有趣的调查与申论。若是继续点击图表下方的年代链接,就可以进入Google Books服务,查询指定条件的书籍,直接找到相关图书。
参与设计项目的是来自哈佛大学的计量社会学教授让-巴蒂斯塔·米歇尔(Jean-Baptiste Michel),他因为致力于人文数据的可视化研究而被誉为“数据的艺术家”。埃雷兹·李伯曼·艾登(Erez Lieberman Aiden)是计算机科学家、生物物理学家和应用数学家,他们一直试图找到一幅展现人类文明和人文历史的“科学”画面。
“人类在漫长岁月中写了很多书,我们向他们学习的最佳方法,就是把那几百万本书全部读完。当然,这个可行性极低。人们不得不倾向于另一种做法,就是选择几本书进行精读,可行性很高,但还不够好。”当米歇尔和谷歌的数字化工程师进行交流时,他们找到了这个“既可行又很好的”方法。
自印刷机问世以来,写书的过程变得简单多了,据统计到2010年,全世界大约出版了1.29亿本图书,而这些书籍如果没有随着岁月遗失,就都在图书馆里存放着。谷歌已经将图书馆中的书籍进行了数字化,掌握了这些书籍的出版地、作者、出版时间等信息,最终筛选出了5000亿个高质量的单词。
Ngram Viewer 收录的单词或短语,需要满足一项要求:这个词组或者短语在某年出版的超过 40 本书中出现过,才会有该年该词的数据点。同时,对数据进行标准化处理,可以削弱某些年份某些书印数过多对结果的影响。当这些数据加上时间和引用比例,就转变成为一个具备XY轴的搜索服务。
据米歇尔透露,这5000亿个单词的长度连起来是人类基因组的1000倍,如果把这些单词连续写出来,长度相当于在月球和地球间来回穿梭10次以上,而这仅仅是人类“文化基因组”的小小一段。谷歌向来是分析大数据的专家,它们企图要将所有图书数字化的努力,成就了现在的Ngram Viewer。
在工作原理上,Ngram将一个句子拆分成N个连续相邻词组成的词组,从而用来猜测语言的可能性,谷歌将这个方法定义为“文化组学”。“文化组学”的方法最早出现在2010年《科学》杂志上一篇名为《使用数百万本电子书对文化进行的计量分析》的文章里,现在指的是通过电子化文本的量化分析,研究人类行为、人类活动与文化趋势的计算词典学。
这个由谷歌定义的新词,来源于“基因组学”——把人类基因作为研究对象,是生物学上观察人类基因序列组的透镜。文化组学与其非常类似,挖掘大量数字化信息,将数字化的历史记录片段作为透镜,探寻反映在语言和文字中的社会文化现象。文化组学的优点,就如同人类基因序列,“所有人都可以用上它。”
英语谚语说,“一幅画面可以抵过1000个词。”米歇尔表示,他们在邀请了来自哈佛大学、麻省理工大学、《英国大百科全书》、《美国传统英语字典》的编委后,得出了一个惊人的结论,Ngram Viewer的一幅画面抵过上亿个词。
从用字遣词发现社会趋势
Ngram Viewer已经成了一些媒体人爱不释手的玩具,美国最具影响力的商业杂志之一《快公司》比较了英语中报纸、杂志、英特网在不同年代的兴衰,结果出人意料,不管哪个年代,报纸都是最受青睐的读物,甚至在英特网风靡的时代,报纸的流行度虽然不如鼎盛时期,但还在向上攀升。此外,《快公司》还对蒸汽、电力、原子能等三种不同能源的兴衰做了比较,原子能自1945年迅速崛起,并在上世纪80年代成了最热门的能源话题。
当查找“流感”这个词时,你会看到全球范围内,1918~1920年在欧洲爆发的西班牙流感,成了人类历史上最致命的自然事件之一。在之后的几十年里,流感虽已平息,但人们的讨论从未终止,它的热度似乎不亚于一些文学畅销书。
具有160多年历史的《亚特兰大》杂志收集了一系列有趣的趋势比较,例如:在过去的200年里谁比较受欢迎,狗和猫?咖啡和茶?男性和女性?对比发现,狗受到的宠爱始终多于猫;茶的流行度始终高于咖啡,直到上世纪70年代趋势才被改变;女性在书籍里出现的概率逐渐走高,并与男性接近,性别平权的趋势非常明显。
广告从业者希望通过一些敏感词获得用户的关注度,使用Ngram Viewer也有助益。如果你想告诉大家“上帝死了”,那么该换一个说法了,自1968年这个说法达到鼎盛之后,关注度就一路下滑。但“气候变化”的热度却在飞涨,从1970年后,很多书籍里都出现了“海平面正在上升”、“全球气温升高”、“二氧化碳浓度增加”这样的词汇,比起上世纪50年代,这些词的使用增加了500倍。对广告人来说,Ngram Viewer是一个把社会热点切换成趋势的关键工具。
Ngram Viewer虽然没有公开全书的内容,但是公开了书本的相关统计数据,从而可监测人们口语表述的变化情况,搜索者还可以透过数据本身,看到数据背后的故事。在搜索英文书籍数据库时,如果检索马克·夏加尔这位定居在法国的俄裔超现实主义艺术家,是一条稳步上升的曲线,知名度越来越高。
然而在德语书籍库进行同样的检索时,你会看到非常奇怪的现象——闻所未闻。他先是名极一时,但突然之间名声直线下落,1933年到1945年间达到了低谷,后来才回升。为什么呢?原来夏加尔因为犹太人的身份,而在纳粹德国遭到了政治禁令,这幅图反映了书籍记录中的审查情况。
同样,人们从上世纪60年代就开始展望“千禧年”,到了80年代中期关注度突然飞升,人们意识到2000年快要来了,各种书籍里都在讨论,这样的讨论持续了整整十几年,而到了2008年,大家醒悟过来2000年已成往事,一场关于千禧年大讨论的泡沫就这样破裂了。
通过Ngram Viewer,美国学者阿历山大·彼得森发现了词汇的产生和消亡的生命周期临界点:在它产生30年到50年之后,要么写入字典,要么消亡。词汇的消亡速度,通常超过了新词汇的产生速度。而且,通过这些漂亮的图表也可以发现,人类对过去的遗忘速度快得惊人。
关于准确性的质疑
据参与Ngram Viewer开发的威尔·布鲁克曼(Will Brockman)和乔恩·欧文特(Jon Orwant)表示,自上线以来,这个工具每分钟的使用频率至少达到50次,用户生成的数据图表超过了4500万张,透过这些词汇,人们发现文字背后的人类社会与历史。其中,粘度非常高的用户有语言学家、历史学家、图书学家。
除了发现过去,Ngram Viewer还有预测未来的功能:在文化组学2.0的项目里,卡列夫·利塔如(Kalev Leetaru)通过分析包含印刷品和媒体信息的数据库,预测到了2011年的“阿拉伯之春”事件,并且成功地预测到了本·拉登生前的居住地,误差在124英里范围内。
但是对于这个工具的准确性,各方依然有着不一致的评价。加州大学语言学教授杰奥夫·扭恩伯格(Geoff Nunberg)发现,有很多无效的数据:出版时间、作者、类型等等。由于OCR自动识别扫描的关系,因此可能带来非常高的错误率。他在检索中搜索了美国前总统巴拉克·奥巴马的名字后,在他的出生年份之前,竟然有29条数据。不过谷歌很快就更正了这些错误。
也有评价认为,对于人名、概念热门度的评估,不能仅仅依靠在书籍中被引用的数量计算得出——这样的话,一本只被读过一次的书和被浏览过数百万次的书,具有相同的价值。这既不能反映出大家在热议什么,也无法得出出版界在关心什么。
更多的评价则认为,Ngram Viewer建立在谷歌图书馆计划扫描的图书基础之上,但是没有人知道,谷歌是如何选择和获取这占到人类出版史约19.2%的图书的。不确定是否会有系统性的选择偏差,也不确定图书的幸存者偏差有多严重,故而这些图表得出的结论,并不能随意外推。
圣迭戈州立大学的心理学家吉斯曾经使用Ngram作为工具研究自恋,但他提醒“小心倒洗澡水的时候,把孩子一起倒掉”。因为这个工具的缺陷,在于无法衡量某一类著作在数量上的变化。比如一段时间“秋天”这个词语的使用变少了,很难真正说清楚,到底是对秋天感兴趣的人变少了,还是因为和“秋天”无关的词汇变多了?
也有学者认为这个工具没有将动词、名词、形容词等做出有效区分,例如“Cheer”既可以是动词,也可以是名词。但在斯拉夫·比特罗夫(Slav Petrov)领导的谷歌自然语言处理小组的带领下,弥补了这个缺陷,目前可以区分出这两个不同类型词语的频度。
除此之外,目前Ngram Viewer收录的数据还有一定滞后性和片面性——与Google Trends的高度实时性不同,图书的滞后性较长,只能在比较大的尺度上看趋势变化。数据库的内容完全来自出版图书,而不包括未出版图书或其他形式的文字,也不包括正在以指数级增长的网络和电子信息。
由于英文图书占到了数据库的56%,而汉字书籍仅占其中的8%,英语的语料库最大,且英语在最近几百年来的图书中的使用率总体看来看是最广的,比较能够反映真实世界的一些变化。
对汉语检索的结果,需要更加谨慎的解读。一方面是因为中文里,单词和字符的概念是模糊的,如果分词不当,就很难在Ngram Viewer里找到了。另一方面,汉语在不同时期,语义、用法和拼写的差别比较大,文言文和现代汉语很多时候很难进行比较。而且Ngram Viewer目前只支持简体中文的搜索,这也限制了对1950年前繁体汉字的搜索能力,不过近几十年的汉语数据分析结果还是具有较高的可信度。
对此,项目发起人之一的艾登教授认为,Ngram Viewer和很多科学计量工具一样,都存在着缺陷,但并不影响它的受欢迎程度,一个世纪以前,研究人员梦寐以求这个工具,现在它终于上线了,并不断改进着。
文/陈婧