为ChatGPT祛魅

  撰文/黄湘

  2022年11月,人工智能聊天程序ChatGPT问世,震惊世界。ChatGPT由于可以在许多知识领域给出详细和清晰的回答而迅速获得关注,而且可以对任何主题写出仿佛出自真人笔下的文章。不到两年时间,已经有无数用户使用ChatGPT写作或辅助写作各种文章。

  写作一向被视为普通人需要花费精力才能掌握的智力活动,因此ChatGPT的写作给人类社会带来了巨大的观念冲击。不少人质疑这是否意味着机器具备了人类的智能,从而正式拉开了机器取代人类的序幕。不过,在曾经当过程序员的美国哥伦比亚大学文学教授特宁看来,这种想法实属大惊小怪。事实上,几百年来,机器一直在帮助我们写作。在《机器人文学理论:电脑如何学习写作》一书中,他梳理了机器辅助写作的历史,探讨了应当如何看待ChatGPT的写作。

  人类的社会存续和文明发展有赖于海量的日常写作。以医院为例,医护人员不仅需要诊治和照护病人,而且需要为每一位病人书写病历,将其编目、标记、存档,供以后使用。对于大多数人来说,写作是不得不完成的繁重任务。很早以前,人类就梦想通过某种自动化装置来分担这一任务。

  17世纪的德国哲学家莱布尼茨以和牛顿共同发明微积分而著称,但他更为雄心勃勃的梦想是发明一种语言微积分,建立类似于算术符号的通用语言符号,能够在没有任何字典的情况下被任何人阅读,从而使语言被纳入理性系统之中,并且可以被自动化。1843年,英国著名诗人拜伦的女儿洛夫莱斯为其好友、数学家巴贝奇设计的分析机模型撰写了一份笔记。巴贝奇设计分析机的本意是用于数学计算,但是洛夫莱斯看到,数字可以表达其他事物,诸如字母、音符等,一台操作数字的机器也可以依照规则,以数字来操作符号。洛夫莱斯首次设想了从操作数字到操作符号的转型,她也因此被很多人认为是史上第一位电脑程序设计师。

  另一条设计自动化写作装置的路径来自作家和人文学者。1895年,法国作家波尔蒂(Georges Polti)出版了一本名为《三十六种戏剧情境》的书,将所有戏剧故事分解为36种基本情境,目的是让作家在创作任何剧本时,都可以按图索骥,通过组装这本书罗列的基本情境而迅速定稿。

  在以后的几十年里,出现了很多类似的著作,其中最著名的是美国作家希尔在1936年出版的《情节精灵》。这个精灵的魔力在于把所有曾讲述过的故事分解为若干基本情节,并编号列表,用户只需旋转单独销售的纸板“情节机器人”轮盘,就可以每五分钟自动生成一个完整的故事情节框架。

  作家试图提炼基本的戏剧情境和故事情节来方便创作,民俗学家则旨在发现各种不同的文化传统之间的相似之处,从而揭示出普遍的文化原型。1928年,苏联民俗学家普罗普出版了《民间故事的形态学》,总结出了一套民间故事的普遍组成法则,包括7种“叙事角色”和31种“叙事行动功能”。普罗普的著作开创了民俗学的叙事结构研究,与波尔蒂的《三十六种戏剧情境》遥相呼应。

  1950年代,美国语言学家乔姆斯基在语言学界掀起了一场革命。他认为,语言是人类特有的一种天生能力,语言学不仅应该以经验主义的方式研究语言行为,更应该以理性主义的方式研究语言能力。乔姆斯基创立了“转换-生成语法”理论,“转换-生成语法”是存在于林林总总各种语言底层的普遍语法,一旦掌握了这种普遍语法,就相当于构建了一套公式,根据该公式对词汇加以组合,即可生成具有正确语法的语言。

  在乔姆斯基发起的语言学革命的推动下,1961年,麻省理工学院的学者英格夫(Victor H. Yngve)首次发布了随机英语句子生成器的研究成果,通过机器重新生成了一本儿童读物《小火车》。这项研究由美国军方资助。军方之所以对此感兴趣,是因为当时美国正在构建自动化的军事指挥系统,由电脑程序快速应对突发威胁,但是,“幕后”的指挥和控制可以使用电脑代码,面向士兵的“前台”必须使用自然语言发出指令,这就要求电脑能够自动生成自然语言。

  随机英语句子生成器无疑是一个重大成就,然而,它所生成的句子总是语法正确,但无意义,比如“无色的绿色想法猛烈地睡着”之类。毕竟,语法只是一个有限且封闭的系统,与世界无关;意义则存在于世界中,并且随上下文而改变。语法控制着句子组成的规则,句子包含单一的思想。要组成更复杂的连贯单元,比如段落或故事,就需要更高阶的规则。

  民俗学的研究成果在此大显身手。普罗普的《民间故事形态学》在1968年被翻译成英文,且正好赶上了人工智能项目的发展,即将生成随机的英文句子升级为生成随机的英文故事,该项目正需要了解故事的普遍组成法则。

  与故事的普遍组成法则相对应的,是以皮亚杰为代表的结构主义心理学派所主张的“图式”概念。与一般的语言语法不同,图式描述常见情境的骨架“脚本”,包含预期角色、地点、目标和活动等。波尔蒂“三十六种戏剧情境”相当于剧本的图式,另一方面,儿童在成长过程中积累图式,作为一种认知速记,用于以后的识别。

  如果说语法描述了词汇在句子中的排列,图式则描述了事物在世界中的关系。基于语法的生成器能够生成语法正确但无意义的句子,而在语法和图式双重控制下所生成的文本,有可能形成既语法正确又有意义的故事。1976年,米汉(James Meehan)在普罗普著作的启发下发明的TALESPIN程序生成了如下故事:“约翰熊从洞穴入口步行到山谷中的灌木丛,再穿过草地。约翰熊摘下蓝莓。约翰熊吃了蓝莓。蓝莓没有了。约翰熊不太饿。”机器先通过数据生成了一个虚拟世界,再通过模拟约翰熊角色的推理和行为生成了这个故事,与人类讲故事的方式相似。

  对于人类来说,图式来源于感知现实世界中的情景,但是机器如何自己构建图式?答案是通过词汇之间的相互联系。例如,假设机器对现实世界中的燕麦粥一无所知,但它可能会通过输入的信息学到这个词经常与碗、吃、桌子、早餐和勺子等词相邻,而很少和推土机或军火等词相邻。根据这些事实,它能够合理推测燕麦粥与在桌子上用勺子吃早餐有关,而不是与战争或建筑有关。机器读到的关于燕麦粥的信息越多,它就对其常见的语言环境了解得越多。

  依照这一思路,可以构建另一条生成语言的途径,即根据统计规则而非普遍语法。这一途径肇始于俄国数学家马尔可夫在1913年的一项研究,他统计了普希金的名著《欧根·奥涅金》中的字母之间的关系,证明了这本书并非字母的随机分布,而是存在可以建模的统计特性。

  信息论创始人香农在1948年发表的经典论文《通信的数学理论》中发展了马尔可夫的思想。他不仅尝试建立语言的统计模型,分析字母和单词相互组合出现的相关概率,还尝试使用模型生成文本。

  香农先从字母表中随机抽取字母以生成句子,得到的句子毫无意义,然后,他修改了抽取模式,比如从字母表中提取出E的概率比Q的概率高11%,由此生成的句子开始跟英语有点接近了。抽取所依据的统计模型越复杂,由此生成的语言与普通英语文本的相似性就越大。

  当计算单词组合的概率时,事情变得更加有趣。例如,“当我长大了,我想要成为……”,从统计学来说,这个句子合理的延续可能是“一名宇航员”“一名医生”等。理论上,在给定前一个单词的情况下,出现另一个单词的概率是可以统计出来的。这种依靠统计数据生成句子的方法没有对于普遍语法的假设,但是其输出的句子可以与英格夫基于语法的英语句子生成器相媲美。然而,对英语文本中每两个单词的组合统计其出现概率,需要数十亿的数据点,在很长时间里都是无法在技术上实现的。直到进入本世纪以后,随着电脑计算能力的爆炸性增长,人类才具备了处理几乎所有已发表英语文本内容的能力。基于统计的语言生成方法成为当今大语言模型的主流。

  人类的大脑显然不是通过输入海量文本内容来学习语言,这与大语言模型的学习机制是不同的。当人类出于饥饿感说出“我饿了”的时候,会伴随低血糖等生理反应,但大语言模型只是出于统计概率的推测生成了“我饿了”这个短语,而不会具有饥饿的感觉。那么,像ChatGPT这种人工智能模型是否具备真正的智能呢?这是一个在当下备受关注而又众说纷纭的问题。特宁指出,这个问题本身就是语义模糊的。对于如何看待智能,存在两种泾渭分明的立场。一种是柏拉图式的,将智能视为“思想和感觉与普遍真理的内在对应”;另一种是亚里士多德式的,将智能视为“达到特定结果的普遍能力”。

  从前一种立场看,智能具有私人特征,是在内心世界发生的,也是难以言喻的。而从后一种立场看,智能如何在私人的内心世界里发生并不重要;相反,智能好比一个集体共享的池子,除了人类之外,还有各种各样的东西漂浮在这个池子里。当一个人思考某件事的时候,通常会做笔记、和朋友交谈、上网查找信息、阅读书籍、参考教科书上的知识,乃至求助于人工智能程序,这些都是智能的一部分。

  亚里士多德式的立场也是一种外部视角和公共视角的立场,对于智能,我们不必关心“内部或内心到底发生了什么”,而是应当基于外部的评价标准,正如那句著名格言所说的:“如果它看着像只鸭子,走路像只鸭子,叫声像只鸭子,那它一定是只鸭子。”

  智能的上述两种意义—柏拉图式和亚里士多德式、内部和外部、私人和公共—使用同一个词汇,这造成了很大的混淆。如果有两个不同的词来分别表示柏拉图式和亚里士多德式的智能,很多困惑都会得到澄清。

  按照亚里士多德式的立场,人工智能程序,尤其是ChatGPT,当然是具备智能的。但这是一种集体协作的智能,ChatGPT的强大功能是建立在所有已发表的文本的基础上,它只是赋予了这种集体协作一种拟人化的声音,就好比一个会说话的图书馆。只是因为人类习惯用拟人的方式去想象人工智能程序的运作,才会误以为ChatGPT的强大功能是来自一种具有私人特征的智能。

  在集体共享的智能池子里,任何一种智能的机制或工具,无论最初多么不同凡响,一旦广泛普及,就会变成平均水平的一部分。比如,使汽车司机不必手动换挡的自动变速器在1960年代问世之时,曾被视为高度智能的,而如今它只是一个普通设备而已。同理,ChatGPT强大的写作功能,也将随着时间推移而逐渐变得平凡,成为人类的另一种工具。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: