翻译/万志文
当今领先的人工智能系统有一个比较奇怪且令人不安的地方:没有人真正知道这些系统是如何运作的,连一手缔造它们的人也不知 道。
这是因为大语言模型,即驱动ChatGPT和其他热门聊天机器人的人工智能系统,并不像传统的计算机程序那样是由人类工程师逐行编程得来的。这些AI系统基本上是靠自学,它们会吸纳大量的数据,识别语言中的模式和关系,然后利用这些知识来预测信息序列中的下一个单词。
以这种方式构建AI系统的一个后果是,人们很难通过逆向工程或通过识别代码中的特定错误来修复系统出现的问题。现在,如果用户输入“美国哪个城市的食物最好吃?”而聊天机器人的回答是“东京”,我们无法真正理解模型为什么会出现这样的错误判断,也无法理解下一个问同样问题的人又为什么有可能得到不同的答案。
大语言模型的难以理解不仅是个烦恼,还是一些研究人员担心强大的人工智能系统最终可能威胁到人类的主要原因。毕竟,如果我们不了解这些模型内部发生了什么,又怎么能知道它们是否会被用来制造新型生物武器、帮助政治宣传或编写恶意计算机代码来展开网络攻击?如果强大的人工智能系统开始不服从或欺骗人类,而我们连是什么导致了这种行为都不清楚,又如何能阻挡它们呢?
为了解决这些问题,一个被称为“机械可解释性”(mechanistic interpretability)的AI研究分支花了数年时间,试图探究大语言模型的内部运行机制。这项工作进展缓慢,且必须是渐进式的。
此外,越来越多的人开始认为人工智能系统并不会带来很大风险。5月,ChatGPT的开发商OpenAI的两名高级安全研究人员离职,原因是在针对确保产品安全方面是否做得充分的问题上,他们与公司高管的观点并不一致。
但与此同时,人工智能公司Anthropic的一个研究团队宣布了一项他们所说的重大突破—他们希望这项成果会让我们能够更多地了解人工智能语言模型具体是如何运作的,并让我们能够防止它们变得有害。该团队在一篇名为《大语言模型的思维导图》(Mappingthe Mind of a Large Language Model)的文章中总结了他们的研究成果。
他们研究了Anthropic的一个人工智能模型—Claude 3 Sonnet(该公司的Claude 3语言模型的一个版本),使用了一种被称为“字典学习”的技术,来揭示Claude被要求谈论某些话题时,其“神经元”组合(人工智能模型中的数学单元)是如何被激活的。他们发现了大约1000万个范式,称之为“特征”。
例如,他们发现,每当Claude被要求谈论旧金山时,一个特征就会被激活。每当提到免疫学或特定科学术语(如化学元素锂)等话题时,别的特征就会被激活。有些特征与更抽象的概念(比如欺骗或性别偏见)有关。研究人员还发现,手动激活或关闭某些
特征可能会改变人工智能系统的行为方式,甚至可能让系统打破自己的规则。例如,他们强力激活一个与谄媚相关的特征,Claude会对用户“说”出文辞华丽、夸张的赞美,即便在不合时宜的场景中也会这么表达。
Anthropic人工智能可解释性研究团队的负责人克里斯·奥拉(Chris Olah)在接受采访时表示,这些发现可以让人工智能公司更有效地控制它们的模型。
“我们正在发现一些特征,这些特征可能有助于消解人们对偏见、安全风险和自主性的担忧。”他说,“我感到非常兴奋,因为我们也许能够把这些人们争论不休的问题变成可以更具建设性的讨论内容。”
其他研究人员在中小型语言模型中也发现了类似的现象。但Anthropic的团队是最早将这些技术应用于大模型的团队之一。
麻省理工学院计算机科学副教授雅各布·安德烈亚斯(Jacob A ndreas)在看了Anthropic的研究总结后表示,这是一个充满希望的信号,表明大型模型的可解释性是有可能实现的。“就像了解人类身体运转的基本原理有助于我们治疗疾病一样,了解这些模型如何运作既能让我们及时发现问题,也有助于为控制它们而开发出更好的工具。”他指出。
但奥拉还警告说,尽管这些新发现代表了重要的进展,人工智能的可解释性仍远未解 决。
他认为,最大的人工智能模型可能包含数十亿个代表不同概念的特征,比Anthropic团队声称发现的约10 0 0万个特征要多得多。要把这些特征全找出来需要巨大的算力,且成本高昂,只有那些财力雄厚的人工智能公司才有可能实现。即使研究人员能够识别大模型中的每一个特征,仍然需要获取更多的信息来完全理解这些模型的内部运作原理。此外,也无法保证人工智能公司愿意采取行动来提升它们的系统安全性。
不过,奥拉表示,即使只是稍微撬开这些人工智能的黑匣子,也能让企业、监管机构和公众对这些人工智能系统的可控性更有信 心。
“我们面前还有很多其他的挑战,但看起来最可怕的事情似乎不再是前进的障碍。”他说。
……