沃森善思

  “在20年前,可能所有人都会认为机器在智力问答中战胜人类是不可能的。”图灵奖获得者、斯坦福大学人工智能专家EdwardFeigenbaum 就曾发出这样的感叹。但是,今天它变成了现实!在美国家喻户晓的电视智力竞赛节目《危险边缘( Jeopardy!)》中,IBM 超级计算机系统沃森(WATSON)在北京时间2 月17日上午战胜了该节目有史以来最优秀的两位人类冠军Ken 和Brad,圆满结束了这场历时三天的人机大战。

  相较1997年人机大战第一役中的主角深蓝,沃森可谓是另一个里程碑式的超级计算机系统。和它的前辈相比,沃森的计算能力已不可同日而语,更大的差异还在于它们所应对的算法挑战。第一次人机大战,深蓝对国际象棋的精熟曾让世人震惊,因为国际象棋定义明确,主要涉及数学方面的处理能力,计算机可以轻易计算每一个游戏状态及相应步骤。然而,《危险边缘》节目中的智力问答,则要求计算机必须理解人类的语言。与国际象棋不同,人类语言是完全开放式的,往往模棱两可,需要上下文才能理解其意思。虽然IBM 的研究人员可以轻松理解人类语言,但开发理解人类语言的超级计算机系统却极具挑战性。

  尽管存储了大量的百科全书和其他信息,但《危险边缘》的问题并不会让沃森轻易地找到答案,因为寻找答案从来不是计算机的强项。搜索引擎没法回答问题,只能给出符合搜索关键词的成千上万个似是而非的可能答案,而沃森要通过各种不同的算法对所有的候选答案取得更多的证据支持,再根据证据的强度对每个候选答案给出其置信度,最后根据置信度来决定是否向用户提供置信度最高的唯一答案。这一过程是极其复杂的,因此需要动用几千个处理器的超级计算机来处理一个问题。

  沃森需要掌握大量的知识,并在相关和不相关的信息中发现线索。对计算机来说,这是一个巨大的挑战。因为人类可以在瞬间辨别出事物之间的联系,但是电脑却必须并行地考虑所有事情,从而得出结论。这次人机大战,沃森胜利了。这意味着IBM 掌握了对人类信息需求和问题给予更准确响应的技术能力,并预见到了这个领域存在巨大商机。这项成果还将被广泛应用于多个领域,例如更快、更准确地进行医疗诊断,研究潜在的药物交互作用,帮助律师和法官寻找案例,在金融领域实现“假设”场景分析和法规遵从,帮助公司培养更精明的销售人员……沃森的出现,颠覆了此前简单的人机关系,并将带来一个崭新的人机合作时代。

  沃森善思尽管IBM 沃森项目语义分析部门负责人DavidFerrucci 表示:“我们的目标并不是模拟人类大脑,而在于开发一台能更好地理解并通过语言与用户交流的计算机,它理解和交流的方式并不需要与人一样。”不过,我们仍然希望知道沃森到底是如何思考问题的,它思考问题的过程和人类有什么区别?

  沃森首先要理解问题。一个问题可能有多种理解,沃森会针对不同的理解,在存储的信息里寻找可能的答案;而这又会得到多个答案,对于每个答案,沃森需要研究相应的证据;因为证据的数量是庞大的,所以沃森需要为所有的答案根据其证据的关联强度进行比较和排除;最后,根据其答案的信心级别决定是否向外提供答案。

  最了不起的是,沃森是一个能够与人类回答问题的能力相匹敌的超级计算机系统,具有足够的速度、精确度和可信度,并且能使用自然语言回答问题。而对人类自然语言的理解,也是超级计算机系统所要解决的核心问题,特别是如何更快地利用各种非结构化和结构化的知识来帮助其进行自然语言的理解。这其中涉及到语义分析处理、计算机自学习能力、大规模并行计算等多个领域,IBM 把这些技术整合在一个体系架构下,帮助沃森来应对自然语言理解的巨大挑战。

  理解自然语言

  沃森的问世与三大领域的进步密不可分:计算机自然语言的进步、巨大的计算能力、海量的数字化全球信息。沃森的第一大突破正是,在回答以自然语言提出的针对各个知识领域的问题方面取得的巨大成功。自然语言是人类实际使用的语言,包含双关语、俚语、行话、缩写,甚至在错误语境中使用的词汇。计算机非常擅于计算,但是自然语言具有模糊、与语境高度相关、模棱两可,甚至不严密等特点,特别是《危险边缘》节目的设计,向IBM 研究人员提出了更大的挑战。这项比赛的题目涉及各个知识领域,需要分析人类语言中微妙的含义、讽刺口吻、谜语等,这些通常是人类擅长的方面,而计算机对此则毫无优势。沃森的DeepQA(深度开放域问答系统)采用突破性分析技术,能够理解问题的内容,分析海量的信息,然后根据它找到的证据,给出最佳答案。

  精确回答问题

  沃森的第二大突破在于,它通过高级分析技术对信息需求和问题给予更准确的响应。在《危险边缘》的比赛中,有一个问题是“一种出现在14 世纪的有色彩的瘟疫,后被阿瑟·米勒改写成了著名戏剧”,其正确答案应该是《推销员之死》。

  当沃森被问到一个问题的时候,数百种算法会通过不同的方式对问题进行分析,并给出可能的答案以及选择它们的证据,而这些分析都是同步进行的。对于每个候选答案,沃森都会找出支持以及反对这个答案的证据。因此,这上百个答案中的每一个又都会有数百条证据,然后由数百种算法对这些证据支持答案的程度进行评估。证据评估的结果越好,置信度也就越高,其中置信度最高的一个答案会最终成为被沃森挑中的答案。在比赛中,如果置信度最高的答案没有达到或超过阀值,它可能会根据情况决定不进行抢答,以免输掉奖金。这所有的一切计算、选择与决策,都必须在三秒钟之内完成。

  中国团队的分析力量

  值得一提的是,在研制沃森的全球团队中,IBM 中国研究院的团队也是重要的力量。IBM 美国总部的研究团队主要研究如何利用非结构化知识源来进行统计和分析,破解对人类语言进行理解的难题。但是,研究人员对从非结构化知识源中所获得知识的准确性和可靠性,通常很难把握,而结构化知识源则能够提供一个互补的帮助。中国团队的任务之一,就是尽可能利用结构化的知识来帮助沃森回答问题,更准确地评估答案的可靠性。

  IBM研究院沃森团队的高级经理潘越表示:“在计算机科学和人工智能领域,即使是针对一个固定结构的完全可靠的知识,如何用它来回答自然语言的提问也仍然是一个难题。”最重要的是,如何理解问题,并在大量的结构化知识中根据问题定位答案并评估其可靠性。其中一个重要的内容就是评估答案的类型与问题所问的类型是否匹配,这样就可以帮助沃森排除那些“愚蠢”的答案。。

  但是,这种类型的排斥和重叠不是绝对的。例如,问:邓布利多教授的哪个学生打败了伏地魔?问题所问的类型是“学生”。这就需要评估“哈利·波特”是“学生”类型的可靠性。这对人来说轻而易举,而对于计算机来说就需要在各种结构化知识中进行匹配。例如,在电影数据库中会发现,这是电影名称也是角色名称;在小说数据库中会发现,这是小说名称;可是很难找到一个列有世界上所有学生名称的数据库。因此在结构化知识中,“哈利·波特”的类型不包括“学生”。在这种困难的情况下,算法一方面要避免给沃森错误的信号,另外一方面,甚至要告诉沃森结构化知识不排除“哈利·波特”是“学生”的可能,因为“角色”类型和“学生”类型是有重叠的。

  神秘的自学习能力

  对人类来讲,最重要的是大脑储存的知识,而对计算机而言,就是后台的数据库了。如果沃森可以像人类一样具有自我学习的能力,也能通过读书、看报、浏览互联网获得新的知识,那么计算机将变得更加智能。

  对计算机自我学习能力的研究,是计算机科学和人工智能领域的一个重要课题。令人惊喜的是,沃森目前已经具备了一定的学习能力。《危险边缘》节目的“粉丝”创建和维护了大量的关于该节目的数据,其中就包括所有往期节目的问题和答案。如何让沃森从往期节目的问题和答案中学习提高,是研发过程中的一个关键。

  据潘越介绍,每次沃森在分析和解答往期问题时,都会产生大量的数据。有的时候,一次实验就会产生几百GB的数据,中国团队试验和研究了各种不同的数学模型和方法,并把它们应用到实际数据中。其中,中国团队关于“两阶段”的学习方法被证明十分有效,全球团队还把这一方法扩展成复杂的多阶段学习,应用在沃森项目中,极大地提高了它的学习能力。

  不过,目前沃森还是得依靠专家来决定收录何种信息源,因为互联网具有海量的信息,这些信息源良莠不齐,信息的完整性和可靠度也很难保证。目前沃森还没有自动评估信息源可靠度的能力,而是依靠专家来决定收录何种信息源,当然这也是因为涉及到信息源的版权问题。IBM研究人员期望,将来沃森可以根据问题的类型,来自动评估信息源的相关度和可靠度,从而自己决定是否收录。这样将它连入互联网,就可以很快更新知识,提高解决问题的能力。
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: