个人计算的新曙光

  • 来源:中国计算机报
  • 关键字:人工智能,微软,微软小冰,机器人
  • 发布时间:2015-01-06 09:08

  ——探秘微软亚洲研究院人工智能研究

  机器与人聊天已经不再算是新闻了,在2014年7月14日举办的2014微软研究院技术峰会上,微软负责技术与研究的执行副总裁沈向洋演示了名为Project Adam的人工智能研究项目。

  将人与狗区分开来对Adam已经不具挑战性了,Adam的能耐是逐一准确地辨别出3只参与演示的狗的品种,从而展示了微软在人工智能领域取得的新进展。

  微软对人工智能的关注,源自盖茨对人工智能的情有独钟。据媒体报道,2007年,盖茨在北大百年讲堂发表主题演讲后,有听众问盖茨如果重新回到21岁,他是否仍然会选择创办软件公司。盖茨表示,也许有人会认为他固执,但他一直认为软件是最令他兴奋的领域,而如何更好地开发和利用人工智能则是他一生都在思考的问题,“因此如果我今天要开创事业,将会选择一个更具雄心的方向,可能会着眼于这样一个领域”。

  作为引领PC时代的软件厂商,微软与人工智能之间似乎有着某种天然的联系。与企业级软件厂商相比,个人计算软件厂商更关注生产力的提高和人的生活品质的提高,而人工智能无疑能让个人计算厂商提供的软件服务更加智能和人性化。

  “自16年前微软亚洲研究院成立以来,人工智能一直是我们花大力气去做的事情。”微软亚洲研究院副院长芮勇表示。

  尽管被誉为“人工智能之父”的阿兰·图灵凭借1950年发表的著名论文《计算机器与智能》开启了人工智能的研究之门,但是在相当长的时间里,人工智能的研究进展缓慢。

  在这样的背景下,微软亚洲研究院从建院伊始,就将人工智能作为重点研究方向。鲜为人知的是,李开复、张亚勤、沈向洋和洪小文这四任院长中,除了张亚勤的博士学位是在乔治华盛顿大学取得的以外,其余三位的博士学位从卡内基梅隆大学获得。更巧的是,这三位院长读博士时师从同一个导师拉吉·瑞迪。瑞迪与爱德华·费根鲍姆因为在人工智能方面的贡献而分享了1994年的图灵奖。2014年11月,沈向洋擢升微软执行副总裁,从而跻身于微软由16人组成的最高决策层,而沈向洋负责主管微软技术与研发部门,并主要负责推动公司中长期总体技术战略、策略,以及前瞻性研究与开发工作。

  如此一来,微软亚洲研究院在人工智能领域研究上占上了天时、地利、人和优势。

  2014年5月29日,微软亚洲研究院推出了名为“微软小冰”的聊天机器人。尽管微软小冰在微信上仅逗留3日便遭到腾讯的全面封杀,但善解人意的微软小冰已经引起了手机用户的广泛关注。而腾讯对微软小冰迫不及待的封杀,显示出腾讯已经预感到微软小冰的潜在威胁。

  微软小冰的背后,是微软凭大数据、自然语义分析、机器学习和深度神经网络方面的技术积累。微软小冰基于中国近7亿网民多年来积累的、全部公开的文献记录,精确提炼成1500万条真实而有趣的语料库,而且这一语料库还以每天0.7%的速度净增。在此基础上,微软小冰通过理解对话的语境与语义,实现了超越简单人机问答的自然交互。

  去年8月,增添了Adam技术的微软小冰为爱狗一族带来了惊喜:只要用户将纯种狗的照片发过来,微软小冰就会准确地识别出狗的品种,而且还会附上有关该品种狗的秉性、饲养方式,甚至相关的传说,以至于很多人误以为微软小冰是一个爱狗的专业人士。

  与擅长聊天的微软小冰不同,以语音助手身份出现的微软小娜更注重实用性。你可以通过语音在日常生活、财经、彩票、电视剧、电影、旅行、名人、热点、天气等领域寻求微软小娜的帮助。比如说,你春节回家上火车前想先吃顿饭,就可以连续向微软小娜发问:“去北京南站怎么走”,“南站附近的餐厅有哪些”,“中餐厅有哪些”,“离地铁近一点的餐厅在哪里”,微软小娜一定会给你满意的答复。

  半个月前,软件开发者发现微软小娜作为语音助手出现在微软新一代操作系统微软Win10预览版9901中。从网络应用到产品化,标志着微软小娜的技术更加成熟。

  有关巴比伦通天塔的典故常常为软件工程师津津乐道。据说古时人类曾经讲述同一种语言,于是有人想在巴比伦造一座通天塔,以便直接跟上帝对话。为了惩罚这些人的虚荣和傲慢,上帝就让这些人操不同的语言。由于语言互不相同,大家鸡同鸭讲,最终,通天塔无法建成。

  当互联网将地球变成一个村落时,语言之间的障碍阻隔着地球村大多数村民的相互交流。尽管人们可以借助手势或者互联网上的翻译软件进行交流,但这些方式毕竟不如语音这一人类最自然、最常用的方式来得有效。而学习多种语言对于多数人来说,既不经济,也不及时,还不现实。

  对于那些想建造通天塔的失败者来说,他们最大的愿望可能是拥有一个能够让他们之间实现相互沟通的“神器”。

  约在两个多月前,这个“神器”崭露头角:2014年11月4日,微软启动了Skype Translator预览项目。Skype Translator技术使得语种不再成为人们进行语音交流的障碍。

  芮勇介绍说,Skype Translator包括三大技术:语音识别、机器翻译和语音合成,即对讲话者的语言进行实时语音识别,然后通过机器翻译技术翻译成听众熟悉的语言,最后再通过语音合成技术将语音送达到听众。

  这意味着在Skype支持的语种中,地球村的村民们可以自然流畅地通过语音谈论村里的事情。

  “Skype Translator还是很难的。我们都学过概率,因为从语音识别到机器翻译,再到语音合成,这是一个串行过程,如果每个阶段的正确率只有90%,那么,整套系统的正确率将是0.9×0.9×0.9×100%=70%。倘若如此,该技术的实用性就很成问题了。”芮勇介绍说,“Skype Translator里面有很多是亚洲研究院的研究员贡献的技术,其中包括语音识别、实时机器翻译和语音合成。而且,这项技术第一次实现实时翻译和演示,是2012年微软亚洲研究院在天津举办的‘二十一世纪的计算大会’上,由当时微软负责研究的高级副总裁雷斯特演示。”

  本报记者 马文方

关注读览天下微信, 100万篇深度好文, 等你来看……