从大数据科学到人工智能的迁移过程

来源:中国信息化周报
关键字:
发布时间:2018-01-03 14:57

　　我们现在这个时代确实是已经从大数据时代，移到人工智能时代。为什么这样讲呢？实际上这和大数据本身的内涵关联性比较强。我们知道大数据本身的规模越来越大，从原来的EB级正在往ZB级发展，数据本身在不停地增加，我们称为数据泛滥。这个数据泛滥包括很多，比如和零售相关有很多数据，再早一点是科学的数据，不管哪种数据都是和网络关联的，个人自媒体出来以后网络数据又非常多。

　　数据是不是越大越好，是不是什么东西都一定要一个数据？回答是No。最近有一个非常好的案例，Alpha Go下围棋，以前是需要使用人类下围棋的数据，同时自己尝试了三千万局的数据，最近的Alpha Zero不需要人类对弈数据了，自己会生产数据。

　　现在很多的交易、物流、零售，其实它有很多的条件一直在变，不满足刚才的条件，这时候你需要很多外部的数据。有外部数据就够了？当然不是，外部数据怎么用？它自己不会去产生一个用法，这个用法需要人，需要通过人工智能这些手段去用这些数据。所以人工智能实际上就是从大数据科学到人工智能，非常自然的迁移过程。

　　人工智能时代

　　最近人工智能非常热。在人工智能路上有很多关键人物不能忘记，图灵不能忘记，计算机领域特别重要的一个奖图灵奖，其他学科有诺贝尔奖，诺贝尔时代没有计算机，后来有了计算机以后，大家就想计算机界也应该设一个和诺贝尔奖相当的奖，这个奖就是图灵奖。

　　什么叫人工智能？其实人工智能是人类智能的一个计算机的实现，它永远不可能超过人类智能，只是说在某一个特定的方面它可能胜出，但从智能本身它没办法胜出。我们看看智能的定义，其实智能有很多方面，包括逻辑能力、语言能力、空间能力、感知能力，包括音乐感知的能力，肢体的控制能力。后面这几个是比较难的，包括人的内省、自我反省，包括人际关系的能力，包括自然探索的能力，比如发现一些新的东西，完全没有任何线索，你能想出我要做这个，我把这个问题解决掉。自然探索的能力，包括图像、图形的感知能力。

　　1956年有一个里程碑式的会议——达特茅斯会议。当时人工智能这几个元老还很年轻，他们集聚到一起开了两个月的会，讨论怎么样让机器具有人的智能、定出了人工智能的最终目标以及什么叫人工智能。现在看起来1956年定义的人工智能的白皮书，到现在一点都不过时。

　　这次会议开了以后，全世界很多学校都开始跨入到人工智能热潮当中，典型的像斯坦福大学、CMU、MIT、哈佛大学都在做相关的这些研究，那个阶段大家采用的技术手段，主要是逻辑主义或者符号主义。

　　什么叫逻辑或者符号呢？实际上就是他认为一切的推理，我都可以用逻辑演算的方式来实现，我只要定义了整个逻辑演算的体系，做一个规则，就可以完成任何事，可以进行推理、数学证明，可以创作、奏乐等等。其实我们小学就学过代数运算，逻辑也是一种运算，但它用的不是代数运算，而是布尔运算，和代数运算非常接近。有了这个运算就可以对它进行推理，推理你要使用一个工具，他们使用了演绎推理的工具。

　　我们知道到现在为止，最主要的自然科学的定理使用的都是演绎推理的方式来完成的。比如说亚里士多德的三段论体系就是非常典型的演绎推理，欧几里得的几何学也是这样完成的，牛顿力学，麦克斯韦、爱因斯坦全都是用演绎定理推出来的。

　　所有演绎推理的基础是满足三段论方程。什么叫三段论，我有一个大前提，这是一个一般的原理，我有一个小前提是我要研究的特殊情况，根据大前提、小前提得到一个结论，这个结论是根据一般情况，对特殊情况做出一个判断，这就完成了演绎推理，这就叫三段演绎推理。

　　所有的基础逻辑的方法都是这样做的。为了做这个当时设计了很多的人工智能语言，用这种语言可以写人工智能的方程，机器就可以去证明。

　　当然这听起来很好，而且第一次浪潮，大家都认为十年之内人工智能一定可以完成很多事，但一直到1976年前后，大家发现一开始定的那么高调的东西绝大多数都实现不了。所以1976年实际上是人工智能第一次的严冬的到来。

　　1976年之后尽管没有经费，但是开始有很多做神经元网络的学者，不停的写东西、发东西，一直到1986年出来一个让人眼睛一亮的东西，这个东西叫BP算法（即误差反传网络）。以往的神经元网络只能做非常小的事，做不了大事。但这个东西出来以后可以做大事了，所以就推动了这个领域发展的速度非常快。但它也只能解决一些问题。一开始人们也是期待要解决很多问题，但遥遥无期，到最后又来了第二次的低谷，包括日本第五代机的失败，当时在斯坦福大学要建一个知识百科全书的项目都失败了，使得第二次人工智能又跌入了低谷。

　　第三次是从2006年开始的，现在是人工智能的三位知名学者，一位是在多伦多大学的Geoffrey Hinton，一位是在蒙特利尔大学的Yoshua Bingeo，一位是在纽约大学的Yann LeCun，这一年他们分别发表了三篇文章在讲一件事。文章出来了以后，大家并不知道这个东西要怎么用，被李凯和李飞飞做的ImageNet激活了。

　　ImageNet是一个全球的图像识别比赛，在2012年以前都是用常规的方法，2012年开始有一个参赛队用了这个方法，比别的队错误率马上降低了一半。到2013年其它方法全部退出，全都是深度学习，2014年不停地改进。直到2015年，错误率已经降得非常多，深度学习的网络也非常多。到2016年的时候几乎做到不光人没法比，错误率已经低到不需要再做了，所以李飞飞选择2017年宣布这个比赛停止，不再做了，因为其实已经没有太大促进意义了。

　　人工智能发展机遇

　　我国有一个中国人工智能2.0的发展战略研究，今年发布了一个重大研究计划，这里面主要是做五个关键技术和一批应用。这五个关键技术，包括第一个方面是大数据智能，这和前面讲的大数据关联性非常强。第二个方面是群体智能，依靠群体的力量推进智能的研究。第三个是跨媒体智能，要把声音、图像、文字、自然语言所有这些东西联结在一起来研究智能，这是跨媒体智能未来所希望达到的目标。第四个是人机混合增强智能，人和机器混合起来怎么样让智能更高能力更强。第五个是自主智能系统，其实就是无人机。我们有五个支柱，上面是应用，下面是基础支撑。

　　那么这样一个轮廓，在国家战略上来说已经进行了非常圆满的布局，这个是不是够了？其实还不是。如果看整个人工智能学科的轮廓，包括计算机视觉、语言识别、自然语言、人机交互、机器学习等等，这些方面目前大的布局是沉浸到应用这个方面。

　　涉及到人的九类智能，我们从逻辑语言文字和图形图像来说现在已经做的相当不错，中间六类还是有相当的距离需要探索。总结一下，历史总是这样螺旋前进的，人工智能的三次浪潮也是从符号主义到连接主义。这个符号主义到现在为止已经有30多年，作为人类智能的一个高等抽象，应该是发挥作用的，所以怎么发挥作用，未来大家可以慢慢观察。

　　连接主义，就是神经元网络、深度学习，目前是非常大行其道的，但怎么样解决小数据甚至没有数据的学习？实际还是有相当大的挑战，特别是很多的学习结果是不可解释的，这是最大的挑战。行为主义是注重自适应和进化，这是从人从猴子演化过来的，它可能更接近。它怎么样在学习方面做得更好，还是需要探索的。

　　（根据高文院士在京东金融全球数据探索者大会上的演讲整理而成，未经本人确认。）

　　中国工程院院士高文

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容