未来十年信息技术将带来巨大“红利”

  我们现在到底处于一个什么样的时代?社会上都说中国的信息时代已经过去了,经过物联网的时代,现在已经进入了大数据时代,那么,现在到底是一个什么样的时代呢?从人类社会发展的长周期来看,应该说人类有文明以来分为三个时代:农业时代、工业时代和信息时代,前面原始人类世界的时期都没有算。信息时代实际是从二战以后开始,现在算起来也就半个多个世纪,与工业时代相比,信息时代可能正处在从蒸汽机时代阶段向电器时代阶段的转变期。

  大数据与人工智能是信息时代的一个新阶段。我们过去讲信息化、网络化,现在是智能化,好像之前那些都不重要了。其实我觉得与其强调智能化和数字化、网络化的区隔,不如多强调智能化和信息化的密切联系,数字化和网络化如果没有做好,智能化就不好做。

  新技术的发展在于和已知技术的融合

  之前,我参考过去国外信息传播的概念,发现经济发展呈现长波的趋势,一个长波大概是20年,并且有缩短的趋势。

  伴随着互联网、移动互联网的变革,到2008年金融危机,经济发展应该是到了高峰,并且呈现出往下走的趋势,所以现在是什么时候呢?现在经济增长速度大概是3%~4%,是经济的衰退期,我们现在讲如火如荼,但是总体来讲是一个衰退期,是一个低潮。

  历史上经济的衰退期正好是重大的发明期,再结合2012年的发展,西方已经加快下一波的发展,大概是这么一个总趋势。但是不管怎么变,前面还都是属于信息时代。

  从这个时代我们得出一个结论:未来10到15年对经济贡献最大的可能不是大数据和人工智能的新技术,而是信息技术融入各个产业的新产品、提供个性化产品和服务的新业态、产业链跨界融合的新模式。这些创新主要是已知技术的新组合,这些创新大多数是已知技术新的融合。

  与此同时,在经济的衰退复苏期要特别重视基础性技术的发明。未来10到15年应力争在大数据和人工智能领域做出像电子计算机、集成电路、互联网一样的重大发明。现在各种各样的学习都谈不上重大的发明,这些是小的发明,是它自己冒出来的,我们希望未来有重大发明出来。

  然而,历史上重大技术发明都经过较长时间的技术改进和扩散之后才能产生巨大经济效益,信息技术也不应例外。从2016年到2025年的10年内,汽车、消费品、电力、物流等行业的数字化转型有望带来100亿美元的社会与企业价值。大数据和人工智能提升传统产业的前景十分光明。

  人工智能是一个新的学科,涉及脑科学、计算机科学、统计学和社会科学,等等。但是到目前为止脑科学对人工智能的贡献还很小,现在所谓的机器学习,谈不上神经科学。不过,统计学对人工智能却有很大的影响,但是没有人说把人工智能当成统计学的一个分支。从目前来看,人工智能本质上是计算机的一个分支,从应用来看,人工智能元年是计算机技术的非平凡的一年。

  所谓的智能化前提就是计算机化,目前不存在脱离计算机的优势。我们应该强调学科的融合,从老的学科分离出新学科是很常见的,计算机应该积极支持新学科的成长,但是大数据和人工智能技术最应该注重融合,钱学森说过“必集大车,才能得智慧”。人工智能的权威专家也说过,人工智能的任务是在研究还没有解决的计算机问题。从这个意义上来讲,所谓智能时代不是后信息时代,大数据更不是。

  重视大数据和人工智能基础理论建设

  有一种看法是人工智能等于A+B+C,A就是算法,B就是大数据,C就是算力。我的看法是把大数据和AI结合在一起看,大数据肯定是A+B+C+D+E,A还是算法,B是基本理论或者基础设施,C是计算能力,D是领域知识,E是生态环境。

  大数据和人工智能要特别重视大众的刚性需求。今后的几十年,信息技术发展方向是为大众服务,为多数人服务。我们经常讲我们小时候处于水深火热当中,现在人工智能和大数据需要关心大众刚性的需求,包括健康、出行、安全这些都是刚性需求。我们要多做一些真正的解决问题的探索,这样才有一定作用。

  另外,要满足大数据的刚性需求一定要有基础设施,工业时代就是铁路、公路、机场,智能化阶段的基础设施是:大数据中心、机器学习训练平台等。大数据的存储、管理和分析成为新的基础设施,所以大数据也催生了Scolable AI也成为基础设施。

  我们中国人是很重视“名”的,信息领域不断地创造新名词,但是一般新的名词或者一个新的学科一旦上升为国家意志以后,原来的技术学科就被边缘化了。

  在2016年国家自然科学基金计算机学科的4863项申请项目中,计算机科学的基础理论只有16项,计算机体系结构22项,程序设计语言及支撑环境13项,高速数据传输技术2项。但是,计算机图像与视频处理有439项,模式识别理论及应用357项,人工智能应用258项。所以构建大数据和AI基础设施离不开“系统结构”和“基础软件”。

  国务院已经公布了《新一代人工智能发展规划》,规划里面分析更多的是应用为主的开发,涉及到人工智能基本理论的比较少。然而,在未来更应该高度重视这些基础数据,数据和科学。什么叫数据科学?数据科学是用数据的办法来研究科学和用科学的办法来研究数据,这个叫做数据科学。前面像什么经济学、天文学,后面讲的就是统计学习。这种事情要搞起来一定要数学家、计算机科学家和各个领域的深度合作。

  深度学习为什么这么有效?没有人解释为什么,最近以色列希伯来大学有一个学者提出一个理论叫“信息瓶颈”,他发现深度学习与“物理重整化是完全相同的过程,提出“学习最重要的部分是忘记”。我们应重视这一类的基础研究。

  未来5年内,需要新增巨大数量的AI研发工程师,现在需要硕士博士研发的AI技术,10年后将会成为高中生的课外作业。

  人类大数据学习体现在基因“进化”

  现在,很多人习惯将人与机器学习去对比,其实这个是错误的。人出生时的大脑已经是经过大数据学习完的,是几百万年进化过来的,几百万年经过非常多的大数据形成,所以体现在大脑的结构上面。

  出生以后人类个体的发育已经不是大数据了,他形成一些小数据来修改大脑,出生的时候大脑连接非常多,以后不是增加连接,是越学越少,慢慢做减法的过程,所以它不是人脑学习的过程。

  人类大数据学习体现在基因“进化”上,当代人的学习过程对计算机的大数据学习并没有多大启发。要从动物和人类的进化中获取大数据学习的“经验”。人脑是进化出来的,不是科学出来的,要理解大脑必须理解进化。

  同时,领域知识绝不可忽视,基于大数据的研究第四范式成为热门以后,“数据就是力量”大有取代“知识就是力量”之势。但许多教训提醒我们:领域知识决不可忽视。

  离散的数据背后可能是一个连续的模型,这个连续的模型需要深入掌握领域知识才能获得。进化计算实质上是自适应的机器学习方法,它的核心思想是利用进化历史中获得的信息和知识指导搜索或计算,这些知识需要从领域专家获得。

  (根据李国杰院士在2017第四届中国国际大数据大会上的演讲整理而成,未经本人确认。)

  中国工程院院士 李国杰

关注读览天下微信, 100万篇深度好文, 等你来看……