深度学习：用计算发掘数据价值 GTC 2015的新趋势

来源:微型计算机
关键字:百度、微软、谷歌
发布时间:2015-04-24 12:33

　　深度学习(Deep Learning)是一个革命性的研究方式，它将改变数据分析行业的游戏规则。

　　2015年3月18日，一年一度的GTC大会(GPU Technology Conference)在美国加利福尼亚州圣何塞举行。这已经是英伟达(NVIDIA)举办的第六届GTC大会，在本次会议上，一个普通大众不太熟悉的名词被不断提起，它就是深度学习(Deep Learning)。什么是深度学习？它将带来怎样的变化？GPU或者说并行计算将在其中扮演怎样的角色？对于这些问题，我们在本次GTC大会上都能找到答案。

　　什么是深度学习？

　　深度学习的概念源于人工神经网络的研究，它是一种包含多层感知分析的学习结构。虽然它的起源最早可以追溯到五六十年前，但是严格意义上的深度学习诞生于1995年的贝尔实验室，因此它实际上是一个非常新的研究方式。深度学习是机器学习领域内增长最快的分支，通过划分更多的层级，研究人员可以训练计算机通过大量的数据筛选来实现自我训练。

　　将分析结构分为许多个层级，从而涵盖从简单到复杂的各种概念，这就是深度学习中“深度”二个字的由来。每一层都会将信息分类，将其细化然后转到下一层。比如一套人脸识别系统，第一层可能会寻找简单的边缘，下一层可能会寻找那些构成矩形或圆形等简单形状的边缘，第三层可能会识别眼睛、鼻子等特征，在五层或六层之后，神经网络就能够将这些特征整合起来。深度学习的第一个成果就是1998年研发出的手写识别功能，它在银行等机构取代了人工辨识签名的工作。其后，深度学习开始被广泛用于诸如语音识别、图像识别等非结构化数据分析领域。

　　它将改变游戏规则

　　深度学习对于普通个人来说可能会显得比较陌生，但是对于大量立志于互联网领域的企业来说，深度学习却是一个可能改变游戏规则的工具。深度学习如何发挥作用呢？对于这个问题，由应用的研发者来回答可能更合适一些。因此，此次GTC大会期间英伟达专门邀请百度进行主题演讲，并且由百度美国研究中心的技术专家来针对深度学习的应用进行了介绍。

　　目前百度正在开发一套计算机视觉系统Deep Image，Deep Image的主要优势建立在一套专门用于深度学习的超级计算机Minwa上。这一套系统包含36个服务器节点，每一服务器节点配备了两颗6核英特尔至强E5-2620处理器。每个服务器包含4颗英伟达Tesla K40m GPU以及1个FDR InfiniBand，因此拥有高性能、低延时的特点，其理论最高性能约为0.6千万亿次浮点运算。凭借这套目前深度学习领域排名第一的超级计算机，研究人员可以使用与其它深度学习项目相比规模更大、质量更好的训练数据。

　　深度学习改变了过去依靠人工来制定规则造成的准确率天花板，当大数据时代来临之后，我们可以为深度学习系统提供远超过以往的数据量，同时也可以依靠更强大的计算性能来处理这些数据。深度学习采用的端到端的工作模式，将会自动构建多层次的特征识别结构，并且根据数据量的规模来不断优化数据分析模型。就目前来看，在应用深度学习技术之后，数据量、计算能力的增长与准确性的增长，将在很长一段时间里保持一个线性增长。这就意味着，我们在建立新的数据分析模型时，不需要像过去那样人工建立复杂的模型，而只需要设定不同的层次、提供足够的标准数据和计算能力就可以了。如果说过去我们是制造一个复杂的工具来完成工作的话，那么深度学习就好比我们是在培训一个员工来让他替代我们工作，而且他是可以不断成长的。

　　GPU：大数据时代的“核”动力

　　为什么深度学习这个数据分析领域的技术会成为此次GTC的关键词呢？很简单，因为深度学习的实现需要规模庞大的并行计算能力，而这恰恰是英伟达GPU的强项。深度学习算法的进步取决于处理巨量数据的庞大计算能力，使用CPU来工作成本太高、不切实际，但是对于GPU来说则恰恰相反。GPU高性能的并行计算能力能够快速有效地满足深度学习的需要，其训练过程需要的服务器更少，运行速度更快。在这种情况下，本届GTC上黄仁勋主题演讲的4个部分都围绕着深度学习展开也就不难理解了。

　　GTC大会自然少不了GPU这个主角，这次英伟达带来的是最新的TITANX显卡。它基于Maxwell架构，拥有80亿个晶体管和3072个CUDA核心，可以实现7万亿次单精度浮点运算和12GB的帧缓冲。

　　对于这块最牛显卡的实际表现，大家可以关注我们的深度评测，在这里就不过多介绍了。除了已经发布的显卡，英伟达还公布了下一代GPU架构的信息。根据英伟达的介绍，新的帕斯卡(Pascal)架构的综合效能将是麦克斯韦(Maxwell)的十倍。

　　英伟达一直在推动GPU性能的提升以及基于GPU的并行计算技术的发展，可以说在最近十年里，GPU计算技术经历了从无到有、全面爆发的快速增长。从现场的一张PPT我们看到，从2008年到2015年GPU计算以及CUDA应用的规模实现了超过10倍的增长。这既离不开英伟达在背后的推动，但是也说明数据计算领域需求的变化：从过去结构化的数据计算为主向现在以非结构化的数据计算为主的转变。在这当中，深度学习也许会是下一个快速增长的领域。

　　GPU计算对于深度学习的推动在业界最知名的图像识别挑战赛上表现得最为明显。随着深度学习的基础从视觉计算进入到深度神经网络领域，AlexNet模型的正确率从2011年的74%提高到2012年的84%，现在更是超过了90%。特别是最近一段时间，包括百度、微软、谷歌在内的核心互联网企业不断刷新其正确率，从现场展示的一张图表中我们可以看出，今年开始的短短两个月时间里，他们先后刷新了世界纪录，ImageNet图像识别挑战赛中识别的错误率被刷新到了5%以下，这已经超越了普通人的判断能力。这种数字的变化，可以称为始自2012年的深度学习大爆炸。之所以出现这种变化，主要是三方面的原因：一是深度神经网络算法的兴起，二是大数据的兴起，爆炸性增长的非结构化数据为深度学习提供了足够丰富的素材，三是基于GPU的并行计算性能的快速提升，为深度学习的数据分析提供了基础。

　　作为一个比较前沿的研究技术，深度学习目前还处于一个有待推广的阶段，特别是很多中小型的创业公司还无法获得足够的资源来进行大规模的深度学习。在这种情况下，英伟达在本届GTC上推出了一个“盒子”—桌面级的深度学习工具DIGITS DevBox。它使用英伟达推出的用于深度学习的DIGITS软件，用于处理数据、配置神经网络，监测模型的改变。

　　写在最后

　　深度学习也许不像语音识别、图像识别、自动驾驶等面向用户的新技术那么引人注目，但是它却是这些技术未来进一步演进、成熟的基础。就像百度通过深度学习改进图像搜索的体验、或者科大讯飞利用深度学习提高语音识别的准确率那样，深度学习将会在底层为提高用户的生活体验带来帮助。不只是这些，深度学习对于非结构化数据分析模型建立的帮助，还会在更多方面带来改变，比如疾病和药理的分析，或者其他一些不那么广为人知的方面。

　　tips

　　李彦宏在今年两会上有两个提案，一个是医疗方面的，一个是中国大脑，都是关于互联网与服务的。百度现在想要做的事情，就是要把任何服务连起来。腾讯把人和人连起来，阿里把人和商品连起来，百度则是把人和服务连起来。把人和服务连起来的一个核心，就是人工智能。

　　在这个思路下，我们要大量投入技术，还是连接人和服务，连接人和服务就是有了产品，有人使用；有人使用以后就能提供很多的数据，有数据以后就需要人工智能，反过来又要促进产品，或者整个生态圈的变化，这就构成了一个简单的闭环。百度美国研究中心的主要工作就是通过人工智能实验室解决语音识别和图像识别的问题。百度搜索量以前百分之百都是文字，现在预计语音或者图片搜索量会大幅增长，因为手机增长非常快。在未来五年之内，50%的需求来自于语音和图片，所以我们必须提前准备好。

　　孙子说过多算胜少算，用现在的说法就是计算能力强的就有优势。班固也讲过，要见多才识广，你看的例子越多经验也就越多，你的智能程度就变得更高。孟子讲过，观事物要从大看，也要从小看，能看到细微之处才是真正的能力所在。实际上，深度学习就是往这个方向走，我们用特别大的模型看特别多的东西，这个东西不光是缩小的图片，还有巨大的、有很多细节的图片，并且这种图片有各种各样的变形，巨大的数据量结合深度学习的办法，让我们能看到更好的结果。以前传统机器学习技术到了一定程度以后，性能就无法提升了，再提供更多的数据给它都没有用。但是深度学习就不一样，你给它更多的数据，只要能算得动，我们就可以拿到更好的结果。百度希望推动这个过程，看看到底能做到什么程度。

　　文/陈增林

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容