机器学习和AI的“火种源” 新至强融核来了
- 来源:微型计算机 smarty:if $article.tag?>
- 关键字:机器学习,AI,英特尔 smarty:/if?>
- 发布时间:2016-08-23 13:50
7月20日,英特尔在北京召开主题为“至强芯融合智悉数据之路”的英特尔至强融核应用创新论坛,携手多家生态系统合作伙伴及来自科研探索和机器学习领域的最终用户,向业界展示了英特尔全新一代至强融核处理器在高性能计算以及机器学习等领域的技术优势和应用价值。究竟全新的至强融核(XeonPhi)有哪些不同?对于业界来说又能带来哪些变化呢?
HPC已经成为全球成长最快的IT应用
在日新月异的科技进步中,人类对于高计算性能的追逐是永无止境的。其实,高性能计算是一个广义的概念,它不仅包含硬件、软件、存储和互联技术,还包括应用、体系架构、解决方案和一些应用服务。特别是很多国家级层面的应用上,HPC(High Performance Computing,高性能计算)发展速度的快慢,直接关系到一个国家科技实力的高低。
到2015年,在德国法兰克福举行的ISC国际超级计算大会上,中国的“天河二号”以每秒33.86千万亿次,比第二名美国的“泰坦”快近一倍的计算速度再度荣登榜首,问鼎第45届全球超级计算机TOP500榜单,实现超算“五连冠”的新纪录。今年,“神威·太湖之光”超级计算机更是以每秒9.3亿亿次的浮点运算速度取代“天河二号”问鼎第46届全球超级计算机TOP500榜首。
事实上,近年来高性能计算已经悄然成为全球成长最快的IT应用之一。根据市场调研公司IDC预测,该市场将继续增长,从2014年的210亿美元增长到2019年的310亿美元。各个行业和领域对快速计算、数字模拟和制定更明智决策的需求持续推动着超级计算机的快速发展。超级计算机现在也进一步用于提高大气污染监测的准确性、海洋环境数值预报的精确性、帮助探索更高效的能源,以及研究疾病的治愈方法、对人类基因组进行测序、大数据分析以及机器学习、人工智能等新型应用。
英特尔数据中心事业部加速计算部门总经理Barry Davis表示:“高性能计算是加速数据洞察和商业创新的关键途径,创新的HPC应用领域拓展将重塑人类的业务流程和认知方式,挖掘重新认识自然、社会以及人类自身的新手段。”
新一代至强融核处理器带来全新计算体验
说到高性能计算,自然离不开关于处理器的话题。在今年ISC国际超级计算大会的TOP500榜单中,虽然中国的“神威·太湖之光”超级计算机独占鳌头,但芯片巨头英特尔也是大赢家,占据了最大的处理器份额,约455个系统使用了英特尔的处理器,在TOP500榜单中占比为91%。而且,英特尔还在大会上发布了新一代的至强融核处理器(代号Knights Landing,简称KNL)。
和上一代Xeon Phi(代号Knights Corner,简称KNC)只是并行计算的协处理器不同,全新一代的英特尔至强融核处理器(KNL)是英特尔专门针对高度并行工作负载而设计的、可独立自启动的主处理器,并且首次实现了高带宽内存与高速互联技术Omini-Path的集成,对于其多达72个高效内核可提供的超过3TFLOPs的双精度峰值计算能力来说,全新的KNL可以直接组建节点,运行任何类型的应用负载而无需编程方面做出太多改变,并且节点之间采用全新的英特尔Omini-Path进行互联,大幅降低节点之间的延迟。
新一代的至强融核处理器还消除了依赖于PCIe总线的瓶颈。我们知道,用传统的GPU加速器计算的时候,GPU的数据和主内存数据需要进行数据传输,这个数据传输通过PCIe总线会造成比较大的延时。这个延时在单节点还好,但扩大到2个节点、4个节点、8个节点、16个节点的时候,处理大数据集的时候会遇到问题。而新的KNL由于本身就自带了主处理器功能,其处理器内部的72个内核之间的数据可以不用经过PCIe总线来传输,能够更快地进行互相交换,大幅度减少延迟。此外,这颗处理器还集成16GB高带宽内存,可以为内存访问密集型的工作负载提供高达约500GB/秒的可持续高内存带宽,外部则支持最高达384GB的DDR4内存。这也是英特尔首次将CPU、内存和高速互联接口集成到一颗芯片之内,使得新一代的KNL至强融核处理器成为更加强大的,面向高度并行化负载的通用处理器。
事实上,在本次至强融核应用创新论坛上,新一代的至强融核处理器已经开始在很多领域发挥作用,从基因测序到图像识别,从海洋环境模拟到气象研究,其前景让人期待。
英特尔至强融核家族推动HPC应用创新
国家海洋局第一海洋研究所就借助英特尔至强融核处理器在海洋环流数值模式的设计与开发、可视化、数据分析等不同领域取得了一系列进展。来自海洋一所的刘海行主任通过分享海洋环境数值模拟的特点以及海洋数据模式的发展表示,高效并行海浪数值模式在2016年运行规模达到852万个核心,峰值速度30.07PFlops。同时他还表示:“借助基于英特尔的高性能计算平台所提供的领先性能和统一编程模型,我们建立起三维、动态、实时、精准的海洋环境数值模拟系统,以创新的数字化技术加速海洋研究和海洋资源的开发利用。近期,我们也在英特尔至强融核计算平台得到了很好的测试结果。”
另一方面,对于空气质量的实时监测也是大众关心的热门话题,而基于x86架构的高性能计算集群正在以强大计算力助力人类实现对环境生态的深入洞察。“大气物理研究所平均每天收集超过100种大气化学成分浓度,气象要素的数据高达300G,如此庞大的数据量对高性能计算平台的选择与测试提出了更苛刻的要求。”中科院大气物理研究所的唐晓博士表示,“在实际的测试和使用过程中,全新的英特尔至强融核处理器与原有系统相比实现了显著的性能提升,将环境污染预报时间缩短为原来的三分之二,并在此基础上降低了整体功耗,为我们提供了出色的兼具性能与成本优势的HPC平台选择。”
事实上,无论是海洋环境模拟还是大气空气质量监测,对于计算性能的需求都是没有止境的。更强大的性能,有助于提供更快、更实时的预测结果,可以帮助科研人员更好地找到解决问题的方法。而新一代至强融核处理器无论从计算能力还是并行连接能力来说,都是一次新的跨越。
不只是这些国家级的研究层面,高性能计算也被广泛应用于机器学习、图像识别、基因测序等新应用领域,推动人工智能时代的加速到来。“面对新的载体,视频网思维不应再被传统电视台经营广告的方式禁锢。智能手机可以点触的屏幕、随着手势旋转的画面,都与电视互动方式非常不同。”Viscovery CEO黄俊杰在会上解释到。随后他展示了Viscovery的情境式广告平台,让广告主可以更简单的透过系统与专利模型运算出合适的广告机会,简化投放流程,同时以海量数据作出更科学、合理的判断。过去的广告形式,根据用户曾经造访的网站、商品,加入性别、收入等,来推测用户可能对哪些商品或者符合哪些广告主目标受众的定位,借此投放广告以争取购买及产生品牌印象的机会。
“虽然人正确了,但如果能抓住影片本身与受众之间达成的共鸣情绪,选择符合当下情节、相关商品的时间点展示,受众买单,及愿意采取行动的可能性越高。”黄俊杰表示,“借助基于英特尔全新一代至强融核处理器的高性能计算能力,Viscovery首次尝试构建CPU-Only的全新架构的视频深度学习平台,在视频流识别的能效上甚至比传统方案提升高达3至6倍。此外,借助软硬件的协同整合,Viscovery能更全面、高效的服务视频与直播平台需求,将深度学习和图像识别广泛应用在商业环境之中。”
而作为国内领先的基因组学产品与生命健康服务提供商,北京诺禾致源生物信息科技有限公司也参加了本次论坛,其首席技术官田仕林也表示,新一代至强融核处理器为实现快速、准确的基因组测序提供了强大的技术支持。“借助基于新一代至强融核处理器的高性能计算平台领先的性能和统一的编程模型,诺禾致源能够将基因组测序的时间缩短8.3倍,这将在极大程度上推动基因测序的效率提升和应用拓展,推动精准医疗、靶向药物研发、个性化诊疗等医学前沿领域实现突破性进展。”
写在最后
现在的英特尔,在PC端的控制力无人可以撼动,但在掌上移动端受到了极大的挫折,这一前端平台的现实情况从长远来说可能会影响到用户对于后端平台的选择。更直接一点,其实有人认为ARM架构或者NVIDIA 的CUDA可能会有更多进入服务器市场的机会。
但是从技术层面来说,英特尔现在并不仅仅是一个生产处理器的公司。在最近的几年里,我们看到英特尔一直在提升原本服务器系统中的各个短板。存储不行,英特尔架构有SSD和3D XPoint技术;并行连接带宽小、延迟高,英特尔有Omini-Path技术来解决;更不用说,英特尔本身在缓存内部架构设计方面、内存控制方面也是优势明显。可以这么说,服务器端能看到的明显问题,英特尔都自己来解决了。当把这些所有的强势技术整合在一起的时候,全新一代的至强融核处理器(KNL)就诞生了。我相信这只是第一步。未来,很可能至强也会走上融合之路。想象一下,当至强处理器也整合了所有的强势技术之后,其x86生态链的性能优势会多么强大。
当然,从另一个角度来说,英特尔原来的一些技术合作伙伴,可能会因此受到挤压,比如未来如果至强整合Omini-Path标准成为标配,那么InfiniBand标准是否还有生存的空间呢?会不会只能投靠ARM阵营?内存厂商的利益可能也会受到影响?对英特尔来说,这些也许只是得失的问题。无论如何,英特尔其实有了危机感,所做的一切都是为了保持自己的优势。对于用户来说,这无疑是好事,创新总比挤牙膏式的规格提升要好。
TIPS:对话
MC:您刚刚分享了基于KNL高性能计算解决方案的机器学习的应用成果,请问之前有没有考虑过类似GPU的解决方案呢?
黄俊杰:当然有,不管AWS还是阿里云,都有这样的解决方案。不过我们会发现GPU的单价也不低,它还需要特殊的程序语言(CUDA)做一些分散式的处理。一般情况下,在成本或者效率上,它能达到我们的目标,但如果是大规模使用的话,考虑到效能,我们就要思考如何选择了。
陈彦呈:在KNL还没有推出之前我们就和英特尔开始做这方面的优化合作了。我们意识到,用户有时候想自己上传一些图像资料进行识别,之前我们提供给他们一个DIY系统,训练完之后就会有他们自己的模型,可以很快去识别他们自己的东西。这个使用传统的GPU平台,比如一台机器放4个GPU卡,最快加速需要两三天完成,对于研究来说是蛮快的,但如果真正提供这样的服务,顾客不可能等两三天才应用。而采用英特尔的架构,如果未来可以有100台的集群通过Omni-Path快速连接,那么原本3天才能完成的事情,一两个小时之后就能训练好图像识别的结果,这对于客户和我们来说都是非常好的方案。
MC:如果从原来的CUDA方案替代到现在的英特尔方案,成本上升有多大?
黄俊杰:当然,成本压力在于你用越好的东西,成本自然会比较高,但是有些东西是没有办法解决的。比如,你做出来的深度学习网络对于辨识率是有要求的,假设辨识率需要七八层左右,可能只有三天时间,因为时间不够,计算力不够强,你做出的辨识率AVA成本就会比较高。具体成本上的增加,我们还没有细算。因为英特尔的KNL也分等级的,所以如果规模化地处理,这要看到底需要多快的运算速度。其实,一般规格的KNL的成本和GPU的价格相比是很有竞争力的,除非需要很高的规格才需要投入更多的资源。
陈彦呈:现在我们让客户做初步体验的时候,就让他用SaaS服务,在布建的云端上去看快速训练图像识别的反应,我们发现在使用单一节点GPU的情况下,这个反应需要一段时间来完成。所以我们在思考是不是日后和英特尔通过Omni-Path架构快速地做出类似1000个节点的层级,让用户一两小时就可以看到定制化的结果。实际上部署机器的时候,如果部署一个GPU的机器,它同时支持40个PCIe、双CPU的情况,其实CPU还是要买两颗,因此总共加起来的节点成本并不便宜。相比起来,KNL通过Omni-Path更有效率,能以较高的性能能耗比(TFLOPs/watt)实现群体战。
文、图/本刊记者 袁怡男