科技风向标 微软Build 2017、英伟达GTC 2017与Google I/O 2017

  • 来源:微型计算机
  • 关键字:微软,英伟达,Google
  • 发布时间:2017-08-17 11:27

  过去两周,堪称全球科技领域的嘉年华。微软、英伟达、谷歌,三大科技巨头先后召开了自己的开发者大会,让我们可以在非常短的时间里对未来的科技趋势有一个充分的了解。想知道未来科技界的核心热点是什么吗?一起来看看吧!

  微软Build 2017:智能云改变工作体验?

  2017年5月10日,微软在美国西雅图召开了年度开发者大会Build 2017。每年的Build大会都会展示微软对于未来科技趋势的把握,以及在具体产品层面对这些趋势的践行,今年也不例外。自2014年萨提亚·纳德拉接任首席执行官后,微软的战略就转向了“移动为先,云为先”,希望能够搭上移动互联网和云计算的潮流,实现转型。对于这两个战略重点,移动端几近失败—Windows Mobile和Lumia都已没落,而云战略则非常成功—Azure已经成为公有云市场的主要角色。而今年Build大会的主题,基本上可以归为两点:云和AI,无处不在的云,与无处不在的AI。

  对微软来说,曾经过于成功的Windows拥有巨大的惯性,如何将这个成功的终端操作系统融入云战略,是一个巨大的挑战。此次Build大会上,Windows几乎没有露面,唯一提到的就是Windows 10的月活跃设备已经达到4亿。之所以强调这个数字,是因为只有最新的Windows 10操作系统才能更好地对接微软一系列云服务和AI技术。当微软在以智能手机为代表的移动终端市场全面崩塌之后,让Windows 10成长为通用的云终端操作系统,成为了唯一的选择。这也是为什么微软在Windows 10之后,选择了版本演进的方式对Windows 10进行迭代,而非像以往那样进行全新的系统升级了。

  从云计算到边缘计算

  纳德拉认为:数字时代目前正在从当今的“移动为先、云为先”的世界,进化到智能云(Intelligent Cloud)与智能边缘(Intelligent Edge)的世界。新的应用模式有三个基本的特点:首先是用户体验横跨了多种终端,就像个人助理小娜,可以在所有设备上运行,无论是PC、手机、汽车,并且在这些设备上的体验是连续的。其次是计算能力从云端向边缘的渗透,也就是最近比较流行的边缘计算概念。现在所有的应用都是围绕着数据展开,比如连接互联网的无人驾驶汽车,每秒钟就会产生上百GB的数据,庞大的数据无法全部传输到云端,在云端训练模型、在边缘进行计算是未来的趋势。因为物联网终端数据越来越多,会要求更多的计算能力下沉,以便实现更加快速的响应,这也意味着未来需要更加分布式的AI(distributed AI)和分布式的计算(distributed computing)。

  此外,微软在Build大会上还发布了Azure IoT Edge服务,该服务提供了将云端决策模型直接部署到物联网终端的功能。这项技术能够将云计算的智能和更多优势扩展到物联网边缘设备。过去,物联网终端的各种传感器和小型计算设备监测到的数据传输到Azure云端AI工具进行分析,但是控制的时候也需要从云端提供决策。而Azure IoT Edge可以将云端决策容器化并在本地运行,可以大幅降低决策时间,并且避免收到本地网络的影响。为了说明智能云与智能边缘对未来的影响,微软甚至在现场搭建了一个利用计算机视觉和云计算技术实现的安全管理场景。通过对医疗、建筑、制造等高安全等级场景进行全程的摄像头监控和实时识别,智能云可以实现对场景内设备和人的管理。从云端到边缘,一切都是安全可控的。

  为开发者提供AI能力支持

  微软人工智能与研究部门负责人沈向洋同样在主题演讲中登台,他详细介绍了微软的人工智能应用。微软正在将人工智能融入到公司每个产品和服务中,从Xbox到Windows,从Bing到Office。比如有了人工智能技术,用户在Office中制作丰富内容时将更加便利。Office Researcher可以帮助用户立刻写出文档摘要,PPT Designer可以诠释语言并建议虚拟设计元素。此外,还有一个被称为Presentation Translator的PowerPoint插件,它利用了微软的Translation API接口,可以在播放演示文稿过程中实时将其翻译成多种语言。沈向洋表示:“随着计算力和以深度学习为代表的算法的发展,以及海量数据的爆发,AI有了长足的进步。在两年前,微软刚推出认知服务时,仅有4个API,而现在已有29个之多,包括了视觉、语言、语音、搜索、知识等各大类。”

  如今,微软希望更多开发者可以用到这些力量。微软宣称,能为开发者提供遍布全球的云计算能力,以及来自微软研究院的突破性AI算法,这两者是创新服务的引擎。比如,在计算机视觉方面,微软的RESNET曾使用了152层神经网络;在半年多前,微软在语音识别方面也达到了人类的水平,错误率仅为5.9%。在AI认知方面,开发者一直想要的定制化服务,微软也计划通过认知服务实验室(Cognitive ServicesLabs)为开发者提供处于早期研发阶段的新服务,比如手势识别API。传统服务只会给一个预先训练好的模型,而新服务可以让开发者用自己的数据(如图像)训练模型。通过定制化的计算机视觉服务,开发者可以开发自己专属的计算机视觉系统,比如识别路标、食品等。

  为了向开发者提供AI能力支持,微软还发布了Azure Batch AI Training。Azure Batch AI Training是Azure的一项新功能,允许开发者在Azure云平台上训练深度神经网络,并且可以针对CPU、GPU以及FPGA等不同的环境设计模型。不过现在这一服务还处于预览版阶段,相关介绍还比较少。

  英伟达GTC 2017:用硬件推动AI革命

  在微软Build大会上,纳德拉在拿自己的头发和计算能力开玩笑的时候曾经提到:未来的计算能力智能靠GPU或者FPGA了!纳德拉对计算能力的信心,估计很大程度上来源于另一家核心计算硬件企业:英伟达。大数据、深度学习、AI人工智能等技术之所以在最近快速爆发,一个很大的原因就是硬件计算平台出现了巨大的变化,以CUDA为代表的并行计算处理性能为相关的技术研发提供了强有力支持。

  事实上,英伟达早在几年前就已经从图形芯片公司转型为了计算公司,在本次GTC 2017上,英伟达发布的几款重要产品,尽管涉及的领域比较广泛,但几乎都是为了AI革命提供支持:他们要么基于AI、深度学习技术,要么为AI、深度学习技术服务。

  用AI改变世界

  开场之前,老黄先带来了一个和AI关系不大的开胃菜:Project Holodeck。这是一个利用VR技术构建虚拟社交、工作空间的项目,它的特点包括依托图形性能实现照片级的视觉体验,类似真实的物理交互,以及社交空间的协作属性。其中最大的亮点是物理交互,黄仁勋认为:虚拟共享空间必须要遵从物理定律,否则就无从营造真实世界般的沉浸感。相比之下,同属VR社交空间应用的Facebook Spaces等并没有这么强调物理属性。Project Holodeck的真实物理特性,在很大程度上也源于AI的能力,它赋予了虚拟空间的真实体验,比如当我们在VR空间中手握方向盘时,手掌不会因为定位差异而穿过“虚拟”方向盘,而是“真实”地握住它。

  Metropolis智能视频分析平台是英伟达通过深度学习改变世界的另一个工具。它将深度学习应用于公共安全、交通管理和资源优化等场景中的视频流分析,以打造更加安全、更加智能的城市。英伟达认为:视频是全球最大的数据生成源,这些数据产生于政府资产、公共交通、商业楼宇和道路等领域中部署的数亿台摄像机。到2020年,摄像机的累计数量将增加到约10亿台。而目前通过这些公共摄像机得到的视频数据并没有得到充分利用,通常他们只是被当作日后审查的资料备份。早期实时视频分析技术的可靠性远低于人类的水平,因此从如此大规模的视频数据将有价值的信息全部发掘出来几乎是不可能的事情。

  Metropolis智能视频分析平台通过在摄像机、本地录像机和服务器以及云端采用深度学习,能够对视频进行即时监测,同时确保准确性,且具有可扩展性。英伟达全球副总裁、Tegra事业部总经理DeepuTalla表示:“深度学习能够实现强大的智能视频分析,对原始视频进行实时分析,从而提高安全性并改善人们的生活环境。NVIDIA Metropolis平台让用户能够在所有视频流中应用人工智能,打造更加智能的城市。”

  Volta架构:为AI而生作为核心芯片企业,最新的GPU才是英伟达GTC大会最受关注的地方。不负众望,Volta架构终于来了。这是继Pascal(帕斯卡)之后的新一代GPU架构,同时也可以说是全新的为AI而生的核心架构。Volta架构提供了大量的计算能力,从而允许研究人员设计和运行需要更多计算能力的AI模型。“迄今为止英伟达难度最高、最复杂的项目;耗费数千工程师数年光阴来完成;全世界有史以来最昂贵的计算机项目(研发支出30亿美元)。”显然,在Volta架构身上,英伟达压下了重注。

  Volta架构的核心用途,通过GTC上发布的具体产品Tesla V100就有明显的体现。这是一块适用于深度学习任务的加速卡,英伟达将这块显卡称为全球最先进的数据中心GPU。黄仁勋在发布会上表示:全新的Tesla V100专为HPC和AI的融合而设计,同时采用了具有突破性的新技术。它的核心GV100 GPU包含211亿个晶体管,而芯片面积更是达到了815平方毫米(Tesla GP100仅为610平方毫米)。它采用了台积电12nm FFN专属工艺,与其前身GP100 GPU相比,GV100提供了更强的计算性能,并增加了许多新功能。它进一步减小了GPU编程和应用程序移植难度,也通过制程的升级提高了GPU资源利用率。Tesla V100在单位功耗性能上的提升也非常明显,英伟达提供的官方数据表明,和上代Tesla P100相比,在深度神经网络训练任务中的速度提高了2.4倍,推理速度提高了3.7倍。

  Google I/O:人工智能与机器学习的革命

  美国时间5月17日,近期美国科技巨头的第三场大戏:谷歌开发者大会Google I/O 2017也在加州山景城海岸线圆形剧场(Shoreline Amphitheatre)举行。Google Lens、Google Assistant、Google Photos、Google Home、YouTube、Android O、Android GO、Google for Jobs……大会上,谷歌旗下各个重磅产品纷纷公布了自己的最新进展。尽管各个产品的新功能都非常抢眼,但是我们认为其中最重要的就是谷歌对于AI的运用,以及机器学习所带来的革命性变化。

  Google.ai:以AI为核心

  从去年开始,谷歌的核心战略就开始了从Mobile First向AI First的转变;今年Google I/O的主题演讲上,谷歌CEO桑达尔·皮查伊也再次强调了这一战略。此次谷歌展示的一系列产品改进也大多是基于人工智能进行的功能进化,比如机器学习应用于搜索排序、智能回复、Youtube推荐等。如果按照武侠的概念,这其实是谷歌开始达到“无招胜有招”的境界:当AI(就像内力)水平达到一定境界后,就可以不拘泥于“移动”这样的具体招式,而在各个领域展现出惊人的变化。

  皮查伊在现场表示:“声音和视觉是一种新的计算形式,我们正在见证计算机视觉和语音领域的诸多伟大进步。”通过机器学习的运用,谷歌语音识别技术的错误率逐年下降,而且即使在噪音复杂的环境下也能有良好表现。使用语音操控的Google Home刚发布时,需要8个麦克风才能准确定位周围的人声,而借助机器学习,只需要2个麦克风就能达到同样的效果。现在,Google Home已经能识别6个不同的人声并分别提供个性化体验。同样的,机器学习也被用于图片处理,不仅仅是为图片加入各种卡通特效,而是自动清除图像中的噪点,实现高质量的夜景拍摄,或者是自动移除照片上不必要的遮蔽物,比如围栏之类。

  谷歌对于人工智能的态度,已经从前瞻性的技术研究向解决实际问题的具体工程层面转变。为了推动这一变化,谷歌将所有人工智能方面的工作统一到Google.ai体系下,并专注于三个领域:研究、工具和应用。在研究方面,最震撼的消息就是谷歌提出的AutoML:让神经网络来设计神经网络。在过去,机器学习的威力虽然逐渐显现,但是如何设计和开发合理的机器学习模型对于工程师和科学家来说却是一个难题。AutoML的价值在于可以通过控制器神经网络“设计”多个应用模型架构,然后针对具体任务进行训练和质量评估,并从中挑选出最优化的机器学习模型进行下一步工作。这一技术的运用,意味着机器“学习”也许真的要来了。

  Cloud TPU:为AI而生的基础设施

  在科技领域,软件和硬件之间始终存在着相互依存、相互促进的关系,AI领域同样如此。GPU性能的升级和架构的改进,在过去几年里推动了以深度学习为代表的人工智能技术的革新;而践行AI First战略的谷歌选择了更进一步,直接推出了专为机器学习定制的硬件TPU(张量处理单元,Tensor ProcessingUnit)。去年发布时,谷歌TPU的速度比当时的CPU和GPU的速度快15~30倍,性能功耗比高30~80倍。TPU已经成为谷歌各种基于机器学习的人工智能应用的基础,最著名的就是在围棋界打遍天下无敌手的AlphaGo。

  今年,谷歌宣布了新一代TPU:Cloud TPU,对深度学习的训练性能及应用/推理性能都进行了优化。在现场展示的Cloud TPU板片上有4块芯片,其处理速度可达180 TFlops。Cloud TPU彼此之间还可以轻松地集成组合,比如将64块TPU组合成一个“超级计算机”,实现高达11.5 PFlops(每秒千万亿次浮点运算)的超高性能。谷歌Cloud TPU的超强性能将会加入到Google Compute Engine中,并开放给相关的工程师使用。正如皮查伊所言:“我们希望谷歌云是最好的机器学习云,并为用户提供CPU、GPU及TPU等更广泛的硬件支持。”

  Google Lens:人工智能的新玩法

  在过去几年里,机器学习对于人工智能的改进,效果最显著的就是计算机视觉和语音识别两个领域。在计算机视觉技术的准确率超过人类之后,这一技术的应用范围将会无限宽广。在本届Google I/O上,谷歌推出的一项名为Google Lens的新技术,就是机器学习在计算机视觉领域最典型的应用。

  Google Lens能够让机器学会“看图说话”,比如当摄像头对准一朵花时,它可以自动识别出花的品种;当摄像头对准一个餐厅时,它能识别出餐厅的招牌,并给出相应的信息。这一功能看似简单,但是在谷歌将其整合进现有的应用体系时,就可以带来一系列“化学反应”,比如与Google Assistant、Google Photos结合带来的一系列功能进化。

  Google Assistant:“聪明”的私人助理

  Google Assistant是谷歌去年推出的一款虚拟助手,现在已经在1亿台设备上安装使用了。本次大会谷歌宣布Google Assistant将会登陆iOS,并且会支持意大利语、西班牙语等更多语言(中文暂时不支持)。当然,更值得注意的是AI为Google Assistant带来的改变,比如更自然的对话、图片识别以及更广泛的服务。

  利用刚刚发布的Google Lens新技术,Google Assistant也具备了识别图像的能力,并且针对图像的内容进行互动。比如到日本旅行时看到一份日文菜谱,Google Assistant够自动翻译日文菜谱,并且还可以在你问“它长什么样子?”的时候提供食品图片。类似的用途还有很多:当拍到一个剧院时,Google Assistant可以帮助查询院线信息、订票;当用户拍到一张账单时,Google Assistant会询问是否需要记录到账本中。

  Google Assistant的70%以上的交流都是可以通过语音来完成的,并且语音交互的方式是基于自然语言而非传统的关键词方式,这里同样用到了基于机器学习的人工智能技术。不同的语种、不同的口音,通过Google Assistant都能够进行交流。

  “Google Assistant可以通过聆听学会区分不同家庭成员的声音。”此外,Google Assistant的使用平台也将进行扩展:不仅限于手机使用,汽车、手表、智能音箱、电视等设备也都能够使用。同时,GoogleAssistant在交互中也整合了谷歌提供的各种服务,比如Gmail、GooglePhotos、谷歌地图、Youtube等。谷歌还将开放第三方接口,允许将Google Assistant内置到第三方设备或者应用中去,从而打造一个基于谷歌的智能生态圈。

  其实,Google Assistant在智能家居领域最典型的硬件代表是Google Home,此次技术升级也为Google Home带来了超过50项的功能更新,比如免费电话、免费音乐、以及与电视的对接。通过语音可以让电视显示自己想要的信息,包括个人日程、天气等,并且显示的信息是根据不同的声音而为每个人定制的,每台Google Home最多支持6个用户。能够有这样的水平,很大程度源于谷歌在语音识别方面的机器学习技术。

  Google Photos:真正的智能图片管理

  过去个人管理相册时最痛苦的一点就是图片太多,在拍摄存储之后,还要花费大量的时间挑图、保存、分享给其他朋友。现在谷歌为Google Photos更新的几个功能则把这些工作交给了人工智能来完成。比如最基本的图片挑选:为了拍出效果最好的照片,我们通常会为一个情景拍出几张照片供挑选,现在Google Photos可以自动在众多照片中选出清晰、不重复、照得好的照片,并且可以一键生成主题相册。而在分享时,Google Photos也提供了Suggest Sharing功能来将挑选出的照片分配给特定的人—比如通过人脸识别找到参加某次聚会的人并将照片分享给他们。

  同样是基于人脸识别,Shared Libraries提供的功能更适合长期分享,比如将所有的小孩照片分享给自己的妻子,而不用再纠结于拍照时使用谁的手机。另外,GoogleLens的功能在Google Photos上也有应用,比如在旅行时拍摄了某个知名建筑的照片但是却并不清楚它是什么,这时候就可以通过Google Lens识别并进行标注。

  VR和AR:好像并没有那么重要

  相对于人工智能在谷歌战略中的核心地位,曾经热门的VR、AR技术在本届Google I/O上就显得有些无足轻重了。整个主题演讲中,能够和虚拟现实扯上关系,只有YouTube关于全景视频部分以及Daydream的板块,总共也只花费了10分钟所有的时间进行介绍。

  而作为备受关注的移动VR平台,谷歌DayDream平台在今年谈到的技术改进并不多。主要还是市场和产品策略方面的调整,比如越来越多的手机开始支持Daydream平台,包括三星Galaxy S8和LG今年内推出的一款旗舰手机。

  此外,谷歌宣布分别与HTC Vive和联想合作打造VR一体机倒是一个新消息,并且新设备还将具备inside-out的位置定位追踪功能。此外谷歌还会联合高通推出VR一体机的参考设计,这为未来移动VR的发展奠定了基础。

  AR方面也没有更多新的进展,只是今年会联合华硕推出一款体积更小的新品ZenfoneAR,以及和谷歌地图合作打造一套类似GPS的VPS(Visual Positioning Service)用作室内导航。

  写在最后

  相对于专业开发者对具体工具和产品的关注,我们更希望通过国际科技巨头的会议了解到未来几年的技术趋势和行业潮流。因为这些趋势,将会影响整个人类社会的发展。而最近的三大技术会议,都不断提醒我们:AI的时代已经到来。

  微软通过推动云智能和智能边缘的进步,来优化整个工作流程,让人们可以更加舒适、自然和高效地工作。谷歌则是通过人工智能和机器学习彻底改进了几乎所有的应用服务,将AI融入到普通人的生活当中。至于英伟达,则一直专注于为人工智能和机器学习提供更加高效的底层硬件支持,通过计算能力的提升来实现人工智能从量变到质变的跃进。当计算能力达到一个爆发临界点的时候,机器学习带来的AI技术的革命性变化,开始从核心层面变革我们身边的所有科技。下一个十年,就是AI的时代!

  文、图/弗兰奇

关注读览天下微信, 100万篇深度好文, 等你来看……