亚马逊AWS:云上构筑大数据框架

  • 来源:IT经理世界
  • 关键字:亚马逊,AWS,大数据
  • 发布时间:2017-05-18 13:49

  云和人工智能等新技术为大数据应用带来变革。

  “大数据不是一个新话题, 一些概念20多年前就有,比如数据挖掘、BI(商业智能)、BA(商业分析)等。之所以最近更火了,是因为云。”现任AWS首席云计算企业顾问张侠博士说,他十几年前就撰写过大数据的文章。“云既帮助产生、收集、存储更多数据,又帮助提供多样的数据分析处理方法手段。如今人工智能的兴起,能把数据分析做得更好。”

  云确实为大数据应用带来变革。

  一家在亚马逊AWS上提供大数据分析服务的企业,此前去投标一个客户的大数据分析项目,同时参与的有传统大数据分析公司。招标方在传统模式和云服务中各选了一家供应商,并行开展,来对比一下效果。一个半月后,这家云服务企业已经按照客户要求,把建模、分析和交付全部做完了。而那家非云厂商,为之购买的服务器还没有到货。

  “这就是云服务带来的变革。”张侠借此来解释。

  不仅如此,云服务还在产品和服务选型中带来另一个差异——让企业选型过程变得简单便捷。

  “很多厂商都会对你说,我有这个功能,我有那个功能。我建议你招呼一声,你想做什么事情,会有很多供应商来给你提供方案。使用云上的工具和服务,你马上就能开始实验,也能很快了解这些工具的真实深度和广度。”虽然用户也要在学习和了解上花费一定时间,但相对传统模式要简化透明得多。

  频谱的一端

  “企业应用大数据云服务的状况就像一个‘频谱’。”张侠说。从频谱的这一端,是完全没有使用、将数据资源白白浪费的企业;而频谱的另一端,是对大数据利用得非常好,甚至商业模式就建立在大数据基础之上的企业。

  而一些比较极致的客户,甚至自己在云计算平台上创新大数据的工具和服务。Netflix是在亚马逊云上提供互联网视频流的服务商。“很多亚马逊云上的大数据工具最初是Netflix发展提供的,现在被大家广泛采用”。

  Netflix很乐于分享。在国际大数据会议上,人们甚至会经常见到Netflix工程师的身影。“他们非常自信,为什么呢?因为当你学会这些时,他们已经开始做更先进更高级的事情了。”

  先进客户在云上的大数据创新脚步很快。

  全新的大数据架构

  亚马逊云为大数据提供全套产品和服务,覆盖从数据收集、存储、处理到使用/可视化的全流程。

  去年,在其“Re:Invent”年度大会上,亚马逊阐述了基于云全新的大数据架构,分为十大步骤,推出相关的部分服务。“我们正在研究怎样提供更全面的工具。对于大数据,我们正在持续努力。”张侠说。

  张侠特别强调,大数据整体有两个新特点:一是对实时数据的分析,一是利用现在和历史数据进行未来的预测,这都是更高的要求。

  针对这样的新趋势,亚马逊也正在提供一些创新服务。其一是Athena,它可以直接在S3上做SQL查询。“S3本身不是一个结构化数据库,它存储的可能是视频、mp3、 Word文档和Excel表格。现在,有了Athena,可以马上使用SQL进行查询,在以前没想过的维度上实时查询”。

  另一个是数据湖(Data Lake)服务。在传统模式下,数据收集上来要逐渐放到一个企业级数据仓库里,这要对数据的结构、特征和颗粒度都很清楚。但现在很多实时数据不断涌来,存储在S3上,通过Athena直接查询,再放到Redshift数据仓库中。“这个整体就是数据湖概念。它的目的是对实时数据能先进行一个快速分析,帮助快速做出一些决策”。

  上个月在旧金山AWS宣布推出Redshift Spectrum,这是AWS的Redshift托管数据仓库服务的延伸版,能够直接查询驻留AWS S3存储服务里面的数据。亚马逊首席技术官沃纳·沃格尔斯(Werner Vogels)在发布时举了一个例子:使用Apache Hive开源数据查询软件对艾字节(EB)数据执行查询。这项任务需要五年的时间和1000个节点――也就是说,成本相当高昂。沃格尔斯表示,但是借助Redshift Spectrum,只要花155秒和区区几百美元。

  还有两个创新服务,一个是Batch,是对数据进行批处理ETL的服务。另一个是Glue,这个词是英文“胶水”,意思是把数据流程、数据转化更好地串在一起。与此同时,亚马逊云也针对人工智能(AI)推出一些工具和服务。

  AWS提供的AI服务

  在亚马逊,目前有上千员工致力于人工智能,涉及发现与搜索、物流配送、发现现有产品、定义新产品类型以及将机器学习引入更多领域。

  MXNet是亚马逊选择的深度学习框架,已纳入Apache孵化项目,也与AWS集成整合,进行了优化。

  亚马逊云推出了3种人工智能服务——Polly、Rekognition和Lex。Polly做文本语音转换——看见一段文字就能念出来。Rekognition做图像识别和分析。Lex做自然语言理解和自动语音识别。“我们把这3种服务软件开发包,任何人都能直接调用,目前很火。”张侠说。

  CNBC财经新闻台应用了Lex,如果用户现在说“请告诉我今天的market update”,CNBC马上会告诉你今天道琼斯、纳斯达克的表现。福特汽车集成了Lex,甚至高通芯片也集成了Lex,可以想象,未来各种设备应用语音服务的多样化场景。

  利用亚马逊云上的AI技术,Howard Hughes公司预测高档房地产交易,Fraud.net检测在线付款欺诈,Pinterest开展图像识别搜索,FINRA进行异常检测、序列匹配、回归分析和网络分析,辉瑞制药开展药物发现。

  张侠认为要用好大数据和人工智能,业界需要更多的数据科学家——“数据科学家要数理方法、计算编程和行业知识三者兼而有之”。

  他强调了行业和社会知识。“大数据真正的意义,是从数据中挖掘出价值,进而提供洞察力,为企业创造财富”。为此,当人们使用大数据来时,“他不仅要懂得数理和编程,还要了解其他相关的知识。行业和社会知识让你知道该从什么角度去看数据,进而把数据价值体现出来。如果想成为一个好的数据科学家,应该在这三个维度上去琢磨,这会让你更能成功”。

  文/赵艳秋

关注读览天下微信, 100万篇深度好文, 等你来看……