寻求容量、可靠性和速度的平衡

  • 来源:中国计算机报
  • 关键字:大数据,东方航空,存储
  • 发布时间:2014-01-21 12:40

  用户说

  对非结构化数据进行存储,除了考虑易用性、性能和安全因素以外,还要考虑与智能挖掘相关技术相结合。

  大数据要求用户不仅要对传统商业智能软件进行改造,还要对企业已有的业务系统基础架构进行改造。

  大数据面临的最大挑战是大规模、实时的关联性分析。对于存储来说,高吞吐、低延迟的要求会越来越高,内存、闪存的重要性也会越来越高。

  中国的大数据应用已经起步。记者采访了金融、互联网、教育、制造等行业的一些敢于“吃螃蟹”的用户。

  精准营销效果佳

  大数据最先从互联网行业兴起,互联网企业在大数据应用方面的一些成功经验值得其他行业借鉴。以携程旅行网(CTRIP)为例,它的大数据应用目前正处于快速发展阶段,已经在很多方面进行了有益尝试,包括细化网站平台的流程,优化业务运营,支持业务成长的决策,解决部分传统方法难以解决的具体问题。携程旅行网高级副总裁、研发中心总经理叶亚明(Eric Ye)给记者举了两个例子:在饭店推荐和航班查询方面,携程就利用其数据精细化工具来计算业务的投资回报率(ROI);携程还通过机器学习的方法识别用户,进一步改善针对用户的推荐结果,解决“查询不到匹配酒店”等难题。

  利用大数据为企业决策提供支持或者实现精准营销是企业中常见的大数据应用。东方航空公司就是一例,它开展大数据研究和应用已经有很长时间,并且采购了大数据一体机专门解决大数据的相关问题。目前,东方航空公司的大数据应用主要集中在营销业务领域,包括渠道分析、航线分析、航班后期走势分析、航线上客速度分析等。在东方航空公司,大数据处理和分析的益处显而易见,它能提供更准确、更实用、更全面的数据分析和展现,形成统一的营销数据分析门户,更好地为东方航空公司营销的各个环节提供决策支持,使精准营销成为可能。

  中国传媒大学高性能计算中心主任鲁永泉博士和他的团队近年来一直致力于打造中国首个动漫产业的云平台,并且已经发布了VSO虚拟工作室平台。此平台集虚拟工作室、动漫渲染、在线交易等众多功能于一身,是真正能够落地的动漫云平台。据鲁永泉介绍,他们已经将大数据用于动漫云平台,平台的主要功能是对动漫云的用户行为进行分析,为运营人员制定更加精确的营销和服务策略提供支持。

  追求高性价比

  为满足大数据的应用需求,存储平台究竟应该如何搭建呢?不同行业的用户针对不同应用会进行不同的搭配。携程已经建立了一个具有一定规模的Hadoop集群,其大数据应用就基于此集群。“为这个集群选择相应的存储方案时,我们综合考虑了I/O吞吐性能、性价比、计算密集型还是存储密集应用型等诸多因素。”叶亚明介绍说,“目前,我们标准的存储配置是基于SATA硬盘,配合JBOD、数据倾斜调整、机架感知等可靠技术的应用,实现存储和计算的优化。面对一些特殊应用,我们还会采用不同的内存存储,如HBase节点中的内存比例会稍高,而Hive/PIG等节点中的内存比例则有所调整。”

  东方航空公司对于大数据存储的要求很明确,不仅要性能卓越,可扩展性强,还要实现安全保护,能够实时响应,实现负载均衡等。东方航空公司下一步将考虑引入对非结构化数据的处理。针对非结构化数据的存储,东方航空公司除了会考虑易用性、性能和安全性等因素以外,对于与智能挖掘相关的技术也十分关注。东方航空公司选择大数据解决方案秉承的原则是:业务驱动,信息技术引领,追求更高性价比。

  目前,南华期货股份有限公司在大数据方面的应用还不够深入,但数据的采集和积累是其一直坚持在做的重要工作。南华期货积累的数据主要包括两年以上的全市场逐笔Tick行情数据、近10年的主力合约分钟数据、全部客户的交易和结算数据、详细的网络访问日志等。“我们的大数据应用主要集中在针对高端客户的数据服务和有针对性的交易指导方面。接下来,我们还会依托实时交易数据分析,向客户推送有针对性的咨询服务等。”南华期货股份有限公司总经理助理顾松表示。

  谈到大数据对存储的需求,顾松表示,核心需求主要体现在容量、可靠性和速度三方面。针对不同的应用,上述三个需求重要性的排序也会有所变化:比如在逐笔Tick行情数据处理中,重要性的排序是可靠性、容量、速度;在网络访问日志中,重要性的排序为容量、速度、可靠性。顾松特意强调了存储可扩展的重要性:“当前,我们为每个应用都估算了具有一定冗余的存储容量,所以可扩展性的重要性并没有凸显出来。不过随着应用的发展和后续数据迁移、备份需求的增加,存储的可扩展性和重复数据删除等技术就会显得更加重要和必要。”

  长安汽车股份有限公司副总裁马军最想找的是懂算法的人,希望依靠更先进的算法实现数据的自动抽取,从而提升数据采集和分析的效率。他认为,公司现有的存储平台不会成为瓶颈。

  鲁永泉也表示,其动漫云平台对存储没有特别的要求:“大数据意味着大存储,而能够满足大数据需求的存储,比如HDFS等的设计理念不再强调单个存储的可靠性,而是强调利用建立副本等软件的方式来确保数据的安全。至于性能方面,大型分布式系统的单个存储节点的性能高一点固然很好,但其实对整体性能的影响不大,反而需要在网络优化方面多下些功夫。”

  容量、性能同步扩

  华为跨界到IT领域,其重要的资本就是在网络领域多年积累的自主研发能力和过硬的产品品质,而华为最擅长的无阻塞交换网络技术也让华为在服务器、存储和大数据解决方案的开发中显得游刃有余且特色鲜明。华为OceanStor 9000大数据存储系统在标准性能评估机构SPEC的SPECsfs2008基准测试中再次刷新记录,其性能领先友商产品3倍多。参与测试的华为OceanStor 9000的配置为100个节点,在NFS网络共享协议环境下的性能达到5030264 IOPS,位居业界第一。同时,OceanStor 9000的横向扩展架构保证了系统的线性扩展能力,在不中断业务的情况下,每增加一个新节点,容量和性能即可线性增长。

  “大数据最显著的特征是在海量数据中快速地把数据变成信息。因此,数据的快速读取和安全保存是大数据存储的关键指标。”国家测绘局卫星测绘应用中心副主任孙承志表示,“卫星测绘技术不断发展和多类型测绘卫星的在轨运行,使得数据存储量快速增加。为了更有效地解决大数据存储问题,我们希望未来与华为开展更多的合作。”

  华为OceanStor 9000大数据存储系统已经在能源勘探、卫星测绘、金融票据影像归档、智慧城市视频监控存储分析等行业的重要业务场景下得到验证和应用,受到了客户的广泛好评。华为在大数据方面的一个重要客户中国石油研究院总工程师赖能和说:“为了提高大数据处理性能,中国石油研究院采用了高性能的并行存储以及并行文件系统,可以将性能提高近50%,另外通过增加内存和使用万兆级的网络,也可以提升大数据处理性能。”

  中国石油研究院总工程师赖能和表示:“我们拥有9万个CPU、25PB存储。在油气勘探数据处理方面,我们面临的主要挑战是数据量和计算量非常大,数据来源单一,处理流程非常复杂,单个文件的容量就达100TB。我们对存储的投资已超过了服务器。”

关注读览天下微信, 100万篇深度好文, 等你来看……