大数据改变了人们对于数据结果的认识,抛却了对数据精确的要求,而更注重结果的“明确”和“准确”。比如,很多电商或商业企业利用大数据来优化自己的库存,在构建这个应用的同时,必须把商品需求弹性的问题考虑进去,如果想很有效的控制成本,还需要考虑产品的供给弹性,否则很难做到“明确”和“准确”。为实现这一目的,要求底层的IT基础架构必须有足够的弹性,而且足够灵活,可以支持应用的创新。新一代的基础架构应该由商业环境的复杂性和大数据使用者对于创新应用的不断探索共同决定的。
大数据考验底层架构
现实的市场环境是竞争激烈的,更是多变的,以Hadoop为代表的非结构化数据技术的诞生更是加剧了这种竞争。商业行为中每一个细小的变化对应的都是一次数据的补充,一次算法的调整,结果就是造成了一次数据流的加速,而提升数据的利用率也是提升商业价值最有效的方法。而从另一个角度来说,很多商业企业更热衷于用增加有创造性的大数据应用来强调自己的竞争优势,众所周知的亚马逊产品推荐就是相当典型的一个例子。
面对大数据时,大数据的使用者通常会选择在追求数据的多样性的同时,采用有创造性的算法,来实现对于多来源、多格式数据的价值提取。这种以“数据为核心”的思考方式,决定了将运算推到数据方的产业技术趋势。
大数据基础架构必须学会“海纳百川”。在大数据的来源上,大多使用的是广泛存在于我们周围的数据,比如来自互联网、社交网络等移动应用的数据,或是企业在商业活动过程中积累下来的业务数据,就连抽样数据痛恨不已的错误数据,大数据也照单全收!这个并不难理解,从唯物主义角度讲,数据没有绝对的完整,更没有绝对的完美,错误数据也是数据的一部分。所以对于一个大数据基础架构来说,必须保证各种数据都能够存储下来,并且随时以供调用,而在很多有创意的应用中,这一点甚至会比架构的数据存储量更重要,因为在大多数情况下,考虑的因素越多,结果就会更加“准确”。
同时大数据基础架构应该是性能卓越,身手敏捷的,无论多么有想法的应用都需要通过算法实现,都需要有一个能令自己大展身手的平台,在复杂数据融合复用的前提下,更加强调了大数据基础架构对于数据的适应能力和数据利用的效率。
合适才是最好
对于我们来说,大数据的应用可以说“只有想不到,没有做不到”,再加上复杂多样的数据,注定大数据年代没有通用的底层平台产品,而只有符合创新应用需求和“全数据”处理的大数据基础架构。
且不说应用算法,就在Hadoop族群本身也有很挑剔的角色:如果和Hive配合的计算密度不够,会造成集群大面积宕机;Hbase能轻而易举地拿下任何格式的数据,存再多都没问题,但面对表单交互运算却无能为力;而stormSpark、内存数据库,种种大数据处理技术层出不穷,从基础平台、分析、存储到事实运算等等不同层面发挥着自己的优势,在大数据这个大话题里,平台与应用之间没有对错,只有是否合适,是否相得益彰,每一个大数据的使用者都需要视自己应用的需求,选择适合自己的基础架构。
另外,由于以hadoop为代表的大数据处理技术,大多来自互联网,在对技术优化的同时,却在一定程度上欠缺了企业用户必不可少的安全、稳定和可管理性,在一方面我们还有很长的路要走。
面对数据的不断增长,应用的不断翻新,大数据不断挑战我们创造力的极限,在这个产业生态系统中,底层基础平台如何不断刷新创新应用和海量数据的价值,也一定将会是相当重要的环节之一。
特约撰稿 孙艺娟
……
关注读览天下微信,
100万篇深度好文,
等你来看……