互联网+时代：用数据管理工作

来源:互联网经济
关键字:互联网+,信息通信技术,大数据
发布时间:2015-07-15 08:53

　　伴随知识社会的来临，驱动当今企业组织变革的不仅是无所不在的网络，还有无所不在的计算、无所不在的数据、无所不在的知识。企业在运营过程中的知识管理、数据管理愈发引人关注。本文聚焦于企业的数据管理领域，探讨互联网时代所带来的崭新工作方式。

　　挖掘数据背后的价值

　　“互联网+”战略是利用互联网平台和信息通信技术，把互联网和各行各业结合起来，旨在新的领域创造一种新的生态。在今年两会上，“互联网+”成为一项国家战略，预示着互联网将在国家各个领域发挥更加举足轻重的作用。

　　“互联网+”时代的企业工作开展重在数据管理。而数据则从简单的处理对象转变为一种基础性的资源，不同领域中各项业务的开展都离不开数据的支持。数据本身难以支撑业务，如何合理的分析和利用大数据，挖掘数据背后隐藏的模式和价值，对业务进行支持才是关键。

　　目前，各个行业在大数据的使用上已经进行了不同程度的尝试，例如银行业使用客户交易数据进行分析，挖掘客户背景信息，建立用户风险等级，辅助业内人员进行个性化市场营销和风险管理控制，制定市场竞争策略。

　　在资本市场中，通过收集、整理、挖掘和分析用户在不同社交网络中的数据，预测人们的情绪波动，借此关联评估人们的投资行为，挖掘金融活动背后隐藏的金融风险；在互联网金融业，通过对业内复杂的数据进行分析挖掘，估测顾客对于特定金融产品的兴趣，提供个性化金融服务支持，同时可以对互联网金融活动进行监督。

　　大数据由于其自身的特性，很难直接使用传统关系数据库系统进行存储和管理，各个数据库厂商需要在原有基础上寻求突破，开发新的技术。为支撑不同业务场景下大数据的管理和应用，各行业进行了不同的尝试。

　　传统的行业开始尝试在外围系统上使用新型的大数据技术取代原有的关键数据库技术，在保持性能稳定性的同时进一步对传统的核心业务进行换代升级。各个数据厂商开发的新型大数据平台也不仅仅只是将海量的非结构化数据进行简单的存储，还需要对平台内的数据进行统一管理，制定规范化的格式和标准，以便业务人员进行分析处理。

　　大数据管理平台制约因素

　　传统的单节点集中式环境已经难以满足数据的存储和计算开销，通过增加或更换CPU、内存、硬盘以纵向扩展系统的方式已经遇到了瓶颈。分布式系统有着丰富的存储空间资源和较强的并行计算能力，能够利用廉价的服务器提供高可扩展、高稳定性的存储服务，可以通过横向扩展即增加计算节点的方式提高系统能力。因此分布式系统平台成为了存储和管理大数据的主要工具。

　　但在使用分布式系统平台管理大数据时，也面临着许多瓶颈。首先，分布式数据平台功能上存在一定的局限性，在关键业务中一时间难以全面替换原有的数据库管理系统。其次，分布式数据平台虽然能够存储海量的数据，但在部分核心操作的性能上难以满足需求。造成这些困难的深层技术原因有如下几个方面：

　　缺少统一数据模型

　　数据模型是数据管理的理论基础，由数据结构、数据操作和数据约束三要素组成。关系型数据库之所以取得如此巨大的成功，得益于E.F.Codd提出的关系数据模型。

　　关系型数据模型将数据保存到关系表中，能够支持高效的查询操作。但由于关系模型对数据模式要求严格，难以满足非结构化数据管理的灵活性需求，很难有效地支持大数据平台的需求。因此，需要从海量的数据规模，高度动态的数据特性，多样的应用场景，统一的联合访问等需求方面深入考虑，设计高效而通用的数据模型。

　　事务处理无保障

　　传统关系数据库中的事务处理在大数据管理平台中依然有着广泛的应用需求。然而传统事务的实现代价过高，事务特性过于严格，会大大降低分布式存储的读写性能，难以满足海量数据快速读写的特点，传统事务的ACID与分布式数据库的BASE之间性能和一致性的平衡较难保持。因此，新兴的大数据管理平台需要能够兼顾数据存储和处理性能的事务处理机制，并在高并发的分布式场景支持不同粒度平台事务处理功能。

　　优化机制发展不完善

　　仅依靠存储数据难以为产业创造价值，只有对大数据进行分析、使用、挖掘内部的数据模式，才能创造出新的价值，这就需要在数据分析处理中使用连接、聚集等操作对数据进行处理，便于研究人员分析。

　　然而，当前分布式平台的主要优点在于其容错性和可扩展性，索引、缓存等性能优化机制的发展并不完善，系统中分布式并行处理机制和网络中通信传输代价是难以回避的问题。

　　同时，由于MapReduce等数据处理流程的限制，部分效率更高的算法难以在分布式平台上实现，因此整体上查询执行性能方面难以匹配传统关系型数据库。其次，由于需要大量属性描述数据对象的信息，缺失值占据了大多数的域，不但浪费了存储空间，也给数据操作的语义带来了复杂性。

　　机遇与挑战并存

　　为了克服大数据平台中存在的技术难题，未来大数据管理平台的发展应该包括以下几个方面：

　　数据库厂商转型

　　“互联网+”的发展凸显了大数据的重要性，传统的数据库厂商看到了大数据所蕴含的价值，力图依托自身的深厚积累，设计与研发新型大数据管理平台。

　　甲骨文公司在大数据收集环节提供了甲骨文数据库和甲骨文NoSQL数据库；在大数据分析环节提供了甲骨文Exadata数据库云服务器、甲骨文 Exalytics商务智能云服务器、甲骨文数据仓库和甲骨文高级分析等方案。同时甲骨文大数据机将甲骨文-Sun分布式计算平台与Hadoop、Cloudera管理器控制台、R分析软件及甲骨文NoSQL数据库结合，能够有效处理非结构化海量数据。

　　IBM于2014年发布了第一个面向大数据设计的处理器POWER8，为新一代大数据分析平台构建提供支持。同时IBM也将Hadoop作为一个很好的补充部分，将IBM的数据分析产品如SPSS高级分析，BI工具等与BigInsights Hadoop解决方案集成到一起提升产品性能。

　　EMC公司发布了Hadoop发行版Pivotal HD，其不仅仅能在Hadoop中运行SQL，还可以与EMC Greenplum大数据分析平台进行整合，承担大数据分析处理工作负载，提升系统的性能。

　　微软公司发布了新一代并行数据仓库一体机SQL SERVER Parallel Data Warehouse，提供了大数据并行处理能力，并具备灵活线性横向扩展能力。同时微软公司提供数据分析工具LINQ Pack、Project“Daytona”及Excel DataScope等用在Windows Azure上做大数据分析，支持各项业务的进行。

　　持续贡献开源系统

　　虽然目前大数据混搭平台的研究和发展还处于起步阶段，但随着各项开源数据库和计算平台不断涌现和发展，加上云环境的易用性和低成本性，使得构建大数据管理平台的门槛大为降低。

　　当前典型开源代表有Cassandra、Impala、MongoDB、CouchDB、GraphDB、Hadoop、Cascading等，能够在不同的业务场景下对数据存储与应用提供支持，满足行业多方面的需求。新一代分布式计算框架Spark能够在内存中完成数据计算，其数据处理速度要高于MapReduce。虽然目前该系统发展还不够完善，但其前景和价值值得期待。

　　目前市场上较受欢迎的是性价比高、易于修改且能够不断适应新需求的大数据平台，数据库厂商想要能够保持自身在圈内的话语权，进一步扩展市场份额，一项重要的战略行为就是持续贡献和控制推广更多的开源项目，在不同技术社区之间有效地进行交流和信息资源共享，促进自身的大数据管理平台系统在性能和功能上的改进，持续地满足市场的需求。

　　混搭架构设计

　　随着互联网的繁荣发展和业务的多样化，各领域所产生的数据量呈爆炸性增长，并且非结构化数据所占比重越来越多。大数据平台的引入已势在必行，但各行业内实际应用中仍需原有的业务系统和主干信息系统支撑，难以立即对原有系统进行全面颠覆。

　　因此选择原有的业务数据库、主题数据库、基础数据库、共享数据库和数据仓库与大数据平台合理混搭的方式，明确不同组件之间关联，构建底层平台无关的数据访问方式，设计跨数据平台高效的数据互通机制，是大数据平台研究与发展的重要方向。

　　混搭架构下的大数据平台既借鉴了传统关系型数据库在传统应用支持和在复杂查询与分析方面的快速响应能力，同时也借鉴了新型大数据平台的非结构化数据处理能力、存储的低成本性以及高水平可扩展性，能够在最大化保证现有用户效益的同时提供可扩展空间，满足未来更高的数据存储需求，为新型大数据平台在不同业务环境下的协同工作和统一数据分析提供有力的支撑。

　　结语

　　“互联网+”时代企业重要的资源之一就是数据，一个企业所有数据的“数量和质量”在一定程度上将决定企业价值，对数据高效的管理和使用将增强企业的竞争力。

　　如何依托已有信息技术的深厚积累，结合“互联网+”时代特性，依托已有的技术和资金积累，结合开源社区力量，建立高效的新型大数据管理平台，是各个IT巨头把握新产业变革契机、助推各个行业发展的重要途径。

　　各个企业如果能够把握住“互联网+”大数据发展的关键时点和机遇，善用大数据管理平台，推动大数据分析在各个领域内的应用，就能够在一定程度上提高企业决策质量，降低决策成本，引领整个市场的发展趋势，开创出更有价值的未来。

　　文/王腾蛟李湛

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容