21世纪什么最重要?数据!

  • 来源:互联网周刊
  • 关键字:数据,云计算
  • 发布时间:2014-01-13 16:16

  三年前,云计算还是高高在上;而今,却已是触手可及。我们可以轻松地将文档、照片、视频、游戏存档记录上传至云端永久保存;对企业客户而言,还可以根据自身需求,搭建自己的私有云,或托管、或租用公有云上的IT资源与服务,这些都已尘埃落定。

  其实,不管是云计算本身,或是智能终端,还是凌驾于云和端之上的基于社会化网络的平台和应用,都会让数以百亿计的机器、企业、个人随时随地地获取和产生新的数据,高性能计算设备进化的速度早已赶不上数据增长的速度,并且这一问题会日渐严峻——这样的背景下,唯有云才能解决“赋予数据以更大价值”的问题。

  云计算和大数据将注定带来一次革命,无论是对社会、公司和个人来说,都是一次颠覆性的改变。互联网不再是一个展示公司的工具或平台,而是属于未来的生产方式,是关乎竞争和生存的关键。就像工业经济时代,人们无法拒绝用电;个人计算机时代,公司无法拒绝用电脑办公;大数据将带来的是竞争形态的改变,当你的客户都在互联网上,你的市场就在互联网上,如果缺乏对客户数据的判断及对市场的了解,缺少的就是核心竞争力——企业的IQ。政府和个人也一样,需要拥抱大数据时代的来临。借用黎叔的一句话就是:21世纪什么最重要?——数据!

  何以跨越数据挖掘的鸿沟?

  数据挖掘其实早已渗透到了人们生活的方方面面,如电子商务推荐引擎会根据用户浏览的历史记录,分析其偏好后,为用户推荐符合其偏好的商品;上海世博会期间也曾根据数据分析,发布明日入园客流量预报;还有城市电子医疗卫生平台、基于电子标签的食品安全追溯体系、水资源管理的智慧系统等,也都在数据挖掘领域大有可为。

  尽管如此,目前大数据技术的运用仍存在一些困难与挑战,体现在大数据挖掘的四个环节中。首先在数据收集方面。需要对来自网络包括物联网以及机构信息系统的数据附上时空标签,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。第三是数据处理。有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。第四是结果的可视化呈现,使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。

  目前,越来越多的企业认识到数据在应用管理中的重要性,并希望将其运用到管理决策中来。从零售业到汽车行业,再到金融保险业,都在思考如何利用数据提升企业竞争力以及如何管理好并持续积累自己的数据战略资产。那么如何才能做好大数据的应用管理呢?其一,要有较强的整合数据的能力,整合来自企业各种不同的数据源、各种不同结构的数据,如客户关系管理、搜索、移动、社交、网络分析工具、普查数据以及离线数据,这些整合而得的数据是定向更大目标受众的基础;其二,要有研究探索数据背后价值的能力。未来营销管理成功的关键将取决于如何在大数据库中挖掘更丰富的营销价值。像是站内、站外的数据整合、多方平台的数据接轨、结合人口与行为数据去建立优化算法等都是未来的发展重点;其三,探索出来之后给予精确快速实时性行为的管理指导。

  在医疗领域,大多数人都拥有一份电子健康记录,不过其中的内容颇为有限,甚至只包含最近一次健康检查的基本结果。据国外媒体报道,目前足以支撑全世界健康记录资料库的工具与技术已经到位。这样的全球性数据库一旦出现,制药企业就能对其进行分析进而研发出人类最急需的疫苗及药物,即据供应链的实际需求进行优先选择。既然前景一片光明,为什么我们迟迟没有感受到由此带来的益处呢?主要是由于目前还缺乏一套访问全球数据的可行性机制。健康记录被保存在一大堆彼此隔离的系统当中,而资料持有者又没有足够的动力来分享这些信息,即使真的能把所有数据都聚拢在一起,也仍然需要通过机器学习算法及实时分析对其进行全面优化。而这也正是目前业界努力钻研的方向。

  安全 不容忽视

  如今,大数据发展的最大障碍在于数据的“流动性”和“可获取性”。2009年,美国政府创建了Data.gov网站,为大数据敞开了大门,公众能够通过这个网站获得各种政府数据。现在,在印度也有“数据公开”运动。中国要赶上这样一场数据的变革,首先从政府开始公开数据,其次是企业,最后是个人。开放的、流通的数据是时代趋势的要求。

  大数据的利用首先要求政府数据原则上该公开的必须公开。大数据的挖掘与利用需要有法可依。我国需要尽快制定“信息保护法”和“信息公开法”,既要鼓励面向群体而且服务于社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。安全与隐私保护的隐患仍大量存在,重要的数据存储和应用不能过分依赖大数据分析技术与平台,需要重视信息泄密的风险。

  众所周知,云计算、大数据、移动、社交是未来的重要发展趋势,越来越多的企业用户以及服务商开始进军这些领域来赢得市场的一席之地。对于众多的IT服务商而言,在每个领域都汇集着各自专注的产品及服务。然而,能够“通吃”这些领域的安全服务商或许是最受益的。

  当前,我国对大数据的保护能力还十分有限,数据被恶意使用的现象仍然难以掌控。我国企业和个人对于数据资源的保护意识还比较薄弱。随着电子商务、社交网络、物联网、云计算以及移动互联网的全面普及,我国数据资源与全球数据资源一样,正在呈现爆发性、多样性的增长态势。但是,由于对数据保护的认识不足,以及对个人电脑的安全防护不当,企业或个人的隐私数据暴露在互联网上的现象十分普遍。2011年,我国最大程序员网站600万个人信息和邮箱密码被黑客攻击,进而引发了连锁泄密事件。2013年,中国人寿80万客户个人保单信息被泄露。这些事件都凸显出在大数据时代,信息安全管理面临前所未有的挑战。

  大数据安全管理问题,是我国应用大数据面临的最大风险。虽然将海量数据集中存储,方便了数据分析和处理,但由于安全管理不当所造成的大数据丢失和损坏,将引发毁灭性灾难。相关人士指出:由于新技术的产生和发展,对隐私权侵犯已经不再需要物理、强制性侵入,而是以更加微妙的方式广泛衍生,由此所引发的数据风险和隐私风险,也将更为严重。

  正如任何事情“有其利必有其弊”一样,大数据也有它的弊端,即操作不当有可能侵犯公民的隐私权。国外有人在自己的网页上亮出极富个性的搞怪照片,结果在找工作时屡次被拒绝聘用,理由是这种打扮的人士是不适宜从事本公司工作的。这种做法到底对不对?可能一时难以得出结论。但是,防止大数据可能带来的副作用,确实是应该注意的。

  大数据呼唤创新型人才

  没有什么能够阻挡大数据的发展势头。大数据领域技术人才和商业人才匮乏,已是一个全球性的问题。根据麦肯锡的一项研究显示,仅美国每年就有14万到19万名数据科学家的缺口,预计到2018年将达到44万到49万,而数据科学家则更是严重缺乏。

  在我国,大数据分析专业人才缺口究竟有多大,有专家粗略估算至少需要100万人。当前,具备综合掌控数学、统计学、机器学习等方面知识的复合型人才,同时又可承担数据分析和数据挖掘的数据科学家,在我国尤为奇缺。目前,我国初级的分析人员只能对数据进行简单的报表和进行描述性分析。而随着未来大数据应用的不断增长,我国大数据人才储备不足的问题将更加严重。既然如此,就应未雨绸缪,寻求对策。不难预见,在人才管理领域,十分需要培养一批懂得大数据,收集大数据,并且善于研究大数据,深挖大数据的专业人士。这种专业人士不仅具有较高的社会价值,而且能够承担起大幅度提升人才管理科学化水平的重任。

  如同互联网创造了搜索、电子商务、竞价排名等一系列商业模式一样,大数据也会孕育出更多新的公司类型,这也是大数据最具投资潜力的原因。“数据金矿”就在那里等待挖掘,分析平台也日趋成熟,现阶段就是要用解决问题的视角,寻找数据分析师和懂得商业操作的人才,把数据分析产品化。

  结语

  大数据时代,我国还须在国家层面对大数据给予高度重视,特别需要从政策制定、资源投入、人才培养等方面给予强有力的支持;另一方面,建立良性的大数据生态环境是有效应对大数据挑战、用好大数据的主要出路,需要科技界、工业界以及政府部门在国家政策的引导下共同努力,通过消除壁垒、成立联盟、制订大数据相关标准和规范、建立专业组织等途径,建立和谐的大数据生态系统。

  本刊记者 谢然

关注读览天下微信, 100万篇深度好文, 等你来看……