暗数据必须治理

  • 来源:中国计算机报
  • 关键字:暗数据,大数据,企业
  • 发布时间:2016-06-01 15:13

  冰山,露出海面的只是一小部分,而不为人知的、可能隐藏着更多秘密的部分通常沉在水下。这种情况与人们对数据的了解十分相似。IDC预测,到2020年,全球的数据总量将达到40ZB。如此庞大的数据量,不仅对数据存储提出了挑战,而且对人们利用和挖掘数据来说也是一个更加严峻的挑战。

  不仅前,Veritas公司刚刚发布了一份报告《数据基因指数》,通过对数百亿份数据文件进行分析,精准地揭示了当前企业内部数据的现状,其中一个结论引人深思:40%以上的企业存储的数据在3年内未曾修改,属于过期数据。在《数据基因指数》之后,Veritas公司又发布了一份最新的调查报告《数据冰山报告》,进一步揭示了目前企业数据囤积背后隐藏的风险。

  Veritas针对22个国家和地区的2500多名IT专业人士进行了调研,最终形成了《数据冰山报告》。Veritas试图通过《数据基因指数》和《数据冰山报告》这两份报告,从企业员工的角度和文件系统现状出发,帮助企业深入了解当前严峻的数据增长态势,促使它们采取更加积极有效的措施,解决数据存储管理中存在的种种问题,消除业务风险。

  进入大数据时代,很多人可能会有这样的错误认知:只要是数据就有价值,就有存储的必要。如此一来,大量社交数据、来自移动终端上的各类数据在没有进行任何甄别的情况下全部被保存下来,有的甚至还存储在企业的各类存储设备中。如果企业不了解自身所存储的数据情况,一旦面临监管调查或刑事侦查,企业可能会陷于百口莫辩的境地。

  《数据冰山报告》显示,中国的员工将企业存储系统用于个人信息存储的情况越来越普遍,这导致企业存储的资源中,个人法律和ID文档占68%,照片文件占64%,未经批准的软件则占32%。这些内容看上去似乎无关紧要,但部分文件也许会触犯数据隐私法规或造成潜在的版权隐患。

  企业的管理者必须对企业拥有的数据情况有一个全面而深入的了解,这样才能更有效地发挥数据的价值,同时还能避免不必要的麻烦和风险。但是,实际的情况又是怎样的呢?《数据冰山报告》显示,全球企业存储的数据中,52%的数据为价值尚不明确的暗数据,而33%的数据属于对企业没有任何价值的冗余的、过期的或不重要的陈旧数据。如果企业对这些非关键的业务数据置之不理,那么暗数据和陈旧数据将给企业带来不必要的资源和成本浪费。

  《数据冰山报告》指出,对于那些拥有1000TB数据的普通中型企业来讲,企业每年存储非关键业务数据的成本将超过400万元;到2020年,全球企业将花费大约21.5万亿元用于数据管理。如果企业不对暗数据和陈旧数据进行妥善处理,这21.5万亿元中的相当一部分将被浪费。

  《数据冰山报告》发现,中国企业暗数据的比例为54.5%,比全球平均水平高2.5%;中国企业中的陈旧数据比例为21%,比全球平均水平低12%。数据囤积文化和员工对待数据保留策略的冷漠态度是导致暗数据和陈旧数据越积越多的主要原因。Veritas公司大中华区总裁萧建生表示:“企业消除‘数据冰山’的关键是认识并了解企业存在的数据囤积文化。只有这样,企业才能掌控它们的‘数据冰山’,发现在海平面以下的那部分‘数据冰山’的业务价值和风险。”

  为了消除“数据冰山”,企业应该根据数据保留策略对数据进行有效的分类和处理。但是,目前中国仅有19%的企业基于数据保留策略对数据进行了分类。“目前,中国企业对实施有效的暗数据信息治理的需求正呈现出上升趋势。”萧建生表示,“Veritas可以提供暗数据治理的相关解决方案。对企业来讲,有价值的信息才是企业的核心资产。只有挖掘暗数据中的数据价值,企业才能够更准确地掌握和发挥信息的力量。”

  与赛门铁克拆分后,Veritas更加关注数据管理。作为信息管理解决方案提供商,Veritas不希望与客户间的互动仅仅停留在产品和技术层面。通过《数据基因指数》和《数据冰山报告》,Veritas希望企业能够更加了解自己的数据和存储的现状,改变“数据管理成本由数据量多少决定”的错误观点,从而减少企业的资源和资金浪费。

  ■本报记者 郭涛

关注读览天下微信, 100万篇深度好文, 等你来看……