数据删除:数据防御的最佳策略

  • 来源:计算机世界
  • 关键字:数据,客户信息,价值
  • 发布时间:2019-08-06 20:07

  如果把数据比喻成新油田,那么想要避免相当于有毒泄漏的数据泄露,必须做好安全工作。这一切都始于强大的数据删除策略。

  在65万多个客户的个人信息被泄露后,连锁酒吧Wetherspoon决定删除其存储的几乎所有客户信息,为的是降低风险。毕竟,如果你没有数据,就不需要检查是否合规,也不用针对GDPR的“主题访问请求”进行披露,不会因为出现数据泄露而道歉。

  事实上,数据是如此有毒,以至于加州律师协会互联网与隐私法委员会主席Joshua de Larios-Heiman建议将其视为铀矿而非油田。他说:“废铀棒怎么办?它们变成了有毒资产,很难处理掉它们。如果处理不当,人们会起诉你。”

  如果你开始从这些方面考虑风险,那么你的企业丢掉存储的哪些数据会变得更好?

  不收集不需要的数据

  有很多数据是由人们自己产生的,你无法从中获得任何价值,而保留这些数据可能又会增加风险。微软负责Azure和企业安全的副总裁Julia White评论说:“令我非常震惊的是,人们似乎并没有发现他们不想要的数据,或者出于GDPR的原因应该清除掉的数据。”

  ACLU高级技术研究员Jon Callas指出,不要被存储成本下降所迷惑,以为保存数据很便宜。

  他说:“保存数据的成本比想象得要高,而且收益也很低。它有可能是有用的,对分析有所贡献。但更有可能是有害的——会让你输掉违约案,或者被法庭传唤。随着时间的推移,其可用价值越来越少,但危害价值保持不变。如果你丢失了某个人五年前的住址,欧盟并不关心这是你不想要的不准确的数据,也不关心这对你的业务有什么帮助,丢了你就得负责。在某一时点上,数据和业务会出现交叉。你应该在这些数据交叉之前把它们扔掉。”

  Callas指出,“被传讯和主题访问请求的成本高于存储媒介的成本。有些糟心事可能会发生,有些数据可能会令你陷入更多的糟心事中,结果所导致的成本要远高于这些数据的价值。当你说‘我只保留有理由保留的数据时,你必须采取的程序会让你陷入截然不同的境地中。”

  高风险数据

  Veritas公司的高级主管Jasmit Sagoo在接受CIO.com采访时表示,数据中心存储的数据有1/3是可有可无的、过时的甚至是多余的。

  他说:“这些数据几乎没有什么业务价值,应该主动删除,尤其是考虑到数据泄露和风险等级时。例如,前员工和前客户数据的风险非常高。这包含个人身份信息,因此只有出于法律原因才值得保存这些数据。财务记录特别容易受到黑客的攻击,这也是需要谨慎管理的敏感数据的具体实例。”

  怎样找到不需要并且应该删除的数据呢?Sagoo说:“作为一个起点,企业应能够识别数据中的具体细节,准确指出风险范围及其潜在价值。了解存储了什么、谁在访问它以及访问频率也很重要。只有这样,才能知道有哪些数据,根据定制的数据保留策略对其进行分类。然后,至少每季度删除一次这些文件。”

  ISG首席分析师Blair Hanley Frank认为,“有些数据永远不应该存储起来进行分析。在2019年仍以纯文本形式存储用户密码的任何企业都是在自找麻烦。”

  删除与不再使用的生产系统相关联的数据。例如,WeatherSpoon公司泄露的用户数据来自一个老网站,而这些数据本不应该还在那里。而Adobe公司泄露的密码数据也来自一个老的非生产系统。Frank指出:“企业不能仅仅因为这些系统是老的IT基础设施的一部分就忽略这些过时或者很少使用的系统。”

  特別要注意跟踪已经提取(通常是XLS或者CSV文件)并移交给开发人员用作示例数据的客户数据库副本。

  对此,你应该屏蔽数据。通过屏蔽数据,可以保留相关的数据统计分布,以便在测试中使用,而不存在泄露的风险。

  Delphix公司董事Benjamin Ross指出:“非生产开发和测试环境虽然非常重要,但却带来了很大的风险,而且往往是GDPR合规的软肋。”

  不要“去身份标识”,直接删除就好

  只有出于当前业务的原因才保存数据,而不是模糊地希望机器学习系统能从中发现一些有用的东西。Callas指出,即便是人工智能初创企业投资人的Andreessen Horowitz,也在质疑收集大量数据是否有价值。Callas说:“有一种神秘的信念,即拥有这种‘数据护城河便具备了可持续的竞争优势,而作为投资者,经验告诉他们,并非如此。你可能认为这会使你的企业变得更好,但现实却是不太可能。”

  微软研究院(Microsoft Research)高级研究员Mary L.Gray说,这尤其适用于你正在考虑用于训练机器学习模型的数据集的个人识别信息(PII)。她说:“既然有了GDPR,就应该非常严格地限制PII可以收集什么,谁能访问它,采用什么审计措施来说明PII在哪里、何时以及怎样被重新调整用途,出售给收集它的公司之外的某个实体,说清楚这些实体能保留多长时间。”

  而且“去身份标识”的数据并不能保证安全保存,因为只要有足够的数据,仍然可以识别个人身份——即使你不想这样做。她警告说:“认为能够永久地把收集到的数据‘去身份标识,这实在是无稽之谈。”

  她继续道,“以数据为中心的技术行业还没有找到怎样彻底删除数据的方法,更不用说能确定完全停止收集哪些数据。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: