让云数据管理更专业的一些技巧

  • 来源:计算机世界
  • 关键字:云数据,管理,技巧
  • 发布时间:2017-05-03 10:31

  网络,治理问题是关键

  当卡罗来纳医疗卫生系统(CHS,Carolinas HealthCare System)的肿瘤学家在肿瘤委员会进行审查前就讨论患者病例时,说明他们正在寻求有关治疗计划和临床试验的反馈。这些医生在讨论过程中观看了同事们的基因数据、病理报告、实验室结果和医生的笔记——所有内容展示都是通过指尖点击就完成了,因为这些都存储在微软Azure的Hadoop云中。

  这是非盈利性医院网络第一次革命性的进入云计算,这也促使CHS认真仔细的考虑如何保护和管理位于医院外部的数据。

  对此,CHS信息和分析服务(IAS)副总裁Chris Danzi认为,CHS要处理好的两大问题是网络和治理问题。这家医院拥有员工62000多人,在东南亚经营39家医院和900家其他医疗机构。

  对内部和外部数据进行管理,其明显区别是在云端,数据可能会在数百英里之外。Danzi指出:“您要考虑的是远程移动数据,因此您必须建立一条电路,通过安全的网络进行连接。”每天晚上将数千兆的数据传输到云提供商那里,这就要求医院与电信运营商签订合同,购买安全的医疗网络专线。

  卡罗来纳医疗卫生系统

  CHS信息和分析服务副总裁Chris Danzi认为,卡罗莱纳医疗卫生系统要处理好的两大问题是网络和治理问题。

  在数据迁移到云端的一年中,CHS一直在使用VPN——即将要被替换为与Azure的私有连接。这样,医院网络也可以将该线路用于其Office 365系统。

  Danzi解释说:“还必须要考虑的是,我购买这条线路不仅是为了获得更好的速度,还得支持用户实时访问网络进行交互,同时我还要大批量的传输文件。”

  他说,在云中管理数据不同于在内部管理数据,这需要技术高超的员工,还需要考虑如何制定数据治理计划以及怎样启用一些技术基础架构。

  Danzi说:“如果站在那些试图窃取您数据的人的角度来看,必须重新考虑这些方面。我们内部部署得已经很好了,但现在我们要把数据传输到不同的地方,并将其存储在那里,所以我们必须得重新思考。而且是不断的重新思考。因为每天我们都会听到出现了一些更为聪明的窃取数据的新方法。但这是值得的。”

  更多公司选择了在外部存储数据

  毫无疑问,云已成为许多企业的IT和数据环境不可或缺的组成。IDC数据集成软件研究总监Stewart Bond说,最近的IDC调查显示,越来越多的企业正在将数据整合到混合云和仅云环境中,而不是将数据完全保留在内部。

  Bond说,云中的数据可以是在软件即服务(SaaS)应用程序中,在平台即服务(PaaS)系统中,或者包含在基础设施即服务(IaaS)中实现的数据库和文件服务器中。在SaaS应用程序中访问数据通常需要使用API。他解释说,使用Web服务访问数据与使用SQL脚本访问关系型应用数据库完全不同。

  Bond说:“在PaaS环境中,具体实现将决定是否需要Web服务API,SQL和NoSQL方法能否用于访问数据。”可以使用编程结构来访问IaaS环境中的数据,这种结构也适用于内部部署的数据源,但应在安全通信通道中进行这些访问。在任何情况下,主数据管理技术都有助于协调多个不同的数据孤岛。

  技术业务管理(TBM)理事会的新任总裁Erez Yarkoni回应Danzi说,在考虑如何管理云数据的步骤时,首先也最重要的是,企业应非常仔细地规划网络容量。

  曾担任Telstra和T-Mobile首席信息官的Yarkoni说:“当数据中心的数据保存完好时,以前我们理所当然地认为一些事情正在发生变化,您在扩展网络规模时必须非常小心的进行设计。他说:“这又增加了另外一个因素——如果您不仔细地规划出入口环境,和云本身的交互,以及人们如何与您放入云中的信息进行交互,那么您的成本可能会非常高。”

  Yarkoni说,当他是首席信息官并参与设计数据环境时,他尽可能避免将大量数据传输到云端,如果非要这样做,那就在一天的某些时段进行。如果您把信息从数据中心移动到云端,并要求获得一些服务质量保证,那您必须确保这些位置之间的链接是可靠的。

  检查云供应商

  Forrester公司副总裁兼首席分析师Andras Cser说,虽然企业通常会对云提供商进行审核,但这一过程往往进行不下去。他说:“我们看到大多数企业会对云计算提供商进行初步审核,然后才会决定是否把数据存放在他们那里。但很少会把审核持续下去。”这可能是由于要处理其他更优先的事务、流程过于复杂、云中存储的数据量以及要加快推进云应用等原因造成的。

  而Forrester看到公司一般都会要求ISO27001和SOC1/SOC2认证。

  在这方面,CHS则规定其云提供商通过了SOC 2审核,并且可以提供审核结果。CHS的Danzi说,CHS可以审核他们与计费方法相关的记录。做好通知后,也允许CHS检查其供应商的数据中心。他说:“一般去他们那里参观一下就可以了。”

  他说,像微软面向Azure的ExpressRoute和Amazon的Direct Connect这样的产品会在内部部署环境和各自的云端之间提供专用网络连接。

  咨询公司全球数据战略有限公司信息管理总经理Donna Burbank说,一旦数据在云中,IT部门就不再需要数据库管理工具来管理数据库,因为管理数据库性能、优化和设置等耗时的过程都交给云提供商去处理了。

  她指出:“您了解你的数据,并知道它在哪里,也知道保护数据的重要性,但很多日常管理工作已经不需要了。”云提供商现在管理性能和优化等任务,检查服务器是否正常工作,并进行了备份。

  保护云数据

  Burbank指出,管理云中的数据不同于在内部管理数据,特别是在处理客户相关信息等敏感数据时。当其他实体控制个人信息时,她建议使用PCI数据安全标准和令牌密钥。当公司要发挥云的效率时,她说:“有很多信任都是假设的,您并没有完全控制它。”

  Forrester高级分析师Heidi Shey同意Burbank的意见,即安全令牌是保护数据的一种方式,但她认为,企业应该规定谁掌握这些令牌。她说:“一些安全解决方案把加密作为一种控制手段,但谁拥有密钥是个问题。有些公司希望自己控制,而有的公司则会相信供应商。”

  控制自己的密钥是最好的选择。Shey说:“这样做有时会让事情更复杂,因为您要管理它,要进行额外的控制。”

  Bond说,不但要保证云端数据的安全,确保数据在传输过程中的安全也很重要。他说,这需要VPN连接、HTTPS、SFTP/FTPS和其他安全的通信方式。

  他说:“IDC的调查还表明,分布在云中的数据越来越多,信任也越来越困难。主数据,特别是有关企业核心人员、地点和事物的数据是最分散的,因为每个应用程序都需要访问这些数据。”

  然而,在2017年1月份的Forrester调查中,通过对美国和加拿大的150位数据安全专业人员的调查,只有31%的受访者会根据数据的敏感程度对云中的企业数据进行分类。此外,调查发现,只有大约三分之一(34%)的数据安全专业人员知道他们云中的企业数据位于何处。

  Forrester的Shey说,还必须考虑云安全治理流程,企业安全要求还必须符合合规性和隐私法律要求,特别是涉及个人信息时。

  由于是医疗卫生实体,CHS发现云中的安全管理更加复杂。CHS的Danzi解释说,人们在云中使用的大量Hadoop环境并不比结构化关系型数据库环境成熟。CHS正在使用Apache Hadoop的HDInsight,该公司提供Apache Ranger等产品,属于管理用户级访问的Enterprise Hadoop的安全层。

  微软Azure支持两个版本的Hadoop实现——完全管理的HDInsight版本,还不支持Ranger,还有IaaS版本HDP,但是这一版本支持。HDInsight符合HIPAA标准,Danzi解释说:“但没有Ranger的深度用户级安全特性,所以我们必须限制访问。”这是CHS之前得到的重要教训:要确保云供应商支持公司正在使用或者希望使用的软件版本。

  他说:“您不要想当然地认为他们会提供您习惯使用的所有安全协议和保护措施。好在有人提出了这个问题,这是一个教训。而且,针对谁可以被授权访问,我们使用的Hadoop版本了采用‘all or nothing’策略。”但CHS只希望其信息和分析服务(IAS)管理员能够访问其环境。因此,该公司在Microsoft SharePoint中开发了一个安全应用程序,仅向肿瘤科室的医生提供患者的信息。

  Shey补充说,云中管理数据的另一重要因素是数据驻留和数据传输。她说:“如果您有来自某一国家或者地区客户人员数据...您要遵守‘一般数据保护条例’,但具体国家可能有自己的数据驻留要求,他们希望您把数据保存在自己的国家中。”

  全球数据战略公司的Burbank表示同意:“您应该知道数据实际存放在哪里,因为不同的国家有不同的法律。欧洲关于保护个人客户信息的规定比美国更严格。”

  其他云管理考虑

  Burbank说,云供应商的服务等级协议中应阐述清楚数据备份和恢复,这是他们应该提供的关键优势之一。这些服务等级协议应包括供应商是否提供故障恢复站点以及该站点所在位置等信息。她说:“另外还要考虑您能不能选择这些故障恢复点所在位置。”

  企业还应该考虑他们在云中以什么样的形式管理数据;可以在关系型数据库中,在无格式文件或者电子邮件中。Burbank说,如果他们把客户数据存储在大容量数据仓库中,他们还应考虑他们是否拥有在内部管理数据的能力。

  Burbank指出:“如果您针对数据进行大量的清理和管理工作,那么这是需要考虑的事情,毕竟很多云技术还不是那么先进。但是,如果您的原始数据很容易进行扩展和迁移,那么这就非常适合于云端,因为它不需要很多管理。”

  由于技术如此之新,还很难找到管理云中数据所需的技能。IDC的Bond说,所需的技能取决于数据是在SaaS、PaaS还是在IaaS模型中。在技术层面上,IT人员应熟悉互联网技术,例如,Web服务、SSL、安全FTP和RESTful API等。他们还可能要熟悉IaaS体系结构,如虚拟机、对象存储、可用区域和子网络。

  Bond补充说:“在业务层面,用户应清楚管理数据输入和维护的政策,以及跨多个系统进行数据复制的延迟问题。”

  应对好意外事件

  CHS的Danzi把云环境与高尔夫大师赛做了一个比较:一个网站在一年中几乎有10个月都没人访问,然后会有一个月突然有大量的访问。同样地,他们发现CHS的一些“热情洋溢的数据科学家”刚刚开始运行R编程语言,编写模型来研究病人二次入院的风险。运行这些模型很费钱,云能够很好的提供所需的资源,运行的也非常好。

  因此,在Azure的帮助下,IAS小组撰写了脚本,晚上不需要计算时关闭模型。Danzi说:“云就像一个被吹大的气球,你必须告诉它让空气放出来,它才能让您编写脚本关闭服务器。这就是所谓的弹性,您应确定云供应商也能让您在云中有弹性,这样,只有在您使用资源的时候才付费。”

  他还建议受监管的企业聘用一些熟悉法律的人员。您必须确保您的所有HIPAA合规,与第三方服务提供商建立了良好的业务协作协议。

  许多云供应商提供分析产品,并为潜在客户提供基准分析,所以Danzi说,您要确保这些供应商在将您的数据提供给行业的同行时,对数据进行匿名化处理,使其看不出数据是来自哪里。

  他说,企业可能没有考虑到的另一个问题是,如果他们在Azure上编写算法,他们应该保护该算法的知识产权,以免其他人在云中使用它。“您使用任何人都触手可及的常用工具和常见的基于云的技术来开发算法,因此您应该把知识产权保护好。”

  Danzi相信,所有数据将在15年内实现在云端的托管。虽然管理云数据时需要大量的额外工作,但他说这是值得的。“虽然在新环境中应一直保持警惕,但付出总会有回报,因为您可以使用这种绝对令人惊奇的技术,这一技术会随着您的发展而扩展,当您不使用它时,它可以‘收缩’,让您拥有所有这些高级功能。”

  Esther Shein——特约撰稿人

  Esther Shein是《计算机世界》的特约撰稿人,是一位记者,他专注于商业和技术以及教育等普遍感兴趣的领域,在这些领域中,他在书面出版和网络媒体上都有丰富的撰稿和编辑经验。

  作者/Esther Shein 编译/charles

关注读览天下微信, 100万篇深度好文, 等你来看……