智能数据术语和分层

来源:传播与制作
关键字:智能数据,术语,分层
发布时间:2021-10-09 10:26

　　从本地存储迁移到云存储可能使缺乏经验的用户碰到其处理内部存储时所没有遇到的新知识。最明显的区别在于，云存储用户按耗用付费（通常是按月或按时间），并按他们发送数据到云的存储类型付费。这两个条件都是由与云服务提供商达成的协议设定的（图1）。

　　从定义上讲，云存储是一种将一个或多个位置的数据传输到远程存储系统并存储的服务模型。云存储组件由云存储提供商管理。存储提供商的解决方案的职责包括维护、备份和对用户的可用性。可用性通常由协议规定，有时称为合同或服务水平协议（SLA）。

　　存储可用性有两个组成部分：检索（恢复）数据的时间因素和存储成本因素。通常，这两者是联系在一起的。例如，如果用户将其数据深度存储，并且常规（日常）应用不依赖于这些数据，那么每单位GB的成本要比持续的、容易存取的、低延迟/快速恢复的存储应用（如在编辑、渲染或合成时）要低得多。

　　虚拟化基础架构

　　当存储基于基础架构（包括可访问接口、近乎即时的弹性和可扩展性、多租户和按量资源）时，存储通常是基于云的和“虚拟化的”。按量资源，也称为按使用付费，为那些提供可能无限存储容量的资源。这种应用通常出现在企业级IT环境中，它已经从固定费用（每月费用）结构转变为按使用付费的费用结构。

　　按使用付费的一个常见结构是苹果的iTunes 模式，可说是“免费体验，然后为你想‘拥有’的东西付费”。显然，在云存储中，用户不会“拥有”存储数据的物理平台，但用户将根据其结构、持续时间/可用性、其可存取性和使用存储空间的时间长短为其使用付费。

　　逻辑存储池

　　云服务提供商将管理和维护用户迁移到云的数据。数据通常分布在不同的商用存储系统中。数据存储拓扑可以是在本地、第三方管理的数据中心内、公有云或私有云内。

　　在本地环境中，由于各种原因，数据可能在逻辑池中结构化。在这样的共享环境中，存储池是由各种物理存储资源聚合而成的容量。池大小可能不同，产生可变但聚合的性能（IOPS），并提供诸如紧密结合的管理和集群数据保护等集合性改进。逻辑池通常由管理员通过管理界面配置。云基础设施通常采用这种逻辑存储形式。

　　生的和熟的——湖泊和水坑

　　存储池可等同于数据湖，尽管这两个衍生品之间存在差异。数据湖是一个存储库，保存大量未经处理的原始数据，这些数据被称为源数据或原子数据。数据在没有特定组织的情况下在其中被推送的巨大位元桶是数据湖的一种形式。处理后的数据被称为“熟”数据，但这种称谓不多见。

　　原始数据不一定被称为“信息”，原因是需有一个抽象或应用层面的使用，通过处理完成，将其价值从原始提升到信息目的。数据坑是建立在大数据技术基础上的单一用途的数据集市，本质上是来自数据湖的提取物。

　　按需存储

　　人们都不愿意为自己不需要或不用的东西付费。在云中，存储服务是按需提供的，可根据需要弹性增减存储容量。选择云存储消除了购买、管理、折旧和维护存储基础设施的需求（图2）。

　　云模式从根本上降低了每GB存储的成本。不过，云存储提供商，也被称为托管服务提供商（MSP），可能会增添与那些自有的、本地存储不同的营运开支。增加的运营成本可能会令某些基于云的技术变得较昂贵，这要看是否考虑了存储的使用方式和使用时间等因素。在选择和构建云存储解决方案时，要寻找各种选项。

　　体贴周到的访问重排

　　云提供商为其各种服务、实用工具和体系结构编制了许多有用且适当的名称。截至2021年， Azure和AWS各提供200多种不同的产品和服务。根据适当价格调整数据存储器并利用云中的不同位置的概念是一个日益流行的话题。

　　在不给用户增加负担的情况下优化存储成本，采用自动化方法可以称为“体贴周到”。这样的架构亦称为分层存储，它们并不新鲜，特别是对于本地设施。在非云数据中心中，在可访问性和速度非常重要的情况下，使用高性能存储进行编辑、合成或渲染的实践是很常见的，这就是所谓的第1层（Tier 1）存储。

　　大型SAN或光纤通道数据存储可能是一个费钱的主张。并非所有的数据工作流程都需要这个能力，所以需求不高的数据通常被推到第2层（中层）环境中。很少被使用或留出来用于保护或冗余（长期）的存档数据被认为是第3层（Tier 3），它可能在磁带或对象存储器（或两者）上。有些人还可能把第3层用作一次性事件，将数据推送到云上（称为深度存档），因为他们知道短期内不需要快速调用。

　　通过智能降低成本

　　在云存储历史的早期，将数据移动到不同的数据容器是人工和通过用户的具体指示完成的。虽然更深存储可能有成本优势，但对于那些早期的云存储用户来说，这种人工工作并无好处。

　　随着各种新服务的出现，数据量的增加以及用户对云提供商的接受度（即信任度）的不断提高，情况已经变化。

　　通过学习数据使用模式的元素，2017-2018年期间引入了云存储层间无人参与的云存储迁移。通过在云存储之间自动迁移数据，用户和云提供商获得了新的优势。通过简单地识别数据的访问时间，云提供商将把休眠状态存储器转移到一个 “更深”的层次，无需联系数据的用户/所有者。

　　用户通常在注册或建立特定SLA时授权自动迁移。操作可能通过与工作指令或行动有关的用户界面或API。随着时间的推移，向这一做法增加智能也在不断发展。智能分层为云服务提供商提供了将存档层扩展到其它层的机会，这反过来相应地改进了成本结构。

　　适应性

　　当使用云存储服务时，用户应该观察自动化选项，并通过云提供的模型评估分层和自动化存储选项的价值。对于持续数月到数年的大型项目，一系列指引可能是适当的。使用跨多个活动的共享数据集的小型项目可能会产生不同的答案。

　　在沿着任何云存储路径走之前，要对特定工作流的数量、频率、容量和适用性进行试验。不要让 “我没有注意到这”的借口成为更高的存储成本的理由，这样做提供不了更好的结果。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容