借力大数据优化图书馆数据存储
- 来源:中国信息化周报 smarty:if $article.tag?>
- 关键字: smarty:/if?>
- 发布时间:2017-06-22 10:28
在大数据时代,数据的爆炸式增长超出了人类的想象,以知识存储为基本责任的图书馆应该如何应对呢?受技术瓶颈和经费短缺的限制,大多数图书馆要想全面升级换代现有数据库和提高现有存储容量是不可能的。在这种情况下,图书馆学情报学界往往把数据存储解决方案寄托于大数据存储技术的突破。事实上,这种研究是严重脱离和滞后于图书馆现实的。
图书馆存储能力面临挑战
图书馆不可能存储所有数据。大数据时代,基本矛盾关系决定了图书馆不可能存储所有数据。在这种境况下,要求任一图书馆只能根据自己的读者需求、办馆特点和发展定位,有选择性地存储“有意义”的数据。但这也并非意味着对其他数据可以置之不理,因为任何数据都是有潜在价值的,只是针对不同对象而言。
图书馆不易存储非结构数据。大数据之所以“大”关键在于半结构数据和非结构数据(以下统称为“非结构数据”)飞速增长。
第一,非结构数据增长量大。按照大数据发生学的解释,信息技术开发与应用的高度融合直接催生出云计算、移动网络和社交平台,而它们的出现又为人们能够随时随地地利用智能手机、平板电脑或导航系统等现代通信工具去生成、发送和获取数据提供了便利和平台,于是就形成了大数据赖以存在的生态环境。
第二,非结构数据没有相应的数据库可供存储。非结构数据特指那种非线性的数据类型,它主要相对于以“事务”为中心而建构起来的关系数据,亦即结构数据而言的。在“小数据”时代,结构数据占统治地位,对应的IT架构是“关系型数据库”;在大数据时代,传统的关系型数据库已经无法直接存储这些带有异质构造性质的非结构数据。
第三,非结构数据占用的存储空间较大。非结构数据主要是与传感器、图像、视频、音频、微博、微信、帖子、点击等数据紧密联系在一起的,完全以“碎片”的形式存在于物理空间。在一般情况下,它们占用的物理空间都非常大且不易整理。
图书馆不得不存储非结构数据。目前,图书馆还习惯于存储结构数据,但非结构数据的占有比例远远高于结构数据的比例。当前,图书馆要与时俱进地进入大数据视域,就会感受到大数据对图书馆存储容量的压力。以大数据视野审视图书馆的建设,就会发现当今图书馆数据存储的难题:一方面是不能完全把控大数据但又不得不试着去存储它;另一方面是如果要存储它,又不得不面临半结构数据不易存储的问题。
图书馆大数据存储方案
图书馆大数据存储方案利用云系统存储非重要数据。大数据首先是对图书馆存储的硬件设施,尤其是数据存储容量提出了严峻的挑战。为应对这一难题,有些研究者把希望全部寄托于“云系统”技术的推广应用。
云系统(Cloud Computing)的核心思想是“分布式共享”,具有动态性、开放性、自治性、可靠性、可用性等特征。在具体操作上,图书馆员们只需将相关数据输入到“云端”,就可以自由地在上面进行存储、访问、修改、反馈或提取。云系统无限地扩展了图书馆的存储容量,而且馆员还无须为技术问题而烦恼(一切技术操作都由云服务商来解决)。但是,云系统在给予我们便利的同时也带来高技术转让费以及知识产权、技术标准、信息安全、管理体制等方面的难题,所以,在使用时应该谨慎待之。目前,最稳妥的办法就是把图书馆的数据、信息、知识资源进行分门别类处理。可以根据知识产权、技术标准和信息安全的不同程度把所有数据细分成不同的、特点明确的类型,然后按照其类型采取相应的存储方式。具体说来,可以把重要数据如特色数据、有知识产权要求的数据和保密程度高的数据进行馆内存储,把“非重要数据”进行外挂存储。这样,既能够在一定程度上规避可能的风险,又能够最大限度地提升图书馆自身的存储容量。
通过馆际联盟存储次重要数据。由于单个图书馆存储设备容量始终是有限的,而读者需求数据又呈几何级数增长,即使仅存储核心数据也会很快“爆棚”。比如当前,综合图书馆每年必需数据增量大约为20 TB,如此浩瀚的数据量,对于一座拥有100 TB存储容量的大型图书馆也仅能满足5年左右的存储需要。因此,图书馆之间寻求合建数据存储库来实现科学数据的收集、共享和服务也成为必然选择。
近10年,图书馆为解决文献资源不全而构建的“馆际互借系统”和为形成文献资源互补优势而建立的图书馆联盟都为这种分布式共享奠定了物质基础,提供了技术支撑,比如北京地区高等教育文献保障系统(BALIS)就是在北京地区高校图工委的统一领导下建构的。它采用集中式门户平台建设和分布式存储相结合的方式,不仅提高了文献资源的利用率,而且减少了单个高校图书馆的存储容积。这种模式完全可以借鉴到大数据图书馆联盟建设上。对图书馆来说,如果要想提高数据存储容量而又能规避云系统带来的安全威胁,组建或加入图书馆联盟是可行的策略之一。这是因为图书馆之间具有很多天然的同一性,图书馆在应对潜在风险方面的立场基本一致。图书馆馆际之间合作的深化还有利于克服重复建设以及资源浪费方面的弊端。这一解决措施反映在图书馆的软硬件建设上,就必须由过去追求高端服务设施向中低端软硬件基础设施构建的大规模分布式计算机群集转变,将分块、分类的大数据复制到集群服务器节点上进行处理。
利用馆内存储来建设自己的特色数据库。图书馆行业的内部竞争决定了任何一个图书馆都不愿意把自己具有核心竞争力的特色数据通过链接方式予以共享。与之相反,各图书馆都在竞相自建独具特色的数据库。而特色数据库具有高度的可靠性和安全性要求,但存储周期长、数据类型多、数据量大,这同样会对内部存储容量构成巨大的挑战。在图书馆的实际管理经验中,经常是采用整理碎片的技术来提高存储空间利用率和数据查询效率,这对小容量操作切实可行,但对于大型数据系统却是远远不够的。鉴于目前图书馆存储设备容量利用率不到50%的现实情况,提高数据库存储最有效的办法是运用大数据压缩技术。相比较于自动精简配置技术和重复数据删除两项传统压缩技术,大数据压缩技术不仅兼顾了它们两者的功能,而且功效更强大。它可以针对整个图书馆系统内两个或多个文件之间数据的相同性和相似性,通过分析比较,删除多余数据,达到数据压缩的目的。图书馆在自建特色数据库时,总会遇到大量的非结构数据。
怎样进行数据知识形态化
在进行“数据知识形态化”过程中,针对复杂、多样的非结构数据管理需求,可以结合OLTP、Datameer和Hadoop等IT技术给予解决。具体操作程序是:首先利用Datameer提供采集和读取不同类型数据库的平台,然后将“二次生成数据”植入Hadoop开源框架之中,凭借其提供的分析工具对数据进行可视化分析、预测性分析、智能语义分析,从而建立“名副其实”的语义引擎,最后把“三次生成数据”进行OLTP技术处理。这样,原初的非结构数据经过一套蕴含多重深度分析工具程序的改造之后,就能直接存储到关系数据库之中。当然,由于“数据知识形态化”程序的技术含量高,这必然给图书馆员提出更高层次的业务能力要求。
在大数据存储技术并不成熟的情况下,图书馆员们已经在具体的实践活动中摸索出一些大数据存储经验。图书馆并非在海量数据面前无所作为;在现阶段,最切实可行的数据存储路径是利用现有的一些数据处理工具进行“数据知识化”处理工作;经济适用的数据存储方案是根据不同数据对本馆馆藏的重要程度,选择、分类并有针对性地进行外挂存储、馆际存储或馆内存储。当然,图书馆作为政府主导下的公益型事业,图书馆员在对大数据的认识上以及对大数据存储难题的探索上总面临内驱力不足的问题。这是图书馆学情报学界亟待解决的另一个问题。
四川文理学院 刘瑜