非结构化数据仓储系统在图书馆视频库建设中的应用

  • 来源:中文信息
  • 关键字:数据,仓储,视频库
  • 发布时间:2014-12-10 13:47

  摘 要:非结构化的视频资源在建设及管理中存在诸多问题,通过对非结构化数据库的概念的阐述及对建库问题的剖析,概述了非结构化数据仓储系统建设的思路,分析了系统的特点和在视频库中的应用优势。

  关键词:非结构化数据 数据仓储 视频库 资源加工

  中图分类号:TP391 文献标识码:A 文章编号:1003-9082(2014)10-0005-02

  高校图书馆现受数据库、搜索引擎、MOOC网站等各类资源提供商的空间挤压,使得图书馆在资源提供、信息服务上开始被读者逐步远离,工作上愈发被动,这些均促使图书馆在资源建设上必须走特色化道路,必须进一步进行资源整合。目前很多高校馆也都在建立的各自的特色数据库,各类本地特色化视频、媒体资源,因其具备的直观、可视化优势,而备受青睐,但在视频库建设中,因涉及资源加工的环节较多,管理、建设难度较大,也给各馆的项目建设带来诸多不便,本文将通过DATATOM的DATRIX非结构仓储系统在图书馆视频库建设中的应用,对视频库的建设和管理提出新的思路。

  一、“非结构化数据库”的概念

  结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

  相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

  非结构化数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。[1]

  二、现状及存在的问题

  在目前的高校教学中,除了有极少的结构化数据库系统外,还有大量的非结构化数据存在,这种非结构化数据主要是视频、图片和文档。这种非结构化数据随着富媒体的应用场景越来越多,数据量急剧增加需要专门的处理能力来解决。

  当前的现状是,除了有相应规范的电子图书管理之外,其他的非结构化数据均没有很好的管理方式,例如学生的影视作品、图画、照片、教师的各种课件和成果,时间的积累将导致这些数据越来越多,越来越难以查找,利用,对这些珍贵的资料有必要建立一套灵活的管理机制。同时,如读者在图书馆网站的书评,读者在图书馆网站的浏览行为,甚至利用摄像头或者读者智能借阅卡跟踪读者在图书馆的行走和停留路线,从中产生的分析读者使用图书馆的状况数据。像这样的非结构化数据,将比图书馆的结构化数据增长得更快[2],图书馆应改变原有的管理、建设方式。

  以往的做法是采用数据库对不同的数据建立相应的应用系统进行管理,数据混和管理一般使用BLOB类型字段存储,主流的Oracle、MySQL、 SQLServer等关系数据库表都支持BLOB二进制字段,但这种方案在一定数据量范围内可行,当数据量扩大到一定程度后很多问题就出现了,主要如下:

  1.数据库的数据量的膨胀,带来检索性能的急剧下降;

  2.无法对非结构化数据进行有效的检索;

  3.数据安全度不高,一旦数据库出现故障,数据很难恢复;

  4.处理节点难扩展;

  5.存取性能低下(关系数据库都是按行存储,不适合非结构化数据这种不定长数据),并发性能不高;

  6.存储空间难扩展。

  非结构化数据类型、容量越来越大的历史数据资源、流程越来越复杂的数据流转、性能要求越来越高的数据处理能力、越来越严格的数据访问机制,这些都形成了对用户非结构化的数据管理的巨大挑战。如果无法更好地解决这些挑战,那么用户的数据管理将越来越被动,甚至会影响到整个业务系统的效率。

  三、建设思路

  目前的数字图书馆系统架构几乎没有采用非关系型数据库作为其数据存储处理方式,但是有许多应用场景单纯利用现有的关系型数据库存储方式并不足以应对,因此需要提出新的架构设计方案[3]。

  建立一个体系化的非结构化数据资源仓库,用户可以将所有非结构化数据(如:视频、图片、音频和任意文件类型的非结构化数据)放入仓库中进行统一的管理,一旦利用该平台进行数据管理,就类似在用户的IT环境中建立了一个大型的非结构化数据的仓库,配备简单、易用、听话的“智能机器人”来进行数据的全面管理,用户只需要不断的从应用系统中生产数据,由平台来智能化的管理、调度、记录数据,进一步合理规划IT架构。

  通过非结构仓储系统就可以为用户实现数据自动化的收集、数据高效的处理、数据的智能分类、数据的安全存放、数据的多维展示、数据的权限访问、数据的行为监测和数据的挖掘分析。所有资料库可以根据设定的规则进行数据描述,在权限许可的条件下,教师和学生可以根据任意数据描述字段进行检索、预览和下载这些非结构化数据。

  非结构化数据仓储系统建设分为三个步骤:

  1.利用先进的技术手段建设适合非结构化数据管理的平台(软硬件一体)。

  2.制定不同资料库的管理要求和标准。

  3.收集录入非结构化数据(图片、音频、视频、文档和其他类型数据)并按照制定好的标准要求进行元数据信息的录入。

  四、非结构化数据仓储系统的特点

  1.大容量 在提供RAID级别数据保护后,可用容量不低于50TB,同时应支持更大容量的扩展能力。

  2.高性能 通过存储硬件需提供不少于400MB的对外读写带宽,以确保大并发访问的支持。

  3.高安全 平台必须建立在Linux或Unix平台之上,确保系统的稳定可靠;系统中无数据库,防止出现数据库崩溃导致数据描述信息的丢失;存储硬件方面应提供冗余电源、冗余风扇等硬件保护机制,并支持磁盘自动预警。

  4.易维护

  4.1平台采用Web管理方式,没有客户端即可实现全部功能

  4.2采用一体化设计理念,软硬件结合,将存储、数据管理和系统设置集成在一个设备内,保证整个系统平台在性能、自动化程度、对现有应用的影响、管理和可扩展性上保持一致,避免因为系统匹配产生的问题。

  5.兼容性强

  5.1提供Rest API、C#、C++等开放接口,未来可支持二次开发,接入其他应用系统。

  5.2多文档格式支持。支持ac3、 asf、 avi、 flv、mk、 mov、 rm、rmvb、swf、wmv等视频格式预览,支持doc、 docx、 ppt、 pptx、 xls、 xlsx、pdf等多种文档预览。

  6.管理便捷

  6.1实现非结构化数据的数据存储、数据安全、数据迁移、数据分享、数据转码、数据分类、数据查找和数据分析。

  6.2系统提供内部的视频自动化转码,无需单独配置转码服务器。

  6.3系统可设定文件的相应权限,至少可按照私有、公开及部分用户区分。

  6.4系统支持文件类型数据的全文检索,编目信息采用文件系统的元数据结构保存。

  6.5对文件数据的描述支持自动编目、自定义编目和编目模板等多种描述方式,其中编目模板可以根据需要设定字段。

  6.6系统提供虚拟目录数据展现形式,可根据设定的编目项目自由组合目录结构。

  6.7检索可根据任意元数据信息查询,并可添加多个编目信息进行模糊查询。

  6.8平台支持非结构化数据上传后的审核,只有审核通过数据才能进入平台检索。

  6.9平台支持数据收集器方式的自动上传,可过滤不需要的数据类型,自带标签。

  五、非结构化数据仓储系统的在视频库建设中的应用优势

  1.实现资源一体化加工

  为视频资源提供的教师、学生审核开放用户管理、配额、权限等所有功能,并划分一部分空间,用户可将素材上传到该空间,系统会自动进行低码流的转码工作,用户只需要进行相应的编目及配套的审核工作,素材就进入了媒资库,供图书馆管理人员审核发布。将在在线编、媒资、发布的空间全部整合到一个平台,统一实现数据安全,统一实现数据权限,统一实现流程管理。视频数据在在线编、媒资和发布之间的交互无需通过网络,而是在内部进行数据的迁移或复制,同时,通过Web这一交互方式,就可以完成存储管理、资源加工和资源管理三大应用所有功能,大大减轻了使用的复杂度,大大提高了效率。

  2.实现高效的知识管理

  充分利用DATRIX平台对于数据内容的管理,可以自动的将各个点收集到的数据(文本、视频、图片、音频及其他文件类数据)汇总到一个平台下统一管理。系统将自动对相关的内容、描述信息进行,并且在内部按照各种线索组织数据。

  用户可以通过各种终端访问这些收集整理的数据,可直接在Web上进行预览,来确定是否是自己所需要的数据。数据可以通过资源树、虚拟目录、高级检索、时空化展示来找到,并且基于权限来进行预览及下载。

  通过这样一个DATRIX平台的建设,用户可以将分散在各个点的非结构化数据汇总起来,并且实现内容的挖掘,将数据转化为知识分享给每个成员。

  3.实现重要数据收集及长期管理

  所有视音频、照片图片、文档都可以单独通过WEB进行上传,也可以利用资料集的功能将相应的资料打包上传。上传后,除了系统的自动标签外,还可以通过人工对这些资料进行无限插值的标签,以便于查找。

  系统对于视频文件将自动的抓取关键帧并转低码供预览,对于文档则会进行全文索引的建立。

  在DATRIX上的所有数据都可以基于权限非常方便的查找、预览、下载等各种操作,可以采用各种方式将这些数据进行展示。

  4.实现数据行为审核

  在DATRIX平台里,所有的数据行为都会有日志予以记录,这种记录将详细到用户、应用、来源和行为类型等多项内容,按照时间轴的方式来组织每个数据独立的行为记录,可以随时按照单个数据进行审核。

  同时,整个平台的审核时基于内容挖掘的,这种基于内容的行为审计,可以快速定位到相应的数据再检查其合规性,避免了大量非结构化数据的无序性为我们的审核工作带来的挑战。

  图书情报工作随着知识形态的改变,为实现其职业愿景和社会职能,一直在进行着调整和突破,数字技术使知识内容进一步突破了载体的限制,进一步细粒度化和网络化,一方面向“全网域”化发展,另一方面变成了“大数据”。这两个趋势交汇,更需要图书情报等专门机构提供更加专业的服务,更体现出图书情报机构的价值和优势[4]。

  面对特色化资源建设与服务的迫切需求,面对大数据建设的纷繁无序、视频库建设的复杂性,非结构数据仓储系统的建设给图书馆视频建库工作能够提供较多的便利性,让广泛用户提供的大数据有序的聚合起来,利用智能调度引擎,可以实现非结构化数据在后台的各种处理及调用,这种调度主要是基于内容信息的调度,和之前通常的提交、标引、审核、发布的工作流有很大的区别,这是需要基于语义分析的调度方式。通过全文识别和监测日志的高效索引,索引引擎会对数据的每个元数据属性进行多维索引,可将元数据无法描述的内容进一步的关联聚合,最终全面提升视频库建库效率及资源使用效益。

  参考文献

  [1]百度百科.结构化数据.http://baike.baidu.com/view/2119114.htm

  [2]郝志刚.大数据、云计算与图书馆[J]. 新世纪图书馆, 2014(6): 36-39

  [3]兰超,张勇,邢春晓. 面向复杂数据的对象存储系统[J]. 计算机科学与探索,2014,(2): 129-138

  [4]刘炜,夏翠娟,张春景. 大数据与关联数据:正在到来的数据技术革命[J].现代图书情报技术,2013(4):2-9

  作者简介:包瑞(1977-),男,新疆师范大学图书馆副馆长,硕士,副研究馆员,在核心刊物发表论文多篇,研究方向:信息技术、信息管理、数字资源建设。

  包瑞

关注读览天下微信, 100万篇深度好文, 等你来看……