档案大数据来袭
- 来源:中国信息化周报 smarty:if $article.tag?>
- 关键字:档案,大数据,互联网 smarty:/if?>
- 发布时间:2016-07-19 11:11
如今的IT发展趋势之快令人咋舌,大数据技术表现炙手可热。IT业界不仅从全新视角将地球看成是信息构成的“数据世界”,而且将“大数据”视为货真价实的资源宝藏,提出了发掘资源、抢夺技术开发先机和应用技术引领时代转型的重大命题。在此背景下,应用大数据也成为档案信息处理的必行之路。
应对信息繁杂大数据有一套
随着互联网的快速发展,社交网络、电子商务与移动通信已把人类社会带入了一个以PB为单位的结构和非结构数据信息的新时代。回观存储档案信息的发展情势,也正在呈逐年急速膨胀之态,未来也将从GB增长到TB甚至EB级别,借助“大数据”技术“海纳百川”的基础架构,有利于将更多的各类档案信息得以存储,且可提供随时利用之便。
“数据是生命,数据即服务”逐渐成为大数据行业发展的规则之一。例如传统的档案鉴定、收集等方法在“小数据”范围内很有效,如果一旦把数据规模增加几个数量级,原有模式必将崩溃。利用大数据技术不但可以简化甚至无需人为鉴定,而且还可以让各种类型的海量档案信息全部得以存储和利用。
大数据技术塑造的这种“全数据模式”,即选择收集全面而完整的档案信息数据,不仅可摒弃依赖经验、理论等思维方式,去人为鉴定收集局部档案信息而导致的片面性,而且可让依靠传统价值鉴定的档案信息收集方式被取代,处理档案信息数据的理念与方式也将实现“要全体不要抽样”、“样本=总体”等观念的重大转变,使得长期困扰高校档案管理者的档案鉴定取舍问题变得不再重要。
又如,档案管理人员通常会被数码照片的存储和利用搞得头疼不已。如果拥有了丰富、廉价且可靠的档案信息存储设备后,档案信息数字化、存储成本的垂直下降,以及廉价的信息数据存储技术和简便的信息数据提取技术,将使保存数字档案信息不仅变得不再昂贵,而且选择性地操作删除一些档案信息所耗费的时间成本会更低。
另外,大数据技术可以高效响应档案用户诉求,其表现出的高效率正是区别于传统信息数据挖掘方法的最显著特征之一。
以智能手机、平板电脑为代表的便携式设备,将成为人工智能的知识数据来源和最大的私人信息来源,因此建立以汇聚社会化、非结构化的档案信息为代表的“数据资源知识库”十分必要。这样既可提升档案信息数据资源的整体分析能力,更有利于增强挖掘社会化信息数据资源的潜在使用价值,从而实现加快档案信息资源智能化服务的步伐。
适合的才是最好的
当前,“大数据”处理技术层出不穷,面对技术应用遍地开花之势,档案管理机构必须依据自身的应用需求,选择适合的基础架构,并针对日益高涨的大容量、高性能存储需求,选择成熟厂商的“大数据”技术产品及应用方案,积极探寻有助于构建档案信息智能服务平台的先进技术。通过不断完善非结构化档案信息资源“存储、分析、开发、利用”的一体化集成运作机制,为最终实现智能化服务找到能够提供稳定、实用的解决方案。
创建具有全面而完整的信息数据资源来源优势的“数字档案馆”,既需要足够的数据处理能力和存储能力,更需要最领先的分析挖掘技术。应当看到云技术是解决目前大数据诸多问题和矛盾的有效手段,充分发挥云技术征服信息数据海洋的“动力”,这是大数据能够真正发挥作用的前提条件。
因此,运用云技术创建大数据基础架构,让其在平台上运行,是推进“数字档案馆”转型升级的必由之路。
运用云技术构建档案信息资源的“大数据集”,这既是目前嫁接分布式处理的最有效手段,也是充分彰显云技术优势的具体体现。因此,档案馆可通过第三方“数据中间人”的技术支持来构建“档案服务云”。
探索运用云技术对“大数据”进行分析、预测的可行性路径,以提高“预测”能力为主要目标,围绕用户个性化需求,精心设计服务手段形成机制,不断优化和增强“档案服务云”的精准性和灵活性,以利释放出更多档案信息数据资源的潜藏价值。
“大数据+档案信息处理”依旧任重道远
毋庸讳言,当前还处于迈向“大数据”时代的早期,在应用“大数据”技术的方式和规模上与现实需求存在很大差距。档案馆若想在信息海洋中做到游刃有余,只有通过不断改善和提升服务手段和技术性能,使服务定位能够更精准,让实时分析和响应用户互动诉求等技术支持才能获得新的突破和创新。
要运用“大数据”理念探寻挖掘档案信息资源使用价值的创新思路,建立内部档案信息。运用“大数据”技术,对档案馆现有的“小数据”,通过一系列的科学方法,进行收集、整理和深度挖掘分析,通俗来说就像滚雪球一样建立自己的档案信息“数据资源集成库”。
建立档案信息“数据资源精加工车间”(即核心资源数据模块)。在弄清楚档案用户信息需求的基础上,从“小数据”应用开始来积累经验,并通过整合优化内外部信息资源的数据构架,从源头上为建立核心资源数据模块夯实基础,使其能够尽快地投入到档案信息智能服务平台的实际运营中。
建立收集社会化、非结构化的档案信息“数据资源知识库”,社会化媒体信息数据集为了改善现有的服务或开发新服务的推介功能,容易转变为“监视”用户浏览习惯行为的手段,一旦出现不合理利用,危害后果不堪设想。
化解这个问题要通过设立信息隐私权的防护机制,对相关信息数据进行“模糊处理”,促使对“大数据库”挖出个人与特定数据点的联系。
档案馆作为信息数据采集者应遵照国际国内的相关法律法规,应该建立健全信息安全管理制度,依法照章承担信息安全监管责任(包括在特定时间之后删除个人信息数据的义务)。
对涉及个人信息数据再利用的行为,必须运用行之有效的数字化节制技术,不断更新和提升减灾能力,以利规避或减轻个人信息数据二次利用中的潜在风险。
目前,数据存储器虽提供了廉价、可靠的存储方式,但如果缺少适当的数据管理规则(包括经常并可靠地进行适当的备份),将无法使“大数据”存储的优点充分显现出来。
要在数据档案存入数据化“记忆”之前,按照数字档案节制规则为其设定“存储期限”。建立自动删除过期数字档案的智能监控机制,通过提升数字档案存储与利用的整体质量,以利缓解数据化“记忆”易发的相关矛盾。
积极探索能够应对复杂矛盾且可用渐变的“遗忘机制”来替代“存储期限”的设置,允许数字档案随着时间推移进行自动“分解”或“锈蚀”,使数据化“记忆”具有更强大、更包容,多种设置并行才能全面保证“大数据+档案信息处理”有效且智能。
相关链接
档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。档案大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有较高价值的、饱含历史意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。这说明不仅要拥有矿山,还要通过各种手段发掘、开采、提炼出高价值产品。
■南京艺术学院综合档案室 张倩