大数据时代的文件结构化数据和非结构化数据管理
- 来源:消费电子 smarty:if $article.tag?>
- 关键字:非结构化数据,文件结构化平台,数据管理 smarty:/if?>
- 发布时间:2024-06-05 11:25
张荣娟
【摘 要】大数据开启了一次重大的时代转型,随着大数据时代的到来,各组织和个人更加意识到数据的重要性,数据已成为组织和个人的重要资产。其中文件的数据量占比非常大,无论是结构化数据还是非结构化数据,其发展要求都发生了较大变化。如何管理和应用好这些文件结构化和非结构化数据是许多组织面临的难题。本文将分析文件结构化和非结构化数据的现状,探讨文件数据结构化的意义,探索加强对文件结构化和非结构化数据管理的途径。
【关键词】文件;结构化数据;非结构化数据;文件结构化平台;数据管理
结构化数据是指由二维表结构来逻辑表达和实现的数据,如表格数据、面向对象数据库中的数据等。结构化数据主要通过关系数据库进行存储和管理,严格遵循数据格式与长度规范,字段之间相互独立,是传统数据的主体[1]。在电子文件发展的初期,电子文件的结构化数据主要是电子文件的各类元数据,元数据是描述文件背景、内容、结构及其整个管理过程的数据,能够有效记录文件的各个活动过程,能够反映文件的形成阶段。元数据是传统文件结构化数据的主体。
非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、图片、图像、音频、视频信息等[2]。非结构化数据比结构化数据更难理解和标准化,不便于数据应用,如何将非结构化数据转换为结构化数据,实现对数据的全生命周期管理,增强数据应用效果,提高数据资产利用率是本文要探讨解决的问题。
一、文件结构化数据和非结构化数据的现状
(一)文件结构化数据现状
目前文件结构化数据主要是文件元数据,虽然有国家标准《文件元数据原则》作为指导,但在实际执行过程中,各单位在进行各类文件元数据管理时仍然存在很多问题,这些问题主要分为几类:一是同一个文件类型下元数据重复,元数据名称不一致,但实际采集的数据值一样,例如内部文件责任单位、产生部门、发文单位等,实际在采集时都是文件产生部门,可以化繁为简;二是不同类型元数据名称有差异,比如有的文件类型是责任单位,有的文件类型是责任单位名称,需要统一;三是元数据著录标准不统一,以设备码为例,有的著录为1RPA001PO,有的著录为1-RPA-001-PO,有的著录是RPA 01PO;四是元数据著录不完整,大量非必填元数据在实际工作中并未著录,没有数据;五是著录的元数据不准确,如生效日期、保密期限等著录错误。
(二)文件非结构化数据现状
非结构化数据由于没有前置的数据模型来收集、记录相关数据,导致数据结构不完整、不规则,难以用数据库二维逻辑表来表现。非结构化数据是目前文件的主体,其格式繁多,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。[3]各组织普遍存在文件类型多样、数量庞大,文件利用需求高,目前多数文件只有文件元数据作为结构化数据应用,非结构化数据比结构化数据更难标准化和理解,缺乏对文件内容的深度标引、挖掘。非结构化数据来源广泛,不光在文件管理系统中生成,还在大量功能异构的业务系统中产生。各个业务系统中产生的非结构化数据往往缺乏统一标准,彼此孤立,各个业务系统中的数据缺乏有效的流动、联通、推送。有的组织已经开始重视在业务系统、文件管理系统中建立接口,打通数据传输通道,但仍存在横向数据接口不统一,即使建立接口以后也难以实现有效的集成和应用。这些现状都导致非结构化数据在应用上非常局限,不仅不能支持移动化、智能化的工作应用场景,有的文件格式连全文检索都不支持。例如,传统非结构化图纸只能进行低效的视觉浏览,不支持全文检索,无法搜索定位,在图纸上点击某项设备图例也无法跳转到这个设备相应的其他图纸上;传统版式管理制度难以实现与上游制度、标准、法规联动等。
二、文件数据结构化的意义
(一)确保文件的真实性、可靠性、完整性
文件结构化数据能够更好地维护文件的原始记录性,体现文件的凭证价值,通过结构化数据能够记录文件形成时的背景信息、结构信息和相关的信息系统参数,记录文件管理各个环节的有关信息,如文件的编制、审核、批准、升版等环节相关信息,自动记录这些环节审批的日期、时间等。文件结构化平台能够将非结构化数据转换为结构化数据,不光能记录文件的形成、修订过程,还能够支持访问管理、隐私管理和权限管理,有利于确保文件的真实性、可靠性、完整性。
(二)创新文件应用场景
结构化数据比非结构化数据更易于理解和标准化,不仅能支持高效率的检索,还能在文件与其形成的背景信息之间进行逻辑链接,并以一种结构化的、可靠的和有效的方式维护这种链接,维系文件间有机联系,实现建立在相关关系分析基础上的数据预测,支持更多数字化、移动化、智能化的应用场景。
三、建立文件结构化平台
为增强数据应用效果,提高数据资产利用率,可以建立文件结构化平台,将非结构化数据转化为结构化数据。在建立平台之前,先梳理文件管理系统和各个业务系统上存储的海量的各类文件,选出复用率高的文件类型,通过文件结构化平台将其非结构化数据转化为结构化数据,打通数据孤岛,开展数据治理,提高数据利用率。通常每个单位利用最频繁的文件是管理制度、运行或维修技术规定,可以从这两类文件入手推进文件结构化工作。
管理制度结构化要从前端控制的角度,把管理制度内容数字化,将原来的版式文件通过结构化平台转换为结构化数据,使管理制度每个章节内容都成为单独的元数据,将管理制度与上游法律法规、标准、制度进行有效关联,当上游法律法规、标准、制度发生变化时,能够及时准确地提醒编制单位、编制人开展管理制度识别、修改,同时能够提醒下载或打印过本管理制度的人有新的管理制度发布,让用户能够及时利用新的管理制度。管理制度一般会规定与本制度相关的组织机构和职责,往往当组织机构和职责调整时,管理制度就需要修改相关内容,通过管理制度结构化,当组织机构和职责变化时,结构化平台能精准地识别需要修改的制度清单,并统一发起修订流程。还可以导出制度规定的各单位、各岗位的职责数据,进行对比分析和利用,或建立数据库在制度编写时使用,使其管理规范化。在传统管理制度发布前,需要由人工检查、调整文件格式,通过文件结构化平台自动规范管理制度格式,省去文档检查环节,能够提高管理制度编制效率。
通过运行或维修技术规定结构化,以部件或设备作为数字化对象,建立维修、设备管理、备件管理、设备运行和维护“端到端”的数据互通应用,以便负责人在现场使用移动端完成技术规定相关工作的执行,并结构化地记录现场检查所得数据,以实现现场工作过程移动化,实现运行、维修人员无纸化办公。依据结构化技术规定的运行活动、运行测量点编码等,对编写生效的结构化技术规定进行数据控制和文档属性解释,从而实现在工作执行过程中记录设备状态变化、运行参数信息,以及指令的执行时间、执行人资格授权、各类管理控制点数据,并依据设备管理等需要提供相关数据,同时记录和触发技术规定执行过程的反馈。参数测量点录入的数据能够自动比对标准,超标数据自动提示,实现历史数据的比对和分析,趋势判断,实时读取设备状态参数,进行报警提醒等应用。
目前文件结构化平台转换的数据仍是较为规范、章节清晰的文件,对于没有固定格式、清晰度差、有的还带有云线标识的图纸,结构化平台将非结构化数据转换为结构化数据的效果还不理想,需要结合海量存储、智能检索、知识挖掘等技术,识别分析各类图纸内容数据,制定数据提取规则,提取文件关键内容信息,如设备功能位置码、管道号、支架号等。能够实现图纸检索定位,检索到的内容在图纸上进行高亮标注或者提示,实现在文件上的快速定位等。
四、加强文件数据管理
(一)制定数据规范和标准
文件数据管理已成为文件管理中必不可少的一部分,制定文件数据管理规范和标准是顺理成章的事。文件数据标准是文件数据的命名、定义、结构和取值的规则,在设置的时候要从业务角度、文件管理角度、使用角度考虑,捕获文件特征和文件背景信息,既包括文件内容、结构和显现的数据,也包括文件业务处理和文件使用过程中文件在内容、结构上发生变化的数据。
文件管理归口部门在设置文件数据标准时,不光要考虑文件管理系统中的数据标准,还要考虑业务系统中产生的文件数据标准,否则在后期要花大量精力开展数据治理,在业务系统文件归档时文件数据不全、不准确等问题会影响归档进度和质量。尤其对于新建业务系统,在编制业务需求书的阶段就要把文件数据命名、定义、结构和取值的规则落实到业务需求书中,在设置时还可以制定检验标准,例如设备功能位置码,只能是2RPA001PO的格式,固化字符长度和格式,如果录入“-”等其他符号或长度不符合要求都无法提交,并给用户提示原因。增加文件捕获节点自动捕获功能要求,由文件系统和业务系统自动捕获编制人、编制单位、修改人、签收人等信息,减少人员填写的工作量,并且能够保证数据准确、不被篡改。在系统开发过程中还要确保相关接口标准落地,保证文件主要数据在系统间能够顺利交互,还可以在文件产生时就将档案分类设置为一个数据,在产生时就确定档案分类,方便业务系统归档时进行联动。通过建立统一的文件数据标准,从源头规范文件数据名称和内容,提高文件数据质量,才能保障文件数据准确性和规范性,为数据共享利用创造条件。
(二)对数据实施全生命周期管理
参考文件全生命周期理论,对数据实施全生命周期管理。数据全生命周期是指将原始数据转化为可用于行动的知识的一组过程,包括数据规划、获取、传输、存储、整合、分析、应用、呈现、归档和销毁等过程。对数据实施全生命周期管理,围绕数据全生命周期各阶段开展一系列管理活动,使数据在各个阶段都处于良好的管理状态,避免数据产生后才发现各种影响应用的问题,再开展数据治理,费时费力,还难以达到预期效果。
(三)对数据实施分级管理
分级管理有两个维度,一是管理责任分级,二是数据分级管理。管理责任分级是指按照“谁主管谁负责、谁产生谁负责、谁使用谁负责”的原则开展分级管理,承担相应责任。文件归口管理部门对文件数据进行统筹管理,制定文件数据标准,承担文件数据管理和应用的全面责任。业务归口管理部门对业务范围内的文件数据进行管理和维护,对相应文件数据质量和应用效果承担主要责任。文件数据的使用单位对数据应用效果进行管理,并将数据需求、改进建议反馈到业务归口管理部门,对数据应用效果承担直接责任。数据分级管理是指将文件数据分为主数据和其他数据,文件主数据是文件管理必备的核心数据,会影响文件真实性、完整性、有效性的数据,或是需要跨系统、跨部门进行共享的核心数据。文件主数据作为各个业务系统必须配置的数据进行推广,其他数据可由业务归口管理部门自行管理。
(四)做好数据质量控制
建立文件数据质量指标,对相关部门进行考核,可从唯一性、完整性、准确性、一致性、及时性五个维度设置。相同的文件元数据在同一系统中应该有唯一命名、描述,对于旧的信息系统,可通过与新的数据命名建立对照关系来解决,使文件数据保持唯一性。文件数据的实体、属性、字段值等要保持精确可靠,符合文件数据标准,准确无误地表达其真实含义,在不同系统之间或同一系统内不同类型之间的定义和规则保持一致。文件数据质量指标的设置和考核会推动文件编写人、审核人、批准人在编写、审批时除了关注文件内容外,还会再关注文件数据的质量。
(五)增强数据共享和交易
做好文件数据管理工作的重要环节是规范文件数据共享,建立数据共享机制和数据共享审批流程,用户在申请文件数据共享时应该明确需要共享的数据的目的、范围、应用场景、使用方式、期限等。在文件数据产生时,就确定文件数据资产共享属性,有条件共享的文件数据使用需要经过审批,不予共享的文件数据要严格执行相关规定,采取措施防止数据泄露。从宏观层面来说,文件数据是资产,文件数据不仅是被交易的对象,还能够支持交易,文件数据的价值不限于特定的用途,也不限于眼前的用途,它有更多的潜在价值,等着人们去发现和挖掘。
数据已经成为理解和解决许多问题所不可或缺的重要工具,它不仅能帮助人们解决当下的问题,还能够预测未来。而文件相关的数据是众多数据中数量较为庞大的一类,文件管理归口部门要积极开展文件数据管理工作,梳理、分析结构化数据和非结构化数据,将非结构化数据转换为结构化数据,建立数据规范和标准,实现对数据的全生命周期管理和分级分类管理,推进数据共享,增强数据应用,充分发挥文件数据的价值,推动组织和个人发展。
参考文献:
[1] 翟运开, 李金林. 大数据技术与管理决策[M]. 北京: 机械工业出版,2022.
[2] GB/T 26163.1-2010, 信息与文献 文件管理过程 文件元数据 第1 部分:原则[S].
[3] 张宁, 冷秀斌, 梁帆. 企业非结构化文档数据治理探究[J]. 档案学研究,2020(06):97-103.