基于预训练模型的非结构化文档智能化处理

来源:互联网周刊
关键字:自然语言处理,预训练模型,机器学习
发布时间:2025-05-09 21:50

　　文/师谦泰康养老保险股份有限公司

　　摘要：企业日常运营中频繁面临非结构化数据的检索、编辑与分析工作，在文档整理、内容比对、报告撰写等方面耗费大量人力成本。本文以职业年金信息披露处理的典型应用场景为例，梳理了对多数据源复杂非结构化文档的数据抽取、比对中面临的挑战与困难，对比分析了机器人流程自动化（robotic process automation，RPA）和预训练模型两种解决方式，阐述了基于预训练模型的方案设计实现及优势。通过预训练模型，极大地提高了非结构化文档智能化处理水平。

　　关键词：非结构化文档；自然语言处理；预训练模型；机器学习

　　引言

　　在企业日常运营产生的数据中，非结构化数据占企业数据总量的80%[1]。员工日常工作中面临繁重的非结构化文档处理任务，由于文档格式复杂、行文标准不统一，处理过程既困难又耗时，产生了高昂的人力成本和时间成本。

　　尽管机器人流程自动化（robotic process automation，RPA）、大模型在文本切片处理方面表现出色，但对于非结构化文档的数据抽取效果却不尽如人意。例如，文档中表格出现单元格合并、无边框、标题行列与内容行列不对应等情况时，识别可能为空或错误数据。

　　笔者团队以职业年金信息披露这一典型应用场景为例，详细阐述了对复杂非结构化文档的自动化和智能化处理的探索研究。

　　1. 职业年金信息披露应用场景介绍

　　职业年金是为完善机关事业单位多层次养老保险体系而建立的补充养老保险制度[2]。随着年金市场化投资运营稳步推进，年金基金投资规模不断增长。为加强基金监管，保障基金安全，要求各基金管理机构加强基金信息报告和信息披露行为[3-4]。

　　泰康养老保险股份有限公司（以下简称“泰康养老”）作为受托人，须收集来自投资管理人和托管人等管理机构的信息披露报告，进行数据比对后形成受托人信息披露报告报送。各机构信息披露报告通常以多种非结构化文档形式传递，在行业内沿用多年并得到普遍认可。泰康养老虽曾多次尝试通过数字化转型推动信息数字化报送，但由于行业惯例根深蒂固，基于非结构化文档信息交换的方式在短期内难以被完全取代。

　　面对日益增长的年金运营规模，人工信息披露比对暴露出效率低下、易出错且难以应对复杂多样数据情况等问题。因此，如何在现有情况下，实现对非结构化文档数据的精准抽取与比对，成为提升年金运营效率、保障信息披露质量的关键挑战。

　　2. 非结构化文档处理解决方案探索

　　基于以上问题，笔者团队进行了非结构化文档智能处理的探索。

　　2.1 RPA+DeepSeek

　　自动化探索初期，笔者团队采用“RPA[5]+DeepSeek[6] ”方式尝试解决数据抽取和比对问题。包括以下三个步骤：

　　（1）表格数据抽取。将每个省份的信息披露报告的所有表格标题分别存储到对应省份列表中，通过PDFplumber.getTable方法找到对应标题下的表格，最后将表格抽取到Excel中，形成各省份的特征表格。

　　（2）DeepSeek模型学习。将特征表格中抽取的行列标题存储到对应省份字典中，再将字典结构输入DeepSeek模型，通过数据结构训练，构建出包含各省份特征的模型库。

　　（3）特征表格数据抽取和比对。将源文件传送给特征模型库进行数据抽取，通过Python编程实现最终的数据比对和校验。

　　但此方案仍有以下三个方面的不足：

　　（1）表格抽取偏移量计算不准确。因无法保证表格最后的单元格为标准格式，如存在合并单元格、插入公式等情况，导致RPA无法准确计算偏移量值，使数据抽取丢失。

　　（2）须手动配置字典库。如某个省份表格字段发生变化，须手动更新对应省份字典库。

　　（3）模型训练效果不理想。因DeepSeek对表格复杂格式学习效果欠佳，无法较好理解表格字段逻辑，所以成功率仅35%。

　　2.2 预训练模型

　　预训练模型是指在大规模数据集上预先训练的神经网络模型，在自然语言处理（NLP）、图像识别等领域应用广泛，常见模型包括循环神经网络（RNN）、基于 Transformer 的双向编码器表征（bidirectional encoder representations from transformers，BERT）模型[7]、词向量（Word2Vec）模型[8]等。在大规模数据集上，通过某些特定任务进行模型预先训练。通过预训练，让模型学习到数据内在结构和规律，以及语言通用表示。经笔者团队反复实验及论证，最终采用预训练模型技术方案进行智能化处理，具体方案及技术见后文。

　　3. 非结构化文档智能处理方案设计

　　参照人工信息披露处理流程，基于预训练模型设计了非结构化文档智能处理方案，具体设计如下文所述。

　　3.1 数据输入与预处理

　　（1）支持用户上传多种格式的年金信息披露报告文档。

　　（2）自动进行文本清洗和格式标准化。

　　3.2 信息抽取

　　通过预训练模型强大的学习能力，自动识别文本中的表格和关键信息。系统能处理多样化及复杂化的表格结构，确保准确抽取所需字段信息。

　　3.3 上下文理解与分析

　　通过预训练阶段学习到的上下文语义关系，对抽取到的信息进行深入学习与分析，掌握语义之间的逻辑关系。

　　3.4 比对结果报告生成与输出

　　将处理后的数据比对结果生成结构化报告，支持导出PDF或Excel格式，便于进一步分析。

　　4. 预训练模型关键技术分析

　　本方案技术难点在于预训练模型训练和训练阶段数据处理。通过对信息披露报告中表格样本进行特征抽取和训练，建立非结构化文档智能模型，实现对各种复杂、动态表格数据的精准抽取，完成数据比对（如图1所示），具体分为三个步骤。

　　（1）表格切片。以表格为中心进行切割，将表格拆分为“表格标题”“列标题”“行标题”和“数据区域”。

　　（2）模型训练。根据拆分后的表格切片确定字段和数据抽取的模型和算法，通过TensorFlow[9]进行模型训练，生成对应表格模型。

　　（3）数据提取。将不同表格样本数据输入对应表格训练模型，抽取所有字段数据。

　　下面分别阐述各环节中涉及的相关技术。

　　4.1 表格切片

　　切片时文本中存在各种特殊情况，会产生大量噪声干扰，对数据准确抽取与比对有很大影响。实践中笔者团队遇到的情况包括表格标题位置差异、表格格式复杂多样、相似度文本识别等。

　　（1）表格标题位置差异。源文件标题位置和标准文件中位置不一致，无法通过默认标题位置找到对应数据。

　　（2）表格格式复杂多样。第一，表格标题、行列分布等特征结构繁多，如表格标题在表格内层、表格外层等。第二，同一实体在不同报告中存在差异，包括标题、表格字段、基金名称等。第三，部分省份接收到的报告规范化较差，存在连体表格、隐藏目录等情况。

　　（3）相似度文本识别。实际样本数据中存在大量相似度文本，如“受托户净资产变动表、受托财产资产变动表”“占净资产比例（%）、占组合净资产比例（%）”等，极易被解析为同义词。

　　为减少文本数据干扰，确保表格切片准确度，笔者团队进行了文本降噪和相似度处理的研究和解决。笔者团队采用自然语言处理（NLP）工具SpaCy和NLTK双模型降噪方法，对两种模型降噪结果进行比对，取交集，提高可信度，减少因降噪带来的误差。

　　4.1.1 SpaCy模型

　　第一，分词阶段。使用分界符（表格中特定的标点符号）初始化分词器，切分原始文本，获得单独token。例如，将“定期存款/协议存款”进行分词，剔除分隔符，转换成“定期存款”“协议存款”。

　　第二，模式匹配阶段。将上一步得到的分词，建立parten（要进行匹配的短语模式列表）在文中查找符合各自模式的短语。

　　第三，将短语中的分词进行词性标注，构建具有年金信息披露特征的语料库，用于模型训练。

　　第四，将训练好的模型应用于全部样本，最终查找出符合匹配规则的对象。

　　4.1.2 NLTK模型

　　第一，分词。使用NLTK模型中的函数work_tokenize将样本切割成单词。

　　第二，降噪。采用停用词库筛选掉分词后的无意义词语。

　　第三，标注词性。为分词的每个单词标注词性，建立单词、单词属性映射表。

　　第四，使用正则表达式定义简单的语法规则来表示名词短语，NP表示名词短语，NN表示名词。

　　第五，使用解析器对标注后的文本进行解析，并抽取出符合语法规则的短语。

　　NLTK模型是SpaCy模型的有效补充，能有效提高文本分词精准度。通过使用两种降噪方法，模型能更准确地理解和处理信息，实现了100%精确匹配。

　　另外，笔者团队采用基于NLP文本相似度处理技术，解决相似度文本问题。例如，对于“受托户净资产变动表、受托财产资产变动表”，通常模型处理时会产生幻觉问题，容易把这类相似度文本理解为同义词，造成数据抽取混乱。

　　为解决这个问题，笔者团队采用词嵌入方法，通过预训练词向量（Word2Vec）模型加载词向量，构建高维空间，并将每个短语映射到高维空间中，通过余弦相似度方法计算出两个文本的相似度。以“资产”“受托户”“净资产”“受托资产”“受托组合”为例，在分词设计中，每个分词按照7D维度张量解释，最后通过余弦相似度找到分词间的差异。如图2所示，可以看出分词向量点之间的距离差异，从而实现分词之间相似度匹配。

　　图2 余弦相似度分析结果

　　4.2 模型训练及数据提取

　　笔者团队在TensorFlow中使用卷积神经网络[10]实现表格特征信息抽取，为本方案核心技术。具体包括以下步骤。

　　4.2.1 特征表格分析

　　通过对各省份样本数据分析，归结出不同类型的表格情况，抽取表格特征包括：表格标题位置；行、列标题位置；列标题位置；数据起始、终止位置。

　　4.2.2 设计卷积神经网络结构

　　设计卷积神经网络结构用于提取上述表格特征。本模型由两个卷积层、两个池化层以及两个全连接层组成，激活函数使用常见的ReLU函数。

　　（1）模型输入是一个32×32×64张量，分别为行列标题、数据区域。

　　（2）卷积层。第一层应用32个过滤器用于提取表格基本特征。随着网络加深，特征图空间维度逐渐减少，特征数量逐渐增加；第二层卷积采用64个过滤器。

　　（3）根据输入数据特征，两个池化层均采用最大池化层，可更好地保留显著特征。

　　（4）在神经网络最后放置两个全连接层配合ReLU函数对结果进行分类并输出。

　　4.2.3 模型实现

　　用Sequential()函数类定义表格特征模型，并用add()函数将每层神经网络添加到模型中，最后通过summary()函数得到整体模型架构，如图3所示。模型中包含每一层类型、特征形态、训练参数总数的全部信息。

　　最终经过各省份样本数据的模型训练，通过show_curve()辅助函数绘制模型训练后的数据准确度、精准度（如图4所示）。当模型训练样本数据不足5个时，训练准确度和精度已达到68%。随着样本数据增加到80%，模型准确率接近95%，从而验证了预训练模型的有效性。

　　图4 模型训练准确度图

　　4.2.4 数据提取

　　模型训练确定后，对所有样本数据进行切片，逐一输入模型，根据模型特征找到对应的解析算法，完成数据提取。

　　最后，笔者团队将预训练模型的识别准确度与“RPA+DeepSeek”进行了效果对比，如表1所示，预训练模型对表格特殊类型的识别成功率均明显高于“RPA+DeepSeek”。

　　5. 进化方向

　　由于当前案例场景获取的样本数据有限，模型训练还有较多需完善和优化的空间。笔者团队下阶段主要聚焦预训练模型降噪能力的提升和改进。

　　5.1 增强模型降噪能力

　　当前各省文档存在较多噪声干扰，部分严重噪点须通过手工预处理才可提交模型解析。

　　5.2 建立定制化预训练模型

　　增加更多维度文档特征，如隐藏数据、表格错位、连体表格等特征，按省份建立定制化预训练模型，进一步减少手工干预，提升智能化和效率。

　　最终，通过持续科学严谨的模型优化，实现对非结构化文档数据提取和比对的端到端全流程智能化操作。

　　结语

　　本文选择采用年金信息披露数据比对这一典型复杂场景，来进行技术方案的实验和研究，结果表明能大幅提高数据提取准确度。除此之外，该技术在政府机构、企事业单位、金融机构等拥有大量非结构化文档数据的组织中也有广泛应用场景，并可与其他技术结合，拓展应用场景。例如，结合图形图像处理技术、模型训练和自然语言处理工具，可应用于智能问答语料的切片处理、标书编写、机构年报编写等场景，显著提高作业效率、降低人工成本、提升数据处理准确性，也可应用于非结构化文档的数据治理，赋能数据价值的挖掘和实现。

　　参考文献：

　　[1]中国新闻网.电子标准院-鸿翼非结构化数据管理解决方案联合实验室成立[EB/OL].(2020-09-24)[2025-03-20].https://www.chinanews.com.cn/business/2020/09-24/9298887.shtml.

　　[2]国务院办公厅.国务院办公厅关于印发机关事业单位职业年金办法的通知（国办发〔2015〕18号）[EB/OL].(2015-04-06)[2025-03-20].https://www.gov.cn/zhengce/content/2015-04/06/content_9581.htm.

　　[3]人社部财政部印发职业年金基金管理暂行办法（人社部发〔2016〕92号）[EB/OL].(2016-09-28)[2024-12-5].https://www.gov.cn/xinwen/2016-10/12/content_5117950.htm.

　　[4]工商银行.《职业年金基金信息报告和信息披露暂行办法》（人社厅发〔2019〕120号）[EB/OL].https://icbc.com.cn/page/721852693214953512.html.

　　[5]廖万里.金融行业企业级RPA案例分析[J].金融科技时代,2021,29(7):32-34.

　　[6]Bi X,Chen DL,Chen GT,et al.DeepSeek LLM: Scaling Open-Source Language Models with Longtermism[EB/OL].(2024-01-05)[2025-03-20].https://arxiv.org/abs/2401.02954.

　　[7]Devlin J,Chang M W,Lee K,et al.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.[EB/OL].(2018-10-11)[2025-03-20].https://arxiv.org/abs/1810.04805.

　　[8]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[EB/OL].(2013-01-16)[2025-03-20].https://arxiv.org/abs/1301.3781.

　　[9]Abadi M,Agarwal A,Barham P,et al.TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].(2016-03-14[2025-03-20].https://arxiv.org/abs/1603.04467.

　　[10]Fukushima, K.Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological Cybernetics,1980,36:193-202.

　　作者简介：师谦，硕士研究生，277525428@qq.com，研究方向：智能化处理技术。

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容