数字政府一体化建设中数据预处理技术的研究

来源:互联网周刊
关键字:数据预处理,数据采集,数据清洗
发布时间:2023-11-03 19:07

　　文/詹晓林1）张笑宇2）曾晶2）宋昊阳2）骆丹2）张欢2） 1）中通信息服务有限公司 2）广东南方电信规划咨询设计院有限公司

　　摘要：在数字政府一体化建设的大背景之下，对于数据的采集、清洗提出了更高的要求。数据的预处理在整个政务数据处理的过程中尤为关键，不仅能够为政策制定提供更加精确的支持，还有助于推动政务服务更加高效智能化。本文主要针对数据预处理中存在的核心问题，着重介绍了几种在数据采集以及数据清洗中运用的方法，从而更好地应对日益复杂的数字化治理挑战，实现政府数据管理的现代化转型。

　　关键词：数字政府一体化；数据预处理；数据采集；数据清洗

　　引言

　　在当今数字化时代，随着数字政府一体化建设进程的不断深入，数据预处理的重要性愈发显著。其中，数据采集作为获取原始信息的过程，在数据生命周期中扮演着关键角色；数据清洗则起到了过滤器的作用，是筛选、消除、修改冗余和错误数据的重要步骤。本文将从数据采集和数据清洗两方面出发，深入探讨在数字政府一体化建设中所使用的数据预处理技术。

　　1. 政务数据预处理中存在的痛点

　　当前数字政府的建设相较以前已经有了长足的进步和发展，随着网络的不断发展和广泛使用，数字政府平台的使用率激增，数据从静态的收集转向实时和动态的收集，从单向管理转向双向、有规律的更新和互动。然而，在数据预处理阶段也存在资源整合困难的数据壁垒问题，例如，数据难以开放共享、数据利用率低等，导致了高价值的政务数据资源难以得到有效开发利用[1]。

　　2. 政务数据处理

　　政务数据从采集到最终使用的过程中涉及内、外部数据收集、存储、处理、共享、分发等多个环节，如图1所示。

　　数据预处理在整个流程中起着至关重要的作用，可以接入各类业务系统、子系统、外部管理系统，以及终端感知的物联网和互联网。这个阶段可以获取所有需要被整合利用的数据，并在早期阶段进行数据清洗等基础的数据处理，为后续的数据开发和使用带来便利。

　　2.1 数据采集

　　政务数据采集过程存在分散、独立、源端多样性、跨网络传输等特点，为此设计了多类型定制化的数据采集方法，为政务数据资源的采集、数据处理标准的规范、数据资源池的构造提供了必要的支持。

　　2.1.1 数据采集：对于需要批量采集的数据，根据数据来源的不同有两种采集方式。

　　（1）数据库采集：当数据源为关系型数据库，如常见的Oracle、MySQL等，或数据源和大数据中心在同一个网络中时可以采用这种方式[2]。

　　（2）FTP文件传输：当数据源为FTP服务器，对于非结构化的文本、图片等数据，可以采用这种方式。

　　2.1.2 数据接入：对于需要实时接入的数据，通过Flink、Spark-streaming等组件实现实时数据的汇集

　　诸如定位信息、视频信息等需要实时传输的数据，利用消息总线或SOCKET等技术来构建前端的数据接收部分，将收集的数据处理转化为统一格式的文件发送给平台[3]。

　　2.1.3 网络爬虫：基于机器学习、自然语言处理等最新技术

　　综合采用基于特征评分及启发性规则的抽取技术，实现网页内容采集的智能化和自动化，采集数据时不需要编写脚本式或规则式的包装器，只需要指定抽取字段即可自动剔除网页噪声，如广告、导航条等干扰元素并提取有用信息，从而实现智能采集网页内容[4]。

　　2.1.4 在线填报：针对政务系统需要面向的业务存在大量的非规则性数据收集需求，通过在线填报系统快速定制填报页面满足数据采集需求

　　在线填报采用J2EE的B/S体系结构，支持所有主流部署环境和数据库平台。灵活的报表设计器、自动数据库管理机制、报表制度自动调整等大量领先设计思想和技术，确保了系统具有良好的业务适应性和扩充性，不但可满足用户当前的报表处理业务需要，更能满足其不断变化的报表应用需求。

　　2.2 数据清洗

　　在实际的业务处理过程中，采集到的数据通常是脏数据。脏数据通常指的是存在以下几种问题的数据：

　　（1）数据缺失。通常是指属性值为空的情况。

　　（2）数据噪声。通常是指数据值不合理的情况。

　　（3）数据不一致。通常是指数据前后存在矛盾的情况。

　　（4）数据冗余。通常是指数据量或者属性数目超出数据分析需要的情况。

　　（5）数据集不均衡。通常是指各个类别的数据量相差悬殊的情况。

　　（6）离群点/异常值。指的是采集到的数据中远离数据集中区域的那部分数据。

　　（7）数据重复。在采集中多次被采集，在数据集中多次出现的数据。

　　数据清洗的目的是从原始数据中去除不准确、不完整、重复或不必要的数据，确保数据的质量以及准确性。在数据的初步清洗过程中，常用的技术包括缺失值处理、异常值检测和处理、数据类型转换、规范化处理、数据一致性检查、数据合并和去重处理、数据归一化处理、数据验证、时间序列数据清洗以及数据可视化处理[5]。在以往的数据流转过程中，数据清洗占整个分析过程的50%～80%时间。对低质量数据的清洗难度大，可以通过对低质量数据进行采集过程中的清洗和预处理的方法来提升自动数据清洗能力，从而提升数据采集的质量和效率，采用基于组件的可视化数据清洗流程，结合数据挖掘和机器学习等处理方法，实现高效、智能化的数据清洗预处理。

　　数据清洗可以根据各个变量的取值范围和相互关系，对数据的合理性进行检查，对超出正常范围或逻辑上不合理的数据进行记录，以便进行进一步的核实与纠正。对于在数据收集阶段出现的无效数据以及缺失的数据，运用估计、整列删除、变量删除等方式进行处理。根据数据的不同可以将数据清洗归纳出不同的方法[6]。

　　3. 数据处理技术在政务系统中的应用

　　数据采集将结合运行日志的数据进行整体的分析和处理，实现各基层站点与平台的技术对接，获取所有资源的使用数据。在方式上可以采用调用各基层站点数据接口或者采用发布出数据收集接口的方式，由基层站点进行数据传递等方式进行数据的采集。

　　3.1 网络爬虫技术在政务舆情监测系统中的应用

　　网络爬虫技术能够提供稳定的数据抓取代理，能够对互联网海量信息进行自动抓取、自动分类、主题检测、专业聚焦等处理，完成用户对于网络舆情监测和新闻专题追踪等信息需求。

　　将互联网爬取的数据采集方法应用到舆情预警系统中，用户可以按需自主布控监控预警的关键词，系统爬取的信息命中预警关键词后暂存到舆情监测模块中。例如，可以设置的爬取规则对网站进行数据爬取采集，如表1所示。

　　将不同来源的数据汇集到综合数据平台，对数据进行改造，依据预定的规则，将其转化为可反复利用的信息资源服务。通过服务总线和消息组件支持多路径消息的进入和出口，使得各种各样的消息在总线上流动，实现在不同部门和机构之间的信息共享，为平台全方位、深入地分析和监管数据提供便利，使其能够实时获知运行状态并做出智能应对，为正确的舆论引导提供分析依据。

　　3.2 数据清洗转换

　　3.2.1 数据清洗方案设计

　　由于数据的多源异构性，导致出现数据质量差、不可融合、不可用、不可联等问题，必须制定一套完整的数据清洗转换规范来处理脏数据[7]。将数据清洗转换划分为清洗重复数据、清洗缺失数据以及清洗不合理数据三类并且分别设计清洗方式。

　　3.2.1.1 清洗重复数据

　　主要目标是避免数据的重复。如果一个数据表内有多条记录的每个字段的值完全一样，或者这个数据表有主键或者唯一ID，但其中只有部分字段的值在两条或以上的记录中重复，那么就需要用数据清洗方法来保证数据的独特性。

　　3.2.1.2 清洗缺失数据

　　主要针对数据记录中存在的缺失和空白值数据的处理。根据业务需求，检测出的空字段将以填补、删除、归入问题库等各种方式进行处理。

　　对于数据清洗中会出现的数据缺少问题，可以采用以下四种方法解决：

　　（1）数据删除。对于缺失数据的记录占比较小的情况，对记录进行直接删除。

　　（2）自动补全。数据中心具备数据补全功能，能够对数据清洗后的数据进行数据补全工作，对存储系统和数据库上的海量、高频率数据集进行数据校验，去除非法数据，实现对缺漏的数据进行自动补齐。由于生产库本身就存在部分数据字段属性值的缺失，对于缺失的数据属性，数据补全功能按照某些规则填充，比如公司办公地址为空，默认使用工商注册地址填充；家庭住址为空的话，默认按照身份证注册地址填充，可以利用均值填充，也可以根据实际情况，根据过往的数据通过公式自动计算填补。例如，景区门店销售额数据缺失，就可以参考过往景区的客流量数据根据公式进行计算[8]。

　　（3）手动填补。对于缺少的数据进行重新采集，或根据领域知识进行修补。

　　（4）关联回填。两个或两个以上数据集之间通过某种信息建立关联关系之后，根据实际业务的需要，可以对这两个数据集中的数据进行相互补充。

　　3.2.1.3 清洗不合理数据

　　主要负责处理数据记录中的不符合逻辑、违法数据。对于数据记录中出现的不合理情况可采用以下两种方式解决。

　　（1）数据命名转换：通过比对标准数据元和实际数据表中的数据项，如果比对结果一致，则不需要转换处理，如果比对结果不一致，要按照标准规定的命名进行转换。

　　（2）标准地址转换：对地址要素不完整、文字表达不一致的地址信息进行标准化处理。依托公安的标准化地址库及互联网公开的POI地址信息库，形成相关的地址标准基础库，对采集的地址信息进行标准化处理。

　　数据清洗是一个反复迭代的过程，数据清洗中的产物包括标准化数据和问题数据。标准化数据为原始库数据按照数据标准清洗、加工后的数据；数据清洗、加工过程中产生的脏数据则作为问题数据暂时保留在资源库中，便于溯源和提升数据质量。

　　3.2.2 数据清洗技术在图片数据中的应用

　　可以将AI技术运用到图片数据的清洗过程。对于采集到的图片数据提供清洗功能，包括去除相似或重复图片、去除小目标图片、去除过暗图片、去除过爆图片、去除模糊图片等清洗功能[9]。支持自定义清洗策略参数，支持创建清洗任务选择“生成新版本”“覆盖原有版本”，同时提供被清洗数据的列表以及清洗原因。

　　结语

　　在本文中，我们对于几种数据采集和数据清洗方案以及其在数据处理中的关键作用进行了研究。

　　在数据采集方面，网络爬虫技术作为一种数据采集工具为大量获取互联网上的特定数据提供了有效手段。在未来，为适应不断扩张的互联网以及网页的多样化，互联网爬虫技术在自适应爬取算法以及与人工智能的结合方面存在广阔的发展空间。

　　在数据清洗方面，根据脏数据的类型，分别设计有针对性的清洗方案，能够有针对性地解决数据中存在的数据重复、缺失和不合理等问题。将AI识别技术运用到图像数据的清洗中，能够降低人工干预的成本并且提高效率，在未来的研究中，可以进一步探索数据清洗与机器学习和人工智能的结合，实现更高效率、更高准确性、类型更加广阔的数据清洗。

　　数据采集、数据清洗作为数据的预处理，在政务数据的处理流程中起着举足轻重的作用。对数据的收集整合以及清理，可以消除在数据集中整合时遇到的分散、孤立、多源、跨部门和跨网传输等难题，从而为政务数据资源的整合、标准化处理以及数据资源池的建立提供依托。

　　参考文献：

　　[1]国务院办公厅.国务院办公厅关于印发全国一体化政务大数据体系建设指南的通知（国办函〔2022〕102号）[A/OL].(2022-10-28)[2023-8-20].https://www.gov.cn/zhengce/zhengceku/2022-10/28/content_5722322.htm?eqid=edc23cad00032216000000066465a1f0.

　　[2]晏立,阎蔚明,陶跃华,等.基于JDBC数据库时间获取方法[J].计算机系统应用,2008,(12):139-141.

　　[3]郭栋,胡清,李国涛,等.基于Flink组件的流量链接分析方法及系统:CN202210525481.2[P].2022-08-30.

　　[4]冯明远.深度网络信息爬取关键技术研究与实现[D].杭州:浙江大学,2011.

　　[5]唐懿芳,钟达夫,严小卫.基于聚类模式的数据清洗技术[J].计算机应用,2004,(5):116-119.

　　[6]刘政宇.基于大数据的数据清洗技术及运用[J].数字技术与应用,2019,37(4):92,94.

　　[7]杜少卿.基于关联依赖的数据清洗方法研究[D].郑州:郑州轻工业大学,2023.

　　[8]樊峰峰.大规模数据清洗关键技术研究[D].西安:西北工业大学,2020.

　　[9]李政文,杜文菊,饶妮妮.基于不准确图像数据清洗的分类方法研究[J].信号处理,2022,38(7):1547-1554.

　　作者简介：詹晓林，本科，高级工程师，研究方向：信息通信工程建设、智慧城市规划、建设工程实施；张笑宇，本科，研究方向：智慧城市规划咨询设计、智慧校园信息化建设；曾晶，硕士研究生，高级工程师，研究方向：管理咨询、信息通信工程咨询规划设计、IT咨询；宋昊阳，硕士研究生，工程师，研究方向：智慧城市、企业IT、物联网咨询规划；骆丹，博士研究生，研究方向：自然语言处理、深度学习、技术产品研发；张欢，博士研究生，研究方向：网络安全技术规划、数据安全、信息化咨询规划。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容