多媒体大数据隐私保护与安全共享平台研究

  • 来源:互联网周刊
  • 关键字:隐私查询,隐私保护,安全共享
  • 发布时间:2023-10-22 10:38

  文/景涛 普华基础软件股份有限公司

  摘要:本文研究构建多媒体大数据隐私保护和安全共享平台,旨在保障多媒体大数据的安全性和隐私性,提高数据共享的效率和质量。以多媒体大数据应用的金融场景为例,构建如实还原金融机构生产场景的验证环境,统筹解决多媒体数据分域或逻辑隔离存储问题。本文的研究成果对于多媒体数据隐私保护和安全共享具有重要的意义。该平台的提出不仅可以保护个人隐私,还能够促进多媒体数据的有效利用和社会共享。同时,该研究也为相关领域的研究提供了新的思路和方法,有助于推动多媒体大数据技术的发展和应用。

  关键词:多媒体大数据;隐私查询;隐私保护;安全共享

  引言

  随着大数据和移动互联网技术的快速发展和广泛应用,多媒体大数据已经成为人们日常生活和工作中的重要信息来源,多媒体数据逐渐成为推动社会市场经济发展的中坚力量,但在网络安全层面,大数据技术却成为个人隐私和企业隐私泄露的“隐患”,数据隐私保护和安全共享的问题也日益突出。因此,研究多媒体大数据隐私保护与安全共享平台具有重要的现实意义和社会价值。如何在满足数据安全和隐私保护的同时,实现数据的流动和价值的最大化、最优化,成为“数据控制者”或“数据处理者”的普遍诉求。

  1. 研究背景

  随着大数据时代的到来,大数据技术已经被广泛应用于金融、能源、医疗、交通等领域,在应用高速发展的同时,数据安全和隐私边界也愈加重要。现有的隐私保护技术还不能完全满足多媒体大数据的特点和需求,存在隐私泄露的风险。目前,多媒体大数据处理和分析技术还比较烦琐和复杂,需要耗费大量的人力和时间成本。在大数据访问控制中,涉及数据的采集、传输、存储、处理等一系列行为,针对视频、图像、语音、文本等多媒体大数据的隐私保护差异化、隐私共享多级访问控制、隐私保护加密算法等问题,本研究面向多媒体大数据的隐私保护与安全模型,建立多媒体大数据共享隐私动态保护机制。

  2. 研究内容

  为解决多媒体大数据处理过程中存在的隐私内容多样化、隐私属性动态量化难、多因素关联的隐私内容价值与泄露风险动态评估手段缺乏、延伸控制弱化等问题,需要研发适用于多媒体大数据的隐私保护技术和安全共享机制,保障数据的安全性和隐私性。本文以金融行业数据安全管理为例,在多媒体大数据隐私内容检测、分级保护和安全共享平台研究方面,在金融保险机构示范应用并建设图像、语音数据集。针对涉及多媒体应用的不同金融场景,搭建如实还原金融机构生产场景的测试环境,平台架构如图1所示。

  系统架构:采用分层架构,分为基础设施层、数据层、平台层和应用层。其中,基础设施层负责多媒体大数据的存储和管理,数据层和平台层负责数据的分析和处理,应用层负责提供用户接口和服务支持。

  功能模块:包括数据处理、隐私保护、安全共享、数据检索等功能模块。其中,数据处理模块负责对上传的数据进行预处理和分析,隐私保护模块负责对敏感数据进行加密和匿名化处理,安全共享模块负责控制数据的访问权限和共享范围,数据检索模块负责根据用户需求提供数据查询和下载服务。

  数据传输安全:采用加密技术和身份认证技术,确保数据在传输过程中的安全性和完整性。

  2.1 可行性分析

  多媒体数据容量大,格式复杂多样,其加密算法设计需要考虑加密效率性和密文格式兼容性。为了提升加密效率,现有的多媒体数据加密算法大都选择采用部分加密技术,通过加密压缩数据中的部分关键信息,以减少加密操作来降低加密算法的时间开销。现有的并行处理技术相对成熟,将大容量的多媒体数据进行分块,然后用并行加密处理,可进一步提升大容量多媒体数据的加密速度。因此,轻量级的多媒体数据加密算法的设计与实现是具备可行性的。

  针对多媒体隐私数据多源、多维、异构特性时表现出通用性、完备性、一致性差,信息泄露风险高等问题,根据研究基础分别定量和定性构建安全评价标准。在定量安全评价标准中,通过特征处理技术对原始数据和加密数据进行多分辨率表示,并提取视觉和声谱图的特征,最后对提取特征进行相似性度量和加权融合,构建定量安全评价标准。同样地,在定性安全评价标准中,以自主研发的数据处理算法为基础,融合最先进的深度学习思想,分别从图像和音频两方面对隐私数据安全性进行评估,并构建多媒体大数据安全综合评价系统。

  多媒体大数据加密存储平台采用全新的硬件构架和软件算法,全方位地释放NVME闪存颗粒的性能。在工程层面进行大量优化,包括在数据的读取、加密、传输、计算、解密、存储等各个阶段实现优化,进而将整体性能提升到最优状态,以满足高吞吐、低时延,以及特定场景的实时性要求。

  2.2 先进性分析

  通过隐私保护与多媒体数据安全性技术,对多媒体隐私数据内容进行分析,从技术路线和理论基础两方面构建的多媒体大数据安全综合评价系统均具有先进性。

  多媒体大数据加密存储平台具备自主可信根,从可信根到硬件平台,到操作系统,再到应用,在体系架构上实现自主可控的防御机制,保证平台系统的数据存储安全、传输安全和计算安全。在硬件加速层面,通过新的密码学技术和算法协议,结合硬件加速技术和专有算法实现算力加速,提升平台整体算力性能。平台在结构化数据的加密存储与隐私保护、传输过程去标识化、匿踪查询以及底层硬件的算力和安全性支撑方面已有相对成熟的方法论,具有较好的先进性。

  3. 关键科学问题

  多媒体大数据隐私保护与安全共享是信息社会的重要问题之一。在多媒体大数据的处理和共享过程中,涉及许多隐私和安全问题。本文以金融行业数据安全管理为例。

  在金融数据安全管理方面,按照中国人民银行发布的《金融数据安全 数据生命周期安全规范》(JR/T 0223-2021)金融行业标准要求,金融机构“应根据安全级别、重要性、量级、使用频率等因素,将数据分域分级存储”“脱敏后的数据应与用于还原数据的恢复文件隔离存储,并留存相关审批及操作记录”“3级数据的存储应采取加密等技术措施保证数据存储的保密性”“4级及以上数据应使用密码算法加密存储”[1]。

  针对个人金融信息管理,中国人民银行在遵循《个人信息保护法》基础上,发布了《个人金融信息保护技术规范》(JR/T 0171—2020)金融行业标准,根据信息遭到未经授权的查看或未经授权的变更后所产生的影响和危害,将个人金融信息按敏感程度从高到低分为C3、C2、C1三个类别[2]。

  针对C2、C3类别信息,标准规定:“金融机构应使用加密通道或数据加密的方式进行传输,保障个人金融信息传输过程的安全”“对于C3类别信息,通过受理终端、客户端应用软件、浏览器等方式收集时,应采取加密等技术措施保证数据的保密性,防止其被未授权的第三方获取”“C3类别个人金融信息应采用加密措施确保数据存储的保密性”“应将去标识化、匿名化后的数据与可用于恢复识别个人的信息采取逻辑隔离的方式进行存储,确保去标识化、匿名化后的信息与个人金融信息不被混用”“除银行卡有效期外,C3类别信息不应明文展示”。

  金融机构的多媒体信息主要是指个人生物识别信息过程中产生的影像、图片、声纹等,其存储方式大多是非结构化的,且按要求均应该使用密码算法加密存储,采用加密通道或数据加密方式传输,采取去标识化或匿名化手段展示,并与个人信息逻辑隔离存储。金融保险业务场景多媒体大数据中的隐私内容精准高效检测和分级保护,结合轻量化的多媒体数据加密算法,研究构建高效安全的分布式存储应用系统,实现多级用户的差异化隐私保护需求和数据安全共享。

  3.1 身份照片核验场景

  隐私信息具体内容涉及身份证照片、活体检测时随机抓取照片。身份照片核验如图2所示,身份证照片会通过OCR抓取姓名、身份证号、有效期信息。因此有必要进行隐私脱敏处理的图片既包括身份证和活体照片中的人脸图片信息,又包括身份证号、姓名等个人信息。客户再次购买保险产品时,会再次触发活体认证环节,随机抓取的图片会与之前加密存储的身份证照片、公安个人信息库身份证照片做三方比对。

  信息流方面,客户手机端随机抓取的照片,明文传输至保险公司业务系统(已进入公司信息管理安全域)。通过特征提取功能模块对照片进行特征值提取后,与数据库中加密存储的存量身份证特征值库进行检索比对,最终反馈业务系统成功与否。

  3.2 前端脱敏展示场景

  金融保险业务场景,保险公司分支机构业务前台和客户手机需要展示客户照片进行身份核实或展示等功能,有可能会出保险公司信息系统安全域,因此需要在人工可识别的前提下对照片进行脱敏处理,具体流程如图3所示。

  处理流程方面,边缘端发起申请,通过匿踪查询技术从加密的图片库中进行匿踪检索,查得后,保险公司对加密的身份照片(可能是身份证或活体照片)进行快速解密,通过隐私计算技术进行脱敏化处理(去特征值化)后,在分支机构业务前台系统或客户手机进行脱敏展示。

  4. 研究意义

  多媒体大数据隐私保护关键技术集成平台,支持海量多媒体隐私内容的精准高效检测技术及综合安全评价系统。通过平台的金融场景的示范应用,将有助于补齐数字保护短板,提升我国大数据隐私保护水平。本项目探索搭建隐私内容检测、分级保护和安全共享平台,并在金融保险行业开展示范应用,一方面有利于保护数据存储、传输、展示安全,补齐数字保护短板问题;另一方面能加快图像、视频等典型多媒体大数据保护技术落地,提升对金融保险用户隐私数据的保护水平。同时以此为基础,未来还可以在金融保险行业其他场景,以及智慧能源、智慧医疗、智慧政务、智慧交通等其他行业进行探索推广,帮助提升我国大数据行业的隐私保护整体水平。

  结语

  多媒体大数据隐私安全综合评价系统研究对于保护多媒体大数据隐私具有重大意义,防止因数据隐私泄露造成的经济损失,为多媒体大数据安全隐私保驾护航,可以在多领域进行应用,有力推动信息化进程。该平台可以有效地保护多媒体大数据的隐私性和安全性,同时可以提高数据共享的效率和质量。为联合风控、联合营销、联合建模等数据融合场景和金融机构的隐私计算应用提供数据安全保障,帮助组织构建安全、开放、共赢的数据生态,助力数据融合计算的健康发展和数据价值释放。未来,我们将继续深入研究多媒体大数据隐私保护与安全共享平台的相关技术和服务,为用户提供更加安全、高效、便捷的数据服务和支持。

  参考文献:

  [1]中国人民银行,全国金融标准化技术委员会.金融数据安全 数据生命周期安全规范:JR/T 0223-2021[S/OL].2021:5 [2023-9-10].https://www.cfstc.org/bzgk/detail/?id=0&bzId=1913.

  [2]中国人民银行,全国金融标准化技术委员会.个人金融信息保护技术规范:JR/T 0171-2020[S/OL].2020:12 [2023-9-10].https://www.cfstc.org/bzgk/detail/?id=0&bzId=1856.

  作者简介:景涛,硕士研究生,研究方向:IT基础设施信创国产化。

关注读览天下微信, 100万篇深度好文, 等你来看……