基于知识图谱的大数据学习推荐方法的研究应用

  • 来源:互联网周刊
  • 关键字:知识图谱,大数据,学习推荐方法
  • 发布时间:2024-11-08 17:11

  文/魏源锋 南阳市政务大数据中心

  摘要:随着以知识图谱为核心的新一代人工智能技术日趋成熟,基于大数据的在线教育推荐方法成为重要研究课题。推荐系统利用知识图谱表示项目之间的潜在关系,将学习资源及其属性映射至知识图谱中,挖掘其内在的关联性,使推荐结果更具有解释性。基于此,要充分利用知识图谱构建学习过程交互的教育体系,融合多种课程资源,加强学习者由感知智能向认知智能的变迁,加强基于知识图谱的异质化信息协同,提高学习者个性化推荐的性能。

  关键词:知识图谱;大数据;学习推荐方法

  引言

  推荐系统是根据用户的兴趣和偏好,向其提供个性化推荐的技术和方法。随着强化学习、对比学习、注意力机制、知识图谱等先进人工智能技术的推广,推荐系统获得了新的发展机遇,有效缓解了传统推荐系统所面临的数据稀疏等问题。基于此,本文重点关注和探讨基于知识图谱的大数据学习推荐方法的应用,将知识图谱作为学习辅助和支持,添加到学习者个性化学习资源推荐算法体系,引导学习者进行知识梳理和呈现,快速寻找适宜的学习资源和方法,提高学习推荐方法的应用效果。

  1. 概述

  知识图谱的实现前提是基于广覆盖、深层次的语义网络,进行各实体间不同语义关系的表达,广泛应用于文本理解、推荐系统、自然语言问答等方面,通过知识抽取、知识融合、知识推理等融合技术获取可读知识。

  基于知识图谱的推荐系统是运用知识图谱中的实体、属性、关系等信息,向用户推荐其可能感兴趣的学习或服务。其构成主要包括:(1)知识图谱的构建。以实体、属性、关系等要素作为载体,表示某领域知识的结构、组织方式。(2)用户建模。基于用户的兴趣、偏好和学习需求,通过建模获悉用户的历史行为数据和个人信息,对其进行必要反馈。(3)知识推理。利用知识图谱的知识和关系进行推理、分析,把握实体的内在关联和规律性,向其进行准确化、个性化的推荐。(4)推荐生成。根据用户建模和知识推理,获取实体的属性或关系,自动生成相似性、关联性、个性化内容。(5)推荐评估和反馈。系统评估推荐结果的质量,根据用户反馈进行及时调整和优化[1]。

  2. 基于知识图谱的学习者个性化学习资源推荐应用

  引入更加先进合理的个性化推荐方法,利用大数据、互联网等信息化技术挖掘学习者的行为数据,为学习者提供个性化、定制化的决策支持和学习服务。

  2.1 基于嵌入的学习方法

  采用图嵌入的方法对实体关系进行表征,实施基于嵌入式技术的协同学习、多任务学习,引导学习者的主动式学习和深度学习。搭建多任务学习框架,涵盖图嵌入和推荐模块,对各个模块进行学习训练和过程监督,落实具体学习任务[2]。

  2.2 基于路径的学习方法

  利用图谱中实体间的关系进行学习推荐,通过知识图谱与学习者、学习资源的深度耦合,搭建基于知识图谱的学习资源图库,捕获实体之间的连接关系,对于具有相似性的实体推荐学习资源,针对不同路径的实体进行计算和分析,获悉其具体结构特征及内在关联性。还可以引入MCRec、PKGE等算法,挖掘学习者的主观学习需求、学习路径、学习特征,探寻学习者、学习资源,表征学习实体之间的对接通道,在学习推荐架构中进行建模,学习不同学习者与学习资源的映射关联逻辑。

  2.3 基于知识图谱的LPRM推荐方法

  采用由底而上、自顶而下的不同策略,搭建课程知识图谱,实现学习者的学习课程的链接,极大地提高了学习课程推荐的精准度[3]。课程知识图谱的构建过程如图1所示。

  知识图谱三元组的实体构造极其复杂,其间的各个节点形成交互式的整体,而各实体之间的关系则演化为该网络中的边线,可以运用度中心性、H指数中心性、DH指数中心性来计算各个节点的影响力,提高计算结果的合理有效性。

  基于知识图谱的学习者个性化学习资源推荐模型(简称LPRM模型)是知识图谱的一种量化方法,通过在线课程平台识别并获取课程数据,包括各种结构化或非结构化的课程数据,经过抽取、筛选的方式获得结构化数据,利用更加精准的方法进行物品之间的相似度计算。在LPRM模型中,根据知识图谱迭代扩展学习者的学习欲望,扩散学习资源,累积叠加生成学习者的偏好分布、潜在兴趣、学习特征等,生成学习者相对应的偏好集合。

  3. 基于知识图谱的大数据学习推荐方法应用

  3.1 基于知识图谱邻接实体分组聚合的学习推荐方法

  知识图谱是一种结构化的知识表示形式,以图的形式描述、表达、存储知识,用于图结构数据的查询和推理验证。知识图谱的核心思想是将知识组织成图结构形式,将不同领域的知识整合于同一架构,形成完整、全面的异构知识网络。

  (1)嵌入模型的构建。基于知识图谱邻接实体分组聚合的学习推荐方法是一种创新方法,通过将用户-交互项目及其邻接实体进行分组,聚类生成三元组集合。在这种基于图注意力网络的实体关系嵌入模型中,查询输入候选项目,连接知识图谱,生成用户-项目-实体异构知识图谱,在系统嵌入层形成用户偏好捕获模型,捕获系统用户的细粒度偏好[4]。

  (2)实体聚合和关系嵌入。利用高维离散数据向低维连接向量空间映射的技术,将离散数据转化为连续的向量表示,使离散的符号化词语表征为低维向量,捕获数据之间的语义与关联关系,为下游数据分析和推理提供支持。

  关系嵌入是以提高用户偏好向量的鲁棒性和表达能力为目的,通过拼接三元组数据获得向量表示,利用向量线性变换进行向量降维,提高模型的泛化能力和训练效率。在模型之中,通过参数共享减少模型的复杂度,降低模型的复杂性和拟合风险,提高模型的训练效率和表达能力[5]。

  (3)模型训练分析。查询嵌入表可获取给定候选项目,计算出用户偏好表示向量和项目表示向量,其本质是一种二分类问题。通常可以采用以下几种损失函数进行表达。例如,二分类交叉熵损失是一种适用于二分类任务的损失函数,用于衡量模型输出的概率分布与真实标签的差异,帮助学习者进行模型分类和输出;Hinge损失用于衡量模型输出分数与真实标签的差异,支持向量机和最大间隔分类器等线性分类模型,提供数据拟合训练,避免过拟合的现象[6]。

  3.2 基于知识图谱三元组多层次聚类的学习推荐方法应用

  基于知识图谱三元组多层次聚类的推荐方法则是多层次、三元组知识层次的表征建模,属于对项目属性及其邻接实体的多级分组聚类。通过知识图谱感知学习推荐系统中的用户偏好,构建实体集合层注意力机制和项目集合层注意力机制,生成三元组多级聚类层次注意力模型。

  (1)知识图谱嵌入模块。通过学习实体、关系的嵌入式表达,将复杂关系和语义信息转化为计算机可识别、可处理的形式,实现实体关系向低维向量空间的映射。由于传统基于规则或基于统计的方法存在滞后性,对于复杂的语义关系和推理任务缺乏可学习性,因而可以通过向量之间的计算进行推理,捕获实体之间的语义关系,提高知识表示和推理的准确性,实现对不同源知识的统一表示和处理。

  (2)实体集合注意力层。根据实体在该层次中的关系类别属性,捕获用户的爱好特征。在实体集合抽取完成后,利用图注意力网络构建实体注意力层,聚合生成实体集合的表示向量。通过关系嵌入的方式,增强每个实体集合的异构性,实现实体集合的聚合[7]。

  (3)项目集合注意力层。根据用户交互项目的类别属性,将交互项目聚类到不同的项目集合,利用推荐系统挖掘不同项目集合在类别属性方面的异质性信息,增强用户偏好的针对性和有效性。项目集合的聚合要考虑用户的偏好,针对性地聚合用户所有项目集合。

  (4)模型训练。给定用户和候选项目,将其输入知识图谱嵌入层,获取候选项目表示向量。在知识图谱嵌入式学习任务中,可以通过比较实体和关系之间的嵌入向量,运用知识图谱嵌入任务损失函数和推荐任务损失函数,表达实体关系的嵌入过程。

  4. 基于知识图谱关系感知注意力卷积的学习推荐方法应用

  4.1 预备性知识

  图卷积神经网络(GCN)是用于处理图数据的神经网络模型,其核心在于聚合各邻接节点的特征,通过矩阵运算进行信息交互和更新,并通过应用激活函数和神经网络层进行多次迭代,在学习和推理的过程中获得深层次的节点表示向量,较好地适用于基于图数据的节点分类、连接预测、推荐系统。

  在系统的门控循环单元中,通过引入门控机制处理序列数据,以更为简洁的结构和更少的参数,由更新门和重置门两个门控单元实施控制,捕获序列数据中的长期依赖关系,为自然语言处理、语音识别、机器翻译提供支持[8]。

  4.2 关系感知注意力图卷积神经网络模型的构建

  由于知识图谱具有不完整性,现有基于GCN的聚合方法缺乏显式的实体关系,可以借助关系感知注意力权值替换邻接矩阵中的二进制值,实现差异化的信息传播与节点聚合[9]。

  在该模型的用户偏好捕获模块中,可以设计契合用户偏好和项目吸引力捕获的模型,搭建一个包含用户潜在感兴趣实体的知识图谱,通过查找用户-项目交互矩阵,抽取用户的交互项目序列,以此作为种子实体并进行随机采样,生成相应的兴趣知识图谱。在该知识图谱中,聚合兴趣知识图谱中的不同关系实体,筛选生成用户细粒度兴趣偏好,计算基于关系感知的用户兴趣偏好向量。同时,还可以采用最大池化操作函数进行特征提取和处理,通过注意力机制自适应学习下的兴趣偏好,体现出特定用户兴趣偏好的贡献程度。

  在项目吸引力捕获模块之中,构建用于描述项目特性的知识图谱,在特质知识图谱的邻接实体中呈现项目辅助性信息,将关系感知注意力图卷积神经网络应用于特质知识图谱,捕获所感知的项目特质信息。项目吸引力是指依赖于特质信息的项目受欢迎程度,根据用户与候选项目的交互情况,提取特定用户的时间序列,获取序列在某一位置的隐藏状态。

  在门控过滤机制模块中,考虑到可能存在的潜在噪声信息,可在知识图谱的构建过程中引入不相关实体,构建一种门控过滤机制,滤除可能存在的噪声信息,保留用户偏好和项目吸引力信息。

  5. 融合多种课程资源的学习路径推荐方法应用

  随着以知识图谱为核心的新一代人工智能技术逐渐成熟,要以课程推荐、相似知识点推荐、知识点检索、可视化应用等技术为依托,快速定位和扫描知识盲点或易于混淆的知识点,帮助学生进行个性化学习。

  5.1 课程教学资源数据的获取

  多模态教学数据包含各种非结构化或结构化的数据,可以作为知识图谱的一种补充。在教育学习实践过程中,教师可以利用文字、微课视频/音频、图片、教案、PPT等方法,利用网络爬虫技术和人工渠道获取学习信息,为后续算法的应用及可视化分析提供数据支撑。

  5.2 数据预处理与存储

  由于课程资源较为丰富,表现出多样化的形态,可以利用多任务的通用信息抽取技术UIE,对各课程的知识点数据进行实体抽取和预处理。具体操作中可以引入少量样本数据进行标注训练,通过Prompt方式进行建模和微调,通过数据标注平台、图形化的标注界面进行一站式导入、导出。以知识融合技术作为平台支持,对数据预处理过程存在的冗余加以剔除,避免形成数据歧义,保证数据集的标准化和有效性[10]。

  5.3 课程专业知识图谱的构建

  运用关联规则挖掘方法进行课程关联挖掘,在实体识别、关系提取等技术的支持下,抽取文本数据元素,获取知识点之间的相似、先修、并行、后继等关系。基于这一前提,构建大数据相关课程专业知识图谱,嵌套进入Flask框架并进行展示。

  结语

  个性化学习资源推荐技术与学习者的学习需求相适应,由于传统推荐方法存在局限性,可以引入基于知识图谱的大数据学习推荐方法,运用相关技术挖掘学习者和学习资源中的高阶语义关系,利用课程知识图谱作为学习资源推荐的辅助信息,为需求者提供多样化、个性化的学习推荐。

  参考文献:

  [1]覃湘荔.基于知识图谱的教育信息资源个性化推荐方法[J].无线互联科技,2024,21(8):80-82.

  [2]冯勇,孙宇,徐红艳,等.基于知识图谱的短视频实时推荐方法研究[J].辽宁大学学报(自然科学版),2023,50(4):302-311.

  [3]葛湘巍,刘洋.基于知识图谱的多源无标签数据推荐算法[J/OL].计算机仿真,1-6[2024-09-18].http://kns.cnki.net/kcms/detail/11.3724.TP.20240506.1330.004.html.

  [4]陈海英,吴芳.基于数据挖掘算法的高职数学线上学习资源推荐方法[J].信息与电脑(理论版),2023,35(13):108-110.

  [5]孙雪莲.基于知识图谱的公共文化资源个性化推荐方法的研究与实现[D].南京:东南大学,2023.

  [6]李程,丁钟.基于数据驱动和知识图谱的电影分类推荐方法[J].云南师范大学学报(自然科学版),2023,43(5):41-44.

  [7]李月,李琳,陈丽,等.基于图神经网络的学习推荐算法研究[J].现代计算机,2023,29(16):27-32.

  [8]汤志康,武毓琦,李春英,等.基于知识图谱卷积网络的学习资源推荐[J/OL].计算机工程,2024,50(9):153-160.

  [9]周北京,王海荣,王怡梦,等.知识图谱的双注意力机制推荐方法[J].中国科技论文,2024,19(2):178-185,223.

  [10]周北京,王海荣,王怡梦,等.图谱嵌入传播的推荐方法[J/OL].计算机应用,1-10[2024-09-18].http://kns.cnki.net/kcms/detail/51.1307.TP.20240103.0847.002.html.

  作者简介:魏源锋,本科,工程师,762403893@qq.com,研究方向:大数据。

关注读览天下微信, 100万篇深度好文, 等你来看……