基于Hadoop的高校大数据平台构建研究
- 来源:互联网周刊 smarty:if $article.tag?>
- 关键字:智慧校园,共享数据中心,大数据平台 smarty:/if?>
- 发布时间:2023-08-04 14:53
文/王冬梅 南京城市职业学院
摘要:高校业务系统数据资源的结构、内容以及数据利用价值还不够清晰,尚未真正发挥应有作用。以笔者所在高校为例,本文介绍基于Hadoop的“智慧校园大数据平台”的数据建设方案。文章根据学校现状提出适合高校信息化建设的数据治理方案,主要通过Hadoop分布式系统架构为大数据存储提供底层支撑,通过共享数据中心存储权威数据,通过智慧校园大数据平台实现数据流调用和共享,为大数据分析和决策提供依据。
关键词:Hadoop集群;智慧校园;共享数据中心;大数据平台
引言
高校业务系统与校园信息系统紧密结合,形成了海量数据资源,但这些数据资源的结构、内容以及数据利用价值还不够清晰,对信息共享、处理涉及多个系统之间的协调时,需要整合多个系统的数据、资源,处理跨数据库、跨平台等多方面的工作,数据流程容易产生混乱,尚未真正发挥应有作用。需要形成统一的数据服务链,构建数据仓库,提高数据可视化监控能力,为上层应用提供数据服务[1]。同时,在高校信息化建设的过程中,学校各业务系统所产生的数据都是以结构化数据为主,但在教学过程中产生大量的非结构化数据,如在线课程资源、学习行为轨迹数据、上网行为数据等。为探索有效解决以上问题,实现智能预测、智能辅助决策与管理的高校智慧校园,以笔者所在高校为例,本文引入高校“智慧校园大数据平台”的概念,平台充分兼顾各种数据源类型的集成、治理和可视化要求,提供统一集成和共享服务。
1. 高校大数据治理与建设目标
平台架构的设计需要充分考虑其先进性并且可以落地实施,能为学校下阶段的发展提供有力支撑,建立数据生产、数据治理、数据开发以及数据应用的闭环数据生态,建设高校权威数据中心,明确数据利用价值,为大数据分析提供基础。建立数据收集、存储、处理、分析和使用等方面的规范,包括数据访问权限、数据质量评估、数据备份和恢复等措施。
高校数据治理与建设的一般目标如下:
(1)统一数据标准,沉淀公共数据。智慧校园大数据平台可以将散乱的数据整合起来进行统一管理,使得数据更加全面、准确、可靠。这有助于提高数据质量和可信度,从而为大数据分析应用打下更加稳定、精准的数据基础。
(2)实现快速数据处理。智慧校园大数据平台可以利用分布式计算技术和并行处理技术,加快数据处理速度,这对于需要快速响应的大数据分析应用非常重要,可以大大提高数据处理效率和分析速度。
(3)保障数据安全。治理后建设的智慧校园大数据平台可以实现对数据的安全保护,包括数据权限管理、数据备份与恢复、数据加密等功能,可以有效地防范数据泄露和数据损失风险。
(4)实现数据共享与协作。智慧校园大数据平台可以建设共享数据中心,通过共享数据中心、角色授权、API接口等提供多用户协同工作环境,支持不同用户之间的数据共享和协作,这对于开展大规模跨学科、跨部门合作研究非常有益,可以加速知识创新和科学进步。
(5)探索数据挖掘与分析。可以集成各种数据挖掘和分析工具,如机器学习、数据可视化等,帮助用户更加深入地挖掘数据的内在规律和价值,发现新的知识和洞见,从而为科学研究和教育教学服务。
2. 基于Hadoop的校园大数据平台整体架构设计
以笔者所在高校为例,介绍本校“智慧校园大数据平台”的核心架构。基于Hadoop 生态集群以构建底层服务支撑,以各种可视化图形的方式呈现给各类业务人员,满足不同角色用户的需求,实现数据价值。
2.1 整体架构
整体架构设计需要充分考虑其先进性并且可以落地实施,能为学校未来五年的发展提供有力支撑。基于共享数据中心建设的大数据生态链,以现有各类业务的数据为底层支撑,将智慧校园相关数据采集到Hadoop集群中进行分布式文件存储,具体如图1所示。通过建设共享数据中心,构建大数据生态链,对资源进行整合和业务流程优化,通过分布式文件系统 Hdfs对多维数据进行关联、分类、降维、聚类分析与可视化呈现。
2.2 数据源层
当前高校信息化建设中,各应用系统建设以业务需求为导向独立运行,同时安防监控、在线课程资源、上网行为等非结构化数据资源在智慧校园建设中的作用已经体现。为实现智能预测、智能辅助决策与管理的高校智慧校园,建设权威的数据管理平台须首先确定数据来源,形成有效的数据资源,为各类业务或决策系统服务。数据来源应包括现有业务系统的数据(如教务、科研、人事等)、职能部门数据、师生用户行为轨迹数据、日志数据等。数据源层集成新的本地数据、网络数据,开发智能填报系统采集临时、零散数据,完善信息标准、深入数据治理、提高数据质量及数据安全、为建设校级全量数据中心打好基础。同时在数据处理过程中须结合教育部标准,制定规范,设计校级的数据标准,对结构化数据、非结构化数据、流数据须进行标准化转换,分类管理。
2.3 数据存储模块
运用云计算技术,采用 MapReduce算法和HDFS分布式文件系统,建立分布式数据库 Hadoop集群系统,为师生提供在线的数据存储服务,采用 hdfs、hbase 和 sqoop 对数据进行存取,其中hdfs已成为大数据磁盘存储的事实标准,主要应用于海量日志类大文件的在线存储。 数据存储层借助于Hadoop的MapReduce模块将数据批量写入HBase分布式数据库中,Hadoop计算机集群的架构为主/从部署架构,也就是Master/Slave部署架构[2],使用一个管理节点、多个子节点的方式,保证数据的安全性和可靠性,实现数据的冗余存储。各业务数据经采集、清洗后存储于共享数据中心,形成权威的数据存储仓库。共享数据中心采用数据分区设计,如缓冲区、核心区、主题区等。一方面,对不同类型数据进行区分,保障数据体系的划分清晰和区域内部的灵活扩展;另一方面,根据不同的数据分区内数据特性的不同,可以设置不同的安全和访问策略。
2.4 数据接口模块
数据接口模块承担连接不同源头和目标业务数据的任务,并将其以一种可接受的格式传递到目标位置。该模块还负责数据清洗、转换和处理等任务,确保数据的准确性和一致性。常用的数据交换技术有ETL、ELT和Data Virtualization。ETL技术将数据从源系统中提取出来,经过转换之后再加载到目标系统中;ELT是在将数据加载到目标系统之后再进行转换;Data Virtualization技术允许用户在不将数据物理移动的情况下,通过虚拟视图访问分散的数据源,允许用户对多个数据源进行联合查询,并将结果组合成一个单一的虚拟表。该模块支持为场景化应用开发提供基于HTTP的API数据服务接口,并提供各个API开发规范文档,便于用户或开发商基于API接口数据场景应用,在具体的模块功能设计中,数据接口模块的设计还应考虑支持脚本化开发、勾选式开发、服务化开发等功能。
2.5 大数据分析模块
大数据分析层在Hadoop的Map Reduce编程模型上,构建各类数据分析包,对提交的学生大数据进行分析。例如,笔者所在学校在大数据共享与分析的基础上实现了基于人脸识别的晚归预警提醒、陌生人员入侵校园提醒、可疑人员行为轨迹查询,提前对学生的学业和状态进行有效干预,防止意外发生[3]。基于Hadoop构建的大数据共享服务,实现了教师工作量基础数据的采集,从人事、教务、学籍等各个业务系统中抽取、清洗获得有效数据,进行分析、转换,为教师工作量计算和考核提供了智能化的服务,真正意义上做到了让数据跑起来、用起来,方便了学校的管理。
2.6 数据流向服务设计
从数据流的应用设计来看,共享数据中心主要以业务系统应用为主,供业务人员使用,而各业务系统又可以提供基础数据、辅助数据和中间件服务,各业务系统通过数据交换中间件服务实现了与共享数据中心平台之间的信息共享和交换。此外,各业务系统数据又可以下行至共享数据中心,与其他业务系统共享数据。业务子系统既是数据的提供者,也是共享数据的受益者。相关业务系统可以把数据提供给共享库,如迎新工作可以提供学生信息,其他业务系统可以通过共享库获取数据。
3. 技术架构设计
3.1 数据访问接口API设计
智慧校园大数据平台通过数据访问接口API访问共享数据中心,为用户和不同业务提供数据共享服务,可提供多用户协同工作环境,支持不同用户、不同业务之间的数据共享和协作。笔者所在高校共享数据中心设计通过API来提供数据服务,方便校内各业务快速获取所需数据,同时也增加数据中心的曝光度和影响力。在设计API之前,可按以下步骤进行:(1)明确API的需求和范围、涉及功能,明确目标用户以及需要共享与保护的数据范围;(2)根据需求和范围设计API的调用方式、返回数据格式等;(3)设计API的架构和协议,同时考虑安全性、可扩展性、易用性等因素。例如,选择RESTful API架构,并采用HTTPS协议进行通信,可以提高API的安全性。
3.2 Hadoop集群部署
Hadoop集群是一个分布式的计算平台,可提供海量数据的分布式存储、分布式计算和分布式管理功能。Hadoop集群基于 MapReduce开发框架,集群的数据存储、数据处理、资源管理和任务调度等功能于一体,把任务划分成多个小任务,将这些任务通过 MapReduce计算框架中的 map函数将数据分割成小块后写入磁盘或文件系统中,并使用 HDFS对数据进行存储和管理。Hadoop集群可运行在多个计算机上,包括 PC机、服务器和移动终端。分布式计算能降低系统总体拥有成本,同时还能保证数据的完整性和一致性。
Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode。YARN集群负责海量数据运算时的资源调度,集群中的角色主要有ResourceManager、NodeManager。
智慧校园大数据平台采用Hadoop作为数据处理框架,HDFS作为分布式文件系统。本文大数据平台采用Cluster mode(群集模式)-单节点模式-高可用HA模式部署,该集群模式主要用于生产环境部署[4],会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上,由多个节点构成,具体可视高校所要处理的数量大小以及及时性要求所定,1台作为Namenode主节点,N台作为Datanode从节点。
结语
借助大数据分析与挖掘技术实现辅助教育教学管理、辅助智能决策,优化改革创新,必须从数据治理抓起,对当前系统进行有效整合,提高数据共享,建设校情分析、跨部门数据共享查询、状态数据采集等数据应用,提供能自主设计、管理数据应用场景的工具,形成校级数据应用市场,完善从需求到服务的数据生态链,实现全生命周期管理。逐步清晰数据的利用价值,基于数据生态链实现信息与业务的相互融合,进一步实现大数据分析展示与智能决策需求。
以笔者所在学校为例,随着数据治理的进行,共享数据中心逐步投入信息使用中,对学校的数字化校园建设与学校教育教学管理起到重要的作用,真正意义上做到了让数据跑起来、用起来。利用Hadoop框架分布式文件系统Hdfs和MapReduce,将多维数据进行关联、分类、降维等分析与可视化呈现,开创了智慧校园教育管理决策科学化、管理智能化、监督过程化的新模式,为教育改革和创新提供支持和指导。
参考文献:
[1]万中钰.基于hadoop平台下的数据治理系统的实践及应用[J].长江信息通信, 2021,(11):163-165,169.
[2]胡荣星.高职院校共享数据库平台设计——以南京城市职业学院为例[J].信息与电脑(理论版),2019,(7):240-242.
[3]杨岚.基于Hadoop平台的交通管理数据存储系统设计分析[J].九江学院学报(自然科学版),2022,(4):59-64.
[4]夏曼.基于云计算的农产品电子商务平台的设计与实现[D].南宁:广西大学,2015.
作者简介:王冬梅,硕士,高级工程师,研究方向:大数据分析。
基金项目:南京城市职业学院2020-2023年度校级课题——高校智慧校园大数据采集与分析研究(编号:KY202016)。