基于深度学习的线上教学专注度视觉评估系统

  • 来源:互联网周刊
  • 关键字:人脸识别,深度学习,学生专注度
  • 发布时间:2022-10-23 21:58

  摘要:随着互联网技术的高速发展,线上课堂逐渐成为重要的教育场景,并不断促进教育改革创新。与此同时,基于计算机视觉技术的课堂观察和教学评估方法在学者的深入研究下愈发成熟,为教育理念的发展提供了新的思路,也为教育质量提供了可靠的保障。本文分析如何将线上课堂场景与基于计算机视觉的专注度评估技术紧密地结合起来,以人脸识别、情感计算等相关的深度学习技术为核心,设计出实时高效的线上教学专注度视觉评估系统。文中提出的系统通过人脸检测和关键点识别等技术验证学生身份,并检测头部转动角度、眼睛张合度、视线聚焦点、人脸情感积极性等特征来综合判断学生专注度,为线上教学的专注度评估提供可靠的视觉算法解决方案。本文首先探讨线上教学专注度视觉评估的研究背景和意义,然后深入分析相关技术的研究,并提出线上教学专注度视觉评估系统的整体框架,最后发表对研究的总结和展望。

  引言

  近年来,不少国内外研究者通过将视觉技术应用于课堂来对教学活动进行评价。2016年,孙亚丽提出了基于人脸检测的小学生课堂专注度的研究[1],将学生有效抬头、有效低头作为专注度相关的判断依据;2017年,段巨力提出了基于机器视觉的学生上课专注度的分析评测系统[2],系统包括侧脸算法、抬头低头算法、眼睛张合度算法,通过这一套算法结合人脸识别算法提取人脸特征向量来对学生课堂专注度做出客观评价;2019年,唐康提出了人脸检测和表情识别研究及其在课堂教学评价中的应用[3],通过朴素贝叶斯分类的表情识别和评分方法对人脸情绪进行正负面的分类及评分,进而通过人脸情绪正负积极性对学生专注度评估。通过类似视觉技术评估课堂专注度的相关研究近年来越来越多,有些文献和应用中也通过对学生的身体姿态识别来间接地对学生课堂状态进行预测,有些前沿研究中通过三位人脸建模更精确地还原学生的上课状态。但学生上课状态的复杂性、线下课堂中学生的空间位置存在相互遮挡、线下课堂人脸疲劳检测等问题,对线下课堂评价方式的有效性存在一定程度的制约。

  随着线上教学的应用和推广,线上教学评价系统的设计也逐渐被研究者们所关注。相比于线下课堂的专注度评估,线上课堂可以通过登录账户直接建立学生上课视觉信息的个体数据库,不需要对学生个体逐一地进行人脸识别后再建立个体数据库,处理数据的过程将会更加简便高效;通过电脑前置摄像头拍摄的人脸图像更清晰,可以得到更精确的人脸关键点等特征,用于人脸检测和人脸关键点定位的算法模型更轻量、更高效;同时,线上课堂也不存在人脸遮挡和疲劳检测等问题,通常只需要单目标人脸检测。综上所述,课堂专注度的视觉评估系统对于线上课堂具有更高的适用性,因此如何将学生在线上课堂上的视觉信息和人脸识别相关的深度学习技术更好地结合起来,将会成为教育研究者的关注热点之一。

  1. 相关视觉技术

  人脸检测是指在动态复杂的场景下检测出图像中是否存在人脸,并框出人脸位置用于进一步的人脸分析。经典的人脸检测系列算法包括Faster-RCNN系列、SSD系列、特殊的级联CNN系列,其中MTCNN算法就是一种基于深度学习和人脸对齐的级联CNN算法,2016年在IEEE-SPL发表,通过由粗到细的三个子网络PNet、RNet、ONet逐步完成对人脸的精确检测,同时通过设计损失函数对预测的人脸框进行校正和优化,并调整各个部分损失函数所占的权值来满足不同子网络的训练目标需求[4]。MTCNN网络的前向预测操作运用了级联的思想,结合了人脸检测和人脸对齐的内在联系来提升性能,速度快且达到了人脸检测效果的前沿水平[5]。

  对人面部状态和专注度的研究离不开对人眼的观察。特别是在学生上课、司机开车等需要高度专注的场景下,对人眼睛状态的研究显得尤为重要。近年来有诸多生物学和人类行为学的研究表明,人在专注、发呆、犯困等不同的精神状态时,人眼睛的张合度、眨眼频率等特征有着明显区别。通过对人的眼睛进行相应的监测和特征提取,对人脸图像的逐帧分析,可以检测到人眼张合度的变化和眨眼频率的变化,显著地体现专注度的情况。

  在人眼睛睁开的状态下,眼睛形状可近似为椭圆形。人眼睛张合度的定义是睁开时眼睛的最大高度和最大宽度的比例。通常情况下,人的眼睛张合度越大,所能看到的信息越多,专注度也相应地越高。人眼睛张合度预测的一般流程为:利用人脸关键点算法定位的人眼轮廓关键点得到相应的人眼眶,再通过人眼眶更加精确地检测出人眼轮廓,进而计算出人眼张合度。

  视线聚焦点预测也称作注视点预测,是视线评估的一项重要任务,也是基于机器视觉研究专注度中不可或缺的一环。与人脸识别的其他领域相比,视线评估属于比较小众的研究方向,但近年来随着机器视觉逐渐渗透到现代生活的方方面面,对于视线评估算法的研究也有很大的发展。视线评估包括注视点估计、注视目标估计、三维视线估计,广泛地应用于VR、游戏、医疗、辅助驾驶和其他交互类应用等领域。其中,注视点估计是以眼睛图像或人脸图像为处理对象,估算人的注视点位置。

  自2015年,诸多人脸团队都开始了对注视点预测算法的研究[6],其中较为经典的算法是来自MIT Antonio Torralba 组发表在CVPR 2016的注视点估计iTracker网络模型。其网络有四个输入,分别为左眼图像、右眼图像、人脸图像、人脸位置,并分别由四条支路处理,融合后输出得到一个二维坐标位置表示注视点位置。Google团队也根据这个网络做出了一些改进,通过将人脸和人脸位置这两个输入替换为四个眼角的位置,优化了原模型信息冗余的问题,可更高效地预测注视点。2019年的ICCV Gaze Workshop中也发表了注视点预测的监督和非监督的小样本学习模型[5],如SAGE模型等。

  对面部表情和微表情的研究具有重大的社会意义和商业价值。面部表情表达了个体的情绪状态,是心理状态的外在表现。人类的面部表情至少有21种,包括高兴、吃惊、悲伤、愤怒、厌恶、恐惧6种常见表情和能被区分的15种复合表情。微表情是一种更加细微的表情,是人类在试图隐藏真实情感时无意识做出的短暂的面部表情。微表情通常分为厌恶、愤怒、恐惧、悲伤、快乐、惊讶、轻蔑7种。

  传统的面部表情特征提取方法大致可分为基于静态图像的方法和基于动态图像的方法,其中基于静态图像的特征提取方法主要有整体法和局部法,基于动态图像的特征提取方法主要有光流法、模型法和几何法;传统的特征分类方法分为基于贝叶斯网络的分类方法和基于距离度量的分类方法,如近邻法和SVM分类器。特征提取方法的效果很大程度地影响了分类的效率和精确性,但传统的特征提取方法过于烦琐且不够精确。

  随着深度学习技术在视觉领域的算法研究愈发成熟,面部表情的特征提取也逐渐摆脱了烦琐的传统方法转而利用深度学习网络,深度学习网络对图像有较好的提取特征能力。利用人脸关键点识别定位出的人脸关键点可用于进一步拟合人脸表情系数并得到人脸的表情属性,人脸表情系数则是通过训练输入为人脸关键点位置、输出为表情分类属性的表情分类器得到的。需要注意的是,在需评估专注度的场景下,使用常见的人脸表情属性进行分类识别是不合适的,诸如高兴、吃惊、悲伤、愤怒、厌恶、恐惧这些情绪通常情况下不会在课堂上出现。因此,韩丽等[6]在调查研究了大学课堂中学生心理的实际状态后重新定义了5种表情状态:倾听、疑惑、理解、抗拒、不屑,并分为积极和消极两种情绪,从眼、眉、嘴部以及头部特征来衡量辨别5种人脸状态。

  2. 专注度线上评估系统

  以计算机视觉和人脸识别相关技术为核心,结合中外学者对于课堂专注度的调查研究,我们为线上课堂设计了专注度线上评估系统框架,如图1所示,包括感知层、数据层、算法层、应用层四大系统模块,为线上教学评估提供了全新高效的解决方案。

  感知层,又称为线上课堂视觉数据采集模块,是线上专注度评估系统的感知终端,通过采集学生上课所产生的非结构化视觉数据并用于专注度评估。感知终端所使用的设备为学生端电脑的前置彩色摄像头,可以采集到学生的胸部以上的视觉信息,并实现无侵入式数据采集,不影响正常的教学活动。数据层,即视觉信息数据库,是感知终端收集到上课时产生的数据组成的数据库。根据学生ID创建个体视觉数据库能高效地对特定学生进行专注度分析,方便评估特定学生个体在某一段特定时间内的专注度变化情况,且通过建立统一的时间线也将有助于不同学生实时状态的对比分析。算法层,如图2所示,顾名思义是深度学习算法模块,也是整个系统框架的核心。通过对数据层的视觉数据进行分析来完成专注度评估,其核心算法包括人脸检测、人脸关键点定位、人脸验证、眼睛张合度预测模型、头转动角度预测模型、视线聚焦点预测模型、人表情积极性预测模型,最后通过上述算法得到的特征进一步训练专注度预测模型,对学生个体专注度和课堂整体专注度进行评估。应用层,则是线上专注度评估系统框架的最顶层,通过接收算法层的数据处理结果和评估结果在电脑应用端直观地进行显示。评估将分别反馈给学生和教师,并给予相应的奖励和提醒机制来提升教学效率和质量,同时还能为教育管理者和研究者提供各项定制化的服务和评估,为教育模式的改革和创新提供参考。

  新冠疫情对于学校和各类教育机构都有不同程度的影响。疫情期间面向学生和教师的智慧学习管理系统搭载了基于视觉的专注度评估功能,能结合人脸检测、注视点预测、情感分析等深度学习技术对学生的课堂专注度进行评估,从而保障了学生在线上课堂期间的高效学习,同时也为老师的教学管理以及对学生的引导监督提供了准确的依据。系统通过人脸检测识别学生身份后开启线上进入课堂权限,并获得学生设备的摄像头权限抓取学生每一时刻的清晰面部图像和所处环境的概况,再通过注视点检测和情感分析等技术评估学生每一时间段的专注度和学习状态。学生能通过系统的提醒来调整自己的学习状态,同时教师也能通过系统应用实时查看学生整体和个体的学习情况,相互促进和调整,这种新型的课堂管理模式比线下课堂更加高效。

  针对地理上的教育资源分配不均问题,面向偏远地区学生的线上智慧教育系统能有效地将优势的教育资源和师资力量与跨越时间和空间限制的互联网技术结合起来,更好地传播知识和分配教育资源,从单一的课程视频学习模式转变为多维度多模态的互动式学习。老师能通过系统统计学生的实时专注度和情感分析来判断学生对教学内容的理解程度和重视程度从而改善提升自己的教学方式,也能针对性的对每位学生个体有了充足的认识和理解,充分调动了学生的积极性,同时也避免了单一化、灌输式的教学视频录制所带来的学习不到位、不充分等问题。

  结语

  尽管当今在各种教育环境下都会应用到线上教学的模式,但其教学效果通常受制于时空因素和师生间的互动性缺乏等诸多问题。因此,线上课堂专注度视觉评估系统对于保障教学效果显得尤为重要,同时也为教学理念的创新和教育方式的改革提供了新的思路。

  线上专注度视觉评估系统不仅可以应用于课堂等教育场景,也可以应用于线上协同合作和居家办公等办公场景,项目负责人能客观地、实时地了解到个体的工作状态;还可以应用于驾驶等需要高度专注的场景,连接线上专注度评估系统的车载摄像头能实时评测司机的驾驶状态,并在必要时提醒司机;还能迁移到游戏和网络视频等娱乐场景,为客户和网友定制个性化的服务。如何将线上专注度视觉评估系统更好地应用于各领域,将会是下一阶段的工作重点。

  参考文献:

  [1]孙亚丽.基于人脸检测的小学生课堂专注度研究[D].湖北师范大学,2016.

  [2]段巨力.基于机器视觉的学生上课专注度的分析评测系统[D].浙江工商大学,2018.

  [3]唐康,先强,李明勇.基于人脸检测的大学课堂关注度研究[J].重庆师范大学学报(自然科学版),2019,36(5):123-129.

  [4]Guo XJ, Li SY,Zhang JW,et al.PFLD: A Practical Facial Landmark Detector[J].CoRR,2019,abs/1902.10859.

  [5]Wu W,Qian C,Yang S,et al.Look at Boundary:A Boundary-Aware Face Alignment Algorithm[J].CoRR,2018,abs/1805.10483.

  [6]韩丽,李洋,周子佳,等.课堂环境中基于面部表情的教学效果分析[J].现代远程教育研究,2017,(4):97-103,112.

  作者简介:谢沈惟,本科,研究方向:计算机视觉。

关注读览天下微信, 100万篇深度好文, 等你来看……