必然性、局限性与风险控制:大语言模型时代英语教育产品内容生产改革

  • 来源:互联网周刊
  • 关键字:大语言模型,在线教育行业,内容生产
  • 发布时间:2024-12-23 20:13

  文/薛莹琨 对外经济贸易大学

  摘要:以ChatGPT为代表的大语言模型问世以来,以其通用性知识整合能力、语言组织能力及良好的交互性,成为生活和普通工作场景的高效工具。关于GPT如何助力课堂教学及课后教学效果评测的研究有很多,然而尚未有人详细研究过GPT辅助在线教育行业进行内容生产的优势和劣势。在此背景下,基于作者在线教育行业的从业经验与观察,本文吸纳了自2022年以来学界关于“GPT+内容生产”的各方观点,对大语言模型人工智能协助下的在线教育产品内容生产进行讨论,理顺AI时代内容生产方式变革的必要性、借助GPT进行内容创作的局限性,以及这种模式下内容产出的风险控制方法,以期为在线教育行业的发展提供参考。

  关键词:ChatGPT;大语言模型;在线教育行业;内容生产

  引言

  人工智能技术目前已经渗透到人类生活及生产的多个领域。2023年3月,美国OpenAI公司在GPT-3.5的基础上,推出了基于大语言模型的人工智能通用型产品ChatGPT-4,标志着人类多年来对于一个高度“智能化”的世界的幻想已开始成为现实。

  像影视作品里描述的“智能管家机器人”一样,ChatGPT-4可以轻松完成人机对话,实现自主内容生成。ChatGPT基于其强大的功能,给很多行业的传统生产方式带来了巨大冲击。武汉大学的宋时磊和杨逸云认为,ChatGPT类大语言模型通用人工智能是人类打开自我的“潘多拉魔盒”,势必将对科技、教育、医疗、文学、艺术等领域产生深刻影响[1]。

  下文将分析在线教育行业中,借助ChatGPT大量生成英语内容的必要性、局限性及风险控制手段。

  1. 在线教育产品及内容生产模式介绍

  1.1 在线教育产品分类

  根据提供产品或服务,在线教育产品可以分为在线课程平台、在线教师资源平台、在线直播/录播课程、工具类APP(如在线词典等)、内容型APP(无老师授课,仅提供学习或训练内容)、智能学习硬件、互助学习社区等。本文探讨的是以内容产出为支撑的互联网英语教育产品,以上大部分在线教育产品都需要大量原创内容,因此在讨论之列。

  1.2 英语教育产品内容的传统生产模式

  在大语言模型工具问世之前,英语教育的产品内容生产依赖人工,核心内容包括英语单词、词组、句子、对话、篇章、对应中文翻译的生产,只能依靠人力进行检索、修改、编辑等。这种方法的优点是能够保证内容都是人工干预过的,出现严重内容质量问题的概率较小,但缺点是生产效率低、较为依赖教研员的个人能力等。

  2. 大语言模型时代教育产品内容生产新方向

  ChatGPT虽然不是专门为教育而开发,但教育发展从来不乏对新技术的应用与融合[2]。借助新技术,教育产品内容生产必将实现效率与质量的升级。

  2.1 海量文本内容自动化生成

  借助ChatGPT及其背后的大语言模型,产品设计者可以生成海量文本内容。目前的大语言模型已经能够较好地自主完成包括翻译、问答等在内的自然语言处理(natural language processing,NLP)任务。线上教学产品需要海量的教学资源,如单词、短语、句子,甚至是练习试题、试题答案及解析等文本材料。以上内容都可由人下达指令(prompt),由ChatGPT完成,甚至可以在一个指令下完成多个任务,例如:

  指令:

  你好,我是一名大学英文口语老师,请帮我设计一篇关于“问路”的口语示范对话,里面的重点单词及表达请额外列出。

  ChatGPT:当然可以,以下是一篇关于“问路”的英文口语示范对话,包括对话内容和重点单词及表达的列表。

  示例对话:

  旅行者:Excuse me, could you tell me how to get to the city library from here?

  当地居民:Sure. Go straight down this street for about 10 minutes, then take a left turn at the traffic lights.

  ……

  重点单词及表达:

  Excuse me: 用来礼貌地打断某人,开始对话。

  go straight down: 直走。

  take a left/right turn: 向左/右转。

  ……

  由此可见,ChatGPT在文本生成任务中有不俗的表现。

  2.2 英语文本的翻译

  近年来,以技术手段为核心的翻译模式一直在更新迭代,从开始的人工翻译到后来的计算机辅助翻译,后期迭代为机器翻译译后编辑和交互式机器翻译[3]。庞雅心和王晓燕在对陕西本土文学作品《人生》的翻译研究中,得出“ChatGPT的翻译在语体连贯性和语言风格方面优于有道翻译和DeepL”的结论[4]。诸如此类的研究为我们运用GPT进行翻译任务带来了信心。

  2.3 图像、音频、视频等辅助学习内容的生成

  在线教育产品的商业本质决定了生产者需要想方设法地增加内容的吸引力、有效性和趣味性。例如,目前在手机应用市场搜索“背单词”,能看到数十个背单词App,逐一点进去,没有任何一个APP只包含纯文本内容。例如,欧陆词典、不背单词等App以影视视频片段助记单词为特色,傻瓜英语设计了原创视频助记单词的软件。因此,图像、音频、视频等辅助学习内容就成了必备内容。而ChatGPT优秀的图片、音视频的生成能力明显能为这一过程提效。

  3. 大语言模型参与在线教育产品内容生产的必然性

  知名语言学习软件“多邻国”正逐步引入AI取代外包翻译工,这在很大程度上暗示了整个行业的走向。大语言模型时代到来,语言教育市场必将迎来巨大变革。

  3.1 教育产品本质决定质量需求

  英语内容型教育产品的立身之本在于能够提供高效学习内容。依靠人力生产的资料质量不齐,且极依赖教研员的个人能力和知识积累。例如,如果需要找到一些关于“歧视”主题的英文谚语,教研员靠脑暴或上网搜索,得到的可用结果数量非常有限,但ChatGPT借助其背后数以亿计的训练数据可轻松给出数十条结果,可以大幅缩减脑暴时间。此外,大语言模型是经由大量本土化语言内容训练而来,天然地可以规避大部分语言错误,提升内容质量[5]。

  在线教育产品需要针对性的内容。例如,一个语法板块需要针对性地找到包含定语从句和同位语从句的句子来帮助学生分辨二者。利用ChatGPT可以快速生成多个句子,甚至可以直接生成除了从句部分其他都一样的孪生句子,帮助学生更直观地对比二者差异。类似例子不胜枚举。此外,目前大多数App采取“大量免费内容引流,少量定制化内容变现”的商业模式,而想要真正实现学习内容针对每个学生进行个性化定制,就需要记录学生历史数据,分析学习行为和效果,并针对性地给出能够突破当下学习问题的内容。ChatGPT的情景对话理解、历史记忆能力和针对性内容生成能力正好符合这一需求。

  ChatGPT的以上特点也决定了其适合用来进行教学反馈和学习效果测评。其自有的校对、替换、改述能力能够收集学生的做题数据,给出针对性的评测和改进建议,相当于融合了多个传统学习工具[6]。而如何将基于大语言模型的测评工具引入APP主导的整个学习流程,或许是下一个阶段在线教育产品应该着重发力的领域。

  3.2 商业模式决定生产效率需求

  互联网是一个需要快速开发、快速迭代的领域,所有垂直领域的开发模式或是开疆拓土或是攻城略地,“野蛮生长”是行业代名词。因此,能在短时间内生产高质量的学习内容对于一个发展期的在线教育产品来说尤为重要。对于成熟期的产品,适应行业变化、快速迭代内容是其核心竞争力的体现。当ChatGPT的使用开始规模化,其带来的人力密集型生产模式的成本下降又将是一个明显优势。

  4. 依靠ChatGPT进行教育内容生产的局限性

  4.1 能力不足带来内容质量问题

  在实际工作中,大型互联网公司会直接调用ChatGPT接口,通过代码控制GPT批量生成所需内容,按内容量付费。作者发现,调用接口进行大规模文本生成时,会出现一些日常使用GPT不会或不容易出现的问题。

  (1)胡说八道。尼格尔·柯蒂斯发现,用ChatGPT撰写论文,其生成的文献是无意义的,是由“随机鹦鹉学舌”所产生的虚假文献[7]。传统的英语教育产品内容生成包括词、句、段落、对话等,作者尝试性地在工作中调用GPT使其直接生成练习题目,指令如下:

  我是一名中国初中英语老师,我想给学生出一道单选题目,请根据指定单词balloon帮我造一道“考察词汇含义”的单选题目,需要考核到单词的词汇理解和运用能力,正确选项应该是唯一能够放入句中使句子语义正确的选项。要求生成题目、选项、答案和解析,其中某个返回结果:

  The child was happy to receive a colorful ____ on his birthday.

  A.balloon B. cake C. song D. picture

  答案:A

  解析:……B选项“cake”意为“蛋糕”,虽然蛋糕通常与生日有关,但题干中的描述“colorful 彩色的”更符合气球;……D选项“picture”意为“图片”,尽管也可能是彩色的,但不如气球那样是典型的生日礼物……

  由上述案例可知,ChatGPT在一次性处理大量数据时会产生逻辑不清、编造并自圆其说的现象。

  (2)语言错误、翻译错误。由于GPT背后的海量训练数据未必全部是正确且高质量的,故此类问题在调用接口进行大量操作时也时有发生。例如,GPT给出的完形填空题目:

  Unfortunately, not everyone can be ____ into the venue due to the limited space.

  A. admit B. admits

  此案例说明,GPT对于此题涉及的语法理解有误,因此生成了内容错误的英语题目。

  另外,GPT在大量调用进行翻译的时候会有概率性错误出现。在绝大多数情况下,不错、不漏、不增是对译文的基本要求。以下是使用GPT大量翻译的错误案例:

  原文:Training is a bread-and-butter necessity.

  译文:培训是一个基本的必要性。

  GPT对原文语境理解不够,语法知识欠缺,可以看出大模型训练的一些不良数据在持续影响其表现。相比于增、漏、错译,语言不通顺的问题更多。姜华等认为,GPT在中文语境下的文字理解能力与表达能力明显弱于英文[2]。

  (3)道德风险。姜华等认为,由于ChatGPT难以充分理解信息、分析大模型的内部逻辑,有时会生成偏见歧视、反动仇恨等有害信息[2]。就作者工作经验而言,也经常遇见存在道德风险或政治不正确的言论。如果未加筛选直接面向用户,将给产品带来毁灭性的损害。

  4.2 问题内容隐蔽性强,审核成本高

  经上述分析可以得出结论,GPT直接生成的内容,尤其是批量生成的内容,如果不加筛选和编辑,无法运用到教育产品中。而GPT经常看似正经的胡说八道,给生成之后的内容编辑带来了不小的麻烦,问题识别成本高[8]。

  5. 大语言模型时代教育内容生产的风险控制

  5.1 内容生产后编辑

  相比传统模式下生产内容的校对和审核,审核GPT生成的内容必然需要从更多角度进行把控,如生成内容是否符合逻辑、警惕道德风险等。关于这些编辑工作的提效,或是当下另外一个有意义的研究方向。

  5.2 改进指令,增加测试样本量

  实践者应在工作中总结规律,不断提升指令的清晰度。作者在工作中得知,GPT有“偷懒”的嫌疑,即同一指令少量生成时效果极佳,大量生成内容就会出现“虎头蛇尾”的情况。因此,每次开始批量生产之前,测试样本一定要够多,尽量在500条以上,如果不能接受返回结果的错误率,就尽快修改指令再次测试。

  5.3 根据具体教育目的训练针对性模型

  王贇和张政在其对数字化时代机器翻译的研究中指出,人工译者发挥主体能动性,不仅在应用层面发出指令或作出反馈,更重要的是在技术层面对机器进行深度训练[9]。教育领域对于机器的应用也应如此。教育产品内容生产者作为GPT的使用者和反馈者,可以充当“报错员”的角色,但是模型的完善还是应该以技术人员为主导,争取早期训练出教育行业的专业化大语言模型。

  结语

  大语言模型无疑为教育行业带来了巨大机遇。传统在线教育行业生产模式效率低、过度依赖教研员,且内容生产缺少灵活度,而大语言模型出色的信息整合能力和语言组织能力正好可以填补这一漏洞[10]。本文首先分析了大语言模型时代运用GPT进行大规模内容生产的必要性,但在实践过程中发现,GPT并不是万能的。在完成大量内容生成的指令中,难免出现逻辑错误、语言错误、道德风险等问题,需要额外的审核成本来规避坏内容流向用户。针对以上风险,本文提出了使用者积极调整指令完善用前测试、开发者继续深化模型训练的双管齐下的风险控制手段,以期在未来看到GPT能够独立出色地完成指令,生成优质内容。

  参考文献:

  [1]宋时磊,杨逸云.应用场景、风险与前景:ChatGPT类大语言模型时代的学术出版[J].出版科学,2023,31(5):76-84.

  [2]姜华,王春秀,杨暑东.生成式AI在教育领域的应用潜能、风险挑战及应对策略[J].现代教育管理,2023(7):66-74.

  [3]王均松,肖维青,崔启亮.人工智能时代技术驱动的翻译模式:嬗变、动因及启示[J].上海翻译,2023(4):14-19.

  [4]庞雅心,王晓燕.大语言模型背景下ChatGPT翻译质量研究——以陕西本土文学作品《人生》(节选)为例[J].现代英语,2023(22):67-70.

  [5]王潇潇.人工智能技术辅助小学英语教学的个案研究[D].青岛:青岛大学,2022.

  [6]耿芳,胡健.人工智能辅助译后编辑新方向——基于ChatGPT的翻译实例研究[J].中国外语,2023(3):41-47.

  [7]Curtis N.To ChatGPT or not to ChatGPT? The Impact of Artificial Intelligence on Academic Publishing[J].The Pediatric Infectious Disease Journal,2023,42(4):275.

  [8]蒋鸿基.ChatGPT时代英语教育的机遇和挑战——基于14项实验与准实验的文献分析[J].广州开放大学学报,2024,24(1):47-54,109.

  [9]王贇,张政.数字化时代机器翻译的风险审视及控制研究[J].中国翻译,2022(2):109-115.

  [10]贺静茹,宗悦,吴斌.新一代人工智能对翻译行业的影响探究——以ChatGPT为例[J].科技与创新,2024(19):44-48.

  作者简介:薛莹琨,硕士研究生,翻译中级,wingswhite@163.com,研究方向:互联网教育、机器翻译。

关注读览天下微信, 100万篇深度好文, 等你来看……