生成式人工智能技术赋能大学学术评价：机遇、挑战及应对*

来源:高教探索
关键字:生成式人工智能,学术评价,机遇
发布时间:2024-09-15 20:27

　　石秀选李均

　　收稿日期：2024-03-06

　　作者简介：石秀选，深圳大学高等教育研究所特聘副研究员，深圳大学与澳门城市大学联合培养博士生；李均，深圳大学教育学部执行主任，高等教育研究所所长，教授，博士生导师。（深圳/518060）

　　*本文系广东省哲学社会科学“十四五”规划项目“新时代我国人文社科学术评价治理机制研究”（项目编号GD22XJY11）、广东省高等教育学会“十四五”规划项目“我国人文社科学术评价异化现象及其生成机理研究”（项目编号22GYB067）的阶段成果。摘要：当前大学学术评价面临诸多困境：评价理念重视管理导向，难以满足学术成长价值期待；评价主体执念人为主宰，难以应对知识增长评价需求；评价方法倚重量化指标，难以呈现学术成果本质样貌；评价程序追求价值隐涉，难以确保评价结果公平公正。生成式人工智能技术的勃兴，为大学学术评价范式的转型升级提供了新机遇：构建面向未来的大学学术评价，彰显价值理性；超越人为主宰的大学学术评价，提升评价效能；打破形式主义的大学学术评价，反映真实样貌；削弱主观偏见的大学学术评价，促进结果正当。然而，生成式人工智能技术赋能大学学术评价也面临诸如评价工具理性强化、评价主体失序、全面评价数据缺失、评价信任危机等挑战。相应的应对措施包括：平衡张力，响应多元评价诉求；人机共生，重塑双重主体位序；信息共享，推动开放科学发展；算法透明，增强评价可解释性。在中国式高等教育现代化的背景下，应高度重视生成式人工智能技术对大学学术评价治理现代化的重大意义。

　　关键词：生成式人工智能；学术评价；机遇；挑战；应对近年来，以ChatGPT为代表的生成式人工智能技术的勃兴引起了广泛关注，将对人类经济社会带来极为深远的影响。大学组织作为社会经济发展的重要智力支撑，不可避免受到以ChatGPT为代表的智能技术的巨大影响和冲击。特别是大学学术评价更可能首当其冲受到直接冲击。众所周知，学术评价改革是世界性的难题。数十年来，国际学术界各种改革尝试因为传统观念和各种复杂因素的制约而步履艰难。在国内，2020年颁布的《深化新时代教育评价改革总体方案》已整整满三年，但学术评价仍然是大学教育治理中一个难以言状的难点和痛点，民间甚至有所谓破“五唯”“越破越唯”“越改越卷”的说法。我们相信，随着生成式人工智能技术作为一种新质生产力在经济社会各细分领域的加速赋能及应用，未来学术评价智能体（Agent）的创建有望为化解大学学术评价的困境提供有效的外部驱动力量，对创新大学学术评价理论、推进学术评价范式转型升级、推动大学学术评价实践改革具有重大意义。

　　一、当前大学学术评价面临的主要困境

　　学术评价是以追求真理和知识创新为尺度，对学术活动效果做出价值判断的过程。大科学时代，知识生产模式转型升级，知识数量爆炸式增长，传统的学术评价方式难以有效应对知识合理性、管理有效性、社会贡献性与主体发展性等多元诉求，学术评价的工具理性和价值理性内在张力不断凸显。审视当前整个大学学术评价体系，我们认为,在学术评价理念、评价主体、评价程序等方面面临诸多困境。

　　（一）评价理念：重视管理导向，难以满足学术成长的价值期待

　　学术评价的理念是多元的、复杂的，不同的评价理念会导致不同的评价方式和标准。从大学管理的角度来看，学术评价以决策和目标为中心，把评价结果当作奖惩和资源分配的依据。基于管理的有效性，大学学术评价往往需要提供一个稳定、可靠的参考框架，以便对学术成果、研究者和研究机构等进行评估和管理。以大学学术评价中典型的“以刊评文”现象为例，它采用固定的、预先设定的评价标准来评价论文的质量和价值。学校期刊级别的界定，尤其依赖于期刊的影响因子。“以刊评文”的确提供了一个简单、明确的评价标准，简化了评价过程，提高了管理效率。但是，不难发现:SCI、SSCI、CSSCI与学术评价量化管理相结合的理念,“隐藏的是方便行政管理的考虑,其以客观数据的话语形式对科学和公正的权威性进行诠释，成为行政权力部门在学术资源分配和科研管理中最为需要和最好用的评价方法”[1]。然而，这种以期刊影响因子高低论英雄的传统评价方式实际上是一种面向过去的静态评价，它采用的是自上而下的评价方式，缺乏与研究者的交互，忽略研究者的声音和诉求。第四代评价理论对这种传统的“预定式评价”提出了严厉批判，认为其过分强调“科学实证主义”方法，且进一步支持和强化了学术评价的管理主义倾向。实际上，这种长期以来占主导地位的量化评价深受泰勒“科学管理主义”思想的影响，采用行为目标模式，虽然便于管理，但不利于对学术成果进行综合和全面的评价，也不利于促进评价对象的专业发展。

　　·人工智能与高等教育·生成式人工智能技术赋能大学学术评价：机遇、挑战及应对（二）评价主体：执念人为主宰，难以应对知识增长的评价需求

　　在学术评价过程中，评价主体是维护学术质量的关键因素，是学术品质的重要守护者。从古至今，人在各类评价体系中占据绝对主宰地位，大学学术评价也不例外。这是因为人的评价不仅仅是基于逻辑和理性，更是基于情感、价值观和文化背景，人的评价总是具有深度和多样性。然而，特别是进入大科学时代以来，全球学术成果发表数量呈显著增长趋势，人的评价能力很难满足日益增长的学术评价需求。2018年，美国自然科学基金会报告提出，过去十年全世界同行评议的科学和工程类期刊论文以及会议论文数量以平均每年约4%的速度增长。[2]同年，国际科学、技术和医学出版商协会（STM）则统计出，自17世纪以来同行评审期刊数量以每年3.5%的速度稳步增长，2008年至2018年增速达到每年5%-6%，每年平均发表150万至300万篇文章。[3]随着学术论文出版数量的不断增长，同行评议面临越来越大的压力。不仅如此，从知识生产模式的转型升级来看，知识生产模式Ⅰ、模式Ⅱ和模式Ⅲ的知识生产结果显著不同，呈现出从学科知识，到社会弥散的、具有社会问责和反思性的知识，再到形成多种集群、创新网络和创新生态特征的知识。可以发现，知识生产模式日趋复杂，对传统评价主体知识有限性提出了更为严峻的挑战。概而言之，理论上重视人在评价中的主导作用无可厚非，但评价实践中过于强调人为的绝对性，把人当成评价的绝对主宰，就容易走向偏执，必然会导致评价的局限性。

　　（三）评价方法：倚重量化指标，难以呈现学术成果的本质样貌

　　“引文分析评价具有事实上的客观性、数量上的可积累性、学科上的公平性、实践上的易操作性等优点。”[4]因此，作为科研量化评价指标的引用次数一直是国际上通行的做法和普遍趋势。引用次数已成为一种广泛认可的评价标准，深刻影响着全球的学术评价体系。审视当下的大学学术界，从SCI、SSCI、A&HCI、CSSCI等学术期刊索引，到H指数、P指数等学者评价指标，再到ESI、QS、THE、软科等学科与大学排名，均将学术引用次数视为学术评价体系的基石。以引文分析为基础的量化评价简单、直观，反映了现代社会对于效率的追求，为大学学术界带来了一种明确的激励机制。然而，量化评价的局限性显而易见。从引用目的来看，学术引用是研究者出于学术创作的一种建构行为，并不具备直接的学术评价功能。为了提供更有说服力的证据，研究者更青睐于引用名刊、名家与主流语言国家学术成果，这种片面性会引发学术引用的“马太效应”，导致某些独特的、创新的学术成果被低估或忽视。实际上，引用次数更多是对学术影响力的测度，并不能呈现学术成果的整体性样貌。学术评价实践中过于推崇甚至神化学术引用次数、影响因子等量化评价指标，并将其简单与学术质量画上等号，对于知识生产和创新存在极大的风险。

　　（四）评价程序：追求价值隐涉，难以确保评价结果的客观公正

　　比贝(C.E.Beeby)在1975年第一次提出了“价值判断”才是评价本质的观点。[5]事实证明，评价不可能只是对信息作简单描述，它总是包含着对一定价值关系及后果的预见和推断。有研究者进一步指出，学术评价是学术共同体的“专属领地”，自由裁量权成为学术评价与生俱来且永不可能消失的权力。而且，学术评价符合程序不能代表程序正当，程序正当并不意味结果公正。[6]因此，学术评价主体秉承的价值观会以隐蔽的方式渗透到评价的各个环节，致使评价结果难以避免存在主观性。以传统的引文分析法为例，一直存在规范主义与社会建构主义的流派之争，引用的公正性遭受质疑。规范主义流派代表人物莫顿（Merton）认为，引文被认为代表作者对前人研究的一种关注，进而对前人研究的借鉴作用表示感谢和认可。[7]社会建构主义流派却认为，引用绝非对他人贡献表示认可和感谢那么简单，而是有着复杂的经济、社会和政治上的原因。[8]事实上，当代大学学术评价的结果直接关系到研究者的资金支持、专业发展和学术地位，与研究者的实际利益息息相关。因此，引文分析看似以数字测量的方式客观表征学术影响力，但其背后隐涉着复杂动机，不论对于研究者个人还是学术期刊来说，引用存在文化、利益、语言等价值偏见和主观操纵已成为学界公开的秘密。

　　二、生成式人工智能技术赋能大学学术评价的机遇微软CEO萨提亚·纳德拉（Satya Nadella）称ChatGPT的出现“对于知识型工作者来说，这就完全等于工业革命”。可以预见，生成式人工智能技术将重塑知识生产行业，对大学学术评价范式变革显示出巨大潜力，将为重构大学学术评价的理念、主体、方法和程序带来新的机遇。

　　（一）构建面向未来的大学学术评价，彰显价值理性

　　北京师范大学前校长董奇教授在题为《面向未来的智能化教育评价》的主题报告中提到，面向未来的智能化评价的重要新趋势是评价功能的变化，即从过去的甄别、选拔，到精准改进、促进发展。[9]这与第四代评价理论的主要观点不谋而合。第四代评价理论以“回应和协商”为主要特征，强调评价对象在评价活动中的主体地位，重视形成性评价的作用，注重对评价对象的改进作用。面向过去的学术评价主要基于已有的引用次数、影响因子等数据，以评估学术成果的水平、研究者和学术机构的贡献，而面向未来的大学学术评价更加关注研究者的学术成长、研究潜力和创新能力。未来，ChatGPT、文心一言、KIMI等通用大语言模型经过专业调适后形成垂直的学术评价模型，通过API接入学术文献数据库，以网站或APP等应用程序呈现，即可创建面向用户使用的学术评价智能体。用户可以自如地与学术评价智能体对话，自然而且流畅，其即时交互性功能将对构建面向未来的评价发挥关键作用。这种实时交互的云沟通媒介，为多元评价主体与评价对象之间实现如第四代评价理论所主张的基于学术成果评价的“诠释辩证循环圈”提供了可能。大学学术评价不再是一个单向的、静态的过程，而是一个多向的、动态的互动。“回应和协商”不再是空中楼阁，它将成为现实，通过多元主体开展深度的学术对话，将促进对学术成果的批判性思考和深入理解，不仅有助于研究者发现自身研究的局限，而且能够激发他们发现新的研究方向和机会。学术评价智能体可以同时开展面向过去的评价和面向未来的评价，既可以满足学术管理的需要，也可以很好地促进研究者的学术成长。

　　（二）超越人为主宰的大学学术评价，提升评价效能

　　2018年，麻省理工学院（MIT）启动的智能探索计划，将机器逼近人类智能的层级划分为“识别”“感知”“学习”“意义”“创造力”等五大类型，而ChatGPT表现出的技术特征已逐渐触及“意义”层面。可见，生成式人工智能表现出了一定程度的类主体性，意味着学术评价可以不再完全依赖于人类专家。作为一个高级机器学习模型，它虽然不具备真正的自我意识，但在处理和生成评价文本时展现出了一定的“策略”。这种能动性使其在某种程度上超越了传统的工具和机器的范畴，更接近于一个有“意图”的实体，表现出类似于人类主体的特质。以ChatGPT为例，每一代模型的参数量都呈爆炸式增长。Open AI公开数据显示，2019年2月发布的GPT-2参数量为15亿，而2020年5月的GPT-3，参数量达到了1750亿，预训练数据量从40G升级到45TB。以此推测，不难想象ChatGPT4及未来更高版本的参数量可能达到万亿级别，预训练数据量可能达到百T级别，这种超级大脑远远超过人类个体大脑的数据存储量。可以大胆预测，一旦人工智能通用语言模型实现100万亿参数规模，就可以堪比人类大脑，意味着这一系统开始具备人类思维能力，并有可能在某一方面或其他方面替代人类。在未来的大学学术评价过程中，生成式人工智能技术可以减少学术评价中的重复劳动和无效劳动。更为重要的是，它可以凭借强大的算法和算力，对大量的学术数据进行快速、准确的分析，提供客观、理性的评价建议，满足未来更大规模知识生产和更为复杂的知识创新生态的评价需求。《自然》（Nature）杂志预测，对话式AI技术将会取代人类的编辑和审稿人，可以评估和审查文章。尽管离这种情境还有一段距离，但毫无疑问，它将越来越多地影响学术成果出版和发表过程的各个阶段。

　　（三）打破形式主义的大学学术评价，反映真实样貌

　　构建基于生成式人工智能技术驱动的学术评价方法将成为未来的趋势。弗朗西斯科·隆扎诺(Ronzano Francesco)等提出利用文本挖掘和语义建模等人工智能技术来识别学术论文中的创新点、亮点等以评价学术成果价值。[10]曾建勋提出学术评价应从文献计量、替代计量走向语义计算，创设信息化、语义化、智能化评价工具，构建基于语义内容创新科技成果评价的工具和模式。[11]生成式人工智能技术为打破形式主义评价带来机遇。以ChatGPT为例，它摒弃了传统的循环神经网络（RNN）和长短时记忆网络（LSTM），转而采用自注意力机制来捕捉文本中的长距离依赖关系。这意味着模型可以更加高效地处理大量文本数据，捕捉到文本中的细微关联，在自然语言领域具有显著优势。在大学学术评价中，学术评价模型可以被训练来理解和评估学术文本的质量和重要性。具体来看，学术评价智能体凭借自然语言处理技术，可以检查学术成果语法和拼写的正确性以及评估语言流畅性。通过深度学习技术，对学术文本进行深入的语义分析，可以捕捉到学术成果的内在质量。例如，它可以识别出文本中的关键观点、论证结构和逻辑关系，从而评估学术成果的论证深度和逻辑严密性。它还可以对学术文本进行详细的比较和对比，识别出学术成果与现有研究的差异，发现新颖之处，更为准确地评估学术成果的原创性和创新性。总体而言，生成式人工智能技术可以对学术成果内容的表现力、创新力、贡献力等开展多维度评价，对传统基于引文分析形成的学术影响力评价予以补充和拓展，从更为本质意义上反映学术成果的整体样貌。

　　（四）削弱价值偏见的大学学术评价，促进结果正当

　　在大学学术评价实践中，当评价主体对利益的追逐放在第一优先位置时，就遮蔽了对科学事实的观照，评价结果的科学性和公正性必然受到质疑，知识生产的创新进程势必遭受极大的负面影响。因此，如何削弱学术评价中主客体之间异化的价值关系成为构建学术评价程序合法性的重要基础。未来学术评价智能体以一种新的评价主体身份出现，一定程度上可以超越传统评价主体与评价对象之间的价值关系。从学术评价智能体的特性来看，它本质上是一个工具，而非具有真正情感和道德观念的人。因为缺乏情感和自我意识，这意味着它不会因为情感、信仰、利益或个人偏好而影响评价结果。从其背后的运行主体来看，这些不同类型主体包括：建模并预训练大模型的开发者，根据应用需求或单独或与开发者合作进行参数微调的部署者以及最终与生成型人工智能互动并决定生成型人工智能具体用途的用户。不论是学术评价训练数据的提供者、算法的开发者，还是学术评价模型的部署者与评价对象之间并无直接的利益关系，而用户作为使用者一般并无修改预训练评价数据和算法的能力。因此，学术评价智能体具有“价值中立”的潜力，可以为大学学术评价提供一个相对中立的工具，减少人为偏见、权力结构和利益网络的影响，从而有可能提供更为公平公正的评价。

　　三、生成式人工智能技术赋能大学学术评价的挑战生成式人工智能被视为对学术评价范式变革有潜力的技术，但是，在使用中其局限性必须引起足够的重视。我们进一步审视，发现在大学学术评价理念、主体、方法和程序等方面可能存在一系列挑战。

　　（一）数字围城：生成式人工智能技术可能强化评价工具理性

　　在大学学术评价中，学术评价智能体作为一种基于自然语言处理的数字技术工具，为大学学术评价带来前所未有的便利和效率，但以数据驱动和表征的评价逻辑致使人们过分信赖数据和算法，可能强化大学学术评价的工具理性，进而陷入“数字围城”的境地。

　　1.可能加剧知识本真性价值的偏移。学术评价智能体通过语义识别、情感分析和知识图谱等先进技术，可以提高引文分析的精确性，强化引用次数和影响因子等量化指标在学术评价中的地位，但这将进一步加深对这些指标的过度依赖，使学术评价被数字化裹挟以致出现本真性价值偏移。正如有学者所言：“可测量的变成了唯一关键的事实，其余的则毫无用处与价值。”[12]当过分强调其表面价值，知识的本质和内在价值容易被忽视。引用次数和影响因子虽然能在一定程度上反映学术影响力，但它们无法全面衡量学术成果的创新性、社会贡献和实际应用价值。研究者在追求高引用率和高影响因子时，可能会倾向于选择那些更容易获得高评价的研究方向，而忽视那些虽然创新但难以在短期内获得高引用的领域。这样的选择不仅限制了学术研究的多样性，还可能抑制真正具有长远育人价值、学术价值和社会意义的研究。同时，这种评价的数据表征逻辑还可能进一步导致对某些研究领域的过度关注和资源倾斜，而其他难以量化或不符合主流评价标准的研究领域则被边缘化。

　　2.可能引发技术决定论与人的异化。“信息化、大数据、人工智能，诸如此类带有计算机主义特征的概念响彻知识界，缺乏实践关怀的‘数字化’评价体系大行其道。”[13]这容易导致技术决定论的思维，即认为学术评价智能体的技术和算法本身就是目的，进而忽略人的主体性和创造性。当大学学术评价变得过于自动化和机械化时，人的判断、经验和直觉被边缘化，导致评价出现片面和失真现象。而且，还可能会致使大学学术评价失去人文关怀和情感关联，日渐变得冷漠。学术研究不仅是对客观事实的探究，更是对人类社会和文化的深刻理解与关怀。当评价体系忽视这些人文因素时，学术研究的温度和深度也随之下降，评价结果往往缺乏对研究者个体创造力和情感投入的尊重。为了迎合数字化评价标准，研究者知识生产的多样性和创新性一定程度上受到压制，逐渐失去对知识探索的真正热情和兴趣，知识生产的功利主义倾向被进一步强化。

　　（二）边界迷宫：生成式人工智能技术可能引发评价主体失序

　　“智能机器人的快速发展模糊了人机界限，对人的本质、人的主体地位等形成强烈的冲击，令‘人是什么’和人机关系凸显为挑战哲学常识的时代难题。”[14]学术评价智能体的创建可能致使人和机器的边界变得模糊，一定程度上导致大学学术评价主体的混乱和失序，引发“边界迷宫”现象。

　　1.学术评价智能体的主体性增强，可能导致人的评价权威被削弱。强人工智能在处理问题的能力上都不低于甚至超出人类水平，因而也就不必完全服从于人类的指令而可以自主运行。未来学术评价智能体将具备强人工智能的部分特征。因此，“智能化使技术的自主性更强，人对智能技术的依赖性也更严重，人在有意无意中将更多属人的本质让渡给了机器”[15]。一方面人的主体地位弱化，由主导评价转向数字依赖；另一方面人工智能的主体地位凸显，由辅助评价转向适度自主。不可否认的事实是，传统的基于人的评价方式通常被视为权威，但由于学术评价智能体的出现，这种权威正在被削弱。传统的基于人的评价主体，如同行评审和学术委员会，将逐渐被学术评价智能体所补充甚至替代。

　　2.学术评价智能体的意志自由难以确立，可能滋生评价主体责任推诿。自由意志是法律主体性和责任的基础。人工智能的责任界定可分为两种情形：一是人工智能的行为已完全被编程所控制，这样就可以直接归责为人工智能的编程人员或所有者；二是人工智能要是目标导向的、有意识的存在，作为一个可独立学习行为模式的神经网络来发挥作用，就有可能考虑受到法律制裁。目前来看，我们只是不能否定强人工智能体拥有自由意志的可能性，但是肯定地说也面临着巨大的技术、道德与法律难题。可见，学术评价智能体目前是否具备意志自由还很难确定，与传统大学学术评价主体的责任边界难以清晰界定。当学术评价结果出现问题或争议时，学术评价智能体与传统评价主体容易相互推诿责任。传统评价主体会认为是技术工具或算法的缺陷导致的问题，而不是他们的决策错误。相反，学术评价智能体开发者或供应商，会认为是使用者没有正确使用工具或没有提供准确数据。这种责任推诿反映了一个更深层次的哲学和伦理问题：当人与机器共同参与决策时，责任到底应如何分配？这需要我们重新检视现有的法律和伦理准则，以适应学术评价智能体在大学学术评价中新的主体角色。

　　（三）信息孤岛：生成式人工智能技术可能缺乏全面评价数据

　　“科学文献分布在数以千计的出版商、存储库、期刊和数据库中，这些出版商、存储库、期刊和数据库通常缺乏通用的数据交换协议和其他互操作性支持。即使有协议，缺乏收集和处理这些数据的基础设施，以及限制性的版权，而且OA还不是世界大部分地区的默认出版途径这一事实，也使机器在处理科学知识时更加复杂。”[16]可以看出，科学文献数据存在“信息孤岛”现象，以及由此引发的数据壁垒等问题，导致学术评价智能体缺乏全面评价数据。

　　1.学术评价数据的访问受限。大学学术文献的分散性意味着学术评价智能体需要从多个来源收集数据，不仅增加了数据收集的复杂性，还导致数据的重复和冗余。学术数据库如SCOUPS、Web of Science、知网（CNKI）等收录了大量的学术论文和研究成果，但是这些数据库的封闭性阻碍学术评价智能体访问和处理这些科学文献。即使文献是公开的，版权也可能限制其再分发和再利用。因此，学术评价智能体在学术评价时会遗漏大量的重要研究，导致评价结果的不准确。

　　2.学术评价数据的交互受限。学术数据库因采用各自独特的数据格式且缺乏统一的学术数据交换协议，容易形成数据壁垒。这可能会阻碍学术信息的顺畅流通，导致学术数据在不同平台之间难以交互，形成数据的孤立和碎片化现象，从而限制学术数据的整体可访问性和可用性。尽管学术数据在物理上有可能实现共享，但由于学术数据库采用的格式、结构和标准存在差异，数据整合过程需要耗费大量的时间和资源，将增加学术评价智能体在执行评价任务时的难度。

　　3.学术评价数据的开放受限。虽然开放访问（OA）正在成为一个趋势，但它在世界许多地方仍然不是默认的出版途径。这意味着大量的学术文献仍然被锁定在付费墙之后，限制了学术评价智能体的可访问性和可用性。以Sci-Hub为例，作为大学学术界“开放获取运动”的一部分，它通过为科研人员提供免费的科学文献，来抗议日益上涨的学术期刊价格。Sci-Hub成立以来，已经受到许多来自学术出版公司诉讼的打击。它们坚持认为Sci-Hub不合法，并且指控Sci-Hub侵犯版权并提供盗版。受到法律诉讼的影响，Sci-Hub在一些国家甚至被封杀。

　　（四）算法黑箱：生成式人工智能技术可能遭遇评价信任危机

　　信任是学术评价系统的基石，研究者和研究机构需要可信赖的评价工具，才能接受其评价结果并据此做出决策。由于学术评价智能体存在“算法黑箱”的特性，研究者会对评价结果的公正性持怀疑态度，进而引发信任危机。这主要源于学术评价智能体评价决策过程不透明且难以解释，以及评价数据可能存在的偏见。

　　1.学术评价决策过程可能不透明且难以解释。学术评价智能体采用了深度学习技术，内部结构包含数百万甚至数十亿的参数，这些参数共同决定了学术评价模型的输出。更为关键的是，“在人工智能输入的数据和其输出的答案之间，存在着我们无法洞悉的‘隐层’，它被称为‘黑箱’（black box）。这里的‘黑箱’并不只意味着不能观察，还意味着即使计算机试图向我们解释，我们也无法理解”[17]。这种复杂性使得评价模型的决策过程变得不透明且难以理解。正因如此，大学研究者难以确定评价的具体依据和标准，从而导致学术评价智能体面临评价信任危机。如果大学研究者和研究机构对学术评价智能体这类新兴评价工具产生不信任，他们会选择忽略或反对其评价结果，这不仅会影响大学学术评价的效率，还会导致学术界错过某些有价值的研究。

　　2.学术评价数据偏见可能引发新的不公正。如前文所述，学术评价智能体具有“价值中立”的潜力，但这并不意味着它在执行学术评价任务时的结果是绝对公平公正的，其可以被各种不同的幕后之手不动声色地操控，可能在生成的答案中潜藏着不易察觉的意识偏见。也有研究者表达出类似的担忧，即学术评价智能体无法表达出自己的立场和价值观，但训练有素的语言模型一定可以表达出人类的立场与价值观，只不过这里的人类不是全部，而是在模型背后能够控制数据来源及知识立场的那些人。[18]可见，学术评价数据存在偏见会影响大学学术评价结果的公平公正。从数据起源看，学术评价智能体所依赖的学术评价数据不是在真空中产生的，它是从现实世界中收集来的，而现实世界充满了各种偏见和不平衡。有时数据中的偏见不是明显的或直观的，这种隐性偏见源于某些群体在数据中被低估或过度表示，或由于数据收集过程中的微妙选择。即使数据收集者试图保持中立，数据仍然可能包含这些偏见。当学术评价智能体算法使用这些数据进行训练时，数据中的偏见会被学习甚至被放大，进而生成评价模型内部的“黑箱”，引发评价结果产生新的不公正。

　　四、生成式人工智能技术赋能大学学术评价的路径生成式人工智能技术为大学学术评价范式变革带来前所未有的机遇，但它并不完美，仍然存在诸多挑战。面对这些挑战，我们从评价理念、评价主体、评价程序以及评价方法所依赖的学术数据四个方面采取有效应对措施，消解各种挑战带来的风险，探索大学学术评价改革可能的方向。

　　（一）平衡张力，响应多元评价诉求

　　我们需要重新审视大学学术评价的核心价值和目的，确保大学学术评价既有广度又有深度，既关注学术研究的数量，也关注其质量和价值，既强调技术赋能的效率，也强调人文关怀的过程。通过响应多元评价诉求，实现对“数字围城”现象的超越。

　　1.超越单一学科视角，激发知识活力。从学科视角来看，学术评价智能体在执行评价任务时，不应局限于文献计量学单一学科的视角，应支持教育学、管理学、哲学、政治学等多学科的维度，将管理有效性、政治合法性、知识合理性、社会贡献性和主体价值性等多元价值诉求纳入学术评价的议程。具体来看，一项学术成果在数字化指标上表现不佳，但它在社会贡献或主体发展等方面可能有着不可忽略的意义。通过跨学科的合作和更全面的评价标准，使学术评价更具多样性，激发知识生产的活力。学术评价智能体将成为数字化评价的有益工具，而不是限制和偏见的来源。

　　2.超越技术至上思维，注入人文关怀。技术只有坚持在人文关怀的前提下开发和利用，其工具价值才能真正实现解放人、发展人的人文价值诉求。首先，应重视人的主体性和创造性，将人的判断、经验和直觉重新引入评价过程。在复杂的学术评价事务中，人工评审是不可或缺的。人工评审可以提供对研究深度和质量的专业判断，弥补单纯依靠技术手段评价的不足。通过人工评审与智能评价的结合，可以确保评价结果更加全面和公正。其次，应增强评价过程中的人文关怀和情感关联，激发研究者对知识探索的热情和兴趣，推动学术研究的多样性和创新性发展。学术研究不仅仅是冷冰冰的数据和事实的堆砌，它更是研究者情感、激情和热忱的体现。学术评价智能体开展学术评价时需要尊重和理解这些情感，不能将其忽视或边缘化。而且研究者不仅仅是评价的对象，更是评价的参与者。他们可以与评价者建立真实的人际关系，共同探讨、反思和完善评价标准和方法。在技术和人性之间找到平衡点，可以在一定程度上克服评价过程中技术决定论和人的异化问题，推动学术研究回归其本质和初衷。

　　（二）人机共生，重构双重主体位序

　　在之后的人工智能时代，人和技术之间会逐渐变为相互的委托者、延伸者和赋能者，双方在改造世界的途径中不再是主客二分，而是主体共在。这或许将成为未来大学学术评价范式革新的逻辑起点。

　　1.重新塑造学术评价主体的权威。在大学学术评价的传统框架中，人作为评价主体的权威性源自其对特定领域的深入研究、长期实践以及丰富的经验积累，这些因素共同赋予了评价主体在价值判断上的优势。然而，随着学术评价智能体的出现，这种以人为核心的评价权威面临挑战。学术评价智能体的决策过程主要依赖于数据和算法，它们在处理大量科学事实和快速分析方面表现出色，这在一定程度上补充了人作为评价主体在知识广度、深度及评价效率方面的不足，还可以减少人为因素导致的偏见和误差。在一些复杂的评价任务中，人类评价主体的深度理解、批判性思维和直觉仍然不可或缺。因此，将人的这些能力与智能体的数据分析能力相结合，形成一种人机协作的评价模式，将有助于实现更加全面和深入的评价。在这种模式下，智能体可以提供基础性的评价结果，而人类评价主体则在此基础上进行进一步的分析和判断，以增强评价的质量和可靠性。通过这种方式，学术评价智能体不仅不会削弱人作为传统学术评价主体的权威性，反而有可能通过人机协作，提升评价的整体质量和有效性，从而在学术界获得广泛的认可和信任。

　　2.重新定义学术评价主体的责任。在大学学术评价领域，责任的归属是一个复杂的问题。人工智能在预先设定的程序指令中运行，即使通过深度学习使程序摆脱了人类的控制并在客观上造成法益侵害结果，但人工智能本身缺乏对外在行为的真实理解，无法认知自身行为对客观世界产生的影响，因而无法认识自身行为的社会属性，也就不具有规范评价意义上的行为“目的性”与独立控制行为的意志自由可言。由此可以看出，学术评价智能体根据预先设定的算法和程序运行,尽管深度学习等技术可能赋予了一定程度的自主性，但它们仍然无法超越其编程范围进行思考，无法理解超出评价程序执行之外的意义，缺乏对行为后果的真实理解和对客观世界影响的认知能力。只有当学术评价智能体拥有真正的自由意志和意识开展评价决策时，它们才被视为学术评价责任的主体，才能为其选择承担责任。此外，当人类评价主体过度依赖学术评价智能体的输出，而未能进行必要的批判性思考和审查，这可能导致评价错误。在这种情况下，责任应由参与评价过程的人类评价主体承担，因为他们有责任确保评价的准确性和公正性。因此，从现阶段可适用性和可操作性角度来看，责任必须由人而不是机器承担。这要求人类评价主体在使用智能体进行评价时，保持警惕，进行充分的审查，并对其输出进行批判性分析。通过这种方式，可以确保学术评价的权威性和有效性，同时促进人工智能技术在大学学术评价中的合理应用。

　　（三）信息共享，推动开放科学发展

　　将生成式人工智能应用于各个专业领域，面临的首要问题便是训练语料的开发、选择和动态更新。因此，学术评价智能体离不开全景式学术数据的支持，最终将有赖于开放科学的发展。

　　1.制订开放科学的相关支持政策。全球各国政府积极制定鼓励学术数据共享和开放访问的政策和法规，为打破科学文献数据“信息孤岛”现象提供法律和政策保障。例如，美国国家科学院于2018年发布了《设计开放科学》报告，推动科技论文开放获取与科学数据开放共享。欧盟委员会发起的开放获取S计划（Plan S）提出，从2021年起，所有由国家、区域、国际研究理事会和资助机构提供的公共或私人资助产出的研究成果，其学术出版物必须发表在开放获取期刊、开放获取平台，或通过开放获取知识库立即获得，不受封锁。日本的“Open and Close”计划构想通过划定开放获取的边界，大致厘清了知识产权保护、信息安全和开放共享之间的关系，为日本开放获取政策的制定和实施指明了方向。此外，革新大学科学文献数据库传统的商业模式，使出版商和数据库等传统利益主体能够在开放科学的生态系统中找到新的商业机会，包括但不限于提供增值服务、定制化解决方案等，推动建立科学数据利益相关主体的权益平衡机制。

　　2.建立学术数据的科学运行机制。推行统一的开放获取标准，包括通用标识符、存储格式、交换协议和元数据标准等，对提升学术评价智能体的工作效率和准确性至关重要。比如，采用国际通用的标识符，如DOI（数字对象标识符）或URN（统一资源名称），以确保文献的唯一标识和可持久性，使其能够被学术评价智能体准确地定位和引用。统一规定开放获取文献的存储格式，确保能够被多种系统和工具顺畅访问和处理，提高互操作性，降低数据受限问题。建立通用的数据交换协议，以促进文献的有序传递和共享，减少数据碎片化和孤立化，有利于学术评价智能体整合数据。统一元数据标准，明确定义文献信息的格式和内容，包括作者、标题、摘要、关键词等，以便更容易进行检索和分析。通过建立这些标准，确保开放获取文献在国际范围内的一致性和互通性。这些措施有助于提高学术数据的可访问性和可利用性，使学术评价智能体能更有效地支持大学学术评价活动。

　　（四）算法透明，实现评价可解释性

　　人工智能算法的可解释性是指“算法模块的输入、输出和性能及其系统结果可以被理解，并提供阐释说明，帮助用户充分理解算法的决策机制、决策过程和决策结果的公正性”[19]。为确保学术评价智能体算法在大学学术评价中的可解释性，提升算法透明度、纠正评价数据偏见尤为关键。

　　1.构建严格的责任体系，确保学术评价的算法透明。从法律责任角度看，政府应当制定和完善相关法律法规，确保未来学术评价智能体在大学学术评价中的合法性。这不仅包括明确算法的逻辑、算法的种类和算法的功能等，还涉及如何公开算法的设计理念、数据来源和评价标准等。从行政责任角度看，政府应当设立专门的审查和监管机构，全面监控未来学术评价智能体在学术评价中的应用。这意味着从数据的收集、处理到具体算法的采用以及评价结果的发布，整个过程都应受到严格的行政监管。技术公司需要对其评价结果承担相应的责任，确保算法的公正性和透明性。从道德责任角度看，学术评价智能体的技术开发公司应当遵循一套明确的伦理指导原则。这不仅要求技术公司提高算法的透明度，还要求其定期进行伦理审查，确保其应用既科学又符合伦理规范。同时，使用SHAP（Shapley Additive Explanations）等模型可视化和解释工具，展示学术评价智能体的决策过程，增强评价的可解释性。

　　2.构建科学的工作机制，纠正学术评价的数据偏见。数据偏见一定程度上会致使评价模型对不同群体或领域造成新的不公正，这种现象不容易被直观地解释。通过纠正数据偏见，可以更容易理解学术评价模型的决策过程，从而提高评价的可解释性。首先，采集来自不同文化、地区、学术领域的数据，确保学术评价模型的训练数据具有多样性和代表性。这有助于防止模型在特定群体或领域内出现偏见，提高评价的普适性。其次，利用数据分析工具识别评价数据中的潜在偏见和不平衡。通过检查研究领域、研究者背景或研究方法等因素在数据中是否存在低估或过度表示，可以及时发现模型的问题，确保评价模型的公正性。第三，建立学术评价的反馈机制，允许研究者和其他利益相关者对模型的评价结果提出质疑和反馈。这种机制为参与者提供了监督的机会，帮助识别潜在的数据偏见问题，并在评价体系中及时进行调整和改进，以此提高学术评价的可信度。

　　五、结语

　　2023年，《自然》杂志刊文发现，过去几十年里（1945-2010年），虽然科学技术论文的发表数量出现了井喷，但这些论文的“突破性”却在递减。有研究者认为，这种递减趋势可能有一部分来自科研工作性质的改变。但是，找到下滑的真正原因并不容易。我们认为，造成这种现象的原因与学术评价制度密切相关。然而，以学术引用为基础的量化评价已运行数十年，早已经深刻影响和规制着大学知识生产体系和学术评价体系。因此，破除传统的大学学术评价路径依赖并非易事。虽然“第五代评价”及全球学术评价改革的号角已经吹响，但大学学术评价理论和实践并未有实质性突破，甚至在评价实践中对量化评价的依赖和崇拜有加剧之势。生成式人工智能技术将为大学学术评价改革带来前所未有的契机，值得高度重视。尤其在中国式高等教育现代化的背景下，如何通过生成式人工智能技术创建学术评价智能体，对推进大学学术评价治理的现代化与构建中国自主知识体系具有重大战略意义。

　　参考文献：

　　[1]朱剑.“三大核心”:拿什么来取而代之：学术评价的困境[J].济南大学学报(社会科学版),2019,29(2):27.

　　[2]KAREN WHITE.Publications Output:U.S.Trends and International Comparisons[EB/OL].(2019-12-17)[2023-11-01].https://ncses.nsf.gov/pubs/nsb20206/.

　　[3]RobJohnson,AnthonyWatkinson,MichaelMabe.The STM Report:An overview of scientific and scholarly publishing[EB/OL].(2018-10)[2023-11-01].https://www.stm-assoc.org/2018_10_04_STM_Report_2018.pdf.

　　[4]姜春林,魏庆肖.人文社会科学评价研究的爬梳与展望：基于人大复印报刊资料《社会科学总论》的分析[J].甘肃社会科学,2018(1):84-91.

　　[5]齐宇歆.当代教育评价理论及其历史演进过程中的知识观分析[J].远程教育杂志,2011,29(5):78-84.

　　[6]宋旭红.论我国学术评价中的程度正当和结果公正[J].清华大学教育研究，2019，40（2）：77-87.

　　[7]MERTON R K.The Sociology of Science:Theoretical and Empirical Investigations[M].Chicago:University of Chicago Press,1973:177.

　　[8]MAY K O.Abuses of Citation Indexing[J].Science，1967，156(3777):890-892.

　　[9]董奇:面向未来的智能化教育评价[EB/OL].(2019-08-04)[2023-11-01].https://tech.ifeng.com/c/7osKZPbNi6K.

　　[10]RONZANO F,SAGGION H.Knowledge Extraction and Modeling from Scientific Publications[C].Springer,Cham,2016:11-25.

　　[11]曾建勋.推动科研论文语义评价体系建设[J].数字图书馆论坛,2021,1(11):1.

　　[12]洛伦佐·菲尔拉蒙蒂.大数据战争：数据在全球市场的使用与滥用[M].张梦溪，译.北京:中华工商联合出版社,2018:215.

　　[13]张卓,刘冬冬.高校教师学术评价的数字规训及其突围[J].大学教育科学,2023(1):74-82.

　　[14]孙伟平.人工智能与人的“新异化”[J].中国社会科学,2020(12):120-138.

　　[15]闫坤如,曹彦娜.人工智能时代主体性异化及其消解路径[J].华南理工大学学报(社会科学版),2020,22(4):31-38.

　　[16]KNOTH P，HERRMANNOVA D，CANCELLIERI M.Corea Global Aggregation Service for Open Access Papers[J].Scientific Data,2023,10(366):1-19.

　　[17]许可.人工智能的算法黑箱与数据正义[N].社会科学报,2018-03-29(6).

　　[18]王建磊,曹卉萌.ChatGPT的传播特质、逻辑、范式[J].深圳大学学报(人文社会科学版),2023,40(2):145-153.

　　[19]孙波.可解释的人工智能：打开未来智能教育“黑箱”的钥匙[J].中国教育信息化,2022,28(4):7-8.

　　（责任编辑刘第红）2024年第4期高教探索Higher Education Exploration

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容