人工智能面临测评挑战

　　翻译／Claire

　　ChatGPT、Gemini和Claude等先进的人工智能工具存在一个通病，即我们并不能准确判断其智能程度。

　　这是因为，与汽车、药品或婴儿配方奶粉等产品不同，人工智能模型在上市前不需要送检。AI聊天机器人没有经过任何标准的认证，也很少有第三方独立机构对它们做严格测试。

　　相反，我们只能听信人工智能公司的说法，而后者经常用诸如“改进了哪些功能”等含糊不清的说法来描述不同版本AI模型之间的差异。尽管现有的一些测试体系被用于评估这些模型在数学或逻辑推理方面的能力，很多专家对测试结果的可靠性仍有所怀疑。

　　这听起来像是个小小的抱怨，但我确信，缺乏一个针对AI系统的良好的测试评估标准，是AI发展道路上的一个重大问题。

　　首先，如果没有关于人工智能产品的可靠信息，人们怎么可能知道如何使用它们？

　　我记不清过去一年有多少次朋友或同事问我，他们应该用哪款人工智能工具来完成某项任务。我通常只能耸耸肩表示帮不上忙。即使专职撰写人工智能的相关文章，并一直在测试新模型，我也很难准确追踪各种人工智能产品的相对优势或劣势。

　　大多数技术公司不会发布其人工智能产品的详细使用说明，且模型仍在迅速迭代。某个前一天还困于某项任务的聊天机器人，可能第二天就会奇迹般地变得很擅长它。缺少高质量的人工智能测评标准，人们就很难知道人工智能哪些功能的进步速度快于预期，或者哪些人工智能产品会危害人类社会。

　　多年来，衡量人工智能的最流行方法是图灵测试，这是数学家艾伦·图灵（Alan Turing）于1950年提出的一种方法—如果一台机器能够与人类展开对话而不被人类辨别出其机器身份，就认为是通过了测试。但人工智能发展至今，已可以轻松通过图灵测试，研究人员必须研发出一种难度更高的新的测评方法。

　　如今最常见的测评手段是大规模多任务语言理解（MMLU）测试系统，它的数据集诞生于2020年，由大约1.6万道选择题组成，考查范围涵盖数学、法律和医学等数十个学科领域。它算是一种通用的人工智能测评标准—聊天机器人答对的题目越多，它就越智能。

　　MMLU现已成为人工智能公司争夺市场主导地位的黄金标准。今年早些时候，Google推出其人工智能模型Gemini Ultra时就曾炫耀其MMLU得分率为90%，是有史以来的最高分。

　　一位曾帮助开发MMLU数据集的人工智能安全研究员丹·亨德里克斯（Dan Hendrycks）告诉我，MMLU“可能还有一两年保质期”，但它很快就会派不上用场。人工智能系统正变得越来越智能，现有的测评体系即将无法满足现实需求，设计新的评测体系也变得越来越难。

　　另外出现的数十种其他测试手段，比如TruthfulQA和HellaSwag等，也只能测出人工智能系统的一小部分能力。

　　而且这些测评体系都无法回答许多用户提出的一些主观问题，比如：跟这个机器人聊天好玩吗？它是更适合流程固定的日常办公还是创意类工作？它的对话安全措施有多严格？

　　测试本身也可能存在问题。几位研究人员曾提醒过我，使用MMLU等基准测试评估人工智能的执行过程因公司而异，各类模型的得分可能无法直接横向比较，此外其中还暗含“数据污染”隐患—若基准测试的问题和答案包含在人工智能模型的训练数据中，本质上是在允许它作弊。

　　没有独立的测评或审核环节，意味着AI公司实际上是在给自己批改作业。简而言之，人工智能的测试评估目前是一团乱麻。一堆草率的测试、并不相融的对比和自我炒作，让用户、监管机构和开发者全都找不到头绪。

　　专注于人工智能的风险投资公司Air Street Capital的投资者内森·贝纳什（Nathan Benaich）表示，“尽管看起来很科学，但大多数开发者是在根据感觉或直觉来判断模型能力的。目前这也许还可行，但随着大模型的能力和社会相关性越来越强，这样做就不够可靠了。”

　　一个可行方案是公共力量与私人力量联手解决这一问题。政府有能力，也应该建构有效的人工智能测试标准和平台，以评估人工智能模型的真实能力和安全风险。政府还应给旨在研发高质量的人工智能测试评估新标准的研究项目拨款。

　　去年，斯坦福大学推出了一项新测试，是使用人工而非自动化系统测试来判定AI模型能力。加州大学伯克利分校则推出了开放平台Chatbot Arena，会随机选取两个模型匿名对决，并要求用户投票，表达他们对模型性能的偏好。由此生成的模型排名结果十分受欢迎。

　　人工智能公司也应该提供帮助，承诺与第三方评估人员和审核人员合作测试模型，允许更多研究员使用新模型，并提高模型迭代的信息透明度。

　　总之，我们不能仅靠感觉评估AI技术。只有建立起更高质量的测评体系，我们才能有效利用它们，并知道是该庆贺还是恐惧它们的某项进步。

……

关注读览天下微信， 100万篇深度好文，等你来看……