从对话机器人到智能体工作流——大模型在媒体行业的落地之路

来源:网络视听
关键字:机器人,行业,媒体
发布时间:2024-11-15 15:15

　　文/曾亮

　　大模型和智能体技术的出现为媒体行业带来前所未有的机遇和挑战。媒体机构和媒体人如何在日常工作中，充分利用大模型技术之所长，提升自身生产效率、运营能力，继而达到降本增效和提升竞争力、影响力的目标，需要不断探索和创新。在此，腾讯结合自身实践，共同探讨如何让AI与传媒行业工作流程结合，实现在传媒行业的真实落地。

　　一、人与AI协同的三个阶段

　　在大模型或者说通用AI落地过程中，业界经历三个阶段。

　　第一个是ChatBot（智能聊天机器人）阶段，也就是以对话机器人模式使用大模型。在日常AI能力使用中，如果我们向AI提出一个提示（Prompt），AI会按照你的要求给出结果，但结果是否准确，需要我们自己去判断。由于大模型训练过程中训练数据质量不高，在推理过程中，每一步都是基于上下文按概率生成后续内容，所以模型很有可能在“一本正经地胡说八道”，也就是模型有幻觉。所以，对话机器人模式下，我们直接和大模型“打交道”，对模型的要求很高，在目前的技术水平下，生成内容仅供参考。

　　第二个是Copilot（智能辅助工具）阶段，通俗地说是以副驾驶模式使用大模型。这种模式下，绝大部分都是使用专属模型，在专门的场景下对业务提供辅助。比如，腾讯会议的“智能小助手”在会议过程中可以随时帮助与会者记录下来信息，随时按需接受与会者咨询，给出会议纪要、会议代办、会议提醒等各种各样的协助工作。

　　第三个是Agent（智能体）阶段，也就是以智能体的方式使用大模型。很多人对智能体这个名词有所不解，简单定义一下，智能体就是一类应用，这类应用具有记忆能力，可以借助大语言模型强大语言理解能力、逻辑推理能力调用工具，帮助人类完成任务。这种模式下，智能体并不会局限于使用某一两个或是某一两种模型，而是综合使用多个、多种大模型，通过大模型的理解能力，理解人的意图，拆解工作任务，查找合适资料，按需调用不同工具，控制进度，完成工作后向人类反馈。这个过程中，不同大模型按需地发挥所长，协同完成一个特定任务。

　　从这里看，我们过去的大模型工作方式，基本上集中在第一个阶段里面，所以我们都在为模型写不出符合要求的稿件，自己写不出优秀的Prompt而焦虑。

　　二、腾讯大模型实践

　　腾讯有自己的大模型——混元，这是一个纯自研、冷启动、纯中文原生的自有知识产权大语言模型，通过一年多的努力，这个模型从稠密模型架构向稀疏化架构演进，采用专家混合模型（MoE）结构。这种架构下，模型系统内部由多个专家模型构成，不同专家模型擅长处理不同领域数据和任务。在做不同任务，处理不同输入数据时，模型会将数据流路由给不同的专家模型来处理，在效果、效率、成本之间取得最佳平衡。

　　在过去一年里，腾讯600多个不同产品、不同业务与“混元”深度的融合，这种融合最终带来实实在在的降本增效。

　　2024年上半年，腾讯发布了一个叫元宝的App，“元宝”的本质就是一个超级智能体，它可以帮你翻译，可以帮你对某个长文进行深度分析归纳，可以以一个外教的身份帮你练习口语，也可以用“范闲”的身份陪你聊天打发时间。当我们要求元宝完成任意一份工作的时候，它大概率不会仅仅基于大模型的基底数据来完成。比如，我们询问他某一个最新知识，它可能会通过搜索微信公众号这种具有高质量数据内容的地方进行查询，然后综合后给出答案，同时告诉你这个信息来自什么地方，供你参考。如果你询问他一道比较复杂的题目，它可能会将这个问题拆解为多个执行步骤后，转换为Python（编程语言）脚本、 SQL（结构化查询语言）语句，然后让对应的编译器工具执行后返回结果。

　　在内容领域，腾讯新闻App推出一个叫“新闻妹”的智能助手，它可以对长文进行总结，可以帮读者朗读新闻，也可以随时地通过画线回答读者不了解的内容，还可以回答大家可能感兴趣的关联问题。这是大模型在内容场景的应用辅助。还有微信读书，它可以通过AI问书、智能提纲等方式，辅助我们的阅读。

　　从以上这些应用中能够看出，大模型的幻觉也许是不可避免的，但是我们完全可以让大模型发挥其所长，规避其短板，让它为我们服务。

　　三、大模型的系统架构演进

　　1．大模型API直接调用

　　目前，在大部分媒体用户脑海中，或者说在实际使用大模型中，使用的模式都是对话机器人模式，原因主要来自于传统使用工具的习惯，也就形成一种AI使用定式——直接的API调用。这种模式是我们直接跟大模型打交道，直接去问模型、调模型API，我要做什么，模型生成什么。这种效果并不好，我们无法规避大模型的幻觉，大模型也不能随时拥有最新最专业的知识储备，我们也不能要求每一个使用工具的人都具备深度的提示词优化能力，产生最佳的结果。同样，对于工具开发人员来说也很难，不同模型就要对接不同的API，效率很低，客户难以实现“模型选择的自由”。

　　2．使用与生成智能体

　　智能体（Agent）的出现，很好地解决了这些问题。首先，我们提供编辑的界面，内置调优提示词（Prompt），赋予每一个智能体以特定人设，告知它做事的方法、步骤，告知它在遇到什么问题的时候可以使用什么工具，赋予它长期记忆（向量数据库）和短期记忆（上下文）的能力。编辑好后的智能体就能去分析和理解你要做的事情；用你教它的方式去把要求它做的事情拆解成不同的任务，逐步去执行；以插件的形式去调用不同的完全开放的工具，等等。最后，将上述由工具和不同步骤执行产生的内容，用大模型进行总结和归纳，产生结果。

　　因此，有了智能体工作范式，业务系统与模型对接就只需要用业务工具和智能体打交道，我们可以产出各种不同智能体，每个智能体具备不同能力。比如，有的擅长选题，有的擅长评论，有的擅长写稿，有的擅长翻译等。每个智能体理解和遵从使用者的指示，具备不同专业知识，可以调用不同工具，能够帮我们很大程度规避大模型在幻觉、专业知识、知识更新、指令遵从等方面的弱点，同时，让上层业务在对接智能体的时候，可以使用同样的对接方案，让业务系统对接不再需要面对复杂接口。

　　3．应用智能体工作流

　　有了智能体以后，我们可以更方便地应用大模型的长处。大模型的长处在于能够更好理解你的意图，善于归纳总结。相反，其弱点在于它生成的不稳定，它有幻觉，因此还不足以将其应用在生产力工具上。例如，中国有大量网文，有些网文不仅在国内很火，在海外也有很多粉丝，国内粉丝每天在催更，国外粉丝在催更的同时，还要催翻译。早期翻译，是由不同热爱者自发、互助地在做，其结果必然导致翻译的不稳定。在大模型出现以后，所有人都在想，能不能够用大模型去完成网文的翻译。但在实践中，直接使用大模型翻译的结果并不好，因此，AI专家就用智能体工作流的方式。他们“成立”一个虚拟翻译Agent公司，这个公司里面设置CEO、高级编辑、初级编辑、翻译、本地文化专家、校对员等不同角色，每个角色都是一个智能体。这些智能体除了被赋予原有能力还会被赋予教育、国籍、文化等不同背景。同时，我们设定翻译过程中必须遵循的规则，再进一步把翻译的流程分成若干子阶段,每一个智能体只完成某一部分工作，并把自己工作的结果交给下一步智能体来进行后续的动作。研发团队对这个工作流的效果做了一个比较详细的评估，评估结果是有60%以上人群认为，这个智能体工作流产生的翻译结果强于或者至少不弱于人工翻译。

　　综上所述，智能体工作流其实与人类工作流程更加相近。它包含工具使用、系统性规划、多智能体协作。具体应用到媒体的工作场景下，我们定制了诸多智能体工作流，能够比较好地完成每一个岗位该完成的工作。例如，我们可以让大模型帮编导产生一个专业节目设计，做脚本的细化和运镜的细化；我们也可以让大模型帮忙找选题并完成文稿，文稿生成以后，大模型还可以校对。有了智能体工作流，大模型将产生比简单的提示词对话模式更优秀的效果，它产生的结果细节更丰富，剧情更连贯。同时，它的每一步还可以允许业务人员随时地介入，随时纠偏。

　　最终，我们的系统架构变成最顶层是工具，后面挂接智能体，智能体后面挂接智能体的平台（包含智能体的编排平台、调度平台、工作流平台等等），最后对接各类模型。模型可以是公有云上各家的通用模型，也可以是私有化部署的开源模型，未来更可能是针对我们行业专门精调的行业专属模型。

　　四、总结

　　针对企业级的要求，我们需要一个“智能体编排调度平台”，它包含智能插件、仓库、流程编排、画布、智能体编辑器这一系列完整工具来完成上述的业务流程设计。同时，在日常工作中，我们既需要使用部署在媒体机构内网的私域的智能体，我们还需要自由串接部署在互联网上的成熟公域智能体，我们可以采用数据连接器的方式，安全地把私域和公域智能体结合。同时，有了上述工具，媒体能够更方便便捷地创建自己的智能体工作流，综合利用大模型擅长的能力，高质量解决媒体业务中实际问题，提高工作效率，提升运营水平。

　　（作者曾亮系腾讯云计算（北京）有限责任公司智慧传媒行业技术总监）

　　责任编辑：田可心

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容