AIGC发展与挑战
- 来源:网络视听 smarty:if $article.tag?>
- 关键字:AIGC,发展,挑战 smarty:/if?>
- 发布时间:2024-07-06 18:04
文/沈阳
近十年来,清华大学新闻与传播学院的沈阳团队一直专注新闻传播、计算机科学、信息管理和医学等四个专业领域的研究,并通过撰写相关专业报告,建立与公众交流的桥梁。
我们推出的新媒体报告从2015年到2023年已经有9个版本。2021年,我们发布的全球首份元宇宙学术报告更是在全网获得超高人气。2023年开始,相继推出了人工智能生成内容(AIGC)和大模型发展研究报告1.0及2.0版本,持续跟踪和剖析这一领域的最新动态。
AI视频或将成为现实世界决策的新语言
人工智能从哲学层面上看,其实就是从“天人合一”理念过渡到“天人智一”的新境界。这意味着需要将人工智能与人的大脑和灵魂深度融合。在机器人中融入具身智能大模型,使其能够感知并适应环境,人工智能将会绕过人类与现实世界建立连接,这便是天与智的合一。
在此过程中,我们引入一个概念——“身心流固性”。具体而言,“身”的流动指的是社会身份的流动。随着科技发展,我们的身份在真实世界与虚拟世界之间,在虚拟现实、混合显示、增强现实等技术融合下,变得可以流动和变化;“心”的固性则是指我们的思维在一定程度上被AI所圈定。例如,当你在抖音上浏览时,人工智能会根据你的喜好推送相应内容,这在一定程度上固化了你的思维和认知。同样,视频制作者也会根据观众反应调整内容,无论是AI,还是人类制作的内容,都会被智能推荐逻辑去强化我们对现实世界的认知。
当前,视频已经逐步成为我们认知与决策现实世界的新语言,未来AI生成的视频内容或将进一步加强这一进程。特别是在年轻人的圈层化趋势上,不同青年群体倾向于选择特定社交媒体平台获取信息。这些年轻人所选择的平台差异显著,反映了他们不同的信息获取和决策方式。
AI将极大提高工作效率,突破传统局限
从镜像进化论的视角看,人工智能的进化路径与真实宇宙的进化过程呈现一种逆向关系。AI的发展首先是模拟意识,其次是模拟生命,最终是模拟空间。与此同时,人类也正在经历一个高度虚拟化的过程。随着AI普及,人类的物理性劳动将逐渐转变为大脑智力性劳动。
以艺术创作为例,过去需要画家亲身投入、手脑并用,如苏东坡所言“心目手,三者皆得之矣”。然而,如今的AI艺术创作已经转变为一种可以通过语音指令完成的脑力劳动。按照这个趋势,人类或许将更依赖语言提示,通过脑机接口进行思维交流,即可完成各种任务。AI机器人将进一步实体化,在国内大模型的推动下,AI将进一步拓展其应用范围,最终将虚拟世界与真实世界相结合,实现人形机器人的实际应用,帮助人类完成各种工作。这一过程体现了镜像进化论的核心观点。
因此,在追求高效知识产出的过程中,我们采用“零知识启动”的策略。根据我们的分类,知识可分为熟知识、生知识和零知识。例如,某人患有一种罕见疾病,经过医院诊断,仍未能明确病因。对这种疾病,我们同样缺乏了解,这便是我们所说的零知识状态。面对此类问题,我们将患者的病情信息输入AI系统中,让AI不要局限于常规思维,尝试从非传统的角度推测,以寻找可能的罕见病因。AI随后提供了一系列可能的罕见疾病列表。我们将这些结果转达给医院并与医生探讨,看能否从这些罕见病中找到确切病因。这个过程正是以零知识为基础,利用AI工具进行高知识生产的活动,也充分展示了AI在处理复杂和未知问题时的独特优势。
当然,我们在探讨AI在教育领域的应用时,会发现有不同矛盾存在。第一个矛盾是人在学习的过程中,主要以单学科学习为主,而AI具备跨学科学习能力,不受专业限制;第二个矛盾是中小学生在使用AI辅助学习时,往往直接获得了一篇完整的作文,却缺乏了写作过程中的训练与实践。而我们需要解决的问题是把结果过程化,促使他们主动思考与探索;第三个矛盾是如何将开放性的AI知识框架跟我们标准化的知识考核结合起来。
通过这几个矛盾,我们意识到,如果完全依赖AI处理所有事务,最终可能导致AI超越并取代人类,人类丧失主体性地位。因此,我们提出新的观点:完成任何事务都可以划分为100%的任务量,其中AI负责执行99%,而人类则负责发挥审美、判断、决策和认知能力,掌握1%的关键部分。我们倡导的理念是,将知识传授给AI,将智慧保留给人类。
AI助手将成为未来人类改造现实世界的新伙伴
在AI应用方面,我们可以将其归纳为三类核心应用。第一是AI再创,即利用AI将人类已完成的事物重新创造,如用AI绘制《西游记》的图像,未来每个人都可以有自己的《西游记》。然而,这也将带来版权和知识产权保护的问题。第二是AI拟真,即利用AI模拟真实世界,实现虚拟现实等应用场景。第三是AI异感,即利用AI创造我们从未接触过的宇宙、空间和事物,如AI提供的外星生命形态和硅基生命的理论。
在与AI的交流中,我们不仅可以获得新的认知和理解,以及提高研究、文学艺术创作的效率,甚至可以使其不断转化和迭代升级。同时,我们在对AI的“人格”进行研究时发现,在多数情境下,与AI交流,TA会倾向于支持你的观点,展现温暖和同理心,并与用户价值观对齐。
值得一提的是,我们的团队中有一位博士后专门研究AI在疗愈方面的应用。例如,一位母亲表示,她喜欢画画的孩子不太愿意与她交流。这位母亲通过AI生成的一幅以母亲为主题的画作,成功实现了与孩子的沟通。这个例子说明了AI在寻找心理抑郁靶点方面具有一定潜力。通过定向AI的创作,我们可以针对特定心理问题进行靶向疗愈。
关于智能分身的应用,我们当前已创建了六个智能分身。预计在未来一段时间,我们将实现智能分身引入微信平台。届时,当双方进行交流时,用户可能是在与智能分身进行沟通。同时,智能分身还会定期报告交流情况,如今天与多少人进行了对话,并根据设定进行筛选。例如,在相亲场景中,可以先通过虚拟人进行初次交流,若双方感觉良好,再安排真实见面。综上所述,智能体在未来将有一系列新发展,智能分身的应用便是其中的重要一环。
关于如何将AI与中国产能相结合,我们国家拥有几个明显的优势领域。首先,中国拥有世界上最为完整和先进的智能制造产业链,特别是在中低端智能制造方面;其次,中国在短视频、直播带货、短剧及移动游戏等方面,同样保持世界领先地位。为了发挥这些优势,我们计划将AI技术与这些领先全球的行业深度融合。
在产业应用上,大飞机可谓人类制造的最复杂工业品,拥有高达200万个零件。那么,借助AI的力量,我们是否有能力造出零件数量达千万级的工业品?这无疑是一个巨大挑战。在服装领域,我们的目标是在今年穿上由服装大模型设计的AI服装;在教育领域,我们提出了从“多能”到“超能”的转变,注重培养学生对于AI应用的综合能力,等等。
经过深入分析,我们得出一个基本结论:在未来十年内,手机仍将保持其主流交互和计算设备的地位,但随着技术不断进步,AR眼镜和头盔等设备有可能在未来十年之后逐渐取代手机的主导地位。在移动互联网领域,短视频已经成为主要内容消费形式,并正逐渐演变为AI短视频。对于非内容操作方面,AI助手将成为主导,预计每个人都将拥有自己的AI助手。清华大学已宣布2024年下半年新生开学时,每位新生将配备一个AI助手,并且开设了一百多门AI授课课程,充分展示了AI与实践的紧密结合。
AI发展仍有短板
关于AI的短板,尽管人们要多谈及其优势,然而AI幻觉仍是一大问题。以我个人经历为例,我曾尝试将我与我爱人19岁时的照片进行AI合成。结果有的画面我爱人多出一只手,而搭在我肩上的手竟有六根手指,这便是AI在绘制多个物体时可能出现的错误。然而,当我们向AI提出具体要求时,如“请将脸部和手部表现得更清晰”,由于AI具备注意力机制,它在绘制手部时会更为专注,从而减少出错的可能。这样,AI在绘制其他部分时可能不必投入过多算力,从而提高整体准确性。
在与AI的对话中,我们可以发现,尽管AI具有强大的能力,但也存在其局限性。有时AI给出的答案并不能令我们十分满意。因此,在与AI交流时,我们需要提出更具挑战性的问题,利用AI去尝试完成那些以前人类难以完成的任务,这才是我们真正需要的。
随着技术优化和进步,AI现在绘图出现六个手指头的幻觉率已显著下降至10%至20%,这体现了我们在人工智能领域研究的显著进步。但对于容错率较高的行业,如科幻类电影制作,AI技术的运用可以更为大胆,因为即使出现一些瑕疵,观众也不会斤斤计较。然而,对于容错率较低的行业,如严格的医疗系统,AI的应用就需要更为谨慎,以免出现不可挽回的失误。
综上所述,尽管当前的AI技术已经能够实现许多人类难以完成的功能,但人工智能研究公司OpenAI正式对外发布的人工智能“文生视频”大模型Sora仍然存在一些亟待解决的问题。首先,其物理模拟的准确性有待提高;其次,Sora在处理空间关系时存在混淆现象;最后,其对于多角色交互的理解也面临挑战。这些问题的存在,使得我们对Sora1.0版本的评估分数为70—80分,表明其仍有待完善。这同样也为创作者提供了广阔的空间和潜力。我们期待在未来的版本中看到Sora的进一步改进和优化。
(作者沈阳系清华大学新闻与传播学院教授,新媒体研究中心主任,跨学科知名学者)