浅谈AI数字人作为虚拟主播的技术应用和发展建议
- 来源:网络视听 smarty:if $article.tag?>
- 关键字:虚拟主播,技术,应用 smarty:/if?>
- 发布时间:2025-06-06 15:25
文/王晓丽
摘要 : 随着AI 和人工智能技术逐渐深入新媒体领域,AI 数字人成为媒体融合发展的有力助手。本文以甘肃临洮县融媒体中心推出的AI 数字人“貂蝉”为例,重点探讨AI 数字人在虚拟主播领域中,如语音合成、智能识别等方面的技术和应用,同时分析AI 数字人存在的不足,并提出了优化的建议和展望。
关键词:数字人 虚拟主播 技术 应用
数字人是指存在虚拟世界中,运用数字技术创造出来的与人类形象接近的数字化人物形象[1]。在媒体融合的发展进程中,数字人作为人工智能技术的应用之一,正逐渐在媒体领域被使用,不断展现其独特的优势和潜力。2023年,甘肃省临洮县携手百度打造了一款文旅数字人“貂蝉”,可广泛应用于媒体宣传、智慧水利、文化旅游、智慧城市管理、电商、金融服务等多个领域。
一、数字人“貂蝉”产生的背景
临洮县地处甘肃中部,定西市西部。临洮古称“狄道”,历史文化源远流长,境内三国遗迹遗址星罗棋布,像姜维墩、廖化堡、董卓府、貂蝉湖等历史遗迹,从侧面印证了这里的历史和人文风貌。2011 年4 月,临洮县成功注册“貂蝉”系列商标。
数字人“貂蝉”是百度智能云曦灵数字人平台,基于文心大模型打造的形神兼备的数字人,她的设计灵感来源于东汉三国时代的历史人物“貂蝉”。这个化名“临小婵”的数字人,既有古装造型,也有现代造型,通过虚拟主播、表演娱乐、直播带货、旅游大使等形象,在媒体报道和文旅宣传方面广泛应用……数字人“貂蝉”既能体现中国古代传统文化的美,还能展现符合现代审美的,富有活力、时尚靓丽的数字形象。
二、相关技术在AI 数字人中的应用
数字人“貂蝉”在百度智能云曦灵平台中,主要运用了百度四大引擎,包括人像驱动引擎、智能对话引擎、语音交互引擎、智能推荐引擎等[2],它们着重解决了数字人表情、语言理解力、交互及面向用户的场景服务能力等几个方面的问题,可以通过数据采集、角色制作、角色绑定等步骤实现内容生产,实现了技术与艺术的完美结合。2023 年9 月,数字人“貂蝉”正式投入使用,目前已经在文旅宣传和虚拟主播方面显示与众不同的优势。
( 一)AI 数字人的特点
1. 形象个性独特。AI 数字人虚拟主播可以按照用户要求打造不同的风格和形象,拥有独特的外观、独特的个性、超强的能力。这样的虚拟形象能够吸引更多粉丝和受众群体,在直播带货、政务服务等方面则展现独特的形象。这种个性化定制,有助于提升虚拟主播的吸引力和影响力。
2. 互动多样化。AI 数字人虚拟主播可以识别弹幕、语音等,实现与观众的互动,回应观众的指令,按照要求变换话术等等,实现流畅的语音表达。用户可以通过文字、语音甚至视频与虚拟主播互动,提出问题、表达意见,按自己的喜好要求虚拟主播改变风格、增加场景,使互动更加多样化和趣味性[3]。
3. 情感识别力能。情感识别技术可以帮助AI 数字人虚拟主播更好地理解用户情感和需求,甚至可以通过分析用户的面部表情、语音语调等信息,及时调整表现方式,与用户建立更加紧密的情感联系。
4. 低成本高效益。AI 数字人虚拟主播与传统真人主播相比,在时间上更为自由,不受人为因素的影响,随时开播见效快,有较强的创意性,可以满足观众的多元化需求。
(二) 语音合成技术在AI 数字人中的应用
语音合成技术,简单来说,就是利用计算机技术识别人类语音,通过声学、语言学、数字信息处理等多个学科的交叉,将人类语音转化为文本,进而进行语言理解和回应。在AI 数字人的应用中,语音合成技术起着至关重要的作用,具有以下特点:
1. 自然流畅的语音。自然流畅,这是语音合成技术在和用户交流时最显著的特点,也是AI 数字人作为虚拟主播最基本的特点,AI 数字人模拟人类的语音语调、语速表达,从而实现人性化的交互体验,使得表现生动而真实。
2. 风格多样的音色。标准、清晰的发音是语音合成技术应用于AI 数字人的重要技术,这项技术可以为用户提供多种语音风格和音色的选择,用户还可以根据应用需要定义AI 数字人虚拟主播的语音风格,让AI 数字人更具个性化和多样化。
3. 智能识别实时互动。将语音合成技术和人工智能技术相融合,实现对语音内容的智能识别和理解,实时识别响应用户的输入文本信息并将其转换为语音输出,从而提高AI 数字人虚拟主播的表现力和交互力。
(三)智能识别技术在AI 数字人中的应用
智能识别技术是AI 数字人在虚拟主播领域应用时的关键技术之一,其优势和功能对于提升用户体验和推动数字人行业发展具有重要的意义。
以数字人“貂蝉”为例,在技术方面具有三大亮点:
第一,采用Smile Talk 表情可控算法、4DLearning.Smart Rig 绑定控制系统,使得数字人口型合成准确率达到98.5%,并且可以通过模拟真人说话时肌肉动态还原口型变化,捕捉到自然人生动、细致的表情和口型,为数字人增添“真情实感”[4]。
第二,Smart IK 智能身体绑定调试系统,可以精细到每个关节的每根手指头, 通过普通RGB 摄像头,实现和自然人的联动,只需要按下捕捉键,即可控制虚拟主播的表情、动作,让虚拟主播在接下来的直播中充分自由发挥,达到和用户无缝衔接的程度。
第三,领先的多模交互技术,使得自然语言处理流畅自然。在直播中,百度数字人配置了业界领先的深度学习技术合成的TTS 语言,不仅可以精确模仿真人主播的语言强调,实现音色迁移,拥有超自然呈现的面部表情和动作,能完成媲美真人的口语播报和情绪识别等功能。
三、AI 数字人在存在的不足
1. AI 数字人虚拟主播情感表达受限
AI 数字人虚拟主播尽管在语音表达方面采用了当前先进的技术,但在一定程度上缺乏真人情感表达的感染力,AI 数字人虚拟主播和观众与之间还是缺乏共通的意义空间,在情感表达方面缺乏深度的交流与互动[5]。
2. 核心技术运用难, 维护成本高
AI 数字人虚拟主播相关的核心技术包括计算机图形学、语音合成技术、深度学习、类脑科学、生物科技、计算科学等聚合科技。技术是推动虚拟数字人行业发展的重要因素之一,核心技术运用难、维护成本高已成为AI 数字人行业的快速发展制约因素。
3. 应用场景同质化
AI 数字人虚拟主播在文旅行业的应用呈现爆发式增长,但也存在同质化、人设不鲜明等问题。在数字人未来发展中,以AI 数字人作为虚拟主播的领域要明确定位、差异化发展,寻求新的突破。
四、AI 数字人在虚拟主播领域应用建议
在虚拟主播领域,数字人已经展现强大的技术实力和广阔的应用前景。然而,为了进一步完善AI 数字人在这一领域的应用效果,提出一些建议和展望。
首先,随着应用技术的越来越成熟,AI 数字人虚拟主播可以实现高精度、情感更加更丰富、更个性化的主播形象,让这种低成本、高效率的虚拟主播成为媒体发展的新驱动。
其次,AI 数字人可以通过实时互动的超智能对话问答系统,不断提升虚拟主播的表现和交互体验,在AI 驱动下,可提前完成内容编排,让AI 数字人不间断直播。保证消费者在任何时候进入直播间,都有专属的数字人主播为其展示产品,与其聊天,实现智能问答及互动。
最后,AI 数字人可以通过预设丰富场景的开播平台加强用户体验。通过用户反馈的数据进行分析,实时调整虚拟主播的风格,虚拟主播和真实场景协调互补,融合发展,实现更贴近真实场景的交互,拥有稳定、高效、可控的数字人虚拟主播。
总之,AI 数字人在未来拥有巨大的市场前景和发展潜力,将有望进入传媒行业的各类应用场景。传媒行业要不断适应数字人技术的多元化发展,通过持续的技术更新及技术与产品和应用场景的深度融合,助推主流媒体的融合转型,促进各行各业蓬勃发展。
参考文献:
[1]“元宇宙”等如何定名释义?全国科技名词委研讨会形成共识.百家号.2022-09-14
[2] 基于数字化技术的服装定制设计方法研究 刘乐;《江南大学硕士论文》.2023-05-01
[3] 导向·共振·连接:主流媒体虚拟主播用户情感体验优化策略 李戈; 李薇鈺; 《中国出版》.2024-07-16
[4] 论直播电商的困境与突围——以网红主播李佳琦直播为例 马骥腾; 张蕾; -《新闻爱好者》- 2024-01-20
[5] 赋能与升级:AI 虚拟主播在新闻媒体转型中的应用现状与应对策略. 徐佳叶 沈哲韬等; 传媒评论.2023-09-20
(作者王晓丽系甘肃省临洮县融媒体中心专题部主任)
责任编辑:苗权誉
