星火大模型赋能数智传媒新质生产力发展

来源:网络视听
关键字:模型,发展,赋能
发布时间:2024-11-15 15:18

　　文/张美静

　　传媒行业从黑白到彩色，从模拟到数字化，从标清到高清再到超高清，从三根线到SDI再到IP化传输，很多从业者都经历完整的传媒行业的发展，也见证整个传媒行业崛起。2024年2月， Sora刚刚发布的时候，传媒从业者产生是否会被AI取代的忧虑，但随着技术迭代不断发展，我们发现AI带来的只是一个全新的生产方式和生产工具，我们要做的就是拥抱这种新的生产工具。像科大讯飞推出的自然语言处理技术和星火大模型，已成为越来越多的国内多领域头部媒体及企业大模型应用首选，正在加速赋能广电传媒行业。

　　智能语音技术不断迭代升级

　　作为智能语音“国家队”，科大讯飞在智能语音技术领域有着长期研究积累，并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先成果。基于拥有自主知识产权的世界领先智能语音技术，我们推出并不断迭代升级讯飞星火大模型、讯飞同传、讯飞绘文、讯飞智文等产品应用。

　　其中，讯飞同传依托科大讯飞语音转写、机器翻译、语音合成等核心技术，实现多语种混合识别，多语种语音翻译、会议内容记录、实时字幕等，并可支持远程会议人工保障等多种功能。早在2011年，科大讯飞就经国家发展改革委批准与中国科学技术大学成立 “语音及语言信息处理国家工程实验室”。目前，科大讯飞的语音技术已经形成从识别、转写、翻译到语音合成的完整链路,并与众多行业头部企业在人工智能、大数据等领域开展全面合作与应用。2024年6月，科大讯飞以多语种智能语音关键技术及产业化获得国家科学进步一等奖。

　　在机器转写和翻译方面，2015年12月，科大讯飞首次将人类发言同步转写成实时字幕，这开启机器转写应用新篇章。2021年11月，在多语种识别比赛中，科大讯飞在15个语种22项比赛中全部是第一名。同时，科大讯飞推出的C端翻译机作为“口袋中的翻译官”，支持80多个语种，覆盖200多个国家和地区。

　　在语音合成方面，科大讯飞基于听感量化的多人混合训练等合成框架，在配音合成、对话合成等更有表现力的场景方面，以自然通报分5分为满分的评价指标，已做到接近4.5分的水平，拟人度达到83%。因此，我们这项成熟的语音合成技术，在学习强国、新华社等主流媒体平台被广泛应用。

　　星火大模型推动数字传媒发展

　　2023年5月，科大讯飞首次发布通用大模型“星火认知大模型V1.0”。星火认知大模型的能力包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等方面。今年6月，科大讯飞正式发布讯飞星火大模型V4.0，其文本生成、语言理解、多模态等7个核心能力全面提升，整体超越GPT-4 Turbo。

　　在国产化算力方面，科大讯飞一直强调大模型技术底座自主可控。2023年10月，科大讯飞与华为联合打造的首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用，并在此基础上开展对标GPT-4的更大参数规模的大模型训练。该平台是国内唯一在国产化算力下的大模型基座。在大模型加持下，我们的多语种和多方言免切换识别能力也有了提升，现在可以支持37个语种及37种方言免切换，方言识别效果平均提升30%。另外，科大讯飞打造的企业智能体平台，可供企业结合业务场景快速构建可落地的智能体应用。

　　科大讯飞始终致力于支持国家战略，推动数字传媒发展。我们率先推出传媒大模型，该模型覆盖信息传播、文化传播及国际传播全流程生产场景，为众多媒体机构提供全面的智能创作平台。得益于传媒大模型加持，我们在内容生产效率、管理制度及内容安全审核等方面实现质的提升。

　　多模态内容生成方面，科大讯飞的音频创作能力尤为突出。我们的语音合成技术可以支持广播节目的AI同期声配音、AI常态化广播及国际传播节目配音。

　　在图像创作方面，科大讯飞不仅具有文生图和文生视频方面的能力，还赋能全媒体生产流程。在国内外大型活动上，科大讯飞除提供文字转写成字幕，还有国际传播中心或者国际频道相应翻译，以及后期语音合成配音。在AI数字人场景应用方面，在媒体、金融、文旅教育、政企等多个行业有相应应用落地，为内容创作者提供相应AI创作助手。

　　在今后的发展中，科大讯飞将继续致力于在人工智能生成内容（AIGC）领域为数字传媒行业注入新的生产力，在内容生产、内容安全、内容管理和内容运营等多个方面进行深入开发和优化。最终，我们期待在AIGC时代，积极拥抱AIGC工具、AI技术，以及全新视角和生产模式。

　　（作者张美静系科大讯飞股份有限公司智慧传媒业务总监）

　　责任编辑：任雨希

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容