人工智能内容生成技术的研究与思考

  • 来源:互联网周刊
  • 关键字:ChatGPT,大模型,扩散模型
  • 发布时间:2023-09-22 16:31

  文/路加 中国工商银行远程银行中心

  摘要:人工智能已成为各行各业发展的重要驱动力。特别是ChatGPT为代表的大模型应用,让我们感受到了数字新时代序幕已经拉开。本文主要从人工智能生成内容(AIGC)的发展历程、底层技术、风险挑战三方面分析,帮助我们思考“享受人工智能技术时,还要考虑哪些风险?应如何应对新机遇与挑战” 。

  关键词:AIGC;ChatGPT;大模型;扩散模型

  引言

  2022年12月,OpenAI公司发布了对话式AI大模型产品ChatGPT,ChatGPT是OpenAI公司基于Transformer神经网络架构研发的自然聊天工具。ChatGPT不仅能够聊天,还能写代码、报告、脚本、翻译等,能够做到与人没有区别的聊天交流,一经发布风靡全球,仅推出两个月,ChatGPT月活跃用户就突破1亿人 [1],成为互联网历史上增长速度最快的产品。人工智能生成内容(AIGC)在商业领域的成功落地,让投资圈看到其巨大价值。大大小小的公司纷纷涌入这一领域,从资金、人才等方面推动整个产业飞速发展[2]。越来越多人相信不远的未来,机器一定会拥有思考能力,并为我们带来更加便利的生活。

  1. AIGC发展历程

  1.1 人工智能概念

  1950年艾伦·图灵发表论文题目为《机器能思考吗?》。他在文章中提出,如果一台机器能够和人类进行对话,并不被辨别出其机器身份,那么这台机器就具有智能。1956年的达特茅斯会议上,科学家详细讨论机器模拟人类智慧问题,并首次提出了人工智能(AI)概念。

  1.2 人工智能生成内容概念

  近两年大模型在人工智能生成内容上取得重大突破。文本、语音、视频、代码等多种展示形式都可实现人工智能生成。AIGC的广泛应用,提升了内容生产的效率、降低了生产成本,一种崭新的内容生产模式正在兴起。回顾内容生成的发展历程可以总结为三个阶段。

  第一阶段PGC(professional generated content,专业内容生成)。这个阶段内容生产被作为一种尖端技术和资源,牢牢掌握在少数人手中。中西方历史都很相似,只有少数受过高等教育的阶级团体能够创造内容,书籍纸张是昂贵的载体。工业革命后广播、电视、报纸出现,但因制作成本高昂,大多数人仍是接受者。

  第二阶段UGC(user generated content,用户内容生成)。伴随互联网技术发展,内容生产的条件大幅降低,每个人都可以生产内容并与他人分享交流,信息传送从传统的单向变为双向。每个人都是内容浏览者,更是生产者。从最早期的网站、论坛、微博以文字图片展现形式为代表的互联网产品,到后期的YouTube、抖音、快手、B站的高流量视频,都是这个阶段的代表。

  第三阶段AIGC(artificial intelligence generated content,人工智能生成内容)。用户对于内容生产的效率、展现方式要求越来越高,对于信息交流的层次也要求越来越深;以往需要几天甚至几周,由美工设计、开发、编辑等多个岗位联合完成的内容,智能机器可以在几十秒内完成。通过虚拟现实技术中的人物、场景展现出来,用户提出的大部分问题都能得到解答,且大多符合我们的逻辑和认知。人们之间能交互,人还可以与机器交互,甚至能够获得的信息和体验更优。

  1.3 人工智能生成内容发展过程

  AIGC的发展可以按时间分为初期研究阶段、中期探索阶段、应用发展阶段。初期研究阶段,实验人员研究在机器学习的基础上进行发展,深度学习(deep learning,DL)一种基于神经网络算法,通过对大量数据进行特征提取最终实现对人物的识别、分类和预测完成。深度学习模型参数量巨大,需要大量数据和算力支持,为AIGC的发展积累大量技术经验和训练数据。中期探索阶段,2014年深度学习GAN(generative adversarial nets,生成对抗网络)模型被提出,生成模型热度被点燃。2018年谷歌团队基于生成对抗网络提出Transformer模型,具有良好的并行性。这种模型数据开始被广泛应用于文本生成领域,新闻、报告、小说、对话等。2021年基于Transformer框架OpenAI公司正式发布GPT模型。强大的算力与数据积累,推动AIGC进入“快车道”。AI生成内容精准度都已达到普通用户诉求,AIGC进入商业化运营,并与教育、文化、金融等领域进行深度融合。

  2. AIGC底层核心技术

  尽管AIGC模型很多,但底层原理基本一致。主要是基于深度神经网络算法,通过输入大量的数据和模型训练,让模型学习数据的规律和表达模式。目前市场应用最广泛的为扩散模型和生成对抗网络。

  2.1 扩散模型

  扩散模型是近几年机器学习领域的重大成果。扩散模型属于生成模型,它的提出实际是受到非平衡热力学的启发。其工作原理是通过连续添加高斯噪声破坏训练数据,在添加到T步高斯噪声后,数据已经从最原始的分布变成纯高斯噪声,这一过程也被称为正向扩散。至此再反向进行扩散,逐步移除前向扩散中添加的高斯噪声,最终获得最原始的数据分布,这一过程被称为反向扩散。

  扩散模型的整体框架是完整的,数据推导过程也完整,但在实验过程中生成图片并未尽如人意,带有很多的噪声并没有达到预期摄像。实验人员在原有理论上进行优化,提出了去声扩展概率模型(denoising diffusion probabilistic model,DDPM)[3],并应用在图片生成方面,较扩散模型有很大提升,这让人们看到了扩散模型在图像影音方面的巨大发展潜力,可支持生成较大分辨率尺寸的图片。

  虽然DDPM效果提升,但在两个方面仍有很大提升空间:一是生成时间方面。因为DDPM每次添加的噪声范围很小,所以添加的步数较多,这就导致采样时间过长,生成图片的时间比较长。二是图片质量方面。DDPM生成图片的数据集与训练用数据集并不相同,导致图片效果并没有GAN(生成对抗模型)中的SOTA有显著优势。为此,实验人员定义了DDIM(denoising diffusion implicit model)模型,用于减少反向扩散步伐提升生成时间;提出IDDPM(improved denoising diffusion implicit model)模型用于优化声添加过程,通过增加模型的深度且减少模型宽度保持模型大小不变。实验过程中人们发现不管是DDPM、DDIM还是IDDPM都是无条件扩充模型,最终图片不可知。如果可以使用一个条件特征,引导扩充模型形成一类指定的图片,那么图片的精准度会大幅提升。分类器引导被发明并应用在模型中。

  2.2 生成对抗网络

  生成对抗网络(generative adversarial networks, GAN)是一种深度学习的生成模型。与前面提到的扩散模型不同,GAN由生成器和判别器两个神经网络组件组成。我们可以打个比方,生成器就像是一个造假大师,判别器就像是一个鉴定大师。生成器不断造假并将真假文物送给鉴定师鉴定。通过两者间的相互对抗,相互促进学习,最终造成以假乱真的文物目的。因此,我们可以得出结论,生成器的目的是生成虚假数据,无限接近于真实;判别器是一个好老师区分真假,帮助生成器不断改进优化。整体过程如图1所示。

  生成对抗网络一经推出就获得业界广泛关注,主要原因是其特殊的训练模式是通过两个对抗的网络相互学习。一方面不断造假,另一方面不断辨别。GAN模型最大优势在于具有很强的适应性和广泛性,生成的新样本可以无限接近真实,这使得GAN除了在图片生成还在语音合成、文本生成等方面较扩散模型更有优势,可应用的空间更大。2018年StyleGAN推出,这是一种基于GAN的图像合成模型,并引入了AdaIN将显示特征风格作为变量输入生成器,确保图像均值和风格一致性。2019年一种基于GAN的声音生成模型——WaveGAN被提出,可用于生产高质量的音频信号。此外,WaveGAN还加入批归一化层和Leaky ReLU激活函数,可以生成人声和音乐样本,并对已完成音频信号监测分类。

  3. AIGC的风险与不足

  3.1 AIGC的风险

  3.1.1 法律风险

  传统绘画、摄影、文字等作品需要付费才能使用。作品的创作者享有著作权。AIGC技术通过学习模仿,可以快速模拟作者生成图片、音视频、文字,但AI生成的著作权、肖像权等物权归属还没确定,国内外没有相关法律。2022年有网友通过AIGC技术将喜欢的歌手孙燕姿的声音进行合成,替换部分歌曲演唱者。一夜间“孙燕姿”录制歌曲近千首,歌手本人也表示一辈子都无法唱完这么多歌曲。但此行为也损害了其他歌手的版权,原歌手通过平台下载量和收入减少。

  国内外已发生多起著作人对AI公司进行起诉,控告AI抄袭原作者作品或创意,生成内容未付费对创作者造成侵权伤害。一些不法分子也将注意力转到这方面,通过AIGC换脸、电信诈骗或者生物识别等方式盗取用户资金。

  3.1.2 个人隐私安全

  AIGC在图片与视频生成过程中需要投入大量数据进行训练。AI公司获取数据具有绝对的技术优势,可以通过APP浏览数据、媒体数据、社交网络多个渠道获取客户信息,这些数据有客户隐私数据也有客户交易和浏览轨迹[4]。公司还会要求用户输入敏感数据或商业信息作为训练数据,信息是否得到有效保护、用户隐私安全是否得到有效保障还没有明确法律要求。上文提到Lensa和妙鸭相机,都需要客户上传大量个人照片。关于客户这些照片在训练后的处理,是否会被公司作为一种资产进行出售都有待观察。

  3.1.3 道德风险

  AI在处理具象工作方面具有强大的数据处理能力、极度专注度、多线程并发处理能力。未来很多知识类基础工作将由AI承担,如写作、图片、视频拍摄、代码编写等。人类将更多负责创造性工作。但在AI替代部分传统工作中,人类可能在很多方面与AI会因文化认同、社会道德等意识形态方面的差异而产生矛盾。在教育领域很多大学明确禁止学生使用ChatGPT。一方面由于其功能强大,可以短时间内生成论文,且难以被发现;另一方面,也说明学校担心学生滥用技术会导致过度依赖ChatGPT,导致学生丧失独立思考和研究能力,考试有失公平。如果AI是基于非真实数据进行的训练,很可能生成内容带有一定偏见和非真实性。

  3.2 AIGC的不足

  3.2.1 技术成熟度不足

  AIGC的大模型在进行测试和调试过程中,仍然会出现很多答非所问、答案重复、通识错误等现象。一方面,内容生成严重依赖训练数据,如果数据陈旧、偏差,机器无法判断,很难达到我们所期望的效果;另一方面,AIGC生成内容缺乏深度思考与个人观点,更多的是将一些知识点关联起来,对于部分内容用户会感觉机器在“一本正经地胡说八道”。根本原因是深度学习仍是一种“被动”状态,目的是寻找规律建立规律,但缺乏“欲望”和目标。同时,机器缺乏情感无法理解和体现人的心理活动,生成内容阅读起来会感觉很平淡,缺乏情绪,这与真人生产内容有很大差距。

  3.2.2 缺乏监管与控制

  2022年国家互联网信息办公室会同相关部门制定了《互联网信息服务深度合成管理规定》。这是我国唯一与人工智能生成内容有关的规定,仅是以行政手段下发缺乏立法过程。AIGC具有强大的内容生产能力,但是监管和执法部门缺乏技术手段有效识别AIGC生成图片、合成声音和文字,执法过程缺乏工具。根据人工智能内容生产发展,建立“科学立法、严格执法、全面守法”的监督管理体系还有大量工作,各方面经验需要不断积累。

  结语

  AIGC本身并没有好与坏、善与恶的区别。同蒸汽机和电气化一样,作为一种创新技术它既可以带来巨大价值,减少重复和具象性工作,但也可能带来动荡和不稳定。未来,AIGC需要一个有序良性的发展环境:一是完善法律法规,确保新技术应用在人类可控范围内,避免由此所带来的各类风险或者灾难。二是强化顶尖人才培养。“人才的厚度决定事业的高度”。AIGC领域对于专业人才的需求巨大,特别是“基础数学”人才[5]。GPT-3.5已具有1750亿参数,传统数学理论已很难解释其机理,只有在应用数学方面取得重大突破,人类才有可能超越现有大模型,建立真正的AI理论模型[6]。三是丰富AIGC应用广度。AIGC已应用在多行业,但应用范围和功能相对简单,生成内容还未实现和视频、VR、AR的结合。只有应用更加广泛,才能促进更多厂商公司加入其中,进一步降低AIGC软硬件成本,推动业务发展。

  参考文献:

  [1]司马华鹏,汤毅平,唐翠翠,等.大模型时代——ChatGPT拉开硅基文明序幕[M].北京:电子工业出版社,2023.

  [2]蔡然.人工智能内容生成技术对银行业的影响研究[J].中国金融电脑,2023,(7):47-49.

  [3]汲雪娇.专访杜雨:AIGC时代的人工智能[J].现代商业银行,2023,(6):20-22.

  [4]张漫游.聚焦“大模型+网络安全”银行跨界设立创新实验室[N].中国经营报,2023-7-17(B5).

  [5]许琦敏.理解并超越大模型需要数学“应战”[N].文汇报,2023-7-26(4).

  [6]于梦珂.生成式对抗网络GAN的研究现状与应用[J].无线互联科技,2019,16(9):25-26,29.

  作者简介:路加,硕士研究生,经济师,研究方向:新媒体运营、远程银行、金融科技、银行零售业务。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: