大模型时代计算国际传播研究的进展与前瞻

  • 来源:对外传播
  • 关键字:国际传播,计算传播,智能传播
  • 发布时间:2025-05-03 10:58

  周葆华 方扬

  【内容提要】大模型作为人工智能领域的重要突破,正在改变国际传播研究的格局。本文基于大模型时代计算国际传播的英文文献,勾勒这一领域的基本图景。研究发现,大模型的计算国际传播研究呈现较强的跨学科特征,文化和政治是其两大主题,中国和美国是两大考察地区,GPT系列是主要分析模型。根据模型角色(对象/方法)和观察视角(比较/流动),本文将大模型的计算国际传播研究概括为“对象-比较”“对象-流动”“方法-比较”“方法-流动”四种模式,并详细分析了其具体形态和方法操作,进而对大模型时代国际传播研究的发展提出建议。

  【关键词】大语言模型 国际传播 计算传播 智能传播

  作为人工智能技术最引人瞩目的新进展,大语言模型(large language models)的发展非常迅速,不但深刻影响社会生活,也为社会科学研究带来重要机遇。它对国际传播领域也产生重要影响,不但可以应用于国际传播的实践,①也可以助力计算国际传播研究(computational international communication research)。本文基于国际英文文献,对大模型应用于计算国际传播研究的现状进行梳理。

  本文对“国际传播”的含义采取相对广义的理解,包括国家比较层面的传播分析(comparative studies)和跨国之间的传播互动(international and intercultural studies)。②在比较层面,研究聚焦于传播现象在不同国家或文化背景下的表现差异;在传播互动层面,研究关注信息、文化在国家或区域之间的流动与影响。大模型时代的计算国际传播研究被定义为与大模型有关(包括作为对象与方法)、采用计算(包括文本挖掘、在线实验、行为挖掘等)或智能方法(基于大模型)展开的国际传播研究。我们基于“国际传播”和“大模型”两个核心概念构建检索词组合,对社会科学引文索引(SSCI)和艺术与人文引文索引(A&HCI)数据库的传播学及相关学科进行系统检索(时间范围为2022年1月1日至2025年1月15日)。考虑到学术期刊的发表周期问题,我们在预印本平台arXiv的“计算机科学”(Computer Science)分类下采用相同的检索词策略进行补充检索。③经过对文献题目、摘要及部分正文内容的人工阅读,最终确定符合大模型计算国际传播研究主题的文献数量为54篇。接下来从研究概况、模式与方法等维度勾勒大模型时代计算国际传播研究的发展图景。

  一、研究概况

  (一)数量、平台与主题

  尽管ChatGPT在2022年问世,但当年并未出现与大模型相关的计算国际传播研究。2023年,对这一领域的关注逐渐开始,共有10篇文章;2024年有38篇文章;2025年初,已有6篇新成果面世。从发表平台看,该领域成果呈现跨学科特征。其中刊载较多的期刊为《自然》(Nature)杂志下属的《人文与社会科学通讯》(Humanities and Social Sciences Communications)(3篇),收录最多的会议为自然语言处理实证方法会议(EMNLP,3篇)、北美计算语言学协会会议(NAACL,2篇)、语言模型会议(COLM,2篇)等,均为自然语言处理相关的国际会议。相对而言,传播期刊的发表较少(3篇)。

  从研究主题看, 与大模型相关的计算国际传播研究主要涉及政治、经济、文化、军事、环保、科技、教育等主题。其中,文化类主题最多(35篇,64.8%,可多选),关注大模型在不同国家文化、宗教、方言及饮食等方面的偏见、适应性与文化意识。政治类主题次之(14篇,25.9 %),涉及大模型的政治偏见、对跨国政治文本的分析能力等。

  (二)国家/地区与模型分布

  从研究涉及的国家/地区的数量而言,有42篇文章说明了国家/地区的具体范围;有5篇文章以不同语言(如中英文背景下的饮食文化)、宗教(如穆斯林和印度教徒的方言差异)、文化(如东西方思维)等作为比较或流动的边界;有7篇没有说明研究国家/地区的具体范围。从研究的具体国家/地区来看,在指明国家/地区的研究中,美国(31篇,73.8%)和中国(23篇,54.8%)是占比最多的两个国家,其次是德国(20篇,47.6%)、英国(19篇,45.2%)、法国、澳大利亚、西班牙、日本、印度和巴西(各有16篇,38.1%)等。

  大模型的选取也存在偏向。在涉及的27个模型中:对GPT的研究最多(46篇,85.2%),其次是Llama(11篇,20.4%)、Claude 和 Gemini(各7篇,13.0%)。从大模型开发公司的所在地而言,美国模型(52篇,96.3%)占比最高,其次是中国(Qwen、GLM、INTERN-VL、Wenxin Yige/文心一格、Ernie/文心一言、Baichuan/百川,8篇,14.8%),再次是法国模型(Mixtral、Mistral,5篇,9.3%)。

  二、研究模式

  (一)划分模式的两个维度:大模型角色与国际传播视角

  首先,大模型在国际传播研究中存在两种主要角色:作为分析对象和作为分析方法。前者指将与大模型相关的国际传播现象作为研究问题(可被视为“智能的社会科学/Social Science of AI”的组成部分),后者则指将大模型作为国际传播问题的研究方法(可被视为“社会科学智能/AI for Social Science”的组成部分)。

  其次,国际传播研究有两种主要视角:多国比较研究和跨国流动研究。前者主要是将不同国家/地区作为比较研究的对象、考察国家/地区在传播现象上的异同,后者则考察国家/地区之间的信息、文化等的流动关系与影响(如:相互报道、信息流通、文化流动、国际舆论、全球情绪、文化适应等)。

  根据上述两个维度的组合,我们将大模型时代的计算国际传播研究划分为四种主要研究模式,并统计了各自所占的比例:(1)对象–比较研究:30篇(55.6%);(2)对象–流动研究:5篇(9.3%);(3)方法–比较研究:10篇(18.5%);(4)方法–流动研究:9篇(16.7%)。

  (二)大模型计算国际传播研究的四种主要模式

  1.对象–比较研究

  这类研究主要关注大模型在不同国家/文化上的差异或偏见/偏向。所使用的核心概念/理论主要包括:偏见(含国家偏见、政治偏见、意识形态偏见、地理偏见、社会偏见、国籍偏见、性别偏见等)、文化理解(含文化维度理论、跨文化理解、文化意识、文化认知、文化自我感知等)、情感(如情感程序理论/affect program theories)、思维(如思维地理性/geography of thought)、擦除(含地理擦除/geographical erasure、文化擦除/cultural erasure、文化简化/cultural simplification、文化遗漏/cultural omission)等。具体的研究主要包括如下三方面:

  第一,关注大模型的国家形象偏见。研究利用大模型生成关于不同国家的描述或评价,发现大模型复制了固有偏见,例如对西欧国家印象更好,对拉丁美洲和非洲的评价较为负面。④还有研究进一步将国家的基本特征作为解释变量,发现大模型对国家形象的呈现受到国家网民数和经济指数的影响——显著偏向网民总数较多、人类发展指数高的国家。⑤⑥

  第二,关注大模型的价值观(文化价值观、政治价值观等)。例如,有研究发现GPT在文化价值观(以综合价值观调查/Integrated Values Surveys,IVS数据测量)上偏向英语和新教欧洲国家;⑦有研究关注了大模型在心理认知文化上的表现,发现GPT在情感表达(以19个跨文化情景测量)上偏向西方规范。⑧在政治价值观方面,有研究关注了大模型在意识形态(以堕胎议题测量)上的表现,发现GPT在使用瑞典语时对相关议题的回应更偏向瑞典,使用波兰语时则更偏向波兰。⑨

  第三,关注大模型在具体知识和任务中的偏见。例如,有研究分析ChatGPT在环境保护上回复的建议,发现其很大程度强化了西方科学认知,而忽略了低收入国家和本地社区的修复经验。

  10当大模型使用地理文化知识生成旅游建议时,更多提到欧洲地区,对非西方文化地区表现不佳(总体出现率低、推荐原因单一)。

  11这种偏见还体现在团队招聘、街景图像渲染等许多任务情景中。

  2.对象–流动研究

  这类研究聚焦大模型在信息或文化的跨国传播中的表现与影响。所使用的核心概念包括文化(含文化适应、文化意识、跨文化关联等)、信息(含虚假信息、错误信息、数字宣传等)和认知效果(如确认偏差/confirmation bias、首因效应/primacy effect等)三个方面。具体的研究可以分为两类:

  第一,考察大模型在跨文化传播任务中的表现。例如,有研究分析大模型在跨文化改编中的表现:让GPT、ChatGLM2等完成一项中英互译的食谱改编任务(cross-cultural recipe adaptation),发现大模型的文化适应能力存在差异——GPT在中文到英文的食谱翻译中表现出色,而ChatGLM2在英文到中文的翻译中表现优异。

  12还有研究分析大模型能否识别不同文化中的相似概念(如美国的新娘面纱和中国的红盖头),发现思维链(CoT)的提示策略可以帮助模型识别跨文化流动中的相似性,但其跨文化理解能力仍然没有人类准确。

  13

  第二,考察大模型生成技术在跨国传播中可能带来的影响。例如,一项研究分析大模型驱动的聊天机器人如何处理俄罗斯关于乌克兰战争的虚假信息,并发现这些聊天机器人的准确性存在波动,特别是在非英语语境下,其识别和反驳虚假信息的能力显著下降。

  14另一项研究则分析了中道(Midjourney)生成俄乌战争相关图像时的视觉表征特点,发现AI生成的战争图像往往趋于同质化,过分强调破坏和战斗场景,而忽视了更广泛的文化和社会语境,可能会影响公众对战争事件的认知和理解。

  15

  3.方法–比较研究

  这类研究关注将大模型作为方法应用于研究时在不同国家/文化中的效果差异,包括作为文献推荐方法(1篇,10%)、文本分类(5篇,50%)、以及调查样本替代(4篇,40%)。其中,除了1篇涉及到大模型与人类在混合编码中的协同角色外(使用GPT-4对政治推文做出两次编码,当出现分歧时由人类专家裁定),

  16其余均呈现大模型与人类之间的比较关系——即比较大模型的应用表现与传统研究方法。

  根据应用的具体情景,方法–比较研究主要可以分为两类。首先,比较大模型用于文本分析的国家/地区差异。例如,有研究发现大模型在多模态仇恨言论编码中的文化偏向(以与相应文化中的人类编码员的一致性衡量),即大模型的编码结果更倾向于美国文化,而与印度文化的契合度较低。

  17还有研究发现大模型在政治分类中的跨文化差异,例如,使用GPT-4根据推文消息识别政治党派时,在美国以外的地区准确率都较低。

  18

  其次,比较大模型在模拟调查样本上的差异。例如,ChatGPT在模拟世界价值观调查(WVS)中的政治和环境议题的舆论上,对西方、英语和发达国家的表现更好;

  19类似地,当使用GPT-3.5来模拟公众的政治选举行为和对政治议题的态度时,模型在英语国家的模拟效果优于非英语国家,在两党制国家(如美国)的选举模拟表现优于多党制国家(如德国)。

  20这类研究揭示了大模型作为“硅样本”(silicon sample)的模拟局限,强调了训练语料多样化的必要性。

  4.方法–流动研究

  这类研究主要聚焦大模型作为方法在跨国或跨文化传播研究中的应用价值,包括文本分类(6篇,66.67%)和问卷调查(3篇,33.33%)。其中,有2篇(22.22%)体现了大模型与人类的协同关系,另外7篇体现了比较关系(77.78%)。具体内容包括:

  首先,关注大模型方法在国际传播流动的文本分析中的应用。例如:有研究使用ChatGPT对美国、英国对中国的经济新闻报道文本进行主题分类,

  21有研究使用GPT和Claude对中国社交媒体上关于乌克兰危机的讨论发帖进行立场分类,

  22还有研究运用GPT对优兔上瑞典网民对罗姆移民议题的评论中的仇恨言论进行主题分析。

  23

  其次,关注大模型在跨国/跨文化调查中的问卷改编应用。例如,有研究使用AI预测试从美国改编至南非的问卷,发现经过GPT审阅和迭代后的问卷在清晰度和偏见问题上相比原始版本表现更好,并大大减少了传统专家审阅和用户测试的时间和成本;

  24有研究则指出,GPT在翻译问卷的质量和问题识别方面具有潜力,但对复杂语境的理解和输出的稳定性不足。

  25

  三、研究方法

  (一)参数设定

  我们编码了所有54篇文献中对相关参数的设置情况,主要包括温度、响应次数等。结果发现:有37篇(68.5%)明确了每个提示的响应次数。其中,只考虑模型单次输出的情况最多(14篇,37.8%)、其次是3次和100次输出(各4篇,10.8%)。

  有20篇文献(37.0%)明确了温度的设置,共有13种不同的温度设置(可多选)。设置为0的有10篇(50%),设置为1的有8篇(40%),设置为其他温度的有9篇(45%)。在20篇文献中,有6篇研究(30%)探究了大模型在不同的温度设置下的表现,剩余14篇(70%)研究使用了单一的温度设置。

  温度和响应次数影响着输出的稳定性,取决于任务的不同需求,每篇文章具体的设置差异较大。但研究发现,即便是相似的主题和任务,参数的设置也存在差异。例如,在研究GPT模型的国籍偏见时,研究者为了避免偶然性,让每个提示在4种温度设置下(0、0.3、0.6、0.9)生成2轮话语,在计算相似度后选择是否合并,

  26而另外两篇研究国际偏见的文章则未提及温度设置,将每个提示的响应次数设置为100。

  27

  28

  (二)提示设计

  提示(prompt)是用户给大模型的指令,模型会根据这些指令生成相应的输出,不同的提示设计会显著影响大模型的输出结果。在社会科学研究中,微调通常因需要大量的计算资源和训练数据而难以实现,因此,简单轻量的提示设计在大模型使用的零样本和少样本学习场景中具有重要作用。

  29

  研究发现,在提示设计中,“角色扮演”(role-play)的使用最多。主要有具有特定文化身份的角色(如作为在某国长大的人、天主教徒、联合国维和人员等)、分析辅助型角色(如定性研究员、叙事学家等)两种。前者主要是为了得到特定文化身份的回答,从而获得模型对不同文化的模拟和评估。例如,让LLaMA扮演不同宗教教徒以获得模型对不同宗教的情感表达,评估模型的文化偏见。

  30后者主要是为了帮助模型理解、生成和分析与跨文化、多语言背景相关的内容,例如,让ChatGPT扮演精通某国文化的专家,从而实现对问卷的跨文化改编。

  31

  四、总结与思考

  本文总结了大模型时代计算国际传播研究的发展特征。第一,呈现社会科学与计算机技术交叉的学科特征,文化和政治是其中的重要主题;第二,从国家来看,美国和中国是研究最多的两个国家;从模型来看,GPT系列是研究最多的模型;第三,本文基于大模型角色(对象vs.方法)和国际传播视角(比较vs.流动)提出大模型计算国际传播研究的四种模式,并发现其作为分析对象主要集中于研究大模型的跨国和跨文化偏见,作为方法则主要应用于文本分析和调查研究;第四,大模型的设置在响应次数上以单次为主,主要采用“角色扮演”型的提示设计。

  基于上述发现,我们认为,大模型时代的计算国际传播研究可以在如下方面进一步发展:第一,传播学应当更加重视大模型时代的计算国际传播研究。目前,相对于计算机学科,传播研究的关注相对不足,值得加强;第二,超越“西方中心主义”。目前大模型时代的计算国际传播研究仍然存在一定程度的西方中心主义倾向——表现在无论是所研究的国家还是模型产地,仍以美国和欧洲主要国家为主。在推动全球文化互鉴与信息流通的国际传播背景下,未来研究可以纳入更多来自全球不同地区和不同发展阶段的国家,以及与这些国家相关的本地化大模型,从而更加全面地反映全球多样化的传播格局;第三,加强解释性研究。现有研究主要侧重于描述大模型的具体表现或方法潜力,缺乏较为深入的理论探讨。例如,对大模型在国际传播中的偏见的描述性分析较多,但解释性分析不足,这方面需要大力加强;第四,对大模型作为国际传播的研究方法有更好的定位。尽管一些研究探讨了大模型在国际传播研究中的潜力,但都是从比较的角度展开,缺乏与人类的协同研究。实际上,由于大模型偏见和响应的各种问题,其应用并不总是那么有效,人工智能应被视为协助、改进或增强研究的工具,而非完全替代传统研究方法;第五,国际传播研究中对大模型的操作设计需更规范。模型的参数设置和提示设计一方面需要适应国际传播研究的具体情景,另一方面也会对国际传播的结果产生重要影响。然而,目前国际传播研究中大模型的参数设置存在较大差异,既缺乏足够充分的报告,也缺乏解释说明,因此,大模型时代的计算国际传播研究需要增强方法运用与操作设计的规范性、透明性、解释性,这不仅能够提高国际传播研究的质量和可靠性,也有助于推动国际传播理论的创新与发展。

  本文系国家社科基金人才项目(22VRC186)、上海数学与交叉学科研究院项目(SIMIS-ID-2024-LZ)的阶段性成果。

  周葆华系复旦大学信息与传播研究中心研究员,

  复旦大学新闻学院教授,全球传播全媒体研究院研究员,复旦大学国家发展与智能治理综合实验室研究员;

  方扬系复旦大学新闻学院研究生

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: