社交媒体热点事件挖掘与传播机制研究——基于事件网络文本表示模型

  • 来源:互联网周刊
  • 关键字:事件网络文本表示模型,事件传播,影响力
  • 发布时间:2023-11-03 19:04

  文/黄婵 赣州师范高等专科学校自然科学与计算机系

  摘要:在社交媒体时代,深入研究热点事件的挖掘与传播机制,对于理解信息传播和社交网络行为具有重要意义。本文旨在探讨一种有效捕捉社交媒体上事件相关文本特征的事件网络文本表示模型,以更好理解事件的传播和影响力。

  关键词:热点事件挖掘与传播;事件网络文本表示模型;事件传播;影响力

  引言

  在社交媒体时代,研究热点事件的挖掘与传播机制,对于理解信息传播和社交网络动态至关重要[1]。社交媒体平台已经成为信息交流的主要渠道,用户在这些平台上分享各种事件和话题,从而塑造了公众舆论和社会观点。为了更深入地理解信息传播的复杂性并有效应对,本文探讨一种事件网络文本表示模型[2]。该模型精准地捕捉了社交媒体上事件相关文本的特征,为研究事件传播和影响力提供了新的工具和方法。本文将深入探讨该模型在社交媒体热点事件挖掘与传播机制研究中的应用案例,包括热点事件的检测、话题建模以及情感分析等方面,以展示其在信息传播领域的潜力和实际应用。期望为信息传播和社交网络行为提供更深入的理解和支持。

  1. 事件网络文本表示模型

  1.1 模型简介

  事件网络文本表示模型是一种高度先进的文本处理技术,其主旨在于将包括社交媒体等文本数据在内的信息转化为计算机可理解的数值表达形式。该技术通过将单词、短语或文本段落映射为高维度向量,以捕获文本的语义和语境信息,从而使计算机能够更加深入地理解文本内容。这种技术广泛应用于事件挖掘、主题建模、情感分析、信息检索等多个领域,有助于从海量文本数据中提取有价值的信息和深刻的见解。

  1.2 社交媒体热点事件挖掘与传播的过程及与其相关的事件网络文本表示模型

  (1)数据预处理:首要步骤是对社交媒体上的原始文本数据进行预处理,其中包括去除特殊字符、停用词以及数字等,以确保数据的一致性和可分析性。

  (2)将文本转化为数值表示:借助TF-IDF[3](term frequency-inverse document drequency)模型,文本数据被转换成向量形式,为后续分析和建模提供了数值化的基础。

  (3)事件识别和话题提取:通过运用词嵌入模型Word2Vec[4],从社交媒体数据中确定出热点事件和相关话题。此后文本数据被映射至高维向量表示形式,并通过计算文本之间的相似性来寻找相似话题和事件。

  (4)传播路径分析和情感分析:首先利用文本主题模型隐含狄利克雷分布(LDA),识别和分析社交媒体热点事件的不同传播路径和话题,然后借助长短期记忆网络模型LSTM[5],确定用户对事件的情感态度,包括正面、负面和中性情感。

  1.3 社交媒体热点事件挖掘与传播的流程图

  如图1所示。

  2. 基于事件网络文本表示模型的社交媒体热点事件挖掘与传播的算法

  2.1 TF-IDF算法:将文本转化为数值表示

  将预处理后的文本数据运用TF-IDF算法转化为数值的形式,转化过程如下:

  (1)词频(TF)计算:

  对于d文档中的词汇t,其词频TF(t,d)表示为:

  其中,N表示词汇t在文档d中出现的次数,M表示文档d中的总词数。

  (2)逆文档频率(IDF)计算:

  对于词汇t,其逆文档频率IDF(t)表示为:

  其中,Nt表示总文档数,Mt表示包含词汇t文档数。

  (3)TF-IDF计算:

  对于词汇t在文档d中的TF-IDF值表示为:

  为进行事件识别和话题提取,随后运用Word2Vec算法对文本数据进行数值化处理。

  2.2 Word2Vec算法:事件识别和话题提取

  Word2Vec模型将每个词汇映射为向量表示。假设有一个词汇表V,每个单词wi对应于一个词向量vi,其中i表示词汇表中的索引。对于一个文本序列,其中包含n个词汇:

  (1)使用Word2Vec模型,将每个词汇映射为词向量:

  对于词汇wi,其词向量表示为。

  (2)对于整个文本序列v,通过计算平均词向量表示文本的高维度向量:

  该过程详细描述了如何利用Word2Vec模型将文本序列映射为平均词向量,从而捕获整个文本的语义信息。这些高维度向量随后可用于进行计算文本向量之间的相似性,来发现相似的文本内容或识别文本中的事件和话题。

  2.3 LDA和LSTM:传播路径分析和情感分析

  2.3.1 LDA主题建模

  对于文档d,使用LDA模型获得主题分布的过程如下:

  (1)文档表示:首先,将文档d表示为词袋模型:,其中wi表示文档中的第i个词汇。

  (2)主题分布计算:对于文档d,计算其主题分布如下:

  其中,i表示文档d中属于主题i的概率分布。的计算基于Gibbs采样方法,表示为:

  其中,ni表示文档d中主题i的词汇数量,ai为Dirichlet先验参数,mi是文档d中的词汇总数,表示wj词汇属于主题i的概率。

  2.3.2 传播路径分析

  基于LDA主题建模的结果,分析文本数据中不同话题的传播路径的过程如下:

  (1)话题提取:根据LDA模型的输出,获得文本中涉及的主题分布,包括主题的权重分布。

  (2)传播路径分析:对于每个主题或主题组合,追踪其在社交媒体上的传播路径。这包括了分析哪些用户或社交媒体账户首先提到了这些话题,以及随后的传播链条。

  (3)传播图构建:使用网络分析技术,构建传播图,其中节点表示用户或账户,边表示信息传播的路径。可以使用C代码生成一个简单的传播图(如图2所示),其中包含5个节点和6条边,邻接矩阵显示了节点之间的连接关系。

  (4)影响力评估:通过分析传播路径中的节点和边的属性,评估不同用户、账户或话题的影响力。这可以通过计算节点的度、中心性等网络属性来完成,以帮助识别最具影响力的参与者和关键信息源。

  2.3.3 情感分析(LSTM模型)

  情感分析的过程使用LSTM模型,包括以下步骤:

  第一步,文本序列表示:将输入文本序列表示为词向量的序列,其中xi表示文本序列中的第i个词汇的词向量表示。

  第二步,长短期记忆网络模型:使用长短期记忆网络模型(LSTM)进行情感分析,LSTM模型包括输入门、遗忘门、输出门和记忆单元。

  第三步,隐藏状态计算:LSTM模型计算隐藏状态序列,其中hi表示LSTM模型的隐藏状态。计算过程包括以下公式:

  (1)输入门:

  (2)遗忘门:

  (3)输出门:

  (4)记忆单元:

  (5)隐藏状态:

  其中,表示sigmoid函数,*表示逐元素乘法,为权重矩阵,为循环权重矩阵,t表示时间步。

  第四步,情感结果输出:LSTM模型输出情感结果序列,其中yi表示文本序列中的第i个词汇的情感分析结果。情感分析结果可为正面、负面或中性情感。情感分析后使用软件Tableau对分析结果可视化呈现,并生成热点事件报告。

  3. 事件网络文本表示模型在社交媒体热点事件挖掘与传播中的应用案例

  3.1 社交媒体热点问题

  (1)气候变化问题:社交媒体上的气候变化问题备受关注。如何准确捕捉气候变化的关键信息、分析公众态度和意见,成为一个重要问题。

  (2)新技术推广问题:社交媒体上不断涌现各种新技术的推广,如人工智能、区块链、虚拟现实等。如何有效挖掘这些新技术的相关信息,了解公众对其的态度,并识别潜在的应用领域,成为一个重要问题。

  3.2 问题原因

  (1)信息碎片化:社交媒体平台上围绕气候变化和新技术推广问题的信息多源且碎片化。这一多样性反映在信息来源的分散性,信息来源包括新闻媒体、科研机构以及广泛的社交媒体平台。不同信息来源之间的一致性和协同性存在挑战,这给问题的全面把握和综合性解析带来了复杂性。在气候变化领域,多源信息可能存在不一致之处;在新技术推广问题中,信息可能分散在网络上的多个来源,难以协同整合。

  (2)舆论多元性:社交媒体上的气候变化问题和新技术推广问题相关的观点和态度呈现多元性。社交媒体作为信息交流和意见表达的平台,容纳了公众的各种不同声音和观点。这种多元性使问题的解析变得更加复杂,因为公众可能就气候变化问题和新技术的推广问题持有不同甚至相互矛盾的观点。例如,在气候变化问题领域,人们的观点和态度可能迥然不同,一些人支持采取紧急行动,而另一些人则质疑气候变化的严重性;在新技术推广问题中,一些人热衷于新技术的广泛应用,而其他人则对技术的安全性和社会影响感到担忧。

  (3)信息混淆:社交媒体平台上充斥着虚假信息,容易使公众对气候变化问题和新技术推广问题的真实情况产生困惑。虚假信息的存在会误导公众,扭曲他们对问题的认知和评估。例如,在气候变化问题领域,虚假信息否认气候变化的存在,或者试图淡化其潜在影响;在新技术推广问题中,虚假信息会夸大新技术的益处或潜在风险。虚假信息的广泛传播增加了问题的复杂性。

  3.3 解决方案

  事件网络文本表示模型的应对措施如下:

  (1)多源信息整合:使用模型整合来自不同渠道的信息,创建全面的数据集,以更好地理解问题;

  (2)情感分析:使用情感分析,了解社交媒体上的态度和情感反应,识别支持和反对意见;

  (3)关键信息提取:使用模型提取关键信息,以增进公众理解;

  (4)虚假信息检测:使用模型检测虚假信息传播路径,确保信息真实性;

  (5)可视化呈现:使用可视化工具Tableau,以图形方式呈现数据和舆情态势。

  结语

  事件网络文本表示模型在社交媒体热点事件挖掘与传播中具有广泛的应用潜力。通过多源信息整合、情感分析、关键信息提取、虚假信息检测和可视化呈现等方法,更准确地理解和应对社交媒体上的重大问题,如气候变化和新技术推广。本研究为信息传播、舆情分析以及决策制定者提供了有力的工具和实践指导。在不断演变的社交媒体环境中,事件网络文本表示模型将持续发挥重要作用,以提供更加深入的见解与支持。

  参考文献:

  [1]毛太田,蒋冠文,李勇,等.新媒体时代下网络热点事件情感传播特征研究[J].情报科学,2019,37(4):029-035.

  [2]谭伟志,廖涛,方贤进.面向事件的文本表示模型的构建及应用研究[J].阜阳师范大学学报(自然科学版),2021,38(1):74-79.

  [3]胡宏章,邱云飞,郭蕾.融合条件熵和TF-IDF的过采样方法[J].计算机时代,2023,(6):48-53.

  [4]唐焕玲,卫红敏,王育林,等.结合LDA与Word2vec的文本语义增强方法[J].计算机工程与应用,2022,58(13):135-145.

  [5]李丽萍,曾丽芳,江绍萍,等.基于LSTM神经网络的股票价格预测[J].云南民族大学学报(自然科学版),2023,32(4):528-532.

  作者简介:黄婵,硕士研究生,副教授,研究方向:人工智能、数据挖掘。

  基金项目:江西省教育厅科学技术研究项目——事件网络文本表示模型在社会网络中的应用(编号:GJJ213505)。

关注读览天下微信, 100万篇深度好文, 等你来看……