基于文本和图神经网络的争议检测方法
立即解锁
发布时间: 2025-08-17 00:44:55 阅读量: 3 订阅数: 20 


网络信息系统的前沿研究与应用
### 基于文本和图神经网络的争议检测方法
在社交媒体中,准确检测争议性内容对于维护良好的交流环境、理解公众观点等方面具有重要意义。本文将介绍一种基于文本和图神经网络的争议检测方法,该方法结合了文本内容和用户交互信息,旨在提高争议检测的准确性。
#### 1. 相关工作
争议分析的工作可以分为三类:基于内容、基于结构和混合方法。
- **基于内容的方法**:早期检测争议的方法主要基于文本特征,仅关注语言语义,假设概念的直接文本上下文具有高度指示性,或者文本内容可作为检测争议话题/帖子的工具。例如,一些研究通过维基百科页面的“编辑大战”和页面间的关系/引用,自动标记有争议的页面,并提出测量概念在维基百科页面上争议程度的方法;还有研究使用基于最近邻分类器的集体争议分类模型,根据相关维基百科文章来识别文章是否有争议。
- **基于结构的方法**:社交媒体上的文本消息通常存在偏差,其含义可能因社区文化或语言等多种因素而异,因此在基于用户交互研究争议时,交互的结构信息尤为重要。例如,在Twitter中,“转发”和“关注”等特定功能可用于构建用户混合图,通过划分社区并使用随机游走等方法来测量和减少争议。
- **混合方法**:近期研究关注结合结构和内容信息,以避免丢失有价值的特征。例如,一些研究将用户图分区后,对不同社区的推文进行预处理和标注,用于训练文本表示模型,并计算争议分数;还有研究将Reddit讨论的评论树结构特征与语言模型输出的文本特征相结合,以提高早期争议帖子级检测的预测性能。
#### 2. 基于图神经网络的争议检测方法
该方法主要针对Reddit社交媒体,也可通过对图构建阶段进行少量调整应用于其他社交媒体。其核心思想是将Reddit讨论表示为用户图,并利用先进的图神经网络嵌入技术,同时挖掘文本内容和用户交互信息。整个流程分为四个连续阶段:
- **图构建**:将从Reddit社交媒体提取的数据表示为用户图,节点代表用户,边表示用户之间的交互。每个节点由其自身数据(如用户ID、年龄、位置、文本等)表示。具体来说,对于从子版块s中提取的帖子p的讨论,构建一个无向图,当用户uj回复帖子p或用户ui发布的任何评论时,创建边(ui, uj)。
- **用户特征提取**:使用先进的自然语言处理(NLP)技术从用户发布的文本中提取特征,以丰富图节点。具体步骤如下:
1. 对用户ui发布的每条消息(帖子或评论)进行清理,去除Reddit标签和URL链接。
2. 使用语言模型BERT将清理后的消息嵌入到e维向量中。
3. 通过聚合函数(如Max - pooling)将用户ui发布的不同消息的嵌入向量聚合为最终的用户特征xui。
4. 将每个用户的特征堆叠在矩阵X中。
- **图嵌入**:将整个用户图编码为低维向量,为图分类阶段提供输入。本文提出两种主要策略:
- **基于层次图表示学习的策略**:利用用户图结构中可能存
0
0
复制全文
相关推荐










