可解释的高性能仇恨与冒犯性言论检测及标注优化
立即解锁
发布时间: 2025-08-29 12:11:05 阅读量: 16 订阅数: 41 AIGC 

### 可解释的高性能仇恨与冒犯性言论检测及标注优化
在当今社会,社交媒体的普及使得信息传播迅速,但同时也带来了仇恨与冒犯性言论的问题。为了降低少数群体基于种族、宗教和残疾等因素受到攻击的可能性,尤其是在倡导言论自由的国家,检测社交媒体平台上的仇恨和冒犯性语言显得尤为重要。
#### 模型构建与评估
- **模型选择与训练**
- **AutoGluon**:作为基准模型,将数据集按20%和80%的比例划分为测试集和训练集。设置超参数使用多模型特征,训练多个模型(如文本预测模型),并根据性能通过加权集成或堆叠集成方法进行组合,最后让AutoGluon根据测试和验证分数选择最佳性能算法。
- **ULMFiT**:首先清理数据集,同样按20%和80%划分测试集和训练集。使用文本数据加载器对象调整输入文件格式,借助Fastai深度学习库创建模型,采用Fastai库中的文本分类器学习器(使用Averaged Stochastic Gradient Descent (ASGD) Weight - Dropped LSTM模型),利用预训练模型(在Wikitext 103上训练)并在数据集上进行微调,最终基于20个训练周期和0.003的学习率构建最佳性能分类器。
- **XGBoost不同特征集的F1分数**
| 行 | 使用的特征 | 非冒犯性 | 冒犯性 | 仇恨性 |
| --- | --- | --- | --- | --- |
| (1) | Sent | 0.84 | 0 | 0.62 |
| (2) | Sent, POS + NER | 0.86 | 0.17 | 0.70 |
| (3) | Sent, POS + NER, Hash + Men | 0.87 | 0.18 | 0.73 |
| (4) | Sent, POS + NER, Hash + Men, Text Symb | 0.88 | 0.22 | 0.75 |
| (5) | 第(4)行使用的特征, POS + TF - IDF | 0.97 | 0.75 | 0.87 |
从这个表格可以看出,随着特征的不断增加,XGBoost模型在不同类别上的F1分数总体呈现上升趋势。例如,当加入POS + TF - IDF特征后,非冒犯性、冒犯性和仇恨性类别的F1分数都有显著提升。这表明合理选择和组合特征能够有效提高模型的性能。
#### 模型解释
为了理解模型预测或标注背后的主要贡献,引入了SHAP(SHapley Additive exPlanations)方法。SHAP使用每个特征对模型预测的重要性值,其方法基于博弈论中的Shapley值,应用于机器学习模型以实现可解释性。通过SHAP力场图解释数据集中的推文,使用SHAP树解释器展示不同特征如何影响模型将推文分类到特定类别。例如,对于推文“if you still hate this nigga xxx http:xxxx”,SHAP重要性值高于基准值,表明“hate”这个词和POS nn(名词)等特征促使该推文被分类为仇恨类,而“count”和“average - syl”等特征则没有起到这样的作用。
#### 模型性能比较
- **原始数据集**
| 模型 | 非冒犯性 | 冒犯性 | 仇恨性 |
| --- | --- | --- | --- |
| XGBoost | 0.97 | 0.87 | 0.75 |
| LSTM | 0.96 | 0.91 | 0.38 |
| AutoGluon | 0.96 | 0.90 | 0.37 |
| ULMFiT | 0.95 | 0.89 | 0.38
0
0
复制全文
相关推荐









