BERT在微博情感分类及对话回复生成中的应用研究
一、BERT基于层次序列的微博情感分类实验
-
数据集介绍
- 采用COAE 2015上下文敏感微博情感分类任务数据集。官方训练集从中国最大的微博平台微博网抓取,包含2800个样本,标签分为积极、中性和消极。测试集由COAE任务组织提供,但标签未公开,由两名研究生标注,仅保留标签一致的样本,约占整个测试集的65%。
- 数据集中有4248个标注的中文微博,通过转发和引用‘@’关系形成555个对话链。从标签来看,积极标签样本1571个,中性1647个,消极1030个。对话链长度分布如下表:
| 长度 | 占比 |
| — | — |
| 2 | 57.8% |
| 3 | 25.1% |
| 3+ | 17.1% | - 相邻微博间情感极性漂移统计如下表:
| 目标微博 \ 前一条微博 | 积极 | 中性 | 消极 |
| — | — | — | — |
| 积极 | 764 | 286 | 120 |
| 中性 | 509 | 855 | 466 |
| 消极 | 60 | 157 | 338 | - 约45%的微博与相邻微博情感极性发生变化,模型可捕捉情感标签和文本特征信息。每个微博链平均约157个字符,每条微博平均35个字符,86.9%的数据为非根微博。实验中,4/5的数据集作为训练集,其余作为测试集。
-
对比基线方法