44、BERT在微博情感分类及对话回复生成中的应用研究

BERT在微博情感分类及对话回复生成中的应用研究

一、BERT基于层次序列的微博情感分类实验
  1. 数据集介绍

    • 采用COAE 2015上下文敏感微博情感分类任务数据集。官方训练集从中国最大的微博平台微博网抓取,包含2800个样本,标签分为积极、中性和消极。测试集由COAE任务组织提供,但标签未公开,由两名研究生标注,仅保留标签一致的样本,约占整个测试集的65%。
    • 数据集中有4248个标注的中文微博,通过转发和引用‘@’关系形成555个对话链。从标签来看,积极标签样本1571个,中性1647个,消极1030个。对话链长度分布如下表:
      | 长度 | 占比 |
      | — | — |
      | 2 | 57.8% |
      | 3 | 25.1% |
      | 3+ | 17.1% |
    • 相邻微博间情感极性漂移统计如下表:
      | 目标微博 \ 前一条微博 | 积极 | 中性 | 消极 |
      | — | — | — | — |
      | 积极 | 764 | 286 | 120 |
      | 中性 | 509 | 855 | 466 |
      | 消极 | 60 | 157 | 338 |
    • 约45%的微博与相邻微博情感极性发生变化,模型可捕捉情感标签和文本特征信息。每个微博链平均约157个字符,每条微博平均35个字符,86.9%的数据为非根微博。实验中,4/5的数据集作为训练集,其余作为测试集。
  2. 对比基线方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值