36、文本处理模型选择与序列到序列学习

文本处理模型选择与序列到序列学习

1. 词袋模型与序列模型的选择

在文本分类任务中,常有人认为词袋模型已过时,基于Transformer的序列模型才是通用之选,但实际并非如此。在很多情况下,基于二元词组的词袋模型之上叠加少量全连接层仍是有效的方法。例如在IMDB影评分类任务中,二元词组词袋模型的表现最佳。

那么,何时应优先选择某种方法呢?2017年的一项系统分析发现了一个简单的经验法则:当处理新的文本分类任务时,应关注训练数据样本数量与每个样本平均词数的比例。若该比例小于1500,二元词组词袋模型表现更好,且训练和迭代速度更快;若比例高于1500,则应选择序列模型。也就是说,当有大量训练数据且每个样本相对较短时,序列模型效果最佳。

样本数量与平均词数比例 适用模型
< 1500 二元词组词袋模型
> 1500 序列模型

以下是一些具体示例:
- 若要对1000字的文档进行分类,有100000个文档(比例为100),应选择二元词组模型。
- 若对平均40字的推文进行分类,有50000条推文(比例为1250),也应选择二元词组模型。
- 若推文数据集增加到500000条(比例为12500),则应选择Transformer编码器。

对于IMDB影评分类任务,有2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值