【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text

本文探讨了将CNN-RNN模型应用于多标签文本分类,指出其在大规模数据集上的优秀表现,但小数据集上效果欠佳。通过使用Reuters-21578数据集,文章介绍了多标签文本分类的评价指标,如one-error、hamming loss、Precision、Recall和F1。此外,还展示了如何加载和预处理数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

·阅读摘要:
  本文提出基于Seq2Seq模型,提出CNN-RNN模型应用于多标签文本分类。论文表示CNN-RNN模型在大型数据集上表现的效果很好,在小数据集效果不好。
·参考文献:
  [1] Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text Categorization
  [2] Seq2Seq模型讲解,参考博客:【多标签文本分类】代码详解Seq2Seq模型

  本文的收获有三:

  1、CNN-RNN模型;
  2、多标签数据集Reuters-21578;
  3、多标签评价指标:one-error 、hamming loss、Precision、Recall、F1

[1] CNN-RNN模型图

  如下图:模型很简单,左边是一个TextCNN模型,右边是一个解码器Decoder。

【注一】:在理解Seq2Seq的基础上,CNN-RNN模型很好理解。

请添加图片描述

[2] 多标签数据集Reuters-21578

  多标签数据集比较难得,获取数据集Reuters-21578,可以使用如下代码:

import nltk
import pandas as pd
nltk.download('reuters')
nltk.download('punkt')

# Extract fileids from the reuters corpus
fileids = reuters.fileids()

# Initialize empty lists to store categories and raw text
categories = []
text = []

# Loop through each file id and collect each files categories and raw text
for file in fileids:
    categories.append(reuters.categories(file))
    text.append(reuters.raw(file))

# Combine lists into pandas dataframe. reutersDf is the final dataframe. 
reutersDf = pd.DataFrame({'ids':fileids, 'categories':categories, 'text':text})

[3] 多标签文本分类评价指标

  one-error:统计top1的预测标签不在实际标签中的实例的比例;

  hamming loss:计算预测标签和相关标签的对称差异,并计算其差异在标签空间中的分数;

  Precision、Recall、 F1:是二元评估指标B( t p tp tp t n tn tn f p fp fp f n fn fn),用于评估分类问题的性能,这是基于真阳性( t p tp tp)、真阴性( t n tn tn)、假阳性( f p fp fp)和假阴性( f n fn fn)的数量计算的。有两种方法可以在整个测试数据中计算这些指标:宏观平均macro-averaged和微观平均micro-averaged。宏观平均是指标签的平均性能(精度、召回率和F1分数),而微观平均首先统计所有标签中的所有真阳性、真阴性、假阳性和假阴性,然后对其总体计数进行二元评估。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

征途黯然.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值