【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text

最新推荐文章于 2025-07-07 16:22:54 发布

征途黯然.

最新推荐文章于 2025-07-07 16:22:54 发布

阅读量4.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： # 文本分类文章标签：英文文本多标签文本分类 RNN-CNN

原创博客归本人所有，禁止任何人、组织、公司转载或采集！

本文链接：https://blog.csdn.net/qq_43592352/article/details/123120746

文本分类专栏收录该内容

59 篇文章

订阅专栏

本文探讨了将CNN-RNN模型应用于多标签文本分类，指出其在大规模数据集上的优秀表现，但小数据集上效果欠佳。通过使用Reuters-21578数据集，文章介绍了多标签文本分类的评价指标，如one-error、hamming loss、Precision、Recall和F1。此外，还展示了如何加载和预处理数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

·阅读摘要：
本文提出基于Seq2Seq模型，提出CNN-RNN模型应用于多标签文本分类。论文表示CNN-RNN模型在大型数据集上表现的效果很好，在小数据集效果不好。
·参考文献：
[1] Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text Categorization
[2] Seq2Seq模型讲解，参考博客：【多标签文本分类】代码详解Seq2Seq模型

本文的收获有三：

1、CNN-RNN模型；
2、多标签数据集Reuters-21578；
3、多标签评价指标：one-error 、hamming loss、Precision、Recall、F1

[1] CNN-RNN模型图

如下图：模型很简单，左边是一个TextCNN模型，右边是一个解码器Decoder。

【注一】：在理解Seq2Seq的基础上，CNN-RNN模型很好理解。

请添加图片描述

[2] 多标签数据集Reuters-21578

多标签数据集比较难得，获取数据集Reuters-21578，可以使用如下代码：

import nltk
import pandas as pd
nltk.download('reuters')
nltk.download('punkt')

# Extract fileids from the reuters corpus
fileids = reuters.fileids()

# Initialize empty lists to store categories and raw text
categories = []
text = []

# Loop through each file id and collect each files categories and raw text
for file in fileids:
    categories.append(reuters.categories(file))
    text.append(reuters.raw(file))

# Combine lists into pandas dataframe. reutersDf is the final dataframe. 
reutersDf = pd.DataFrame({'ids':fileids, 'categories':categories, 'text':text})

[3] 多标签文本分类评价指标

one-error：统计top1的预测标签不在实际标签中的实例的比例；

hamming loss：计算预测标签和相关标签的对称差异，并计算其差异在标签空间中的分数；

Precision、Recall、 F1：是二元评估指标B（ $t p$ 、 $t n$ 、 $f p$ 、 $f n$ ），用于评估分类问题的性能，这是基于真阳性（ $t p$ ）、真阴性（ $t n$ ）、假阳性（ $f p$ ）和假阴性（ $f n$ ）的数量计算的。有两种方法可以在整个测试数据中计算这些指标：宏观平均macro-averaged和微观平均micro-averaged。宏观平均是指标签的平均性能（精度、召回率和F1分数），而微观平均首先统计所有标签中的所有真阳性、真阴性、假阳性和假阴性，然后对其总体计数进行二元评估。