文本深度学习与分类系统解析
1. 文本摘要与处理基础
文本摘要提取是将文本分类为摘要或非摘要段落,然后提取摘要段落作为文本摘要。具体操作如下:
- 段落分类 :使用初始标记为摘要或非摘要的样本段落进行训练,将代表段落的向量分类为摘要或非摘要。
- 摘要提取 :被分类为摘要的段落被选作文本摘要。文本摘要可映射为二元分类,段落被编码为数值向量。
文本摘要还可视为文本池化的实例,将摘要编码为数值向量用于文本分类。查询在其中起到过滤向量的作用,基于查询的文本摘要可看作文本卷积。同时,文本摘要可与其他文本挖掘任务结合以产生协同效应。
此外,在文本处理中,还可考虑以下方面:
- 多表示编码 :使用多个标准选择特征时,可定义多个不同的特征集,将文本编码为多个数值向量。若原始数据被编码为多个表示,可将这些表示连接成单个表示后应用单一机器学习算法,或独立应用多个机器学习算法,这种基于原始数据多表示的机器学习类型称为多视图学习。
- 多词列表索引 :文本索引是将文本转换为一组单词的过程。在基本步骤上增加额外步骤可得到不同的单词列表。若文本集合被索引为多个列表,就可以选择不同的特征集将文本编码为数值向量,这也是文本被编码为多个表示的原因。
- 卷积与池化结合 :在实现文本深度学习算法时,可将文本卷积和文本池化相互结合。在将文本编码为数值向量之前,将文本卷积和文本池化附加到机器学习算法上。同时,在编码模块和分类模块之间添加数值卷积和数值池化,并且多个卷积层和多个池化层