文本挖掘中的向量模型构建与降维技术

### 文本挖掘中的向量模型构建与降维技术 #### 1. 向量空间模型构建在文本挖掘中，构建向量空间模型是一项重要任务。下面介绍如何创建一个用于构建向量空间模型的函数 `getvectormodel`。该函数的调用格式为： ```matlab [mtx,params] = getvectormodel(dataset,vocab,type,idfvt) ``` 各参数说明如下： |参数|说明| | ---- | ---- | |`dataset`|包含要构建向量模型的数据集合，必须是类似于 `verses` 的结构体数组，每个文档至少包含 `vocab`（文档词汇项的字符串数组）、`count`（文档内词频的数值数组）和 `text`（文档原始文本的字符串）三个字段。| |`vocab`|用于构建模型的整体集合词汇的规范，可以是单词的字符串数组或空字符串。若为空字符串，则从 `dataset` 中直接提取词汇。| |`type`|应用的加权方案的规范，提供使用二进制值条目、TF、NTF（归一化 TF）、IDF 和基于 L2 范数的归一化选项，以及它们的任何有效组合。| |`idfvt`|用于 IDF 加权的 IDF 向量。仅在提供词汇时才有意义。若为空向量，则从 `dataset` 中计算 IDF 向量。| |`mtx`|返回给定数据集合的相应加权词 - 文档矩阵（行数与词汇项数相同，列数与文档数相同），应为稀疏矩阵。| |`params`|返回生成向量模型表示所使用的主要参数，必须是包含至少以下字段的结构体：`vocab`（包含用于构建向量空间模型的词汇项的单元格数组，顺序与模型中词汇维度或行的顺序相同）、`idfvt`（给定数据集合的 IDF 权重向量）和 `type`（应用的加权方案的规范）。| #### 2. 《雾都孤儿》文本处理项目以查尔斯·狄更斯的《雾都孤儿》为例，介绍文本处理的具体步骤： 1. **下载文本**：从 Project Gutenberg 网站（https://www.gutenberg.org/files/730/730 - 0.txt ，访问日期为 2021 年 6 月 7 日）下载该书的纯文本版本。 2. **去除前后内容**：手动从文本文件中消除前言和后记。 3. **句子分割**：尽可能将整本书分割成句子，可以考虑使用 `splitSentences` 函数。 4. **创建数据集**：创建一个字符串数组，每个元素包含一个句子。 5. **分词与小写处理**：对整个句子集合进行分词并转换为小写，计算该集合的 TF - IDF 矩阵表示。 6. **寻找相似词对**：考虑 TF - IDF 矩阵的行，使用一些研究过的关联分数来查找具有相似向量表示的词对。 7. **寻找相似句子对**：考虑 TF - IDF 矩阵的列，使用一些研究过的关联分数来查找数据集合中具有相似向量表示的句子对。 #### 3. 降维技术概述在文本挖掘中，高维空间的稀疏性问题常被称为“维度诅咒”。为缓解这一问题，可使用降维技术，将原始模型投影到较低维度的新空间，减少数据表示的稀疏性。常见的降维方法包括词汇修剪和合并等。 #### 4. 词汇修剪词汇修剪是在构建模型表示之前，从给定数据集合中移除一些词汇项的常见做法，通常应用于那些对特定分析最不具区分性或相关性的词汇项。主要有以下两种类型的词汇项可考虑修剪： 1. **高频词汇项**： - 可以定义相对频率阈值 F（0 < F < 1），移除数据集中相对频率高于该阈值的所有词汇。 - 也可以定义绝对数量 N，移除最频繁的 N 个词汇项。 2. **低频词汇项**：常见做法是移除数据集合中的所有唯一项（即仅在整个数据集合中出现一次的项，通常称为单例）。以下是具体的代码示例： ```matlab % 加载数据 clear; load datasets_ch10a % 获取相对频率高于 0.1 的词汇项的索引 hf_terms = (ranked_frequencies/max(ranked_frequencies))>0.1; ranked_vocab ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

文本挖掘中的向量模型构建与降维技术

相关推荐

专栏目录

文本挖掘中的向量模型构建与降维技术

相关推荐

文本挖掘聚类分析空间向量模型资料1

数据挖掘概念与技术部分课后习题答案（步骤详细）

计算机文本信息挖掘技术研究.docx

Word2Vec词向量模型构建与词汇相似度查询实践

DRTOOLBOX: 数据与特征降维技术分析

【文本挖掘模型构建】：Kaggle竞赛中的高级分析技术

特征选择与降维技术在大数据挖掘中的应用

情感分析中的特征选择与降维技术

特征选择与降维技术：提高模型预测能力

特征选择与降维技术的应用

Windsor10配置java开发环境(环境变量和开机自启)

清华大学操作系统课程实验.zip

专栏目录

最新推荐

前端交互效果与Perl服务器安装指南

碳纳米管在摩擦学应用中的最新进展

分形分析与随机微分方程：理论与应用

数据处理与自然语言编码技术详解

数据提取与处理：字符、字节和字段的解析

零售销售数据的探索性分析与DeepAR模型预测

Web开发实用技巧与Perl服务器安装使用指南

人工智能的组织、社会和伦理影响管理

编程挑战：uniq与findr实现解析

Rails微帖操作与图片处理全解析