文档聚类中的术语聚类与置信度测量
立即解锁
发布时间: 2025-08-22 02:10:53 阅读量: 1 订阅数: 6 


网络社会的新方法与实践:信息系统开发进展
### 文档聚类中的术语聚类与置信度测量
#### 1. 引言
文档聚类是根据给定的分类标准(如主题相似度)将文档划分为多个组的过程。在监督学习场景中,系统从有标签的示例中提取特征,并学习识别同一类别的文档。许多方法基于向量空间,其中文档由特征空间中的向量表示,例如各种术语的出现情况。常用的加权方案家族是TFIDF(词频 - 逆文档频率)方案。
本文提出了一种用于文档聚类的新技术,适用于不需要严格对所有文档进行聚类的场景,系统可以返回一些被声明为不确定的结果。通过拒绝分类主题模糊的文档,我们可以获得更清晰的结果。这种拒绝是基于本文描述的置信度值来决定的,这对术语过滤也有好处,因为一些文档由于大部分术语被移除而可能变得模糊。
我们的聚类技术使用向量空间模型,首先创建文档术语矩阵(X),其中列向量表示文档,行向量表示各种术语。X的值是给定文档中术语的出现次数。研究表明,在聚类方面,文档和术语的角色可以互换:我们不仅可以在术语空间中对文档进行聚类,也可以在文档空间中对术语进行聚类。信息瓶颈方法旨在在更紧凑的特征空间中进行文档聚类,通过对特征进行聚类,尽可能为文档聚类保留更多信息,即将对聚类结果有相似影响的特征合并。
在这种情况下,信息瓶颈方法意味着在文档聚类之前进行术语聚类步骤,以创建术语簇。这样,文档将在术语簇的空间中进行分类,而不是单个术语的空间。这是一种非常有效的降维方法,因为正确分类所需的术语簇数量比可用的单个术语数量要少得多,即使在进行传统的术语过滤之后也是如此。
#### 2. 新的术语簇创建方法
在文献中,双重聚类中的术语聚类通常由无监督聚类算法执行,K - 均值通常与余弦距离度量一起用于此目的。
我们的新方法旨在进行有监督的术语聚类,并进行强术语过滤。它为每个目标簇选择能够对文档进行最佳分类的术语。术语簇会迭代创建,直到不再需要额外的簇为止。未在任何这些术语簇中使用的术语将被丢弃,并且不会在聚类过程的后续部分中使用。不出所料,第一个术语簇中的术语是给定主题中最具主题特异性的术语。在每个文档类都被一个术语覆盖之后,可以创建额外的术语簇,以增加成功聚类的文档数量。这很重要,因为所有不包含这些最重要术语的文档在新的特征空间中将被映射为空向量,并且无法分配到任何文档簇中。
术语簇创建算法使用常用的聚类性能度量:精度、召回率及其调和平均值F - 度量。定义如下:
- 精度:所有选定文档中正确选择的文档数量。
- 召回率:目标类中所有文档中正确选择的文档比例。
这两个度量通常一起使用,因为单独使用任何一个都不够:通过从目标类中选择单个文档可以实现最大精度,因为不会有任何错误分类;另一方面,通过选择所有文档可以实现最大召回率,但这会导致许多错误分类的文档。因此,F - 度量被定义为它们的调和中值,以便基于这两个标准进行优化。
##### 2.1 术语簇创建的两个步骤
术语簇创建过程包括两个主要步骤:构建步骤和缩减步骤。
- **构建步骤**:收集能够以最高精度识别目标文档类的术语。从按选择给定类文档的精度降序对术语进行排序开始,然后按此顺序迭代添加术语。在添加仅出现在目标类文档中的术语后,精度将开始下降,但召回率会增加,这会导致F - 度量达到最大值,此后召回率的增加无法弥补精度的下降,术语添加到术语簇直到此点。
- **缩减步骤**:消除冗余。术语τ的冗余度通过从术语簇中移除该术语时精度的变化率来衡量,计算公式为:
\[
\text{redundancy}(\tau)=\frac{\text{recall}(T)-\text{recall}(T\setminus\{\tau\})}{\text{recall}(T)}
\]
其中T是术语簇中的术语集。每次移除术语后都需要重新计算冗余度,此步骤会贪婪地迭代移除具有最高冗余度的术语。随着术语移除的继续,剩余术语簇的召回率会降低,如果达到预定义的最小召回值,缩减步骤将终止。最小召回限制越低,可以从术语簇中移除的术语就越多。
术语簇是针对不同的目标文档类依次创建的,使用相同的预定义最小召回限制。由于每个术语至少可以出现在一个术语簇中,因此在创建一个簇后,其中的所有术语将从可用术语集中移除。理论上,术语簇可以依次创建,直到每个术语都被分配到一个簇中。
mermaid流程图如下:
```mermaid
graph LR
A[开始] --> B[构建步骤]
B --> C[按精度降序排序术语]
C --> D[迭代添加术语]
D --> E{F - 度量达到最大?}
E -- 否 --> D
E -- 是 --> F[缩减步骤]
F --> G[计算术语冗余度]
G --> H[移除最高冗余度术语]
H --> I{召回率达到最小限制?}
I -- 否 --> G
I -- 是 --> J[结束]
```
##### 2.2 多文档类的术语簇
如果有一些主题相对接近的文档类,我们可能会期望一些术语出现在多个文档类中。如果一个术语可以选择两个类的文档,它仍然有助于将这两个类与其他类分开。这意味着我们也可以为两个文档类创建术语簇。
我们的方法首先为每个文档类创建一个术语簇,这些被称为基本术语簇。之后,剩
0
0
复制全文
相关推荐










