数据挖掘新方法:聚类集成半监督分类与粗糙集神经网络结合
立即解锁
发布时间: 2025-08-20 01:05:33 订阅数: 6 


人工智能与计算智能前沿进展
### 数据挖掘新方法:聚类集成半监督分类与粗糙集神经网络结合
#### 1. 聚类集成半监督分类(SSCCE)
在之前的实验中,SSCCE 的集成规模 H 固定为 100,但不同的集成规模可能会影响其性能。以下是使用随机森林在 H = 50、H = 100 和 H = 150 时 SSCCE 的性能表现:
| 集成规模 H | 平均准确率表现 |
| --- | --- |
| 50 | 优于 H = 100 和 H = 150 |
| 100 | - |
| 150 | - |
除了 heart - statlog 数据集外,SSCCE (RF) 在大多数数据集上达到最高平均准确率的集成规模是相同的。
SSCCE 的工作流程如下:
1. 利用 k - means 算法对所有样本生成多个不同的划分,每次使用不同的聚类中心。
2. 匹配不同划分中的聚类。
3. 选择具有高聚类一致性指数的样本,并将其对应的聚类一致性标签与真实类别标签进行匹配。
4. 用重新匹配的聚类一致性标签标记选定的未标记样本。
5. 将这些未标记样本添加到初始标记训练集中,然后在扩大的标记训练集上训练一个假设模型。
SSCCE 采用一种易于理解的方法来估计未标记样本的标记置信度,能够充分利用标记和未标记样本,克服了一些传统半监督学习算法的缺陷。在十个 UCI 数据集上的实验表明,SSCCE 优于仅在标记训练数据上训练的监督学习算法。与一些传统的半监督学习算法(如协同森林和自训练)相比,当标记训练数据数量非常少时,SSCCE 在大多数数据集上也能表现得更好。
mermaid 格式流程图如下:
```mermaid
graph LR
A[生成多个划分] --> B[匹配聚类]
B --> C[选择高一致性样本]
C --> D[匹配标签]
D --> E[标记未标记样本]
E --> F[添加到训练集]
F --> G[训练假设模型]
```
#### 2. 数据挖掘与粗糙集、神经网络
数据挖掘(DM)是 20 世纪 90 年代兴起的新技术,与知识发现数据库(KDD)密切相关,常被视为 KDD 的关键步骤。常见的数据挖掘算法和理论包括粗糙集、人工神经网络、决策树、遗传算法等。本文主要讨论粗糙集理论和人工神经网络中的 BP 神经网络。
粗糙集和 BP 神经网络在数据挖掘中都有分类功能,它们的优缺点如下:
| 方法 | 优点 | 缺点 |
| --- | --- | --- |
| 粗糙集 | 擅长并行执行、描述不确定信息和处理冗余数据 | 对对象噪声敏感 |
| BP 神经网络 | 精度高,对噪声不敏感 | 冗余数据易导致过训练,网络规模和训练样本数量影响训练速度和时间 |
为了克服这些缺点,提出了一种结合粗糙集理论和 BP 神经网络的新数据挖掘算法。
#### 3. 粗糙集理论
粗糙集由波兰学者 Z.Pawlak 在 1982 年提出,具有强大的定性分析能力,无需预先对某些特征或属性进行定量描述。以下是粗糙集理论的一些重要定义:
1. **决策系统**:将 S = (U,A{Va},a) 视为知识表达系统,若 A 由条件属性集 C 和结论属性集 D 组成,且 C ∩ D = φ,则 S 可称为策略系统。
2. **非可区分性关系**:对于策略系统 S = (U, C∪D),B⊆C 是条件属性集的子集,对偶关系 I
0
0
复制全文
相关推荐










