数据挖掘算法实验与应用分析
立即解锁
发布时间: 2025-08-23 00:55:22 阅读量: 2 订阅数: 5 

### 数据挖掘算法实验与应用分析
在数据挖掘领域,挖掘有价值的模式和项集是重要的研究方向。本文将介绍两种不同的挖掘算法实验及应用,包括慢性频繁模式挖掘的 CFP - growth 算法和高效用稀有项集挖掘的 UP - Rare Growth 算法。
#### CFP - growth 算法实验分析
##### 实验环境与数据库
CFP - growth 算法用 Java 编写,运行在配备 4GB 内存、2.66GHz 的 Ubuntu 机器上。实验使用了多个数据库:
- **T10I4D100K 和 T10I4D1000K 数据库**:合成事务数据库,T10I4D100K 包含 100,000 个事务和 941 个不同项,T10I4D1000K 包含 983,155 个事务和 30,387 个项。
- **Shop - 14 数据库**:基于捷克公司提供的 2005 年 ECML/PKDD 发现挑战赛中 7 个互联网商店的点击流数据,聚焦“Shop 14”用户访问的产品类别点击流数据,创建的事务数据库包含 59,240 个事务和 138 个产品类别。
- **BMS - WebView - 1 数据库**:包含 59,602 个事务和 497 个项的真实世界数据库。
- **Kosarak 数据库**:非常大的真实世界数据库,包含 990,002 个事务和 41,270 个不同项。其中 Kosarak 和 BMS - WebView - 1 数据库从 Frequent Itemset MIning (FIMI) 存储库下载。
##### 慢性频繁模式生成
为了在 T10I4D100K、Shop - 14 和 BMS - WebView - 1 数据集中找到慢性频繁模式,设置了不同的最小支持度(minSup)、最大周期(maxPrd)和最小周期率(minPR)值,具体如下表所示:
| 数据集 | minSup (α) | | | maxPrd (β) | | | minPR (γ) | | |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| | α1 | α2 | α3 | β1 | β2 | β3 | γ1 | γ2 | γ3 |
| T10I4D100K | 0.1% | 0.3% | 0.5% | 1% | 5% | 10% | 0.1% | 0.2% | 0.3% |
| Shop - 14 | 0.1% | 0.3% | 0.5% | 1% | 5% | 10% | 0.1% | 0.2% | 0.3% |
| BMS - WebView - 1 | 0.1% | 0.3% | 0.5% | 1% | 5% | 10% | 0.1% | 0.2% | 0.3% |
从生成的慢性频繁模式数量表中可以得出以下结论:
- 在固定 maxPrd 和 minPR 时,minSup 增加会减少慢性频繁模式的数量。
- 在固定 minSup 和 minPR 时,maxPrd 增加会增加慢性频繁模式的数量,因为之前被认为是非周期性的频繁模式在新的 maxPrd 阈值内被认为是周期性的。
- 在固定 minSup 和 maxPrd 时,minPR 增加会减少慢性频繁模式的数量,因为许多频繁模式无法在数据库中长时间周期性出现。
以下是不同阈值下生成的慢性频繁模式数量表:
| 数据集 | α | γ1 | | | γ2 | | | γ3 | | |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| | | β1 | β2 | β3 | β1 | β2 | β3 | β1 | β2 | β3 |
| T10I4D100K | α1 | 20077 | 26384 | 26511 | 10115 | 12643 | 12644 | 3768 | 4432 | 4432 |
| | α2 | 4476 | 4476 | 4476 | 4476 | 4476 | 4476 | 3768 | 4432 | 4432 |
| | α3 | 1069 | 1069 | 1069 | 1069 | 1069 | 1069 | 1069 | 1069 | 1069 |
| Shop - 14 | α1 | 1215 | 27320 | 30382 | 4268 | 6377 | 6537 | 2428 | 3000 | 3058 |
| | α2 | 3089 | 3089 | 3089 | 3089 | 3089 | 3089 | 2428 | 3000 | 3058 |
| | α3 | 1244 | 1244 | 1244 | 1244 | 1244 | 1244 | 1244 | 1244 | 1244 |
| BMS - WebView - 1 | α1 | 1410 | 3227 | 3680 | 572 | 777 | 796 | 362 | 431 | 432 |
| | α2 | 435 | 435 | 435 | 435 | 435 | 435 | 362 | 431 | 432 |
| | α3 | 201 | 201 | 201 | 201 | 201 | 201 | 201 | 201 | 201 |
##### 运行时间分析
CFP - growth 算法发
0
0
复制全文
相关推荐










