19、规则集诱导与优化:基于数据不完整性和混合方法的研究

规则集诱导与优化:基于数据不完整性和混合方法的研究

在数据处理和机器学习领域,如何诱导出更优质的规则集是一个关键问题。本文将探讨两种方法,一是通过增加数据集的不完整性来诱导更好的规则集,二是结合粗糙集和统计学习理论的混合方法进行规则归纳。

增加数据不完整性诱导规则集

在传统观念中,完整的数据集往往被认为更有利于规则集的诱导。然而,研究发现,对于某些完整的数据集,通过增加其不完整性(即移除一些现有的属性值),有可能诱导出在错误率方面更优的规则集。

实验数据与处理

实验使用了七个典型的数据集,具体信息如下表所示:
| 数据集 | 案例数量 | 属性数量 | 概念数量 |
| — | — | — | — |
| Bankruptcy | 66 | 5 | 2 |
| Breast cancer - Slovenia | 277 | 9 | 2 |
| Hepatitis | 155 | 19 | 2 |
| Image segmentation | 210 | 19 | 7 |
| Iris | 150 | 4 | 3 |
| Lymphography | 148 | 18 | 4 |
| Wine | 178 | 12 | 3 |

在实验中,除了破产数据集外,其他数据集均可从UCI ML存储库获取。对于乳腺癌 - 斯洛文尼亚数据集,原有的11个包含缺失属性值的案例被移除。对于破产和鸢尾花数据集,所有属性均为数值型,在规则诱导过程中使用MLEM2算法进行离散化处理。图像分割数据集则使用基于凝聚聚类分析的离散化方法转换为符号型。

缺失
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值