数据挖掘——关联规则挖掘

一、关联规则挖掘

关联规则挖掘:

一种发现大量数据中事物(特征)之间有趣的关联的技术。典型应用是购物篮分析:找出顾客购买行为模式、发现交易数据库中不同商品(项)之间的联系

1.关联规则挖掘的应用:互联网、零售、交通事故成因、生物医学

2.关联规则定义:假设I=I1,I2,。。。Im)是项的集合。给定一个事务数据库D,其中每个事务(Transaction)t是I的非空子集

关联规则:不相交的非空项集X、Y,蕴含式X->Y,X->Y是一条关联规则。其中X∈I,Y∈I,且X∩Y=∅

关联规则挖掘可以分解为下列两个子问题:

(1)找出所有频繁项目集 ,这些项目集在 TDB 中的支持度不小于最小支持度 min_sup ;

(2)由频繁项目集产生强关联规则 ,这些规则必须满足最小置信度 min_conf 。

3.先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场购买的商品的集合:

t1: 牛肉、鸡肉、牛奶

t2: 牛肉、奶酪

t3: 奶酪、靴子

t4: 牛肉、鸡肉、奶酪

t5: 牛肉、鸡肉、衣服、奶酪、牛奶

t6: 鸡肉、衣服、牛奶

t7: 鸡肉、牛奶、衣服

假如有一条规则:牛肉—>鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7,而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4。这两个比例参数是很重要的衡量指标,它们在关联规则中称作支持度(support)和置信度(confidence)。对于规则:牛肉—>鸡肉,它的支持度为3/7,表示在所有顾客当中有3/7同时购买牛肉和鸡肉,其反应了同时购买牛肉和鸡肉的顾客在所有顾客当中的覆盖范围;它的置信度为3/4,表示在买了牛肉的顾客当中有3/4的人买了鸡肉,其反应了可预测的程度,即顾客买了牛肉的话有多大可能性买鸡肉。

关联规则的度量

1.支持度(support)

支持度的定义:support(X->Y)=|X∩Y|/N=集合X与集合Y中的项在一条记

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值