【Apriori算法和FP-growth算法】

原创已于 2022-11-25 17:00:24 修改 · 1.8k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #python

于 2022-11-07 22:29:24 首次发布

Apriori算法

通过例题解析算法思路

1、频繁项集思路描述
通过支持度算出min_sup，进行基础比较，大于min_sup的写入频繁1项集，然后依次写出2项集，直到k项集。
2、强关联解题思路
依托频繁项集，对强关联进行计算，然后与可信度进行比较。

在这里插入图片描述

FP-growth算法

优点：
1、FP-growth算法只需要对数据集遍历两次，所以速度更快。
2、FP树将集合按照支持度降序排序，不同路径如果有相同前缀路径共用存储空间，使得数据得到了压缩
3、不需要生成候选集
4、比Apriori更快
缺点：
1、FP-Tree第二次遍历会存储很多中间过程的值，会占用很多内存。
2、构建FP-Tree是比较昂贵的
算法部分：
1、项头表，里面记录所有的1项频繁集出现的次数，按照次数降序排列。然后将原数据进行排序。
项头表的建立
2、构建FP树。
3、挖掘频繁项
① 对于项头表对应于FP树的每一项，我们要找到它的条件模式基。所谓条件模式基是以我们要挖掘的节点作为叶子节点所对应的FP子树。

② 得到这个FP子树，我们将子树中每个节点的的计数设置为叶子节点的计数，并删除计数低于支持度的节点。
③ 从这个条件模式基，我们就可以递归挖掘得到频繁项集了

我们很容易得到F的频繁2项集为{A:2,F:2}, {C:2,F:2}, {E:2,F:2}, {B:2,F:2}。递归合并二项集，得到频繁三项集为{A:2,C:2,F:2}，{A:2,E:2,F:2},…还有一些频繁三项集，就不写了。当然一直递归下去，最大的频繁项集为频繁5项集，为{A:2,C:2,E:2,B:2,F:2}。
在这里插入图片描述
D节点比F节点复杂一些，因为它有两个叶子节点，因此首先得到的FP子树如下图左。我们接着将所有的祖先节点计数设置为叶子节点的计数，即变成{A:2, C:2,E:1 G:1,D:1, D:1}此时E节点和G节点由于在条件模式基里面的支持度低于阈值，被我们删除，最终在去除低支持度节点并不包括叶子节点后D的条件模式基为{A:2, C:2}
在这里插入图片描述