多关系数据挖掘与不平衡数据集学习方法解析
在数据挖掘领域,多关系数据挖掘和处理不平衡数据集是两个重要的研究方向。下面将详细介绍多关系朴素贝叶斯分类器(Mr - SBC)以及一种处理不平衡数据集的新方法 SMOTEBoost。
Mr - SBC:多关系朴素贝叶斯分类器
为了计算序列概率 (P(seq)),需要引入连接查询满足概率 (JP) 的定义。设 (\vartheta = (T_{i_1}, T_{i_2}, \ldots, T_{i_s})) 为外键路径,则:
[JP(\vartheta)=JP(T_{i_1}, \ldots, T_{i_s}) = \frac{|T_{i_1} \times \cdots \times T_{i_s}|}{|T_{i_1}| \times \cdots \times |T_{i_s}|}]
其中 (T_{i_1} \times \cdots \times T_{i_s}) 是表 (T_{i_1}, \ldots, T_{i_s}) 连接的结果。
每个序列 (seq = (\beta_{1,j}, \beta_{2,j}, \ldots, \beta_{t,j})) 都与一个外键路径 (\vartheta) 相关联。概率 (P(seq)) 可递归定义如下:
[P(seq) =
\begin{cases}
P(seq’) \times JP(T_{j_1}, \ldots, T_{j_t}) & \text{如果 } seq \text{ 的最长前缀在 } B \text{ 中} \
JP(T_{j_1}, \ldots, T_{j_t}) & \text{如果 } s