交互式聚类与软件缺陷定位技术解析
在数据挖掘和软件工程领域,交互式聚类和软件缺陷定位都是至关重要的研究方向。下面将详细介绍这两方面的相关技术和实验结果。
交互式聚类
交互式聚类旨在让用户通过提供反馈来引导聚类过程,以提高聚类的准确性和效率。
算法流程
交互式聚类算法在用户对当前聚类结果满意时终止。否则,算法会从用户那里获取更多反馈,并基于包含最新反馈的反馈集对数据点进行重新聚类。
监督模型
为了替代大规模的人工监督评估,提出了一种基于数据点的黄金标准聚类标签的参数化监督模型。该模型有两个重要参数:
- 知识参数 p :控制监督者对真实聚类 t 确切描述的了解程度,p 取值范围为 [0, 1]。在构建真实聚类 t 的描述时,每个特定文档以概率 p 包含在平均计算中,当 p < 1.0 时,用户对 t 的描述只有部分了解。
- 识别阈值 r :用于从计算得到的聚类中识别真实聚类。监督者只有在当前聚类 c 的模糊性(以真实聚类的熵来衡量)低于阈值 r,且 t 是 c 中的主要真实聚类时,才会识别出真实聚类 t。在聚类算法的任何阶段,监督者都有一个已识别的真实聚类集合 Tr ⊆ T,并且只能将当前类映射到这些真实聚类上。
当被要求为数据点 x 提供分配反馈时,监督者首先检索 x 的真实聚类 t,然后返回相应的当前聚类。当被要求提供当前聚类 c 的描述反馈时,监督者首先检索相应的真实聚类 t,然后根据其知识水平 p 返回其不精确的描述。需要注意的是,监督者只有在相关真实聚类 t 属于其已识别的聚类集合