无监督异常检测集成方法的探索与分析
立即解锁
发布时间: 2025-08-22 01:03:38 阅读量: 2 订阅数: 6 


可扩展与适应性强的计算方法前沿探讨
### 无监督异常检测集成方法的探索与分析
#### 1. 引言
异常检测旨在识别那些与数据集中其他数据显著偏离的罕见观测值。异常值不仅可能是测量或其他类型误差的结果,还可能是提供数据重要见解的有趣模式。在现实场景中,异常值常被视为反映数据中异常行为的有意义信息来源,如网络异常检测和欺诈检测。
文献中已提出多种异常检测方法,如基于 k - NN 距离的方法、基于密度的 LOF 方法以及专门为高维数据设计的方法。然而,这些方法采用的方法差异很大,实际上,对于所有或大多数数据集,并没有一种特定的最优异常检测方法。因此,对于给定的数据集,考虑不同检测方法的异常检测结果进行进一步分析是很有必要的,这就引出了用于异常检测的集成学习。
集成学习已广泛应用于各种知识发现问题,如分类和聚类。相比之下,异常检测集成在近年来才受到关注。与传统集成不同,由于数据高度不平衡,异常检测对单个异常点的预测准确性非常敏感,即使只检测到一个新的异常点也可能具有重要价值。异常检测集成的主要目的是从集成中的每个组件检测器中获取多个新的真实异常值,同时通过提高大多数检测器检测到的异常值的置信度来增强结果的鲁棒性。
#### 2. 成员选择
##### 2.1 评估检测器的准确性和多样性
对于一个集成,异常检测器应既准确又与集成中的其他检测器有足够的差异。建议在成员的准确性和多样性之间保持平衡。多样化但不准确或不太准确的检测器会误导检测结果,而准确但缺乏多样性的检测器会导致检测到的异常值集合相似,从而使集成变得无效。
在无监督场景中,由于缺乏真实标签,无法直接评估检测器的准确性和多样性。文献中已进行了一些有限的尝试来解决这一具有挑战性的任务。对于准确性评估,使用与所有检测器的前 k 个结果的并集的相关性、与平均得分向量的相关性以及基于元素的多数投票方法。对于多样性评估,使用不同得分向量之间的相关性。然而,这些测量方法并不十分理想,例如,用于准确性评估的前 k 个异常值的并集对输入中的不准确或不良检测器非常敏感。
##### 2.2 选择模型
基于上述评估方法,近年来提出了一些选择模型,如贪婪选择、垂直选择和水平选择。
- **贪婪选择**:使用所有输入检测器的前 k 个异常值的并集作为目标向量进行准确性评估。首先将与目标相关性最高的检测器添加到集成中,然后根据检测器与当前集成的最低相关性逐个选择检测器,以最大化多样性。如果该检测器能提高集成与目标的相关性,则被选中,否则被拒绝。
- **垂直选择**:侧重于准确性,使用所有归一化得分向量的平均值作为目标。选择那些能增加集成与平均得分向量相关性的检测器。
- **水平选择**:是一种基于元素的方法。首先使用多数投票得到一组目标异常值,然后使用顺序统计计算在零假设模型下,对于一个异常点,各个检测器给出的排名顺序的概率。拒绝那些对大多数异常点给出高于预期得分的检测器,其余的则被选中。
然而,这些方法都没有很好地平衡准确性和多样性。贪婪选择对选择输入中不准确的检测器敏感,而垂直选择只关注准确性,缺乏多样性的检测器会使集成变得无效。
以下是不同选择模型在部分数据集上的选择结果:
| 数据集 | 贪婪选择 | 垂直选择 |
| --- | --- | --- |
| Ann - thyroid 数据集(Ensemble - 1) | {3, 8}(0.6435) | {1, 3, 4, 6, 7, 9}(0.6792) |
| Ann - thyroid 数据集(Ensemble - 2) | {3, 5, 9}(0.6860) | {1, 4, 5, 7}(0.6964) |
| Satimage 数据集(Ensemble - 1) | {2, 4, 5, 6, 9}(0.5397) | {1}(0.5210) |
从这些结果可以看出不同选择模型的特点和差异。例如,在某些情况下,垂直选择能得到更准确的集成,但在多样性方面可能存在不足。
mermaid 流程图展示成员选择过程:
```mermaid
graph LR
A[输入检测器] --> B{评估准确性和多样性}
B --> C{选择模型}
C --> D[贪婪选择]
C --> E[垂直选择]
C --> F[水平选择]
D --> G[输出选择结果]
E --> G
F --> G
```
##### 2.3 成员选择的问题和挑战
- 对不同检测器之间基于其特征的多样性进行全面分析,可能有助于更好地理解多样性问题。
- 开发更好的异常得分多样性度量方法。
- 开发同时兼顾检测器准确性和多样性的选择方法,挑战在于在缺乏真实标签的情况下保持准确性 - 多样性的平衡。
#### 3. 结果组合
即使为集成选择了一组优秀(即多样且准确)的检测器,有效地组合它们的结果仍然具有挑战性。这里的有效组合指
0
0
复制全文
相关推荐










