异常检测集成与隐喻检测分类器效果分析
立即解锁
发布时间: 2025-08-22 01:03:39 阅读量: 2 订阅数: 6 


可扩展与适应性强的计算方法前沿探讨
### 异常检测集成与隐喻检测分类器效果分析
#### 异常检测集成相关内容
在异常检测领域,集成学习是一种有效的方法。下面是不同数据集上不同集成的相关情况:
| 数据集 | 集成 | 前 k 个中的真实异常值数量 |
| --- | --- | --- |
| Kaggle 信用卡欺诈数据集版本 1 | Ensemble - 1 | 452(前 k(492)/19492) |
| Kaggle 信用卡欺诈数据集版本 2 | Ensemble - 1 | 262(前 k(492)/19492) |
| Kaggle 信用卡欺诈数据集版本 2 | Ensemble - 2 | 244(前 k(492)/19492) |
| Annthyroid 数据集 | Ensemble - 1 | 79(前 k(347)/6942) |
| Annthyroid 数据集 | Ensemble - 2 | 76(前 k(347)/6942) |
| Spambase 数据集 | Ensemble - 1 | 951(前 k(1679)/4207) |
| Spambase 数据集 | Ensemble - 2 | 982(前 k(1679)/4207) |
| 德国信用卡数据集 | Ensemble - 1 | 179(前 k(300)/1000) |
| 德国信用卡数据集 | Ensemble - 2 | 118(前 k(300)/1000) |
从这些数据中,我们可以总结出以下关键观察结果:
1. **集成成员的多样性**:对于所有集成,成员的前 k 个结果共同包含的真实异常点数量比任何单个组件都多。例如,在图 2b 的集成中,所有成员的前 492 个点中共有 262 个真实异常或欺诈交易,而各个成员在其前 429(k) 个中分别包含 178(平均 k - NN)、125(LOF)和 219(SOD)个真实欺诈交易。这表明集成成员具有良好的多样性。在这 262 个异常值中,三个基础检测器分别产生了 13、20 和 44 个不同的异常值。
2. **异构检测器的优势**:集成中的异构检测器通常会产生更多新的或不同的异常值。例如,图 2b 的集成由平均 k - NN、LOF 和 SOD 三种不同的检测方法的前 k 个组成,共有 77(=13 + 20 + 44)个不同的异常值,总共 262 个。此外,图 2h、d、f 中的集成也使用了异构检测器,产生了大量不同的异常值。即使某些集成成员的准确性较低或中等,异构性也能带来多样性。比如在图 2b 中,LOF 检测器是最不准确的,但它在前 k 个中引入了 20 个对其他两个检测器来说是新的异常值。同样,图 2f 中最不准确的 LOF 检测器(准确率为 0.5870)在前 k 个中引入了最多的不同异常值(217 个)。
3. **同质检测器与 k - NN 值的关系**:具有不同 k - NN 值的同质检测器会带来更好的集成多样性。例如,在图 2c 中所有 SOD 检测器的集成中,k, l ≤ 50 和 k, l ≤ 60 的 SOD 检测器有 37 个共同的真实异常值,而 k, l ≤ 35 的 SOD 检测器与 SOD[k, l ≤ 50] 和 SOD[k, l ≤ 60] 检测器分别只有 4 个和 3 个共同的异常值。显然,共同异常值越多意味着结果的多样性越低,k, l ≤ 35 与 50 和 60 的差距更大。图 2i、e 中的集成也有类似的情况,但也可能存在例外。
4. **共同异常值的益处**:不仅不同的异常值,共同的异常值也能从集成中受益。当各个检测器组合成一个集成时,共同的真正阳性或异常值,无论是在所有检测器之间,还是在少数或大多数检测器之间,都会被标记为更有信心或更可能的异常值。
总体而言,经验测试和观察表明,异常检测集成通常会增强其组成部分的结果,既通过提高共同或大多数异常值的置信水平来增强鲁棒性,又通过获取新的异常值来增强多样性。尽管存在一些准确性较低或中等的检测器,但这仍然成立。不过,在某些情况下,整体集成性能(如 ROC AUC)可能低于其某些组成部分。但即使在这些情况下,m * 前 k 个异常值(m:集成成员数量)可能比其单个成员包含更多新的和有信心的异常值,这就是异常检测集成的力量。
下面是异常检测集成优势的 mermaid 流程图:
```mermaid
graph LR
A[异常检测集成] -->
```
0
0
复制全文
相关推荐









