异常检测的准确性与预测:原理、指标与规则
1. 健康领域的异常检测
在健康领域,异常检测通常需要处理患者记录。异常的原因可能是患者的异常状况,也可能是记录错误。很多技术聚焦于疾病爆发的检测,在这个过程中,异常检测是关键问题,需要高精度。
患者记录的特征具有多样性,例如患者的年龄、血型、体重或生活方式等,并且数据可能同时具有时间和空间方面的特征。该领域的大多数异常检测技术试图检测异常记录(异常数据点),由于数据大多来自健康患者,所以多数技术采用半监督方法。此外,该领域的数据处理形式还包括心电图(ECG)和脑电图(EEG)等时间序列数据。
单个数据实例本身可能不是异常,但与其他被归类为真正异常的数据一起出现时,就可能构成异常。集体异常检测技术在该领域对检测异常很有帮助。不过,该领域异常检测的一个挑战是错误分类的代价,如果将异常分类为正常,可能会导致不利的健康状况未被识别。
2. 分类与回归指标
在二元分类任务中,可以使用混淆矩阵来评估训练期间的模型。混淆矩阵如下表所示:
| | 实际正类 | 实际负类 |
| — | — | — |
| 预测正类 | 真正例(tp) | 假负例(fn) |
| 预测负类 | 假正例(fp) | 真负例(tn) |
从混淆矩阵结果中生成的常用指标如下表:
| 指标 | 公式 | 评估标准 |
| — | — | — |
| 准确率(acc) | $\frac{tp + tn}{tp + fp + tn + fn}$ | 衡量正确预测在所有评估实例中的比例 |
| 错误率(err) | $\frac{fp + f