业务流程中的时间异常检测
立即解锁
发布时间: 2025-08-20 01:49:55 阅读量: 1 订阅数: 5 


业务流程管理:第12届国际会议论文集
### 业务流程中的时间异常检测
#### 1. 背景与相关工作
在业务流程中,异常检测旨在识别不符合数据一般行为或模型的数据。常见的异常检测问题包括离群值分析、新奇性检测和噪声去除。由于实际环境中收集的数据大多存在噪声,包含离群值或错误,因此异常检测至关重要。
异常检测的方法多种多样,如分类、聚类、统计方法和信息理论方法等。本文主要聚焦于统计离群值检测方法以及业务流程领域中提出的异常检测技术。
统计离群值检测常基于假设检验,即判断观察到与实际观测值一样极端的随机样本的可能性是否极小。该方法也可与非参数方法结合使用,例如Yeung和Chow提出的方法,他们采用非参数方法,从核密度估计的似然分布中采样,以检查新数据是否来自同一分布。
在业务流程事件日志中,结构异常检测备受关注,因为这些异常会影响流程挖掘算法的性能。检测技术包括算法重放和基于成本的适应性分析等。此外,还有一些研究将时间边界集成到一致性检查中,或分析业务数据对关键绩效指标的业务影响。
#### 2. 业务流程中的异常检测方法
##### 2.1 基本假设
业务流程中的异常检测方法基于一些直观假设:
- 异常事件持续时间相较于正常执行时间较为罕见。
- 实际(典型)活动持续时间相互独立,而活动的观测持续时间仅取决于其实际持续时间和前一活动的观测持续时间。
- 整个流程处于“稳态”,不考虑趋势或季节性因素。
- 所有事件都收集在事件日志中,该日志包含活动信息和发生时间。
假设使用从业务流程模型的普通Petri网表示中丰富而来的GDT_SPN模型。
##### 2.2 离群值检测
大多数检测与指定控制流偏差的工作仅关注结构偏差,而本文进一步考虑活动的执行时间,以检测不符合预期持续时间的情况。这些预期持续时间以统计信息的形式编码在GDT_SPN中定时转换的概率密度函数中。
常见的在正态分布数据中查找离群值的方法是计算观测值的z分数($z = \frac{x - \mu}{\sigma}$),当$|z| > 3$时,将观测值分类为离群值。但该方法依赖于数据呈正态分布的假设,实际情况中往往并非如此。
为了更灵活地检测离群值,可以根据观测值的百分比指定阈值。例如,对于正态分布的观测值,计算理论的0.5%分位数和99.5%分位数,若观测值低于0.5%分位数或高于99.5%分位数,则将其分类为离群值。然而,这种基于分位数的方法仅适用于对称概率分布。
在处理实际数据时,简单的参数模型可能无法充分捕捉概率分布。此时,可采用Yeung和Chow提出的基于假设检验的方法。该方法的主要思想是计算随机样本$y$从模型$M$的对数似然分布$L(y) = \log P(y | M)$,并计算事件$x$由同一模型$M$生成的对数似然$L(x) = \log P(x | M)$。通过检验$L(x)$是否来自与$L(y)$相同的对数似然分布,即$P(L(y) \leq L(x)) > \psi$(其中$0 < \psi < 1$为阈值参数),若概率不大于$\psi$,则拒绝原假设,认为$x$是相对于模型$M$的离群值。
##### 2.3 测量误差检测
区分单个测量误差和良性离群值十分重要。测量误差仅影响单个事件,而离群值会影响后续事件。例如,一个任务的异常延迟不太可能被下一个任务立即弥补,反而可能导致后续任务延迟。因此,若单个活动存在测量误差,通常会影响两个活动:描述完成时间的活动以及紧随其后被启用的活动。
0
0
复制全文
相关推荐










