合成欺诈数据生成方法与安全系统用户交互设计
合成欺诈数据生成方法
在欺诈检测系统的开发中,合成测试数据的生成至关重要。以下是合成欺诈数据生成的详细步骤:
数据收集
作为数据生成方法的起点,我们需要收集背景数据样本和能代表目标系统预期行为的攻击样本。目标系统的输出日志数据是检测系统的输入,因此有目标系统的真实数据样本会很方便,这些数据有望包含具有代表性的用户和系统行为信息,这可能是生成数据最有价值的来源。
若真实数据量过少,也可从类似服务收集数据,但需确定这些数据是否适用于我们的服务。即便有真实数据,也可能不具代表性,比如在检测系统投入使用前,用户数量增加或系统功能改变。
真实攻击数据通常难以获取,我们可以通过其他方式收集。在入侵检测领域,已知攻击的数据库或多或少是公开可用的;在欺诈领域,攻击往往更具服务特异性,可能需要“发明”可能的攻击场景,或将其他类型服务的已知欺诈手段应用到我们的情况中。收集到的攻击可以注入目标系统以获取相应的日志数据,且日志数据应进行标记,以便确切知道哪些条目对应特定攻击。
收集的数据属性是否与检测系统的运行环境相符很难确定,但这并非合成数据特有的问题。若检测系统在“错误”属性的数据上进行训练和测试,无论输入数据类型如何,检测都不会准确。我们必须预测用户的未来行为,并希望预测足够接近现实。此步骤的输出可能有多种格式,可能是与欺诈检测系统(FDS)输入格式相同的标记日志数据,也可能是仅包含每个攻击部分信息的攻击数据库。
数据收集步骤总结
- 收集目标系统背景数据和攻击样本。
- 若真实数据不足,从类似服务收集并评估适用性。
- 收集攻