基于顺序测试增强应用识别
立即解锁
发布时间: 2025-08-21 02:02:21 阅读量: 1 订阅数: 11 


计算机通信网络与电信前沿研究
### 基于顺序测试增强应用识别
在当今的网络环境中,准确识别互联网流量背后的应用程序对于网络管理员来说至关重要。它不仅有助于根据服务质量要求对流量进行差异化处理,还能用于安全控制,识别并阻止潜在的非法应用。然而,传统的基于标准端口号或深度包检测的方法,由于加密技术的广泛应用和非标准端口的使用,其效率正逐渐降低。
#### 1. 研究背景与相关工作
- **传统方法的困境**:最初,通过查看传输头中的端口号来识别应用程序被认为是一种简单直接的方法。例如,WEB应用通常使用端口80,SMTP使用端口25。但如今,互联网用户越来越倾向于使用非标准端口或加密数据包的有效负载,包括传输头,这使得应用信息难以识别。比如,用户可能会通过端口80进行音频会议,以绕过只允许WEB流量通过的防火墙。
- **流量统计方法的兴起**:为了克服这些障碍,近年来出现了使用流量统计来识别应用程序的趋势。不同的应用程序受不同的端到端协议控制,因此会生成不同大小和不同包间时间的数据包。虽然在这方面已经取得了一些有前景的成果,但仍有进一步研究的空间。例如,某些方法只联合考虑流中的前四个数据包,这种联合考虑限制了方法扩展到更多数据包,因为观察空间会变得复杂难以处理。
#### 2. 方法描述与假设
##### 2.1 数据包的联合考虑
- **联合考虑的局限性**:研究发现,当联合使用流中前N个数据包的大小和方向进行流量分类时,分类精度会随着数据包数量的增加而先上升后下降。当考虑四个数据包时,精度达到最高的88%,之后逐渐下降到80%(考虑10个数据包时)。这并不是因为后续数据包不能区分不同类型的应用程序,而是因为在多维空间中形成聚类变得更加困难。一方面,难以找到最优的聚类数量;另一方面,增加维度需要指数级增加聚类数量,这超出了实际聚类算法(如K-Means)的处理能力。
- **分开考虑的优势**:因此,我们建议将数据包分开考虑,就好像它们来自独立的观察。每个数据包在其自己的低维空间中单独研究,然后使用概率函数对流量进行分类。这种方法的主要优点是降低了学习数据包大小特征所需的多维空间的复杂性,并且随着数据包数量的增加,分类精度会持续提高。
以下是联合考虑数据包时分类精度随数据包数量变化的表格:
| 数据包数量 | 分类精度 |
| ---- | ---- |
| 4 | 88% |
| 10 | 80% |
##### 2.2 流内数据包大小的自相关性
为了验证将数据包视为独立观察的假设,我们测量了互联网流量中每个流的前十个数据包之间的相关性。通过计算相关系数 \(R(X, Y) = \frac{COV (X,Y)}{\sigma(X) * \sigma(Y)}\),我们发现对于所有应用程序和所有滞后值,任意两个数据包之间的相关值通常小于0.3,在大多数情况下甚至接近0。这表明我们可以安全地假设数据包大小相互独立,这种低相关性使得我们的方法比联合考虑数据包大小在学习和分类阶段更具可扩展性和效率。
以下是一些应用程序数据包相关性的示例图
0
0
复制全文
相关推荐










