并行数据挖掘与知识发现系统的优化与实现

### 并行数据挖掘与知识发现系统的优化与实现在当今的数据处理领域，并行计算和知识发现是两个重要的研究方向。本文将介绍在 ATM 连接的 PC 集群上进行并行数据挖掘以及知识发现系统 INDED 的并行化相关内容。 #### 1. TCP 重传参数优化在 PC 集群上运行 HPA 程序时，TCP 重传参数的设置对程序性能有重要影响。TCP 重传在协议中会在 MAX 和 MIN 限制范围内动态变化。实验发现，默认的 MAX 值（60000[ms]）不太适合集群，可能导致不必要的长重传间隔。因此，建议将 MAX 设置为比默认值小的值，例如 MAX = MIN + 100[msec]，并且 MIN 最好设置为随机值，这样可以防止 ATM 交换机处的单元冲突。使用优化后的参数，在多达 100 台 PC 上运行 HPA 程序时能获得相当不错的加速效果。由于应用本身未改变，性能差异主要来自于 TCP 重传，这与屏障同步和全对全数据广播相关。 #### 2. 动态远程内存获取在关联规则挖掘的第 2 遍扫描中，候选项集的数量比其他遍扫描要大得多，且其数量强烈依赖于用户指定的条件，如最小支持度值，在执行前很难预测其大小。当所需内存超过实际内存大小时，部分内存内容必须被交换出去。但由于每个数据项的大小较小且数据几乎是随机访问的，将数据交换到存储设备会严重降低整体性能。为了解决这个问题，我们进行了相关实验，在需要大量内存时，将远程节点的可用内存用作交换区域。具体操作步骤如下： 1. 在每个节点设置候选项集内存使用的限制值。 2. 当 HPA 程序执行到第 2 遍扫描，内存使用量超过该限制值时，将部分内容交换到远程节点的可用内存中，即应用执行节点动态获取远程内存。 3. 当应用执行节点尝试访问已交换出去的项时，会发生页面错误。实验参数设置如下： | 参数 | 值 | | ---- | ---- | | 事务数量 | 1,000,000 | | 不同项的数量 | 5,000 | | 最小支持度 | 0.1% | | 应用执行节点数量 | 8 | | 可用内存节点数量 | 1 - 16 | 在这些条件下，第 2 遍扫描中的候选项集总数为 4,871,881，每个候选项集总共占用 24 字节，每个节点大约有 14 - 15MB 的内存被这些候选项集占用。 #### 3. 远程更新方法当内存使用受到限制时，执行时间会比无内存限制时长很多，这是因为交换操作的数量极大。从表 1 中可以看到每个应用执行节点的页面错误数量。由于大部分内存内容会被反复访问，在这种情况下似乎会出现一种抖动现象。为了防止这种现象，提出了一种限制交换操作的方法。当节点的内存使用达到限制值时，它会获取远程内存并交换出部分内存内容。如果后续需要访问这些数据，会将其交换回来。但有时，当发生页面错误时，将更新信息发送到远程内存会更好。也就是说，一旦某些内容被交换到远程节点的内存中，它们就固定在那里，只能通过库函数提供的远程内存访问接口进行访问。这种远程更新方法目前仅应用于项集计数阶段。 | 内存使用限制（MB） | 节点 1 | 节点 2 | 节点 3 | 节点 4 | 节点 5 | 节点 6 | 节点 7 | 节点 8 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 12 | 1606258 | 2925254 | 1306521 | 2361756 | 1671840 | 1723410 | 2166277 | 2545003 | | 13 | 885798 | 1896226 | 593000 | 1374688 | 932374 | 896150 | 1326941 | 1375398 | | 14 | 254094 | 1003757 | 512984 | 286945 | 191102 | 601657 | 407628 | - | | 15 | 268039 | - | - | - | - | - | - | -

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

并行数据挖掘与知识发现系统的优化与实现

相关推荐

专栏目录

并行数据挖掘与知识发现系统的优化与实现

相关推荐

基于Spark的流程对象并行数据挖掘的研究与实现.pdf

基于Spark的流程对象并行数据挖掘的研究与实现.zip

浅谈数据挖掘算法研究与实现.pdf

并行数据挖掘与知识发现系统的优化探索

Hadoop云平台下的并行数据挖掘框架与算法优化

并行数据挖掘算法优化与商业应用研究

并行数据挖掘研究

并行计算与数据挖掘

基于商业智能的并行数据挖掘技术研究.pdf

大数据挖掘中的MapReduce并行聚类优化算法研究.pdf

最简单的HTTPS加密过程简介

地理火灾监测应用 GeoFlare Detect：基于机器学习的森林火灾分析系统

专栏目录

最新推荐

【Shopee上架工具市场调研指南】：市场需求评估与产品迭代指导

ESP8266小电视性能测试与调优秘籍：稳定运行的关键步骤（专家版）

【管理策略探讨】：掌握ISO 8608标准在路面不平度控制中的关键

英语学习工具开发总结：C#实现功能与性能的平衡

SSD加密技术：确保数据安全的关键实现

【STM32f107vc多线程网络应用】：多线程应用的实现与管理之道

STM32H743IIT6多任务编程

【安装不再难】富士施乐S2220打印机驱动：解决安装问题的10大技巧

【Swing资源管理】：避免内存泄漏的实用技巧

【智能调度系统的构建】：基于矢量数据的地铁调度优化方案，效率提升50%