天河二号是一款由中国国家并行计算机工程技术研究中心研制的超级计算机,曾在2013年和2015年两次位列世界超级计算机500强榜单的榜首。天河二号的使用手册提供了对于该超算系统的基本操作指导,特别是关于SLURM资源管理系统的详细说明。SLURM全称为Simple Linux Utility for Resource Management,是一个开源的高性能计算资源管理和作业调度系统,广泛用于超级计算机和集群计算环境中。 SLURM资源管理系统的组成主要包括控制进程(Slurmctld)、记账存储进程(Slurmdbd)、节点监控进程(Slurmd)和作业管理进程(Slurmstepd),以及一套命令工具。控制进程运行在管理节点上,是资源管理系统的控制核心,负责记录节点状态、进行分区管理、作业管理、作业调度和资源分配。记账存储进程同样运行在管理节点上,负责将作业信息保存到数据库中,并记录用户、账号、资源限制、服务质量(QOS)等信息,同时提供用户认证和安全隔离功能。节点监控进程运行在每个计算节点上,负责监控节点状态并向控制进程注册,以及处理来自控制进程和用户的请求。作业管理进程由节点监控进程启动,管理一个作业步的所有任务,包括启动计算任务、标准I/O转发、信号传递、任务控制和资源使用信息收集。 SLURM提供的命令工具包括用于查看历史作业信息的yhacct、进行资源分配的yhalloc、提交批处理作业的yhbatch、取消作业的yhcancel、进行系统控制的yhcontrol、查看节点与分区状态的yhinfo、查看队列状态的yhqueue和加载任务的yhrun等。 SLURM资源管理系统的实体包括节点、分区、作业和作业步。节点即计算节点,包含处理器、内存、磁盘空间等资源,拥有空闲、分配、故障等状态,并以节点名字标识。分区是对节点的逻辑分组,提供资源限制、访问权限和优先级设置的管理机制,可以重叠并提供类似队列的功能。作业是一次资源分配的单位,位于特定分区中,通过作业ID标识。作业步是通过yhrun加载的任务,可以只使用作业中的部分节点,并且一个作业可以包含多个作业步,它们可以并发运行。 在关联方面,SLURM通过<cluster,account,user,partition>构成的四元组来实施资源限制,每个作业都有对应的关联。帐号和用户的资源限制最终以关联进行记录,包括节点数量、作业数量和时间限制等。 在具体操作上,SLURM允许用户查看节点状态,使用yhinfo命令可以查看节点状态和分区情况,例如节点可用性、分区时间限制等。yhcontrol命令可用于查看节点的详细信息,如节点名称、架构、CPU总数、内存大小、状态等。节点的基本状态有未知(UNKNOWN)、空闲(IDLE)、已分配(ALLOCATED)和故障(DOWN)。状态标识还包括不再分配(DRAIN)、作业退出中(COMPLETING)等。 以上为《天河二号使用手册》中SLURM资源管理系统的主要知识点概述。在实际使用过程中,用户需要熟悉并掌握这些知识,以便能够高效利用天河二号超级计算机的强大计算资源。




























剩余43页未读,继续阅读


- 粉丝: 0
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源


