Slurm ( Simple Linux Utility for Resource Management )是开源的、具有容错性和高度可扩展大型和小型 Linux集群资源管理和作业调度系统。超级计算系统可利用 Slurm 进行资源和作业管理,以避免相互干扰,提高运行效率。所有需运行的作业无论是用于程序调试还是业务计算均必须通过交互式并行 srun、批处理式 sbatch 或分配式 salloc 等命令提交,提交后可以利用相关命令查询作业状态等。
同时北鲲云超算平台也是使用的Slurm作业管理系统,熟悉slurm作业管理系统的同学可以快速上手北鲲云进行计算,不熟悉的也没关系,一是可以学,我们有完整的教程以及技术支持服务,另外就是平台还提供模板提交方式,无需it基础也可以快速进行计算。直接按照模板提示提交作业即可。多种软件覆盖多个行业,欢迎来试一试。
一. 常用命令
sinfo #查看分区状态
squeue #查看队列中的作业
scontrol #查看作业详细信息
scancel #取消已经提交的作业
sbatch #批处理式提交作业
salloc #分配式运行作业
- 查看分区状态
sinfo
CPU分区命名规则为c-核心数-每核心内存大小,如c-8-4:表示单节点规格为8核,每核心有4G内存,即节点规格为8核32G。</