计算机集群的检查点与作业资源管理

### 计算机集群的检查点与作业资源管理在计算机集群的运行和管理中，检查点机制和作业资源管理是至关重要的两个方面。它们直接影响着集群的性能、可靠性以及资源利用率。下面将详细介绍相关的技术和方法。 #### 检查点机制 ##### 1. Forked Checkpointing 大多数检查点方案是阻塞式的，即在进行检查点操作时，正常的计算会停止。若有足够的内存，可通过在内存中复制程序状态，并调用另一个异步线程来并发执行检查点操作，从而减少检查点开销。一种简单的将检查点操作与计算重叠的方法是使用 UNIX 的 `fork()` 系统调用。`fork()` 产生的子进程会复制父进程的地址空间并进行检查点操作，与此同时，父进程继续执行。由于检查点操作主要是磁盘 I/O 密集型的，因此可以实现操作的重叠。进一步的优化是使用写时复制机制。操作步骤： 1. 在程序中合适的位置调用 `fork()` 系统调用。 2. 子进程负责进行检查点操作，父进程继续正常计算。 3. 可根据需要启用写时复制机制来优化性能。 ##### 2. User-Directed Checkpointing 如果用户插入代码（如库调用或系统调用）来告知系统何时保存、保存什么以及不保存什么，有时可以显著降低检查点开销。一个检查点应包含足够的信息以便系统恢复。进程的状态包括数据状态和控制状态，对于 UNIX 进程，这些状态存储在其地址空间中，包括文本（代码）、数据、栈段和进程描述符。保存和恢复完整状态成本高昂，有时甚至是不可能的。例如，进程 ID 和父进程 ID 通常是不可恢复的，并且在许多应用中也不需要保存。大多数检查点系统只保存部分状态，例如，代码段在大多数应用中不会改变，通常不需要保存。当前的检查点方案要求程序行为良好，不同方案对“行为良好”的定义有所不同，但至少一个行为良好的程序不应依赖于不可恢复的状态信息的精确内容，如进程 ID 的数值。操作步骤： 1. 在程序中插入代码来指定检查点的保存时机和内容。 2. 分析程序的状态，确定哪些部分需要保存，哪些可以忽略。 3. 根据分析结果编写代码，告知系统进行部分状态的保存。 ##### 3. Checkpointing Parallel Programs 并行程序的状态通常比顺序程序大得多，因为它包括各个进程的状态集合以及通信网络的状态。并行性还会引入各种时间和一致性问题。例如，在一个三进程的并行程序中，用箭头表示进程间的点对点通信，用粗线表示全局快照（一组检查点）。全局快照与进程时间线的交点表示进程应进行本地检查点的位置。 ##### 4. Consistent Snapshot 如果一个全局快照中不存在某个进程的检查点接收到了消息，但另一个进程还未发送该消息的情况，那么这个全局快照就是一致的。从图形上看，就是没有箭头从右向左穿过快照线。例如，在某个并行程序的全局快照中，若没有消息的接收和发送顺序出现不一致的情况，该快照就是一致的。更强的一致性要求是没有箭头穿过快照。 ##### 5. Coordinated versus Independent Checkpointing 并行程序的检查点方案可分为两类： - 协调式检查点（也称为一致检查点）：并行程序被冻结，所有进程同时进行检查点操作。这种方式实现困难，且往往会产生较大的开销。 - 独立检查点：进程相互独立地进行检查点操作。这种方式开销较小，并且可以利用现有的顺序程序检查点方案。这两种方式可以以各种方式结合使用。 #### 集群作业资源管理 ##### 1. 集群作业调度方法集群作业可以按特定时间（日历调度）或特定事件发生时（事件调度）进行调度。作业调度根据提交时间、资源节点、执行时间、内存、磁盘、作业类型和用户身份等因素确定优先级。优先级分为静态和动态两种： - 静态优先级：根据预定的固定方案为作业分配优先级，例如先来先服务的调度方式，或者为不同用户分配不同优先级。 - 动态优先级：作业的优先级可能随时间变化。集群节点的共享方案有以下三种： - 专用模式：一次只有一个作业在集群中运行，且每个节点一次最多分配一个作业的进程。该作业运行完成后才释放集群资源供其他作业使用。这种模式可能导致系统利用率低下。作业资源需求可以是静态或动态的： - 静态方案：为单个作业在其整个运行期间固定分配节点数量，可能会导致集群资源利用不足，并且无法处理所需节点不可用的情况。 - 动态资源：允许作业在执行过程中获取或释放节点，但实现难度大，需要运行中的作业与 Java 消息服务（JMS）进行协作。作业向 JMS 异步请求添加或删除资源，JMS 需要在资源可用时通知作业。这种协作需要修改编程语言或库，PVM 和 MPI 中存在这种协作的基本机制。 | 问题 | 方案 | 关键问题 | | ---- | ---- | --

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

计算机集群的检查点与作业资源管理

相关推荐

专栏目录

计算机集群的检查点与作业资源管理

相关推荐

pbs作业管理系统曙光PPT学习教案.pptx

计算化学 集群构建教程.pdf

操作系统第二次作业答案

Slurm集群管理系统的安装与配置教程

Hadoop工具集：集群管理与性能调试脚本

Grunt：Python脚本实现基于Git的远程集群作业自动化

【VCS资源管理】：集群资源分配与管理的有效方法

【资源管理与调度优化】：中标麒麟集群资源管理的有效方案

虚拟集群与数据中心自动化的资源管理

高可用性机器学习集群：拓扑感知作业调度的制胜策略

openpnp - 顶部相机辅助光的选择

自动化控制领域中单容水箱液位PID控制系统的设计与仿真研究 - PLC

专栏目录

最新推荐

数据可视化：静态与交互式的优劣及团队模式分析

数据在不同部门的应用与挑战及后续提升建议

利用GARCH模型变体进行股票市场预测中的情感分析实现

软件定义网络的数据可视化与负载均衡实验

数据科学家绩效评估方法解析

数据分析与分层模型解读

打造与分享Excel仪表盘：设计、保护与部署全攻略

数据可视化：工具与Python库的综合指南

基于文本的关系提取与知识图谱构建

Rasa开发：交互式学习、调试、优化与社区生态

计算化学集群构建教程.pdf