计算机集群的检查点与作业资源管理
立即解锁
发布时间: 2025-08-29 10:37:36 阅读量: 7 订阅数: 17 AIGC 

### 计算机集群的检查点与作业资源管理
在计算机集群的运行和管理中,检查点机制和作业资源管理是至关重要的两个方面。它们直接影响着集群的性能、可靠性以及资源利用率。下面将详细介绍相关的技术和方法。
#### 检查点机制
##### 1. Forked Checkpointing
大多数检查点方案是阻塞式的,即在进行检查点操作时,正常的计算会停止。若有足够的内存,可通过在内存中复制程序状态,并调用另一个异步线程来并发执行检查点操作,从而减少检查点开销。一种简单的将检查点操作与计算重叠的方法是使用 UNIX 的 `fork()` 系统调用。`fork()` 产生的子进程会复制父进程的地址空间并进行检查点操作,与此同时,父进程继续执行。由于检查点操作主要是磁盘 I/O 密集型的,因此可以实现操作的重叠。进一步的优化是使用写时复制机制。
操作步骤:
1. 在程序中合适的位置调用 `fork()` 系统调用。
2. 子进程负责进行检查点操作,父进程继续正常计算。
3. 可根据需要启用写时复制机制来优化性能。
##### 2. User-Directed Checkpointing
如果用户插入代码(如库调用或系统调用)来告知系统何时保存、保存什么以及不保存什么,有时可以显著降低检查点开销。一个检查点应包含足够的信息以便系统恢复。进程的状态包括数据状态和控制状态,对于 UNIX 进程,这些状态存储在其地址空间中,包括文本(代码)、数据、栈段和进程描述符。保存和恢复完整状态成本高昂,有时甚至是不可能的。例如,进程 ID 和父进程 ID 通常是不可恢复的,并且在许多应用中也不需要保存。大多数检查点系统只保存部分状态,例如,代码段在大多数应用中不会改变,通常不需要保存。当前的检查点方案要求程序行为良好,不同方案对“行为良好”的定义有所不同,但至少一个行为良好的程序不应依赖于不可恢复的状态信息的精确内容,如进程 ID 的数值。
操作步骤:
1. 在程序中插入代码来指定检查点的保存时机和内容。
2. 分析程序的状态,确定哪些部分需要保存,哪些可以忽略。
3. 根据分析结果编写代码,告知系统进行部分状态的保存。
##### 3. Checkpointing Parallel Programs
并行程序的状态通常比顺序程序大得多,因为它包括各个进程的状态集合以及通信网络的状态。并行性还会引入各种时间和一致性问题。
例如,在一个三进程的并行程序中,用箭头表示进程间的点对点通信,用粗线表示全局快照(一组检查点)。全局快照与进程时间线的交点表示进程应进行本地检查点的位置。
##### 4. Consistent Snapshot
如果一个全局快照中不存在某个进程的检查点接收到了消息,但另一个进程还未发送该消息的情况,那么这个全局快照就是一致的。从图形上看,就是没有箭头从右向左穿过快照线。例如,在某个并行程序的全局快照中,若没有消息的接收和发送顺序出现不一致的情况,该快照就是一致的。更强的一致性要求是没有箭头穿过快照。
##### 5. Coordinated versus Independent Checkpointing
并行程序的检查点方案可分为两类:
- 协调式检查点(也称为一致检查点):并行程序被冻结,所有进程同时进行检查点操作。这种方式实现困难,且往往会产生较大的开销。
- 独立检查点:进程相互独立地进行检查点操作。这种方式开销较小,并且可以利用现有的顺序程序检查点方案。
这两种方式可以以各种方式结合使用。
#### 集群作业资源管理
##### 1. 集群作业调度方法
集群作业可以按特定时间(日历调度)或特定事件发生时(事件调度)进行调度。作业调度根据提交时间、资源节点、执行时间、内存、磁盘、作业类型和用户身份等因素确定优先级。优先级分为静态和动态两种:
- 静态优先级:根据预定的固定方案为作业分配优先级,例如先来先服务的调度方式,或者为不同用户分配不同优先级。
- 动态优先级:作业的优先级可能随时间变化。
集群节点的共享方案有以下三种:
- 专用模式:一次只有一个作业在集群中运行,且每个节点一次最多分配一个作业的进程。该作业运行完成后才释放集群资源供其他作业使用。这种模式可能导致系统利用率低下。作业资源需求可以是静态或动态的:
- 静态方案:为单个作业在其整个运行期间固定分配节点数量,可能会导致集群资源利用不足,并且无法处理所需节点不可用的情况。
- 动态资源:允许作业在执行过程中获取或释放节点,但实现难度大,需要运行中的作业与 Java 消息服务(JMS)进行协作。作业向 JMS 异步请求添加或删除资源,JMS 需要在资源可用时通知作业。这种协作需要修改编程语言或库,PVM 和 MPI 中存在这种协作的基本机制。
| 问题 | 方案 | 关键问题 |
| ---- | ---- | --
0
0
复制全文
相关推荐









