01
4 项文章索引
调度系统概述
如果你刚开始接触集群环境,先把“调度系统到底在做什么”这件事看明白,会比一上来背命令有效得多。
文章
SLURM调度系统的基础使用
这份资料适合第一次真正把任务提交到集群上的阶段来看。比起零散记忆命令,更重要的是把“提交作业、查看状态、取消任务、读取输出”这条基本工作流跑通。
文章
SLURM调度系统的进阶使用
当基础提交流程已经不再是问题之后,真正影响效率的往往是资源申请方式、脚本组织方式,以及多任务调度策略的细节。
文章
SLURM调度系统的常见问题和解决方案
真正开始长期使用集群之后,最耗时间的通常不是“不会提交作业”,而是任务排队异常、资源申请不匹配、环境初始化失败,或者脚本看起来没报错但就是跑不起来。
文章