这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版上一修订版两侧同时换到之后的修订记录 | ||
atk:使用job_manager向服务器上提交作业 [2018/03/26 23:20] – [添加PBS、LSF、SLURM队列服务器] fermi | atk:使用job_manager向服务器上提交作业 [2018/05/10 10:59] – fermi | ||
---|---|---|---|
行 10: | 行 10: | ||
* 便捷:随时可以联机查看即可查看任务、下载计算结果。 | * 便捷:随时可以联机查看即可查看任务、下载计算结果。 | ||
- | 从2017版开始,设置使用Job Manager向服务器提交作业变得格外方便。 | + | <WRAP center tip> |
- | + | 要使用Job Manager直接向服务器提交计算,需要先进行一次远程服务器连接配置。从2017版开始,设置使用Job Manager向服务器提交作业变得格外方便。详情请参见:[[atk:设置用于计算的远程服务器|]]。 | |
- | ===== 在QuantumATK中添加Job Manager中添加计算服务器 ===== | + | |
- | + | ||
- | QuantumATK中支持两种在远程服务器上运行的方式: | + | |
- | * Direct:即服务器上没有PBS等队列系统,提交的计算直接在登录的主机上运行。这种方法常试用于单节点的服务器。 | + | |
- | * 通过服务器的队列系统提交:对于大型集群,推荐使用这种方法,目前支持PBS、LSF、SLURM等三种作业队列管理系统。 | + | |
- | + | ||
- | + | ||
- | ==== 添加Direct模式服务器 ==== | + | |
- | + | ||
- | + | ||
- | * 点击“New”选择“Remote Direct” | + | |
- | {{ : | + | |
- | * 在Settings里设置名称、IP地址(或主机名、域名)、端口(SSH默认为22),登录的用户名; | + | |
- | {{ : | + | |
- | * 点击“+”添加并上传SSH Key(需要输入一次登录服务器的用户名和密码) | + | |
- | {{ : | + | |
- | * 在Environment中设置保存计算任务的文件夹、mpi执行命令、要source的脚本(根据服务器一般提交任务的脚本进行设置,、要export的环境变量(变量前不用加export命令)、Modules to load等 | + | |
- | {{ : | + | |
- | * 在Resources里设置任务使用的计算资源 | + | |
- | {{ : | + | |
- | + | ||
- | 之后可以使用diagnostics诊断设置是否正确。 | + | |
- | {{ : | + | |
- | + | ||
- | + | ||
- | + | ||
- | ==== 添加PBS、LSF、SLURM队列服务器 | + | |
- | + | ||
- | 这里以PBS为例。 | + | |
- | + | ||
- | * 点击“New”选择“Remote PBS” | + | |
- | {{ : | + | |
- | * 在Settings里设置名称、IP地址(或主机名、域名)、端口(SSH默认为22),登录的用户名、存储ssh private key的目录、队列名称、PBS(或Torque)命令位置等。 | + | |
- | + | ||
- | {{ : | + | |
- | * 在Environment中设置保存计算任务的文件夹、mpi执行命令、要source的脚本(根据服务器一般提交任务的脚本进行设置,建议将mpi PATH等环境变量放在这里)、要export的环境变量(变量前不用加export命令)、Modules to load等。 | + | |
- | {{ : | + | |
- | * 在Resources里设置任务使用的计算资源 | + | |
- | {{ : | + | |
- | + | ||
- | <WRAP center round box 90%> | + | |
- | 计算资源页面的几个设置都对应了PBS脚本中的一些资源请求和使用的参数,可以参考它自动创建的提交任务的pbs脚本中的内容: | + | |
- | 例如: | + | |
- | **Number of nodes** 为 X,**Number of cores per nodes** 为 Y,对应于PBS脚本中 | + | |
- | < | + | |
- | #PBS -l nodes=X:ppn=Y | + | |
- | </ | + | |
- | + | ||
- | **Number of MPI processes** 为 x,**Number of MPI processes per nodes** 为 y,对应了PBS脚本中的 | + | |
- | < | + | |
- | …/mpirun -np x -ppn y xxxxx/ | + | |
- | </ | + | |
- | + | ||
- | 这个页面的设置按照硬件和计算体系大小的情况来进行设置: | + | |
- | + | ||
- | 一般来说,**一个core对应一个MPI process**,所以应满足 | + | |
- | * X*Y=x | + | |
- | * Y=y | + | |
- | * 不勾选 Enable MKL_DYNAMIC | + | |
- | + | ||
- | 但是对于特别大(具体和一个计算节点的可用内存有关)的体系,如果内存有问题,则可能需要设置一个CPU对应一个MPI process,加入一个节点有2个CPU,这时: | + | |
- | * X*2=x | + | |
- | * y=2 | + | |
- | * 勾选 Enable MKL_DYNAMIC (需测试此项的加速效果来决定是否勾选) | + | |
- | + | ||
- | 更大的体系,甚至可以一个节点对应于一个MPI process,这时 | + | |
- | * x=X | + | |
- | * Y=1 | + | |
- | * 勾选 Enable MKL_DYNAMIC(需测试此项的加速效果来决定是否勾选) | + | |
- | + | ||
- | 跨节点并行的还要注意网络选择等问题,详细情况参见[[atk: | + | |
</ | </ | ||
- | * 设置好之后可以看到所有的设置: | + | ===== 提交新计算作业(计算使用 New Calculator) ===== |
- | {{ : | + | |
- | + | ||
- | <WRAP center tip 80%> | + | |
- | ==== 注意 | + | |
- | 当有任务提交之后,可能无法编辑服务器设置,需要先将任务从该服务器下删除(不会删除服务器上的任务文件夹和已经下载的数据)。 | + | |
- | </ | + | |
- | ===== 提交任务 | + | |
如果以上设置没有问题,可以尝试提交任务。将作业脚本发送至job manager,选择相应的队列,点击开始按钮即可开始提交计算。 | 如果以上设置没有问题,可以尝试提交任务。将作业脚本发送至job manager,选择相应的队列,点击开始按钮即可开始提交计算。 | ||
行 102: | 行 23: | ||
在提交任务时,用户仍有机会修改每个提交任务的计算设置,方法是: | 在提交任务时,用户仍有机会修改每个提交任务的计算设置,方法是: | ||
- | * 向队列提交任务后不立即点击“开始运行按钮”,此时可以点击Job Setting按钮修改计算设置: | + | * 向队列提交任务后不立即点击“开始运行按钮”,此时可以点击 Job Setting 按钮修改计算设置: |
{{ : | {{ : | ||
* 在Resource选项卡中可以临时修改此计算任务的计算资源(与上面队列设置类似): | * 在Resource选项卡中可以临时修改此计算任务的计算资源(与上面队列设置类似): | ||
{{ : | {{ : | ||
- | * 在IO选项中可以临时设定此计算任务的目录: | + | * 在IO选项中可以设定此计算任务的目录 |
- | {{ : | + | |
- | <WRAP center tip 80%> | + | <WRAP center tip> |
==== 提示 ==== | ==== 提示 ==== | ||
- | 由于为了防止重名覆盖,Job Manager会在设定的目录下自动为每个作业生成随机的文件夹名称,这为用户手动查找作业目录带来了一定的麻烦。为此,建议在提交任务时,为每个作业添加一个有意义的子目录(如上图中作业队列默认的目录为/ | + | 于为了防止重名覆盖,Job Manager 会在设定的目录下自动为每个作业生成随机的文件夹名称(格式为提交日期和随机字母组合),这为用户手动查找作业目录带来了一定的麻烦。为此,建议在提交任务时,为每个作业添加一个有意义的子目录(如上图中作业队列默认的目录为/ |
</ | </ | ||
- | ==== 问题排除 ==== | + | ===== 提交续算作业(计算使用了Analysis from File) ===== |
+ | |||
+ | * 通常情况下,程序能自动识别Analysis from File,并正确上传相关文件到服务器文件夹,以备计算使用。 | ||
+ | * 但仍建议用户在提交作业后,开始运行作业前,除计算资源、并行设置外,用户还应检查,所需的hdf5文件上传列表: | ||
+ | {{ : | ||
+ | |||
+ | ===== 计算结果的回传 ===== | ||
+ | |||
+ | 作业成功开始排队或计算后,图形界面端即可关闭、断开。下次打开图形界面时,软件自动连接服务器检查作业状态,如果自动检查或下载数据失败,可以在 Job Manager 中使用 Recover Data 来强制回传结果。必要时终端登录服务器检查作业状态。 | ||
+ | |||
+ | ===== 问题排除 | ||