差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- atk:使用job_manager向服务器上提交作业 [2018/03/26 23:20] – [添加PBS、LSF、SLURM队列服务器] fermi
+++ atk:使用job_manager向服务器上提交作业 [2018/05/10 10:59] – fermi
@@ 行 10: / 行 10: @@
   * 便捷：随时可以联机查看即可查看任务、下载计算结果。
-从2017版开始，设置使用Job Manager向服务器提交作业变得格外方便。
+<WRAP center tip>
+要使用Job Manager直接向服务器提交计算，需要先进行一次远程服务器连接配置。从2017版开始，设置使用Job Manager向服务器提交作业变得格外方便。详情请参见：[[atk:设置用于计算的远程服务器|]]。
-===== 在QuantumATK中添加Job Manager中添加计算服务器 =====
-QuantumATK中支持两种在远程服务器上运行的方式：
-  * Direct：即服务器上没有PBS等队列系统，提交的计算直接在登录的主机上运行。这种方法常试用于单节点的服务器。
-  * 通过服务器的队列系统提交：对于大型集群，推荐使用这种方法，目前支持PBS、LSF、SLURM等三种作业队列管理系统。
-==== 添加Direct模式服务器 ====
-  * 点击“New”选择“Remote Direct”
-{{ :atk:job-manager-new.png?600 |}}
-  * 在Settings里设置名称、IP地址（或主机名、域名）、端口（SSH默认为22），登录的用户名；
-{{ :atk:job-manager-direct-settings.png?400 |}}
-  * 点击“+”添加并上传SSH Key（需要输入一次登录服务器的用户名和密码）
-{{ :atk:job-manager-direct-settings-sshkey.png?400 |}}
-  * 在Environment中设置保存计算任务的文件夹、mpi执行命令、要source的脚本（根据服务器一般提交任务的脚本进行设置，、要export的环境变量（变量前不用加export命令）、Modules to load等
-{{ :atk:job-manager-direct-environment.png?400 |}}
-  * 在Resources里设置任务使用的计算资源
-{{ :atk:job-manager-direct-resources.png?400 |}}
-之后可以使用diagnostics诊断设置是否正确。
-{{ :atk:job-manager-direct-diagnostics.png?400 |}}
-==== 添加PBS、LSF、SLURM队列服务器 ====
-这里以PBS为例。
-  * 点击“New”选择“Remote PBS”
-{{ :atk:selection_002.png?300 |}}
-  * 在Settings里设置名称、IP地址（或主机名、域名）、端口（SSH默认为22），登录的用户名、存储ssh private key的目录、队列名称、PBS（或Torque）命令位置等。
-{{ :atk:machine_settings_003.png?400 |}}
-  * 在Environment中设置保存计算任务的文件夹、mpi执行命令、要source的脚本（根据服务器一般提交任务的脚本进行设置，建议将mpi PATH等环境变量放在这里）、要export的环境变量（变量前不用加export命令）、Modules to load等。
-{{ :atk:machine_settings_005.png?400 |}}
-  * 在Resources里设置任务使用的计算资源
-{{ :atk:machine_settings_006.png?400 |}}
-<WRAP center round box 90%>
-计算资源页面的几个设置都对应了PBS脚本中的一些资源请求和使用的参数，可以参考它自动创建的提交任务的pbs脚本中的内容：
-例如：
-**Number of nodes** 为 X，**Number of cores per nodes** 为 Y，对应于PBS脚本中
-<code>
-#PBS -l nodes=X:ppn=Y
-</code>
-**Number of MPI processes** 为 x，**Number of MPI processes per nodes** 为 y，对应了PBS脚本中的
-<code>
-…/mpirun -np x -ppn y xxxxx/atkkpython *.py
-</code>
-这个页面的设置按照硬件和计算体系大小的情况来进行设置：
-一般来说，**一个core对应一个MPI process**，所以应满足
-  * X*Y=x
-  * Y=y
-  * 不勾选 Enable MKL_DYNAMIC
-但是对于特别大（具体和一个计算节点的可用内存有关）的体系，如果内存有问题，则可能需要设置一个CPU对应一个MPI process，加入一个节点有2个CPU，这时：
-  * X*2=x
-  * y=2
-  * 勾选 Enable MKL_DYNAMIC （需测试此项的加速效果来决定是否勾选）
-更大的体系，甚至可以一个节点对应于一个MPI process，这时
-  * x=X
-  * Y=1
-  * 勾选 Enable MKL_DYNAMIC（需测试此项的加速效果来决定是否勾选）
-跨节点并行的还要注意网络选择等问题，详细情况参见[[atk:atk并行计算|QuantumATK并行计算]]。
 </WRAP>
-  * 设置好之后可以看到所有的设置：
+===== 提交新计算作业（计算使用 New Calculator） =====
-{{ :atk:job_manager_008.png?600 |}}
-<WRAP center tip 80%>
-==== 注意 ====
-当有任务提交之后，可能无法编辑服务器设置，需要先将任务从该服务器下删除（不会删除服务器上的任务文件夹和已经下载的数据）。
-</WRAP>
-===== 提交任务 =====
 如果以上设置没有问题，可以尝试提交任务。将作业脚本发送至job manager，选择相应的队列，点击开始按钮即可开始提交计算。
@@ 行 102: / 行 23: @@
 在提交任务时，用户仍有机会修改每个提交任务的计算设置，方法是：
-  * 向队列提交任务后不立即点击“开始运行按钮”，此时可以点击Job Setting按钮修改计算设置：
+  * 向队列提交任务后不立即点击“开始运行按钮”，此时可以点击 Job Setting 按钮修改计算设置：
 {{ :atk:2016-12-06_2_.png?400 |}}
   * 在Resource选项卡中可以临时修改此计算任务的计算资源（与上面队列设置类似）：
 {{ :atk:job_setting_1.png?400 |}}
-  * 在IO选项中可以临时设定此计算任务的目录：
+  * 在IO选项中可以设定此计算任务的目录
-{{ :atk:job_setting_2.png?400 |}}
-<WRAP center tip 80%>
+<WRAP center tip>
 ==== 提示 ====
-由于为了防止重名覆盖，Job Manager会在设定的目录下自动为每个作业生成随机的文件夹名称，这为用户手动查找作业目录带来了一定的麻烦。为此，建议在提交任务时，为每个作业添加一个有意义的子目录（如上图中作业队列默认的目录为/home/ddong/atkjobs，提交任务时可以要求job manager创建子目录sic_bandstructures），这样便于管理计算作业的文件夹。
+于为了防止重名覆盖，Job Manager 会在设定的目录下自动为每个作业生成随机的文件夹名称（格式为提交日期和随机字母组合），这为用户手动查找作业目录带来了一定的麻烦。为此，建议在提交任务时，为每个作业添加一个有意义的子目录（如上图中作业队列默认的目录为/home/ddong/atkjobs，提交任务时可以要求job manager 创建子目录 sic_bandstructures），这样便于管理计算作业的文件夹。
 </WRAP>
-==== 问题排除 ====
+===== 提交续算作业（计算使用了Analysis from File） =====
+  * 通常情况下，程序能自动识别Analysis from File，并正确上传相关文件到服务器文件夹，以备计算使用。
+  * 但仍建议用户在提交作业后，开始运行作业前，除计算资源、并行设置外，用户还应检查，所需的hdf5文件上传列表：
+{{ :atk:job_setting_2.png?400 |}}
+===== 计算结果的回传 =====
+作业成功开始排队或计算后，图形界面端即可关闭、断开。下次打开图形界面时，软件自动连接服务器检查作业状态，如果自动检查或下载数据失败，可以在 Job Manager 中使用 Recover Data 来强制回传结果。必要时终端登录服务器检查作业状态。
+===== 问题排除 =====

费米维基

用户工具

站点工具

差别

页面工具