在*.logfile中没有任何错误提示,而在*.out末尾,提示类似如下信息:
Error posting readv, 远程主机强迫关闭了一个现有的连接。(10054) unable to read the cmd header on the pmi context, Error = -1 . Error posting readv, 远程主机强迫关闭了一个现有的连接。(10054) unable to read the cmd header on the pmi context, Error = -1 . Error posting readv, 远程主机强迫关闭了一个现有的连接。(10054) job aborted: rank: node: exit code[: error message]
而查看文件夹内生成的Kidoutput文件,有“CIO_ERROR cio_llwrite: write failed”字样
参考临时文件夹的维护
另外,读取restart文件失败(在指定位置没有找到该文件),也会报这个错误信息。