Bus Error,即总线错误。引发原因:CPU出于性能方面的考虑,要求对数据进行访问时都必须是地址对齐的。如果发现进行的不是地址对齐的访问,就会发送SIGBUS信号给进程,使得进程产生core dump。Bus Error另外一种产生的情况是:机器存在物理问题,或者访问无效物理地址,不过这种情况很少。
是这个作业会索取一个很大的连续存储,size越大,计算机为它分配的时候,出错的机会就越大。类似工作量越大,人越容易出错。未必就是内存不足的原因,当然内存不足也可能导致这个错误。
内存的使用,是一个比较有意思的事情。在*.out文件的头部,会有内存使用的情况,例如:
Parallel Execution: Process Information ============================================================================== Rank Node Name NodeID MyNodeRank NodeMaster 0 ibnode13 0 0 0 1 ibnode13 0 1 -1 2 ibnode13 0 2 -1 3 ibnode13 0 3 -1 4 ibnode13 0 4 -1 5 ibnode13 0 5 -1 6 ibnode13 0 6 -1 7 ibnode13 0 7 -1 8 ibnode13 0 8 -1 9 ibnode13 0 9 -1 10 ibnode13 0 10 -1 11 ibnode13 0 11 -1 12 ibnode13 1 0 1 13 ibnode13 1 1 -1 14 ibnode13 1 2 -1 15 ibnode13 1 3 -1 16 ibnode13 1 4 -1 17 ibnode13 1 5 -1 18 ibnode13 1 6 -1 19 ibnode13 1 7 -1 20 ibnode13 1 8 -1 21 ibnode13 1 9 -1 22 ibnode13 1 10 -1 23 ibnode13 1 11 -1 24 ibnode13 0 12 -1 25 ibnode13 0 13 -1 26 ibnode13 0 14 -1 27 ibnode13 0 15 -1 28 ibnode13 0 16 -1 29 ibnode13 0 17 -1 30 ibnode13 0 18 -1 31 ibnode13 0 19 -1 32 ibnode13 0 20 -1 33 ibnode13 0 21 -1 34 ibnode13 0 22 -1 35 ibnode13 0 23 -1 36 ibnode13 1 12 -1 37 ibnode13 1 13 -1 38 ibnode13 1 14 -1 39 ibnode13 1 15 -1 ============================================================================== May use up to 15625MB of RAM as shared memory on node 0 May use up to 15517MB of RAM as shared memory on node 1
这段文字说明的内容是:
综上,同一个作业,哪怕使用相同的核心数,如果使用的CPU不同,那么内存的占用也非常不相同,单颗 CPU 核数越多,一般消耗内存越少。