MPI 常见问题与解决方案
- 使用 Intel MPI跑并行程序时报错:
UCX ERROR no active messages transport to <no debug data>: self/self - Destination is unreachable
。
Intel MPI 2019 U6之后默认使用 DC 传输,而 DC 传输不可用时,Intel MPI不会自动回退到 UD 传输。因此需要设置环境变量,强制使用 UD 传输。因此可以在环境变量中或者任务提交脚本中,添加如下的环境变量设置:
shell
export UCX_TLS=ud,sm,self
export UCX_TLS=ud,sm,self