name | about | labels |
---|---|---|
Bug Report | Use this template for reporting a bug | kind/bug |
pangu网络在GPU环境8p训练warning日志超过10条,请优化
Ascend
/GPU
/CPU
) / 硬件环境:Please delete the backend not involved / 请删除不涉及的后端:
/device GPU/
Software Environment / 软件环境 (Mandatory / 必填):
-- MindSpore version (e.g., 1.7.0.Bxxx) :r1.7.0 B120 commit_id:c492d320
-- Python version (e.g., Python 3.7.5) :
-- OS platform and distribution (e.g., Linux Ubuntu 16.04):
-- GCC/Compiler version (if compiled from source):
Excute Mode / 执行模式 (Mandatory / 必填)(PyNative
/Graph
):
Please delete the mode not involved / 请删除不涉及的模式:
/mode graph
test_ms_unet_plus_gpu_train_8p_0001.py
麻烦走给骆阳
根据日志告警信息分属不同的进程,需要进一步确认@sunjiawei999
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
该网络目前训练阻塞,由该issue跟踪https://e.gitee.com/mind_spore/dashboard?issue=I587C0
在CI环境上查看日志,issue中显示的日志包含全部8卡的全部日志,其中每张卡上该warning日志出现2次。
rank 0的warnning日志如下:
对齐后发现,用例使用的日志为8张卡打印到一起的日志,单张卡的warning并不多,非问题,问题单关闭。
登录 后才可以发表评论