2.3K Star 8.1K Fork 4.3K

GVPMindSpore / mindspore

 / 详情

[MDT][MT]在GPU(A100)_X86+Ubuntu平台下cyclegan 模型pynative/graph模式下会偶现loss 为 nan的情况

TODO
Bug-Report
创建于  
2024-03-13 14:37
name about labels
Bug Report Use this template for reporting a bug kind/bug

Describe the current behavior / 问题描述 (Mandatory / 必填)

在GPU(A100)_X86+Ubuntu平台下cyclegan 模型会偶现loss 为 nan的情况

Environment / 环境信息 (Mandatory / 必填)

  • Hardware Environment(Ascend/GPU/CPU) / 硬件环境:

Please delete the backend not involved / 请删除不涉及的后端:
GPU

  • Software Environment / 软件环境 (Mandatory / 必填):
    -- MindSpore version (e.g., 1.7.0.Bxxx) :http://mindspore-repo.csi.rnd.huawei.com/productrepo/HiAI/Milan_C17/20240308/
    -- Python version (e.g., Python 3.7.5) Python 3.7.5
    -- OS platform and distribution (e.g., Linux Ubuntu 16.04):version/202403/20240311/r2.3_20240311195546_226fd7468e1d63d6b71309580d058d2f5f836625
    -- GCC/Compiler version (if compiled from source):
    2.3 B070CI( run包 Milan_C17/20240308)
  • Excute Mode / 执行模式 (Mandatory / 必填)(PyNative/Graph):

Please delete the mode not involved / 请删除不涉及的模式:
/mode pynative/graph

Related testcase / 关联用例 (Mandatory / 必填)

test_ms_usability_benchmark_pynative_gpu_cyclegan_time_perf_loss_1p_0001
test_ms_usability_benchmark_graph_gpu_cyclegan_time_perf_loss_1p_0001

Steps to reproduce the issue / 重现步骤 (Mandatory / 必填)

1.get code from solution_test
2.cd solution_test/cases/02network/00cv/cyclegan/pynative/
3.以其中之一为例pytest -s test_ms_usability_benchmark_pynative_gpu_cyclegan_time_perf_loss_1p_0001.py
4.验证网络训练是否还会偶现loss 为 nan的情况

Describe the expected behavior / 预期结果 (Mandatory / 必填)

在GPU(A100)_X86+Ubuntu平台下cyclegan 模型不会偶现loss 为 nan的情况

Related log / screenshot / 日志 / 截图 (Mandatory / 必填)

输入图片说明
输入图片说明

Special notes for this issue/备注 (Optional / 选填)

https://testreporter.szv.dragon.tools.huawei.com/TestDataBot/analysis/taskdetailes?productLine=2012%20Laboratories&taskId=f432077aa31cd02c4cb674ec7089039c1dca555f0dc6f087109a1b732dd3204d&tmssPath=%2F03200tqk2t5d0%2F03210v300ep51%2F031j0vd3316oi%2F&title=DT_MindSpore_Net_smoke_Test_r2.3_20240313_B070_2024-03-13%2009:17:47&productId=mindspore&cidaProjectId=6473a8ad2e914293b9f537b00979fbc7&isMergedTask=true&testcaseid=65f08b5e4076c56e2c6f341f&workspaceId=65f08b5e0cca61569c218d09
在GPU(A100)_X86+Ubuntu平台下cyclegan 模型pynative模式历史执行情况:
输入图片说明

https://testreporter.szv.dragon.tools.huawei.com/TestDataBot/analysis/taskdetailes?productLine=2012%20Laboratories&taskId=f432077aa31cd02c4cb674ec7089039c1dca555f0dc6f087109a1b732dd3204d&tmssPath=%2F03200tqk2t5d0%2F03210v300ep51%2F031j0vd3316oi%2F&title=DT_MindSpore_Net_smoke_Test_r2.3_20240313_B070_2024-03-13%2009:17:47&productId=mindspore&cidaProjectId=6473a8ad2e914293b9f537b00979fbc7&isMergedTask=true&testcaseid=65f08cee4076c56e2c6f39b2&workspaceId=65f08cee2f0dd35eae53bca1
在GPU(A100)_X86+Ubuntu平台下cyclegan 模型graph模式历史执行情况:
输入图片说明

评论 (3)

chentangyu 创建了Bug-Report
chentangyu 添加了
 
kind/bug
标签
chentangyu 添加了
 
attr/accuracy
标签
chentangyu 添加了
 
v2.3.0
标签
chentangyu 添加协作者wangbixing
chentangyu 添加协作者chentangyu
展开全部操作日志

Please assign maintainer to check this issue.
请为此issue分配处理人。
@chentangyu

感谢您的反馈,您可以评论//mindspore-assistant更快获取帮助,更多标签可以查看标签列表

  1. 如果您刚刚接触MindSpore,或许您可以在教程找到答案
  2. 如果您是资深Pytorch用户,您或许需要:
    与PyTorch典型区别 / PyTorch与MindSpore API映射表
  3. 如果您遇到动态图问题,可以设置mindspore.set_context(pynative_synchronize=True)查看报错栈协助定位
  4. 模型精度调优问题可参考官网调优指南
  5. 如果您反馈的是框架BUG,请确认您在ISSUE中提供了MindSpore版本、使用的后端类型(CPU、GPU、Ascend)、环境、训练的代码官方链接以及可以复现报错的代码的启动方式等必要的定位信息
  6. 如果您已经定位出问题根因,欢迎提交PR参与MindSpore开源社区,我们会尽快review
chentangyu 修改了描述
chentangyu 修改了描述
chentangyu 修改了标题
chentangyu 优先级主要 修改为次要
Shawny 添加了
 
ccb/bug
标签

0322CCB评审结论:GPU网络遗留下个版本解决

wanlinhui_A 修改了标题

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(4)
8108889 shawny233 1628167362 7508424 tacyi139 1588073933
Python
1
https://gitee.com/mindspore/mindspore.git
git@gitee.com:mindspore/mindspore.git
mindspore
mindspore
mindspore

搜索帮助