以下为MindSpore Transformers (以下称为MindFormers) 套件 1.1.0 版本的变更日志,相较于1.0.2版本有以下关键新特性和bug
fix。
该版本对MindSpore2.3版本进行了适配,该版本支持MindSpore版本为MindSpore 2.3.0-rc2,请注意安装配套版本,其他版本可能会出现问题,同时支持的硬件为Atlas 800T A2服务器。
以下为 research 模型:
模型 | 规格 |
---|---|
deepseek | deepseek_coder_33b |
Llama3 | llama3_8b |
mixtral | mixtral_8x7b |
qwen_1.5 | qwen1.5_72b qwen1.5_14B |
yi | yi_6b, yi_34b |
在当前版本发布周期内,我们进行了模型/功能/易用性/文档等诸多方面的Bugfix,在此仅列举部分修复内容:
感谢以下人员做出的贡献:
Chenhua Geng, dingxu (E), heqinglin, koukairui, renyujin, shuchi, 陈心锐, 陈子恒, 冯浩, 胡桂鹏, 胡思超, 黄磊, 黄生帅,
黄勇, 黄子灵, 焦毅, 林鑫, 倪钰鑫, 彭康, 苏海波, 田凯, 李子垠, 杨星宇, 牛君豪, 张森镇, 张小雯, 张又文, 赵栢杨, 周胜凯,
朱国栋, 张银霞, 谭纬城,吴致远,杨星宇,刘群,曹宇麟,方泽华,金仁操,刘群,李永文,钱驾宏,吴昊天,杨璇,汪家傲
欢迎以任何形式对项目提供贡献!
以下为MindSpore Transformers (以下称为MindFormers) 套件 1.0.2 版本的变更日志,相较于1.0.1版本有以下关键新特性和bug fix修复。
以下为 research 模型:
模型 | 规格 |
---|---|
Qwen1_5 | qwen1_5_72b |
Mengzi3 | mengzi3_13b |
在当前版本发布周期内,我们进行了模型/功能/文档等Bugfix,修复内容如下:
以下为MindSpore Transformers (以下称为MindFormers) 套件 1.0.1 版本的变更日志,相较于1.0.0版本有以下关键bug fix修复。
在当前版本发布周期内,我们进行了模型/功能/文档等Bugfix,修复内容如下:
以下为MindSpore Transformers (以下称为MindFormers) 套件 1.0.0 版本的变更日志
model_config
中的 use_flash_attention
配置项控制模型是否使用FA;依赖MindSpore2.2.10及以上版本;mindspore.nn.wrap.cell_wrapper.GradAccumulationCell
这一梯度累积实现接口,通过拆分MiniBatch的形式实现了梯度累积;MindFormers套件对上述实现接口进行了适配,新增 gradient_accumulation_steps
配置项以控制梯度累积步数;限制:梯度累积当前仅支持在半自动并行模式下使用;output_dir
以自定义训练权重,切分策略等文件的保存路径;日志文件的保存路径由环境变量 LOG_MF_PATH
控制,可在环境变量使用说明中查看具体信息;load_checkpoint
参数的介绍。模型 | 规格 |
---|---|
CodeGeeX2 | codegeex2_6b |
CodeLLaMA | codellama_34b |
GLM2-PTuning | glm2_6b_ptuning2 |
GLM3 | glm3_6b |
GPT2 | gpt2_13b |
以下为 research 模型:
模型 | 规格 |
---|---|
InternLM | interlm_20b (仅推理) |
Qwen | qwen_7b qwen_7b_lora qwen_14b |
Skywork | skywork_13b |
VisualGLM | visualglm_6b |
WizardCoder | wizardcoder_15b |
在当前版本发布周期内,我们进行了模型/功能/易用性/文档等诸多方面的Bugfix,在此仅列举部分修复内容:
欢迎对本项目提出意见与建议,以帮助项目持续改进。
感谢以下人员做出的贡献:
Chenhua Geng, dingxu (E), fushengshi, heqinglin, koukairui, liuzhidan, renyujin, shuchi, Zhenhao Li, ZhidanLiu, 陈心锐, 陈子恒, 冯浩, 胡桂鹏, 胡思超, 黄磊, 黄生帅, 黄欣靓, 黄勇, 黄子灵, 姜海涛, 焦毅, 李兴炜, 林鑫, 倪钰鑫, 彭康, 苏海波, 田凯, 杨贵龙, 杨路航, 余金, 张森镇, 张小雯, 张又文, 赵栢杨, 周胜凯, 朱国栋
欢迎以任何形式对项目提供贡献!
本文为MindSpore Transformers (以下称为MindFormers) 套件 1.0.0 版本的变更日志
model_config
中的 use_flash_attention
配置项控制模型是否使用FA;依赖MindSpore2.2.10及以上版本;mindspore.nn.wrap.cell_wrapper.GradAccumulationCell
这一梯度累积实现接口,通过拆分MiniBatch的形式实现了梯度累积;MindFormers套件对上述实现接口进行了适配,新增 gradient_accumulation_steps
配置项以控制梯度累积步数;限制:梯度累积当前仅支持在半自动并行模式下使用;output_dir
以自定义训练权重,切分策略等文件的保存路径;日志文件的保存路径由环境变量 LOG_MF_PATH
控制,可在环境变量使用说明中查看具体信息;load_checkpoint
参数的介绍。模型 | 规格 |
---|---|
CodeGeeX2 | codegeex2_6b |
CodeLLaMA | codellama_34b |
GLM2-PTuning | glm2_6b_ptuning2 |
GLM3 | glm3_6b |
GPT2 | gpt2_13b |
以下为 research 模型:
模型 | 规格 |
---|---|
InternLM | interlm_20b (仅推理) |
Qwen | qwen_7b qwen_7b_lora qwen_14b |
Skywork | skywork_13b |
VisualGLM | visualglm_6b |
WizardCoder | wizardcoder_15b |
在当前版本发布周期内,我们进行了模型/功能/易用性/文档等诸多方面的Bugfix,在此仅列举部分修复内容:
欢迎对本项目提出意见与建议,以帮助项目持续改进。
感谢以下人员做出的贡献:
Chenhua Geng, dingxu (E), fushengshi, heqinglin, koukairui, liuzhidan, renyujin, shuchi, Zhenhao Li, ZhidanLiu, 陈心锐, 陈子恒, 冯浩, 胡桂鹏, 胡思超, 黄磊, 黄生帅, 黄欣靓, 黄勇, 黄子灵, 姜海涛, 焦毅, 李兴炜, 林鑫, 倪钰鑫, 彭康, 苏海波, 田凯, 杨贵龙, 杨路航, 余金, 张森镇, 张小雯, 张又文, 赵栢杨, 周胜凯, 朱国栋
欢迎以任何形式对项目提供贡献!
Mindformers v0.6.0版本