MindSpore MindFormers套件的目标是构建一个大模型训练、推理、部署的全流程开发套件: 提供业内主流的Transformer类预训练模型和SOTA下游任务应用,涵盖丰富的并行特性。 期望帮助用户轻松的实现大模型训练和创新研发。
MindSpore MindFormers套件基于MindSpore内置的并行技术和组件化设计,具备如下特点:
如果您对MindSpore MindFormers有任何建议,请通过Gitee或MindSpore与我们联系,我们将及时处理。
目前支持的模型列表如下:
目前仅支持源码编译安装,用户可以执行下述的命令进行包的安装
git clone https://gitee.com/mindspore/mindformers.git
cd mindformers
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
sh build.sh
版本对应关系 | Mindformer | MindSpore |
---|---|---|
版本号 | 0.2.0 | 1.8.1 |
目前该库提供两种方式供用户使用,套件详细设计请阅:MindFormers套件设计
用户可以直接clone整个仓库,按照以下步骤即可运行套件中已支持的任意configs
模型任务配置文件,方便用户快速进行使用和开发
准备工作
git clone https://gitee.com/mindspore/mindformers.git
cd mindformers
step2: 准备相应任务的数据集,请参考configs
目录下各模型的README.md文档准备相应数据集
step3:修改配置文件configs/{model_name}/task_config/{model_name}_dataset.yaml
中数据集路径
step4:如果要使用分布式训练,则需提前生成RANK_TABLE_FILE
# 不包含8本身,生成0~7卡的hccl json文件
python mindformers/tools/hccl_tools --device_num [0,8]
常用参数说明
RANK_TABLE_FILE: 由mindformers/tools/hccl_tools.py生成的分布式json文件
CONFIG_PATH: 为configs文件夹下面的{model_name}/run_*.yaml配置文件
DEVICE_ID: 为设备卡,范围为0~7
DEVICE_RANGE: 为单机分布式卡的范围, 如[0,8]为8卡分布式,不包含8本身
RUN_STATUS: 为任务运行状态,支持关键字 train、eval、predict
# 训练启动,run_status支持train、eval、predict三个关键字,以分别完成模型训练、评估、推理功能,默认使用配置文件中的run_status
python run_mindformer.py --config {CONFIG_PATH} --run_status {train/eval/predict}
# 单卡启动脚本
cd scripts
sh run_standalone.sh CONFIG_PATH DEVICE_ID RUN_STATUS
# 多卡启动脚本
# 8卡分布式运行, DEVICE_RANGE = [0, 8], 不包含8本身
cd scripts
sh run_distribute.sh RANK_TABLE_FILE CONFIG_PATH DEVICE_RANGE RUN_STATUS
用户可以通过pip install mindformers
的方式利用Trainer高阶接口执行模型任务的训练、评估、推理功能。
Trainer接口详细设计请阅:Trainer接口使用案例及接口设计说明
准备工作
pip install mindformers
configs
目录下各模型的README.md文档准备相应数据集小白体验使用方式:准备数据集,直接开启已有任务的训练、评估、推理流程
from mindformers import Trainer
from mindformers.common.context import init_context
from mindformers.trainer.config_args import ContextConfig
## Step 1 MindSpore 环境初始化
context_config = ContextConfig(device_id=0, device_target='Ascend', mode=0) # 支持MindSpore context的环境配置
init_context(seed=2022, use_parallel=False, context_config=context_config) # 进行环境初始化, 单卡设定
## Step 2 输入对应任务的标准数据集路径,自动创建已有任务的训练、评估、推理流程 (需提前准备好对应的数据集)
mim_trainer = Trainer(task_name='masked_image_modeling', # 已集成的任务名
model='mae_vit_base_p16', # 已集成的模型名
train_dataset="/data/imageNet-1k/train", # 传入标准的训练数据集路径,默认支持ImageNet数据集格式
eval_dataset="/data/imageNet-1k/eval") # 传入标准的评估数据集路径,默认支持ImageNet数据集格式
mim_trainer.train() # 开启训练流程
# mim_trainer.eval() # 开启评估流程
# mim_trainer.predict(input_data) # 输入要执行推理的数据,开启推理流程
from mindformers.trainer import Trainer
from mindformers.common.context import init_context
from mindformers.trainer.config_args import ConfigArguments, \
OptimizerConfig, DatasetConfig, DataLoaderConfig, RunnerConfig, \
ContextConfig, LRConfig
## Step 1 MindSpore 环境初始化
context_config = ContextConfig(device_id=1, device_target='Ascend', mode=0) # 支持MindSpore context的环境配置
init_context(seed=2022, use_parallel=False, context_config=context_config) # 进行环境初始化, 单卡设定
## Step 2 通过支持的Config类设定支持的超参数
runner_config = RunnerConfig(epochs=10, batch_size=2, image_size=224) # 自定义运行超参
lr_schedule_config = LRConfig(lr_type='WarmUpLR', learning_rate=0.001, warmup_steps=10) # 自定义学习策略
optim_config = OptimizerConfig(optim_type='Adam', beta1=0.009, learning_rate=lr_schedule_config) # 自定义优化器策略
train_loader_config = DataLoaderConfig(dataset_dir="/data/imageNet-1k/train") # 数据加载参数设定, 默认ImageFolderDataset加载方式
eval_loader_config = DataLoaderConfig(dataset_dir="/data/imageNet-1k/eval")
train_dataset_config = DatasetConfig(data_loader=train_loader_config,
input_columns=["image"],
output_columns=["image"],
column_order=["image"],
batch_size=2,
image_size=224) # 设定训练数据集的输入、输出、bs等超参数
eval_dataset_config = DatasetConfig(data_loader=eval_loader_config,
input_columns=["image"],
output_columns=["image"],
column_order=["image"],
batch_size=2,
image_size=224) # 设定评估数据集的输入、输出、bs等超参数
config = ConfigArguments(output_dir="./output_dir",
runner_config=runner_config,
train_dataset=train_dataset_config,
eval_dataset=eval_dataset_config,
optimizer=optim_config) # 统一超参配置接口
## Step 3 通过config配置拉起相应任务的训练、评估、推理功能
mim_trainer = Trainer(task_name='masked_image_modeling', model='mae_vit_base_p16', config=config)
mim_trainer.train() # 开启训练流程
# mim_trainer.eval() # 开启评估流程
# mim_trainer.predict(input_data) # 输入要执行推理的数据,开启推理流程
import numpy as np
from mindspore.nn import AdamWeightDecay, WarmUpLR
from mindspore.train.callback import LossMonitor, TimeMonitor,\
CheckpointConfig, ModelCheckpoint
from mindspore.dataset import GeneratorDataset
from mindformers.trainer import Trainer
from mindformers.models import MaeModel
from mindformers.common.context import init_context
from mindformers.trainer.config_args import ConfigArguments, \
RunnerConfig, ContextConfig
class MyDataLoader:
"""Self-Define DataLoader."""
def __init__(self):
self._data = [np.zeros((3, 224, 224), np.float32) for _ in range(64)]
def __getitem__(self, index):
return self._data[index]
def __len__(self):
return len(self._data)
## Step 1 MindSpore 环境初始化
context_config = ContextConfig(device_id=1, device_target='Ascend', mode=0)
init_context(seed=2022, use_parallel=False, context_config=context_config)
# Step 2 运行超参配置定义
runner_config = RunnerConfig(epochs=10, batch_size=8, image_size=224, sink_mode=True, per_epoch_size=10)
config = ConfigArguments(output_dir="./output_dir", seed=2022, runner_config=runner_config)
# Step 3 自定义网络实例
mae_model = MaeModel()
# Step 4 自定义数据集加载及预处理流程
dataset = GeneratorDataset(source=MyDataLoader(), column_names='image')
dataset = dataset.batch(batch_size=8)
# Step 5 自定义学习策略和优化器
lr_schedule = WarmUpLR(learning_rate=0.001, warmup_steps=100)
optimizer = AdamWeightDecay(beta1=0.009, beta2=0.999,
learning_rate=lr_schedule,
params=mae_model.trainable_params())
# Step 6 自定义callback函数
loss_cb = LossMonitor(per_print_times=2)
time_cb = TimeMonitor()
ckpt_config = CheckpointConfig(save_checkpoint_steps=10, integrated_save=True)
ckpt_cb = ModelCheckpoint(directory="./output/checkpoint", prefix="my_model", config=ckpt_config)
callbacks = [loss_cb, time_cb, ckpt_cb]
# 通过自定义任意模块完成masked_image_modeling任务的训练、评估、推理流程
mim_trainer = Trainer(task_name='masked_image_modeling',
model=mae_model, # 包含loss计算
config=config,
optimizers=optimizer,
train_dataset=dataset,
eval_dataset=dataset,
callbacks=callbacks)
mim_trainer.train() # 开启训练流程
# mim_trainer.eval() # 开启评估流程
# mim_trainer.predict(input_data) # 输入要执行推理的数据,开启推理流程
目前提供下述的文档
请在此查看每个模型的复现性能基准。
欢迎参与社区贡献,详情参考Contributor Wiki。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
1. 开源生态
2. 协作、人、软件
3. 评估模型