32 Star 175 Fork 49

PaddlePaddle / PaddleX

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
split.md 2.53 KB
一键复制 编辑 原始数据 按行查看 历史
FlyingQianMM 提交于 2021-11-13 15:59 . make major changes for docs

数据划分

在模型进行训练时,我们需要划分训练集,验证集和测试集,可直接使用paddlex命令将数据集随机划分。如果数据已经划分过,该步骤可跳过。

注:如您使用PaddleX可视化客户端进行模型训练,数据集划分功能集成在客户端内,无需自行使用paddlex命令划分

图像分类

使用paddlex命令即可将数据集随机划分成70%训练集,20%验证集和10%测试集:

paddlex --split_dataset --format ImageNet --dataset_dir MyDataset --val_value 0.2 --test_value 0.1

划分好的数据集会额外生成labels.txt, train_list.txt, val_list.txt, test_list.txt四个文件,之后可直接进行训练。

目标检测

使用paddlex命令即可将数据集随机划分成70%训练集,20%验证集和10%测试集:

paddlex --split_dataset --format VOC --dataset_dir D:\MyDataset --val_value 0.2 --test_value 0.1

执行上面命令行,会在D:\MyDataset下生成labels.txt, train_list.txt, val_list.txttest_list.txt,分别存储类别信息,训练样本列表,验证样本列表,测试样本列表

实例分割

使用paddlex命令即可将数据集随机划分成70%训练集,20%验证集和10%测试集:

paddlex --split_dataset --format COCO --dataset_dir D:\MyDataset --val_value 0.2 --test_value 0.1

执行上面命令行,会在D:\MyDataset下生成train.json, val.json, test.json,分别存储训练样本信息,验证样本信息,测试样本信息

语义分割

使用paddlex命令即可将数据集随机划分成70%训练集,20%验证集和10%测试集:

paddlex --split_dataset --format SEG --dataset_dir D:\MyDataset --val_value 0.2 --test_value 0.1

执行上面命令行,会在D:\MyDataset下生成train_list.txt, val_list.txt, test_list.txt,分别存储训练样本信息,验证样本信息,测试样本信息

Python
1
https://gitee.com/paddlepaddle/PaddleX.git
git@gitee.com:paddlepaddle/PaddleX.git
paddlepaddle
PaddleX
PaddleX
develop

搜索帮助