如何准备训练数据

表达方式	说明
x1,y1,x2,y2	(x1,y1)为左上角坐标，(x2,y2)为右下角坐标
x,y,w,h	(x,y)为左上角坐标，w为目标区域宽度，h为目标区域高度
xc,yc,w,h	(xc,yc)为目标区域中心坐标，w为目标区域宽度，h为目标区域高度

VOC数据是Pascal VOC 比赛使用的数据。Pascal VOC比赛不仅包含图像分类分类任务，还包含图像目标检测、图像分割等任务，其标注文件中包含多个任务的标注内容。 VOC数据集指的是Pascal VOC比赛使用的数据。用户自定义的VOC数据，xml文件中的非必须字段，请根据实际情况选择是否标注或是否使用默认值。

VOC数据集下载

通过代码自动化下载VOC数据集

# 执行代码自动化下载VOC数据集  
python dataset/voc/download_voc.py

代码执行完成后VOC数据集文件组织结构为：

>>cd dataset/voc/
>>tree
├── create_list.py
├── download_voc.py
├── generic_det_label_list.txt
├── generic_det_label_list_zh.txt
├── label_list.txt
├── VOCdevkit/VOC2007
│   ├── annotations
│       ├── 001789.xml
│       |   ...
│   ├── JPEGImages
│       ├── 001789.jpg
│       |   ...
│   ├── ImageSets
│       |   ...
├── VOCdevkit/VOC2012
│   ├── Annotations
│       ├── 2011_003876.xml
│       |   ...
│   ├── JPEGImages
│       ├── 2011_003876.jpg
│       |   ...
│   ├── ImageSets
│       |   ...
|   ...

各个文件说明

# label_list.txt 是类别名称列表，文件名必须是 label_list.txt。若使用VOC数据集，config文件中use_default_label为true时不需要这个文件
>>cat label_list.txt
aeroplane
bicycle
...

# trainval.txt 是训练数据集文件列表
>>cat trainval.txt
VOCdevkit/VOC2007/JPEGImages/007276.jpg VOCdevkit/VOC2007/Annotations/007276.xml
VOCdevkit/VOC2012/JPEGImages/2011_002612.jpg VOCdevkit/VOC2012/Annotations/2011_002612.xml
...

# test.txt 是测试数据集文件列表
>>cat test.txt
VOCdevkit/VOC2007/JPEGImages/000001.jpg VOCdevkit/VOC2007/Annotations/000001.xml
...

# label_list.txt voc 类别名称列表
>>cat label_list.txt

aeroplane
bicycle
...

已下载VOC数据集
按照如上数据文件组织结构组织文件即可。

VOC数据标注文件介绍

VOC数据是每个图像文件对应一个同名的xml文件，xml文件中标记物体框的坐标和类别等信息。例如图像2007_002055.jpg：

图片对应的xml文件内包含对应图片的基本信息，比如文件名、来源、图像尺寸以及图像中包含的物体区域信息和类别信息等。

xml文件中包含以下字段：

filename，表示图像名称。

size，表示图像尺寸。包括：图像宽度、图像高度、图像深度。

<size>
    <width>500</width>
    <height>375</height>
    <depth>3</depth>
</size>

object字段，表示每个物体。包括:

标签	说明
name	物体类别名称
pose	关于目标物体姿态描述（非必须字段）
truncated	如果物体的遮挡超过15-20％并且位于边界框之外，请标记为`truncated`（非必须字段）
difficult	难以识别的物体标记为`difficult`（非必须字段）
bndbox子标签	(xmin,ymin) 左上角坐标，(xmax,ymax) 右下角坐标，

COCO数据

COCO数据是COCO 比赛使用的数据。同样的，COCO比赛数也包含多个比赛任务，其标注文件中包含多个任务的标注内容。 COCO数据集指的是COCO比赛使用的数据。用户自定义的COCO数据，json文件中的一些字段，请根据实际情况选择是否标注或是否使用默认值。

COCO数据下载

通过代码自动化下载COCO数据集

# 执行代码自动化下载COCO数据集  
python dataset/voc/download_coco.py

代码执行完成后COCO数据集文件组织结构为：

>>cd dataset/coco/
>>tree
├── annotations
│   ├── instances_train2017.json
│   ├── instances_val2017.json
│   |   ...
├── train2017
│   ├── 000000000009.jpg
│   ├── 000000580008.jpg
│   |   ...
├── val2017
│   ├── 000000000139.jpg
│   ├── 000000000285.jpg
│   |   ...
|   ...

已下载COCO数据集
按照如上数据文件组织结构组织文件即可。

COCO数据标注介绍

COCO数据标注是将所有训练图像的标注都存放到一个json文件中。数据以字典嵌套的形式存放。

json文件中包含以下key：

info，表示标注文件info。
licenses，表示标注文件licenses。

images，表示标注文件中图像信息列表，每个元素是一张图像的信息。如下为其中一张图像的信息：

{
    'license': 3,                       # license
    'file_name': '000000391895.jpg',    # file_name
     # coco_url
    'coco_url': 'http://images.cocodataset.org/train2017/000000391895.jpg',
    'height': 360,                      # image height
    'width': 640,                       # image width
    'date_captured': '2013-11-14 11:18:45', # date_captured
    # flickr_url
    'flickr_url': 'http://farm9.staticflickr.com/8186/8119368305_4e622c8349_z.jpg',
    'id': 391895                        # image id
}

annotations，表示标注文件中目标物体的标注信息列表，每个元素是一个目标物体的标注信息。如下为其中一个目标物体的标注信息：

{

    'segmentation':             # 物体的分割标注
    'area': 2765.1486500000005, # 物体的区域面积
    'iscrowd': 0,               # iscrowd
    'image_id': 558840,         # image id
    'bbox': [199.84, 200.46, 77.71, 70.88], # bbox
    'category_id': 58,          # category_id
    'id': 156                   # image id
}

# 查看COCO标注文件
import json
coco_anno = json.load(open('./annotations/instances_train2017.json'))

# coco_anno.keys
print('\nkeys:', coco_anno.keys())

# 查看类别信息
print('\n物体类别:', coco_anno['categories'])

# 查看一共多少张图
print('\n图像数量：', len(coco_anno['images']))

# 查看一共多少个目标物体
print('\n标注物体数量：', len(coco_anno['annotations']))

# 查看一条目标物体标注信息
print('\n查看一条目标物体标注信息：', coco_anno['annotations'][0])

COCO数据准备如下。
dataset/coco/最初文件组织结构

>>cd dataset/coco/
>>tree
├── download_coco.py

用户数据

对于用户数据有3种处理方法：
(1) 将用户数据转成VOC数据(根据需要仅包含物体检测所必须的标签即可)
(2) 将用户数据转成COCO数据(根据需要仅包含物体检测所必须的标签即可)
(3) 自定义一个用户数据的reader(较复杂数据，需要自定义reader)

用户数据转成VOC数据

用户数据集转成VOC数据后目录结构如下（注意数据集中路径名、文件名尽量不要使用中文，避免中文编码问题导致出错）：

dataset/xxx/
├── annotations
│   ├── xxx1.xml
│   ├── xxx2.xml
│   ├── xxx3.xml
│   |   ...
├── images
│   ├── xxx1.jpg
│   ├── xxx2.jpg
│   ├── xxx3.jpg
│   |   ...
├── label_list.txt (必须提供，且文件名称必须是label_list.txt )
├── train.txt (训练数据集文件列表, ./images/xxx1.jpg ./annotations/xxx1.xml)
└── valid.txt (测试数据集文件列表)

各个文件说明

# label_list.txt 是类别名称列表，改文件名必须是这个
>>cat label_list.txt
classname1
classname2
...

# train.txt 是训练数据文件列表
>>cat train.txt
./images/xxx1.jpg ./annotations/xxx1.xml
./images/xxx2.jpg ./annotations/xxx2.xml
...

# valid.txt 是验证数据文件列表
>>cat valid.txt
./images/xxx3.jpg ./annotations/xxx3.xml
...

用户数据转成COCO

在./tools/中提供了x2coco.py用于将VOC数据集、labelme标注的数据集或cityscape数据集转换为COCO数据，例如:

（1）labelme数据转换为COCO数据：

python tools/x2coco.py \
                --dataset_type labelme \
                --json_input_dir ./labelme_annos/ \
                --image_input_dir ./labelme_imgs/ \
                --output_dir ./cocome/ \
                --train_proportion 0.8 \
                --val_proportion 0.2 \
                --test_proportion 0.0

（2）voc数据转换为COCO数据：

python tools/x2coco.py \
        --dataset_type voc \
        --voc_anno_dir path/to/VOCdevkit/VOC2007/Annotations/ \
        --voc_anno_list path/to/VOCdevkit/VOC2007/ImageSets/Main/trainval.txt \
        --voc_label_list dataset/voc/label_list.txt \
        --voc_out_name voc_train.json

用户数据集转成COCO数据后目录结构如下（注意数据集中路径名、文件名尽量不要使用中文，避免中文编码问题导致出错）：

dataset/xxx/
├── annotations
│   ├── train.json  # coco数据的标注文件
│   ├── valid.json  # coco数据的标注文件
├── images
│   ├── xxx1.jpg
│   ├── xxx2.jpg
│   ├── xxx3.jpg
│   |   ...
...

用户数据自定义reader

如果数据集有新的数据需要添加进PaddleDetection中，您可参考数据处理文档中的添加新数据源文档部分，开发相应代码完成新的数据源支持，同时数据处理具体代码解析等可阅读数据处理文档

用户数据数据转换示例

以Kaggle数据集比赛数据为例，说明如何准备自定义数据。 Kaggle上的 road-sign-detection 比赛数据包含877张图像，数据类别4类：crosswalk，speedlimit，stop，trafficlight。可从Kaggle上下载，也可以从下载链接下载。路标数据集示例图：

# 下载解压数据
>>cd $(ppdet_root)/dataset
# 下载kaggle数据集并解压，当前文件组织结构如下

├── annotations
│   ├── road0.xml
│   ├── road1.xml
│   ├── road10.xml
│   |   ...
├── images
│   ├── road0.jpg
│   ├── road1.jpg
│   ├── road2.jpg
│   |   ...

将数据划分为训练集和测试集

# 生成 label_list.txt 文件
>>echo "speedlimit\ncrosswalk\ntrafficlight\nstop" > label_list.txt

# 生成 train.txt、valid.txt和test.txt列表文件
>>ls images/*.png | shuf > all_image_list.txt
>>awk -F"/" '{print $2}' all_image_list.txt | awk -F".png" '{print $1}'  | awk -F"\t" '{print "images/"$1".png annotations/"$1".xml"}' > all_list.txt

# 训练集、验证集、测试集比例分别约80%、10%、10%。
>>head -n 88 all_list.txt > test.txt
>>head -n 176 all_list.txt | tail -n 88 > valid.txt
>>tail -n 701 all_list.txt > train.txt

# 删除不用文件
>>rm -rf all_image_list.txt all_list.txt

最终数据集文件组织结构为：

├── annotations
│   ├── road0.xml
│   ├── road1.xml
│   ├── road10.xml
│   |   ...
├── images
│   ├── road0.jpg
│   ├── road1.jpg
│   ├── road2.jpg
│   |   ...
├── label_list.txt
├── test.txt
├── train.txt
└── valid.txt

# label_list.txt 是类别名称列表，文件名必须是 label_list.txt
>>cat label_list.txt
crosswalk
speedlimit
stop
trafficlight

# train.txt 是训练数据集文件列表，每一行是一张图像路径和对应标注文件路径，以空格分开。注意这里的路径是数据集文件夹内的相对路径。
>>cat train.txt
./images/road839.png ./annotations/road839.xml
./images/road363.png ./annotations/road363.xml
...

# valid.txt 是验证数据集文件列表，每一行是一张图像路径和对应标注文件路径，以空格分开。注意这里的路径是数据集文件夹内的相对路径。
>>cat valid.txt
./images/road218.png ./annotations/road218.xml
./images/road681.png ./annotations/road681.xml

也可以下载准备好的数据下载链接，解压到dataset/roadsign_voc/文件夹下即可。
准备好数据后，一般的我们要对数据有所了解，比如图像量，图像尺寸，每一类目标区域个数，目标区域大小等。如有必要，还要对数据进行清洗。
roadsign数据集统计:

数据	图片数量
train	701
valid	176

说明：（1）用户数据，建议在训练前仔细检查数据，避免因数据标注格式错误或图像数据不完整造成训练过程中的crash
（2）如果图像尺寸太大的话，在不限制读入数据尺寸情况下，占用内存较多，会造成内存/显存溢出，请合理设置batch_size，可从小到大尝试

PaddlePaddle / PaddleDetection

如何准备训练数据

目录

目标检测数据说明

准备训练数据

VOC数据数据

VOC数据集下载

VOC数据标注文件介绍

COCO数据

COCO数据下载

COCO数据标注介绍

用户数据

用户数据转成VOC数据

用户数据转成COCO

用户数据自定义reader

用户数据数据转换示例

简介

发行版

贡献者

近期动态

PaddlePaddle / PaddleDetection .gitee-modal { width: 500px !important; }

如何准备训练数据

目录

目标检测数据说明

准备训练数据

VOC数据数据

VOC数据集下载

VOC数据标注文件介绍

COCO数据

COCO数据下载

COCO数据标注介绍

用户数据

用户数据转成VOC数据

用户数据转成COCO

用户数据自定义reader

用户数据数据转换示例

简介

发行版

开源评估指数源自 OSS-Compass 评估体系，评估体系围绕以下三个维度对项目展开评估：

贡献者

近期动态

搜索帮助

PaddlePaddle / PaddleDetection