训练一个新任务时,如果从零开始训练时,这将是一个耗时的过程,并且效果可能达不到理想的效果,此时您可以利用PaddleHub提供的预训练模型进行具体任务的Fine-tune。您只需要对自定义数据进行相应的预处理,随后输入预训练模型中,即可得到相应的结果。请参考如下内容设置数据集的结构。
本文以预训练模型ERNIE对文本分类任务进行Fine-tune为例,说明如何利用PaddleHub适配自定义数据完成Fine-tune。
数据目录如下所示。
├─data: 数据目录
├─train.tsv 训练集
├─dev.tsv 验证集
├─test.tsv 测试集
└─……
相应的数据格式为第一列是文本内容text_a,第二列为文本类别label。列与列之间以Tab键分隔。数据集文件第一行为text_a label
(中间以Tab键分隔)。
如果您有两个输入文本text_a、text_b,则第一列为第一个输入文本text_a, 第二列应为第二个输入文本text_b,第三列文本类别label。列与列之间以Tab键分隔。数据集第一行为text_a text_b label
(中间以Tab键分隔)。
text_a label
15.4寸笔记本的键盘确实爽,基本跟台式机差不多了,蛮喜欢数字小键盘,输数字特方便,样子也很美观,做工也相当不错 1
房间太小。其他的都一般。。。。。。。。。 0
1.接电源没有几分钟,电源适配器热的不行. 2.摄像头用不起来. 3.机盖的钢琴漆,手不能摸,一摸一个印. 4.硬盘分区不好办. 0
利用PaddleHub迁移CV类任务使用自定义数据时,用户需要自己切分数据集,将数据集且分为训练集、验证集和测试集。
数据目录如下所示。需要三个文本文件来记录对应的图片路径和标签,此外还需要一个标签文件用于记录标签的名称。
├─data: 数据目录
├─train_list.txt:训练集数据列表
├─test_list.txt:测试集数据列表
├─validate_list.txt:验证集数据列表
├─label_list.txt:标签列表
└─……
训练/验证/测试集的数据列表文件的格式如下
图片1路径 图片1标签
图片2路径 图片2标签
...
label_list.txt的格式如下
分类1名称
分类2名称
...
示例: 以DogCat数据集为示例,train_list.txt/test_list.txt/validate_list.txt内容如下示例
cat/3270.jpg 0
cat/646.jpg 0
dog/12488.jpg 1
label_list.txt内容如下:
cat
dog
加载图像类自定义数据集,用户仅需要继承基类BaseCVDatast,修改数据集存放地址即可。具体使用如下:
NOTE:
/test/data
为例。/test/data/dog/dog1.jpg
。base_path为/test/data
,则文件中填写的路径应该为dog/dog1.jpg
。此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。