55 Star 340 Fork 161

PaddlePaddle / PaddleNLP

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
datasets.md 5.08 KB
一键复制 编辑 原始数据 按行查看 历史
gongel 提交于 2021-05-28 16:02 . Add BSTC dataset (#418)

PaddleNLP Datasets API

PaddleNLP提供了以下数据集的快速读取API,实际使用时请根据需要添加splits信息

阅读理解

数据集名称 简介 调用方法
SQuAD 斯坦福问答数据集,包括SQuAD1.1和SQuAD2.0 paddlenlp.datasets.load_dataset('squad')
DuReader-yesno 千言数据集:阅读理解,判断答案极性 paddlenlp.datasets.load_dataset('dureader_yesno')
DuReader-robust 千言数据集:阅读理解,答案原文抽取 paddlenlp.datasets.load_dataset('dureader_robust')
CMRC2018 第二届“讯飞杯”中文机器阅读理解评测数据集 paddlenlp.datasets.load_dataset('cmrc2018')
DRCD 台達閱讀理解資料集 paddlenlp.datasets.load_dataset('drcd')

文本分类

数据集名称 简介 调用方法
CoLA 单句分类任务,二分类,判断句子是否合法 paddlenlp.datasets.load_dataset('glue','cola')
SST-2 单句分类任务,二分类,判断句子情感极性 paddlenlp.datasets.load_dataset('glue','sst-2')
MRPC 句对匹配任务,二分类,判断句子对是否是相同意思 paddlenlp.datasets.load_dataset('glue','mrpc')
STSB 计算句子对相似性,分数为1~5 paddlenlp.datasets.load_dataset('glue','sts-b')
QQP 判定句子对是否等效,等效、不等效两种情况,二分类任务 paddlenlp.datasets.load_dataset('glue','qqp')
MNLI 句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 paddlenlp.datasets.load_dataset('glue','mnli')
QNLI 判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 paddlenlp.datasets.load_dataset('glue','qnli')
RTE 判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 paddlenlp.datasets.load_dataset('glue','rte')
WNLI 判断句子对是否相关,相关或不相关,二分类任务 paddlenlp.datasets.load_dataset('glue','wnli')
LCQMC A Large-scale Chinese Question Matching Corpus 语义匹配数据集 paddlenlp.datasets.load_dataset('lcqmc')
ChnSentiCorp 中文评论情感分析语料 paddlenlp.datasets.load_dataset('chnsenticorp')

序列标注

数据集名称 简介 调用方法
MSRA_NER MSRA 命名实体识别数据集 paddlenlp.datasets.load_dataset('msra_ner')
People's Daily 人民日报命名实体识别数据集 paddlenlp.datasets.load_dataset('peoples_daily_ner')

机器翻译

数据集名称 简介 调用方法
IWSLT15 IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集 paddlenlp.datasets.load_dataset('iwslt15')
WMT14ENDE WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集 paddlenlp.datasets.load_dataset('wmt14ende')

机器同传

数据集名称 简介 调用方法
BSTC 千言数据集:机器同传,包括transcription_translation和asr paddlenlp.datasets.load_dataset('bstc', 'asr')

文本生成

数据集名称 简介 调用方法
Poetry 中文诗歌古典文集数据 paddlenlp.datasets.load_dataset('poetry')
Couplet 中文对联数据集 paddlenlp.datasets.load_dataset('couplet')

语料库

数据集名称 简介 调用方法
PTB Penn Treebank Dataset paddlenlp.datasets.load_dataset('ptb')
Yahoo Answer 100k 从Yahoo Answer采样100K paddlenlp.datasets.load_dataset('yahoo_answer_100k')
Python
1
https://gitee.com/paddlepaddle/PaddleNLP.git
git@gitee.com:paddlepaddle/PaddleNLP.git
paddlepaddle
PaddleNLP
PaddleNLP
develop

搜索帮助