开源项目 > 人工智能 > 自然语言处理 &&

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

该仓库未声明开源许可证文件（LICENSE），使用请关注具体项目描述及其代码上游依赖。

克隆/下载

datasets.md 5.08 KB

# PaddleNLP Datasets API

PaddleNLP提供了以下数据集的快速读取API，实际使用时请根据需要**添加splits信息**：

## 阅读理解

|  数据集名称   | 简介 | 调用方法 |
|  ----  | ----- | ------ |
|  [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/) | 斯坦福问答数据集，包括SQuAD1.1和SQuAD2.0|`paddlenlp.datasets.load_dataset('squad')` |
|  [DuReader-yesno](https://aistudio.baidu.com/aistudio/competition/detail/49) | 千言数据集：阅读理解，判断答案极性|`paddlenlp.datasets.load_dataset('dureader_yesno')` |
|  [DuReader-robust](https://aistudio.baidu.com/aistudio/competition/detail/49) | 千言数据集：阅读理解，答案原文抽取|`paddlenlp.datasets.load_dataset('dureader_robust')` |
|  [CMRC2018](http://hfl-rc.com/cmrc2018/) | 第二届“讯飞杯”中文机器阅读理解评测数据集|`paddlenlp.datasets.load_dataset('cmrc2018')` |
|  [DRCD](https://github.com/DRCKnowledgeTeam/DRCD) | 台達閱讀理解資料集|`paddlenlp.datasets.load_dataset('drcd')` |

## 文本分类

| 数据集名称  | 简介 | 调用方法 |
| ----  | --------- | ------ |
|  [CoLA](https://nyu-mll.github.io/CoLA/) | 单句分类任务，二分类，判断句子是否合法| `paddlenlp.datasets.load_dataset('glue','cola')`|
|  [SST-2](https://nlp.stanford.edu/sentiment/index.html) | 单句分类任务，二分类，判断句子情感极性| `paddlenlp.datasets.load_dataset('glue','sst-2')`|
|  [MRPC](https://microsoft.com/en-us/download/details.aspx?id=52398) | 句对匹配任务，二分类，判断句子对是否是相同意思| `paddlenlp.datasets.load_dataset('glue','mrpc')`|
|  [STSB](http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark) | 计算句子对相似性，分数为1~5| `paddlenlp.datasets.load_dataset('glue','sts-b')`|
|  [QQP](https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs) | 判定句子对是否等效，等效、不等效两种情况，二分类任务| `paddlenlp.datasets.load_dataset('glue','qqp')`|
|  [MNLI](http://www.nyu.edu/projects/bowman/multinli/) | 句子对，一个前提，一个是假设。前提和假设的关系有三种情况：蕴含（entailment），矛盾（contradiction），中立（neutral）。句子对三分类问题| `paddlenlp.datasets.load_dataset('glue','mnli')`|
|  [QNLI](https://rajpurkar.github.io/SQuAD-explorer/) | 判断问题（question）和句子（sentence）是否蕴含，蕴含和不蕴含，二分类| `paddlenlp.datasets.load_dataset('glue','qnli')`|
|  [RTE](https://aclweb.org/aclwiki/Recognizing_Textual_Entailment) | 判断句对是否蕴含，句子1和句子2是否互为蕴含，二分类任务| `paddlenlp.datasets.load_dataset('glue','rte')`|
|  [WNLI](https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html) | 判断句子对是否相关，相关或不相关，二分类任务| `paddlenlp.datasets.load_dataset('glue','wnli')`|
|  [LCQMC](http://icrc.hitsz.edu.cn/Article/show/171.html) | A Large-scale Chinese Question Matching Corpus 语义匹配数据集| `paddlenlp.datasets.load_dataset('lcqmc')`|
|  [ChnSentiCorp](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb) | 中文评论情感分析语料| `paddlenlp.datasets.load_dataset('chnsenticorp')`|

## 序列标注

|  数据集名称   | 简介 | 调用方法 |
|  ----  | --------- | ------ |
|  [MSRA_NER](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra) | MSRA 命名实体识别数据集| `paddlenlp.datasets.load_dataset('msra_ner')`|
|  [People's Daily](https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/People's%20Daily) | 人民日报命名实体识别数据集| `paddlenlp.datasets.load_dataset('peoples_daily_ner')`|

## 机器翻译

| 数据集名称  | 简介 | 调用方法 |
| ----  | --------- | ------ |
|  [IWSLT15](https://workshop2015.iwslt.org/) | IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集| `paddlenlp.datasets.load_dataset('iwslt15')`|
|  [WMT14ENDE](http://www.statmt.org/wmt14/translation-task.html) | WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集| `paddlenlp.datasets.load_dataset('wmt14ende')`|

## 机器同传

| 数据集名称  | 简介 | 调用方法 |
| ----  | --------- | ------ |
|  [BSTC](https://aistudio.baidu.com/aistudio/competition/detail/44/) | 千言数据集：机器同传，包括transcription_translation和asr | `paddlenlp.datasets.load_dataset('bstc', 'asr')`|

## 文本生成

| 数据集名称  | 简介 | 调用方法 |
| ----  | --------- | ------ |
|  [Poetry](https://github.com/chinese-poetry/chinese-poetry) | 中文诗歌古典文集数据| `paddlenlp.datasets.load_dataset('poetry')`|
|  [Couplet](https://github.com/v-zich/couplet-clean-dataset) | 中文对联数据集| `paddlenlp.datasets.load_dataset('couplet')`|

## 语料库

| 数据集名称  | 简介 | 调用方法 |
| ----  | --------- | ------ |
|  [PTB](http://www.fit.vutbr.cz/~imikolov/rnnlm/) | Penn Treebank Dataset | `paddlenlp.datasets.load_dataset('ptb')`|
|  [Yahoo Answer 100k](https://arxiv.org/pdf/1702.08139.pdf)  | 从Yahoo Answer采样100K| `paddlenlp.datasets.load_dataset('yahoo_answer_100k')`|

一键复制编辑原始数据按行查看历史

提交于 2021-05-28 16:02 . Add BSTC dataset (#418)

PaddleNLP Datasets API

PaddleNLP提供了以下数据集的快速读取API，实际使用时请根据需要添加splits信息：

阅读理解

数据集名称	简介	调用方法
SQuAD	斯坦福问答数据集，包括SQuAD1.1和SQuAD2.0	`paddlenlp.datasets.load_dataset('squad')`
DuReader-yesno	千言数据集：阅读理解，判断答案极性	`paddlenlp.datasets.load_dataset('dureader_yesno')`
DuReader-robust	千言数据集：阅读理解，答案原文抽取	`paddlenlp.datasets.load_dataset('dureader_robust')`
CMRC2018	第二届“讯飞杯”中文机器阅读理解评测数据集	`paddlenlp.datasets.load_dataset('cmrc2018')`
DRCD	台達閱讀理解資料集	`paddlenlp.datasets.load_dataset('drcd')`

文本分类

数据集名称	简介	调用方法
CoLA	单句分类任务，二分类，判断句子是否合法	`paddlenlp.datasets.load_dataset('glue','cola')`
SST-2	单句分类任务，二分类，判断句子情感极性	`paddlenlp.datasets.load_dataset('glue','sst-2')`
MRPC	句对匹配任务，二分类，判断句子对是否是相同意思	`paddlenlp.datasets.load_dataset('glue','mrpc')`
STSB	计算句子对相似性，分数为1~5	`paddlenlp.datasets.load_dataset('glue','sts-b')`
QQP	判定句子对是否等效，等效、不等效两种情况，二分类任务	`paddlenlp.datasets.load_dataset('glue','qqp')`
MNLI	句子对，一个前提，一个是假设。前提和假设的关系有三种情况：蕴含（entailment），矛盾（contradiction），中立（neutral）。句子对三分类问题	`paddlenlp.datasets.load_dataset('glue','mnli')`
QNLI	判断问题（question）和句子（sentence）是否蕴含，蕴含和不蕴含，二分类	`paddlenlp.datasets.load_dataset('glue','qnli')`
RTE	判断句对是否蕴含，句子1和句子2是否互为蕴含，二分类任务	`paddlenlp.datasets.load_dataset('glue','rte')`
WNLI	判断句子对是否相关，相关或不相关，二分类任务	`paddlenlp.datasets.load_dataset('glue','wnli')`
LCQMC	A Large-scale Chinese Question Matching Corpus 语义匹配数据集	`paddlenlp.datasets.load_dataset('lcqmc')`
ChnSentiCorp	中文评论情感分析语料	`paddlenlp.datasets.load_dataset('chnsenticorp')`

序列标注

数据集名称	简介	调用方法
MSRA_NER	MSRA 命名实体识别数据集	`paddlenlp.datasets.load_dataset('msra_ner')`
People's Daily	人民日报命名实体识别数据集	`paddlenlp.datasets.load_dataset('peoples_daily_ner')`

机器翻译

数据集名称	简介	调用方法
IWSLT15	IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集	`paddlenlp.datasets.load_dataset('iwslt15')`
WMT14ENDE	WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集	`paddlenlp.datasets.load_dataset('wmt14ende')`

机器同传

数据集名称	简介	调用方法
BSTC	千言数据集：机器同传，包括transcription_translation和asr	`paddlenlp.datasets.load_dataset('bstc', 'asr')`

文本生成

数据集名称	简介	调用方法
Poetry	中文诗歌古典文集数据	`paddlenlp.datasets.load_dataset('poetry')`
Couplet	中文对联数据集	`paddlenlp.datasets.load_dataset('couplet')`

语料库

数据集名称	简介	调用方法
PTB	Penn Treebank Dataset	`paddlenlp.datasets.load_dataset('ptb')`
Yahoo Answer 100k	从Yahoo Answer采样100K	`paddlenlp.datasets.load_dataset('yahoo_answer_100k')`

Python

1

https://gitee.com/paddlepaddle/PaddleNLP.git

git@gitee.com:paddlepaddle/PaddleNLP.git

paddlepaddle

PaddleNLP

PaddleNLP

develop