开源项目 > 人工智能 > 自然语言处理 &&

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

该仓库未声明开源许可证文件（LICENSE），使用请关注具体项目描述及其代码上游依赖。

克隆/下载

metrics.md 1.97 KB

# PaddleNLP Metrics API

目前PaddleNLP提供以下模型评价指标：

| Metric | 简介 | API |
| ------ | --- | --- |
| [Perplexity](https://en.wikipedia.org/wiki/Perplexity)  | 困惑度，常用来衡量语言模型优劣，也可用于机器翻译、文本生成等任务。 | `paddlenlp.metrics.Perplexity`                               |
| [BLEU(BiLingual Evaluation Understudy)](https://en.wikipedia.org/wiki/BLEU)           | 机器翻译常用评价指标          | `paddlenlp.metrics.BLEU`                                     |
| [Rouge(Recall-Oriented Understudy for Gisting Evaluation)](https://en.wikipedia.org/wiki/ROUGE_(metric)) | 评估自动文摘以及机器翻译的指标   | `paddlenlp.metrics.RougeL`, `paddlenlp.metrics.RougeN`       |
| AccuracyAndF1                                            | 准确率及F1-score，可用于GLUE中的MRPC 和QQP任务               | `paddlenlp.metrics.AccuracyAndF1`                            |
| PearsonAndSpearman                                       | 皮尔森相关性系数和斯皮尔曼相关系数。可用于GLUE中的STS-B任务  | `paddlenlp.metrics.PearsonAndSpearman`                       |
| Mcc(Matthews correlation coefficient)                    | 马修斯相关系数，用以测量二分类的分类性能的指标。可用于GLUE中的CoLA任务 | `paddlenlp.metrics.Mcc`                                      |
| ChunkEvaluator                                           | 计算了块检测的精确率、召回率和F1-score。常用于序列标记任务，如命名实体识别（NER） | `paddlenlp.metrics.ChunkEvaluator`                           |
| Squad Evalutaion                        | 用于SQuAD和DuReader-robust的评价指标                         | `paddlenlp.metrics.compute_predictions`, `paddlenlp.metrics.squad_evaluate` |
| [Distinct](https://arxiv.org/abs/1510.03055) | 多样性指标，常用来衡量文本生成模型生成的句子形式上的多样性。 | `paddlenlp.metrics.Distinct` |

一键复制编辑原始数据按行查看历史

提交于 2021-03-24 16:13 . [metric] Add a new metrics DISTINCT. (#183)

PaddleNLP Metrics API

目前PaddleNLP提供以下模型评价指标：

Metric	简介	API
Perplexity	困惑度，常用来衡量语言模型优劣，也可用于机器翻译、文本生成等任务。	`paddlenlp.metrics.Perplexity`
BLEU(BiLingual Evaluation Understudy)	机器翻译常用评价指标	`paddlenlp.metrics.BLEU`
Rouge(Recall-Oriented Understudy for Gisting Evaluation)	评估自动文摘以及机器翻译的指标	`paddlenlp.metrics.RougeL`, `paddlenlp.metrics.RougeN`
AccuracyAndF1	准确率及F1-score，可用于GLUE中的MRPC 和QQP任务	`paddlenlp.metrics.AccuracyAndF1`
PearsonAndSpearman	皮尔森相关性系数和斯皮尔曼相关系数。可用于GLUE中的STS-B任务	`paddlenlp.metrics.PearsonAndSpearman`
Mcc(Matthews correlation coefficient)	马修斯相关系数，用以测量二分类的分类性能的指标。可用于GLUE中的CoLA任务	`paddlenlp.metrics.Mcc`
ChunkEvaluator	计算了块检测的精确率、召回率和F1-score。常用于序列标记任务，如命名实体识别（NER）	`paddlenlp.metrics.ChunkEvaluator`
Squad Evalutaion	用于SQuAD和DuReader-robust的评价指标	`paddlenlp.metrics.compute_predictions`, `paddlenlp.metrics.squad_evaluate`
Distinct	多样性指标，常用来衡量文本生成模型生成的句子形式上的多样性。	`paddlenlp.metrics.Distinct`

Python

1

https://gitee.com/paddlepaddle/PaddleNLP.git

git@gitee.com:paddlepaddle/PaddleNLP.git

paddlepaddle

PaddleNLP

PaddleNLP

develop