接着常见文本生成评价指标——非训练评价指标写的。
还是看名字,这类指标是基于机器学习模型评估机器生成的文本之间或机器生成的文本自然语言文本之间的相似性。
所谓的基于机器学习模型是一些利用训练好的模型来评估生成文本的质量和相似性的方法。这些指标通常比基于词重叠或距离的指标更能反映语义和结构的复杂性。
bleurt
出自:[2004.04696] BLEURT: Learning Robust Metrics for Text Generation (arxiv.org)
它利用预训练的BERT模型来训练一个回归模型,预测人类评分。它使用了大量的合成数据来进行预训练,以提高模型的泛化能力。它还可以适应不同的评价数据集,通过在特定的数据集上进行微调。BLEURT 的优点是它可以捕捉到语义和语法的差异,同时也能处理多样性和长度的问题。
pip install evaluate
pip install datasets==2.10.0
注意这里一定要确保datasets是2.10.0,因为之后的版本DownloadConfig出问题,会报错无法使用bleurt。
pip install git+https://github.com/google-research/bleurt.git
import evaluate
import datasets
predictions = ["It is a guide to action which ensures that the military always obeys the commands of the party."]
references = ["It is a guide to action that ensures that the military will forever heed Party commands."]
bleurt = evaluate.load("bleurt", module_type="metric")
results = bleurt.compute(predictions=predictions, references=references)
print(results)
输出:
{‘scores’: [0.5508140325546265]}
BERTScore
出自:BERTSCORE: EVALUATING TEXT GENERATION WITH BERT (openreview.net)
BERTScore使用预训练的BERT模型来评估生成文本与参考文本之间的相似性。它是一种广泛用于文本比较任务的评估指标。
BERTScore利用了BERT模型的预训练上下文嵌入,并通过余弦相似度匹配候选句子和参考句子中的单词。首先对生成文本和参考文本进行嵌入表示,然后使用BERT模型计算这些嵌入表示之间的相似性分数。这些分数反映了两个文本之间的语义相似性。
计算结果为:
-
precision(精确度):对于预测和参考列表中的每个句子,其精确度值范围从0.0到1.0。
-
recall(召回率):对于预测和参考列表中的每个句子,其召回率值范围从0.0到1.0。
-
f1(F1分数):对于预测和参考列表中的每个句子,其F1分数值范围从0.0到1.0。
给定参考句子𝑥𝑥和候选句子x^ hat x的上下文嵌入,即x,x^mathbf x, hat{mathbf x},可以通过以下方式计算召回率、精确度和F1得分:
RBERT=1∣x∣∑xi∈xmaxx^j∈x^xi⊤x^j,PBERT=1∣x^∣∑x^j∈x^maxxi∈xxi⊤x^j,FBERT=2PBERT⋅RBERTPBERT+RBERT,begin{aligned}
R_{mathrm{BERT}} & =frac{1}{|x|} sum_{x_i in x} max _{hat{x}_j in hat{x}} mathbf{x}_i^{top} hat{mathbf{x}}_j, \
P_{mathrm{BERT}} & =frac{1}{|hat{x}|} sum_{hat{x}_j in hat{x}} max _{boldsymbol{x}_i in x} mathbf{x}_i^{top} hat{mathbf{x}}_j, \
F_{mathrm{BERT}} & =2 frac{P_{mathrm{BERT}} cdot R_{mathrm{BERT}}}{P_{mathrm{BERT}}+R_{mathrm{BERT}}},
end{aligned}
用distilbert-base-uncased计算一下BERTScore,代码如下:
pip install evaluate
pip install bert_score
import evaluate
predictions = ["It is a guide to action which ensures that the military always obeys the commands of the party."]
references = ["It is a guide to action that ensures that the military will forever heed Party commands."]
bertscore = evaluate.load("bertscore")
results = bertscore.compute(predictions=predictions, references=references, model_type="distilbert-base-uncased")
print(results)
输出:
{‘precision’: [0.9385131001472473], ‘recall’: [0.9496503472328186], ‘f1’: [0.9440488815307617], ‘hashcode’: ‘distilbert-base-uncased_L5_no-idf_version=0.3.12(hug_trans=4.33.2)’}
最后那个hashcode不用于评估文本生成质量,而是用于标识或管理库的版本。
Perplexity
在这里再加一个Perplexity。Perplexity衡量了模型生成输入文本序列的可能性有多高。简单说就是你给他一个模型,再给他一个句子,他会计算出这个模型输出这个句子的可能性。
困惑度定义为序列的指数平均负对数似然。
对于一个序列X=(x0,x1,…,xt)X=left(x_0, x_1, ldots, x_tright):
PPL(X)=exp{−1t∑itlogpθ(xi∣x<i)}operatorname{PPL}(X)=exp left{-frac{1}{t} sum_i^t log p_thetaleft(x_i mid x_{<i}right)right}
其中 logpθ(xi∣x<i)log p_thetaleft(x_i mid x_{<i}right) 是我们的模型在x<ix_{<i}基础上生成第i个token的对数似然。
困惑度可以被看作是评估模型在语料库中一组指定的标记中均匀预测能力的指标。注意,不同的分词过程直接影响了模型的困惑度,因此在比较不同模型时,应始终考虑这一点。
pip install evaluate
import evaluate
predictions = ["It is a guide to action which ensures that the military always obeys the commands of the party."]
references = ["It is a guide to action that ensures that the military will forever heed Party commands."]
ppl = evaluate.load("perplexity", module_type="metric")
results = ppl.compute(predictions=predictions, model_id="gpt2")
print(results)
输出:
{‘perplexities’: [58.777610778808594], ‘mean_perplexity’: 58.777610778808594}