文本生成任务评估指标

刘凤 · 6 小时前

PPL

PPL 困惑度衡量的是语言模型对文本的不确定程度，困惑度越低说明模型越确定下一步要生成什么词，模型越好
\(ppl=\exp(-\frac{1}{N}\sum_{n=1}{N} P(w_n|w_{ r \\e^{(1 - r/c)} & c \le r\end{cases}\)
METEOR

METEOR 是基于 BLEU 进行了一些改进，使用 WordNet 计算特定的序列匹配，可以识别同义词，改善了 BLEU 的效果，使其跟人工判别有更强的相关性，并且是基于 F 值的
其允许三种匹配方式：相同单词、词干匹配、WordNet 同义词
\(meteor=\frac{10PR}{R+9P}\times(1-Penalty)\)
其中 \(P\) 为匹配词数 / 生成词数；\(R\) 为匹配词数 / 参考词数；\(Pernalty\) 用于惩罚匹配不连续
ROUGE-L

ROUGE-L 是摘要任务的最常见指标，其基于最长公共子序列（LCS）衡量生成文本和参考文本的相似度。因为 LCS 不要求连续，只要求顺序一致就行，适合句子长度变化大、次序变化多的文本摘要任务。其也是基于 F 值的
\(rouge=\frac{(1+\beta^2)PR}{R+\beta^2P}\)（通常取 \(\beta=1\)）
其中 \(P\) 为 LCS / 生成词数；\(R\) 为 LCS / 参考词数
CIDEr

CIDEr 常用于图像描述，其目的是比较生成描述和多个参考描述的共识程度，使用 TF-IDF 加权 n-gram 相似度来衡量一致程度，同时支持多个参考描述
为什么用 TD-IDF：因为有些词太常见，例如 a, the, man 这种没有区分度，因此在评估时还需要考虑词重要性
\(cider=\frac{1}{N}\sum_{n=1}^Nsim_n\)
提取 n-gram 并计算 TD-IDF 向量，然后计算 cosine similarity，对多个参考描述取平均

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

文本生成任务评估指标

相关帖子

签约作者

文本生成任务评估指标

相关帖子

相关推荐

签约作者