PPL
PPL 困惑度衡量的是语言模型对文本的不确定程度,困惑度越低说明模型越确定下一步要生成什么词,模型越好
\(ppl=\exp(-\frac{1}{N}\sum_{n=1}{N} P(w_n|w_{ r \\e^{(1 - r/c)} & c \le r\end{cases}\)
METEOR
METEOR 是基于 BLEU 进行了一些改进,使用 WordNet 计算特定的序列匹配,可以识别同义词,改善了 BLEU 的效果,使其跟人工判别有更强的相关性,并且是基于 F 值的
其允许三种匹配方式:相同单词、词干匹配、WordNet 同义词
\(meteor=\frac{10PR}{R+9P}\times(1-Penalty)\)
其中 \(P\) 为匹配词数 / 生成词数;\(R\) 为匹配词数 / 参考词数;\(Pernalty\) 用于惩罚匹配不连续
ROUGE-L
ROUGE-L 是摘要任务的最常见指标,其基于最长公共子序列(LCS)衡量生成文本和参考文本的相似度。因为 LCS 不要求连续,只要求顺序一致就行,适合句子长度变化大、次序变化多的文本摘要任务。其也是基于 F 值的
\(rouge=\frac{(1+\beta^2)PR}{R+\beta^2P}\)(通常取 \(\beta=1\))
其中 \(P\) 为 LCS / 生成词数;\(R\) 为 LCS / 参考词数
CIDEr
CIDEr 常用于图像描述,其目的是比较生成描述和多个参考描述的共识程度,使用 TF-IDF 加权 n-gram 相似度来衡量一致程度,同时支持多个参考描述
为什么用 TD-IDF:因为有些词太常见,例如 a, the, man 这种没有区分度,因此在评估时还需要考虑词重要性
\(cider=\frac{1}{N}\sum_{n=1}^Nsim_n\)
提取 n-gram 并计算 TD-IDF 向量,然后计算 cosine similarity,对多个参考描述取平均
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |