Coda

論文メモ ROUGE: A Package for Automatic Evaluation of Summaries

June 27, 2020

概要

生成された要約を機械的に評価するための指標, Recall-Oriented Understudy for Gisting Evaluation(ROUGE)を提案した論文である。 人が作成した複数の要約文書との再現率で要約文書を評価する。 ROUGEは、ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S, ROUGE-SUの5つの指標の総称である。 同じ要約へのROUGEスコアと人の評価の相関によって、ROUGEの指標としての有用性を評価した。 その結果、ROUGE-2, ROUGE-L, ROUGE-W, ROUGE-Sは、文書の要約の評価に向き、ROUGE-1, ROUGE-L, ROUGE-W, ROUGE-SU4, ROUGE-SU9はヘッドラインほどの短い要約文の評価に向いていることがわかった。

ROUGE-N

ROUGE-Nは、n-gramを単位とする参照要約の集合と生成された要約(以下、候補要約)の間の再現率であり、以下の式で算出される。

$$ \frac{\sum_{S\in {\{Reference Summaries\}}}\sum_{gram_n\in S}Count_{match}(gram_n)}{\sum_{S\in {\{Reference Summaries\}}}\sum_{gram_n\in S}Count(gram_n)} $$

\(n\)はnグラムの長さ、\(Count_{match}(gram_n)\)は、生成された候補要約と参照要約における出現回数で小さい方を示す。

ROUGE-L: Longest Common Subsequence

ROUGE-Lは、最長共通部分列の長さで要約を評価する指標である。 列\(Z=[z_1, z_2,\dots , z_n]\)が列\(X=[x_1, x_2, \dots , x_m]\)の部分列となるのは、全ての\(j=1, 2, \dots , k\)について\(x_{ij}=z_j\)となるインデックスの狭義単調増加列\([i_1, i_2, \dots , i_k]\)があるときである。

Sentence-Level LCS

LOUGE-Lは、最長共通部分列が長いほど、2つの要約が似ているとみなす。 長さ\(n\)の参照要約を\(X\), 長さ\(y\)の候補要約を\(Y\)とする次の\(F_{lcs}\)がROUGE-Lとなる。

$$ \begin{align} R_{lcs}&=\frac{LCS(X, Y)}{m}\\
P_{lcs}&=\frac{LCS(X, Y)}{n}\\
F_{lcs}&=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}} \end{align} $$

Summary-Level LCS

前節の\(F_{lcs}\)は一文の要約の評価であり、本節では文書の要約の評価方法について説明する。 \(C\)を候補要約に含まれる文の集合、\(r_i\)を\(u\)個の文からなる参照約の一文とすると、直和最長共通部分列\(LCS_{\cup}(r_i, C)\)をもとに候補要約を評価する。直和最長共通部分列は、例えば、\(r_i=w_1, w_2, w_3, w_4, w_5\)で\(C\)が2文\(c_1=w_1, w_2, w_6, w_7, w_8\)と\(c_2=w_1, w_3, w_8, w_9, w_5\)を含んでいるとすると、\(r_i\)と\(c_1\)のLCSが\(w_1, w_2\), \(r_i\)と\(c_2\)のLCSが\(w_1, w_3, w_5\)であることから、\(r_i, c_1, c_2\)の直和最長共通部分列は\(w_1, w_2, w_3, w_5\)となり、\(LCS_{\cup}(r_i, C)=\frac{4}{5}\)となる。 単語の総数が\(m\)で\(u\)個の文からなる参照約文書で\(n\)個の単語からなる候補要約文書\(C\)を評価する場合、\(R_{lcs}, P_{lcs}, F_{lcs}\)は次の式になる。 $$ \begin{align} R_{lcs}=\frac{\sum_{i=1}^uLCS_{\cup}(r_i, C)}{m}\\
P_{lcs}=\frac{\sum_{i=1}^uLCS_{\cup}(r_i,C)}{n}\\
F_{lcs}=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}} \end{align} $$

ROUGE-W: Weighted Longest Common Subsequence

ROUGE-Wは、ROUGE-Lが共通部分列の要素の隣接度合いをみない問題に対応した指標である。 次の参照要約\(X\)と候補要約\(Y_1\), \(Y_2\)があるとき、\(Y_1\)のほうが\(X\)に似ているため\(Y_2\)より高いスコアを与えたいが、ROUGE-Lであれば\(Y_1\)と\(Y_2\)のスコアは同じになってしまう。

$$ \begin{align} X&:[\underline{A}\underline{B}\underline{C}\underline{D}EFG]\\
Y_1&:[\underline{A}\underline{B}\underline{C}\underline{D}HIK]\\
Y_2&:[\underline{A}H\underline{B}K\underline{C}I\underline{D}] \end{align} $$ ROUGE-Wは、LCSの要素の隣接度合いにもとづく重みつきLCS(WLCS)と\(f(x+y)>f(x)+f(y)\)をみたす関数\(f\)をもちいた\(F_{wlcs}\)の値をスコアとする。 \(f\)の例として\(f(x)=x^2\)がある。

$$ \begin{align} R_{wlcs}&=f^{-1}\left(\frac{WLCS(X, Y)}{f(m)}\right)\\
P_{wlcs}&=f^{-1}\left(\frac{WLCS(X, Y)}{f(n)}\right)\\
F_{wlcs}&=\frac{(1+\beta^2)R_{wlcs}P_{wlcs}}{R_{wlcs}+\beta^2P_{wlcs}} \end{align} $$

WCLSは次の動的計画法によるアルゴリズムで求める。 rouge