Coda

論文メモ SQuAD: 100,000+ Questions for Machine Comprehension of Text

August 28, 2020

読解タスクのテストデータセットSQuADをつくり、ロジスティック回帰で難易度を評価した。 難易度は、ベースラインのF1スコアが20%, 強いモデルで51.0%, 人間で86.8%程度である。

既存の読解タスクのデータセットには質と量のどちらかに問題があり、読解タスクを適切に評価するためのデータセットがなかった。 RichardsonらのMCTestは質はよいがデータ件数が少ない。 一方、Haermann et alらのデータは、半合成的であり、読解能力を問う質問に適していない。

SQuADは、Project NayukiのWikipediaの記事上位10000件から無作為に選ばれた536件の記事から作られている。 抽出された記事から500文字以下の23,215個のパラグラフを集め、質問は各パラグラフの読解能力を測る。 質問と解答の組は、Mechanical TurkをバックエンドにしたDaemo platformでクラウドワーカーに作成してもらった。 パラグラフを読んだクラウドワーカーは、作成した質問をテキストフィールドに入力し、パラグラフ上にある解答をハイライトすることでサンプルを作った。 問題の一例を以下に図示する。

qa