論文メモ Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST
September 4, 2020ホールドアウト法にかわる自然言語処理モデルの汎化性能を評価するための手法CHECKLISTを提案した。 テストデータと訓練データが同じ方法で集められたときなど、ホールドアウト法はモデルを過大評価することがある。 CHECKLISTは、ソフトウェア開発のブラックボックステストにならい、半自動生成したテストデータで汎化性能を評価する。 CHECKLISTの汎用性と性能を評価するために、感情分析、Quoraの重複質問検出、読解の3タスクについて、商用やSoTAに近いモデルを学習させ、CHECKLISTでモデルがあつかえない入力パターンをどれだけ生成できるか実験した。 感情分析の評価には、Microsoft, Google, AmazonのAPIとBERT, RoBERTaを使い、重複検出にはBERTとRoBERTa, 読解にはBERTを使用した。 CHECKLISTはOSSとして公開されている。
CHECKLISTは汎化性能を複数の観点から評価する。 観点は、Capabilityとよばれ、例えば、否定表現や固有表現の性能を測るNegationやNER,特定の語彙と品詞の組を含む文書を入力したときの性能を測るVocabulary+POSがある。 著者らは、最低でも、以上3つに加えてTaxonomy, Robustness, Fairness, Temporal, Coreference, Semantic Role Labeling, Logicを評価することをすすめている。
Capabilityの測定には、Test typesという3つの手法があり、それぞれ、Minimum Functionality test(MFT), Invariance test(INV), Directional Expectation test(DIR)とよばれる。 MFTは、次のようなテンプレートで生成される文を与えたときの出力を確かめる。
I {NEGATION} {POS_VERB} the {THING}.
INVは、出力に影響すべきでない入力文の一部を変えたときに、出力が変わらないかを確かめる。
DIRは、入力文の一部を変えたときに、出力が期待する方向と逆にスコアが変化しないかを確かめる。
以下に、Negation, NER, Vocabulary+POSをMFT, iNV, DIRでテストする方法を例示する。
Test Typesに必要な文は、先述のテンプレートで半自動的に生成される。 自動生成には、RoBERTaのような文中のマスクされた単語を推定するタスクで学習した言語モデルを使う。
- 論文をこちらからダウンロードできます。
- 画像は論文から引用されています。