Coda

メモ Contextual String Embeddings for Sequence Labeling

September 28, 2018

概要

表題の論文は、ライブラリflairのアルゴリズムを提案、評価したもの。

論文は、テキストの系列ラベリングに向いた単語の分散表現モデルを提案し、 提案手法が予測性能において既存手法より優れいたことを実験的に示した。 本手法における単語の分散表現は、単語の字面だけでなく、文中における単語の出現位置によって決まる。 いいかえると、同じ単語であっても、文中における出現位置が異なれば、単語は異なる分散表現に変換される。 著者らは、分散表現に文脈の情報を含められることを強調して、提案手法をContextual String Embeddingsと名付けた。

分散表現には、LSTMを使った文字ベースの言語モデルの隠れ状態が使われる。 テキストを順に受けた場合に次の文字を予測するモデルFとテキストを逆から受けた場合に次の文字を予測するモデルBを訓練する。 単語の次にある文字に対応するモデルFの隠れ状態と単語の手前にある文字に対応するモデルBの隠れ状態を連結してできたベクトルを単語の分散表現として扱う。 獲得した分散表現は、BiLSTM-CRFの入力となり、各種の系列ラベリングのタスクに利用される。

英語とドイツ語を対象にNER, チャンキング、品詞タグづけの3タスクにおおける予測性能を評価し、NERで顕著な結果が出ていた。 他方、チャンキングや品詞タグづけは既存ん手法で既に優れた結果が得られていることもあり、NERと比べて大幅な向上はなかった。

感想

本稿は、色々な既存研究を組み合わせて良い実験結果を得たことを報告するタイプだったように感じる。 オリジナルのアイデアは、2つの言語モデルの隠れ状態を組み合わせて分散表現をつくることがほとんど全てであり、 言語モデルや系列ラベリングのアーキテクチャは既存研究のものを使っている様子だった。