論文メモ End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

October 16, 2020

タスク固有の特徴を使わないEnd to Endの系列ラベリングのためのネットワークアーキテクチャを発表した。 実験では、Penn Treebank WSJの品詞タグ付けで97.55%のaccuracy, CoNLL 2003の固有表現抽出で91.21%のF1値を発揮し、発表当時の先行研究を上まわる性能を示した。

アーキテクチャ

アーキテクチャは、文字と単語をそれぞれ単位とする2種の分散表現を連結したベクトルを双方向LSTMにあたえ、LSTMの出力をさらにCRFに渡す。 文字単位の分散表現はCNNで生成される。 単語については、実験では、GloVeやWord2Vecが採用された。 下図は、アーキテクチャの全体像をしめす。

arch

CRF

双方向LSTMからの入力を\(\boldsymbol{\mathrm{z}}=\{\boldsymbol{\mathrm{z}}_1,\cdots ,\boldsymbol{\mathrm{z}}_n\}\), \(i\)番目の単語のラベルを\(y_i\)とする正解の系列を\(\boldsymbol{\mathrm{y}}=\{y_1,\cdots ,y_n\}\), \(\boldsymbol{\mathrm{z}}\)がとりえるラベルの系列の集合を\(\mathcal{Y}(\boldsymbol{\mathrm{z}})\)とすると、CRFは、次の条件付き確率分布で\(p(\boldsymbol{y}\mid\boldsymbol{\mathrm{z}};\boldsymbol{\mathrm{W}},\boldsymbol{\mathrm{b}})\)で系列を推定する。 ただし、\(\psi_i(y',y,\boldsymbol{\mathrm{z}})=\exp (\boldsymbol{\mathrm{W}}^T_{y',y}\boldsymbol{\mathrm{z}}_i+\boldsymbol{\mathrm{b}}_{y',y})\)であり、\(\mathrm{\boldsymbol{W}}^T_{y',y}\)と\(\boldsymbol{\mathrm{b}}_{y',y}\)は\((y',y)\)に対応する重みとバイアスである。

$$ p(\boldsymbol{y}\mid \boldsymbol{\mathrm{z}};\boldsymbol{\mathrm{W}},\boldsymbol{\mathrm{b}})=\frac{\prod^n_{i=1}\psi_i(y_{i-1},y_i,\boldsymbol{\mathrm{z}})}{\sum_{y'\in\mathcal{Y}(\boldsymbol{\mathrm{z}})}\psi_i(y'_{i-1},y'_i,\mathrm{\boldsymbol{z}})} $$

\(\{(\mathrm{\boldsymbol{z}}_i, \boldsymbol{\mathrm{y}}_i)\}\)を教師データとする学習では、次の尤度を最大化するパラメタ\(\mathrm{\boldsymbol{W}}, \mathrm{\boldsymbol{b}}\)を求める。

$$ \mathcal{\mathrm{L}}(\boldsymbol{\mathrm{W}},\boldsymbol{\mathrm{b}})=\sum_i\log p(\boldsymbol{y}\mid \boldsymbol{\mathrm{z}};\boldsymbol{\mathrm{W}},\boldsymbol{\mathrm{b}}) $$

以上のように学習したCRFは、\(\mathrm{\boldsymbol{z}}\)があたえられたとき、次の\(y^*\)をラベル系列として推定する。

$$ \boldsymbol{y}^* = \underset{y\in\mathcal{Y}(\boldsymbol{\mathrm{z}})}{\operatorname{argmax}} p(\boldsymbol{y}\mid \boldsymbol{\mathrm{z}};\boldsymbol{\mathrm{W}},\boldsymbol{\mathrm{b}}) $$