論文メモ Convolutional 2D Knowledge Graph Embeddings

January 11, 2021

ナレッジグラフに欠けたリンクを予測するモデルは、一般に大きなグラフをあつかうために浅く高速なネットワークをもち、層の深いモデルと比べて表現力に欠ける。 提唱されるネットワークConvEは、畳み込み層をつかった深めのネットワークで予測性能の向上をはかる。 層が深くなると計算コストの増加や過学習が課題になるが、先行研究のDistMultR-GCNと比べたConvEのパラメタ数は1/8や1/17であり、パラメタ効率が高い。

アーキテクチャは、畳み込み層、全結合層、ドロップアウト層からなる。 下の図はアーキテクチャの全体像をしめす。 convE

エンティティと関係を集合をそれぞれ\(\varepsilon\), \(\mathcal{R}\)として、関係グラフを\(\mathcal{G}=\{(s, r, o)\}\subseteq\varepsilon\times \mathcal{R}\times \varepsilon\)とかく。 なお、以下の説明ではドロップアウト層を数式にふくめない。 エンティティと関係があたえられると、パラメタ\(k, k'\)の行列\(\boldsymbol{\rm E}^{\mid \varepsilon\mid \times k},\boldsymbol{\rm R}^{\mid\mathcal{R}\mid \times k'}\)の中から、対応する埋め込みベクトル\(\boldsymbol{\rm e}_s, \boldsymbol{\rm r}_r\)をさがす。 \(\boldsymbol{\rm e}_s, \boldsymbol{\rm r}_r\)を2次元行列に\(\bar{\boldsymbol{\rm e}}_s, \bar{\boldsymbol{\rm r}}_r\)変形し、次の式を適用することでスコアを計算する。 $$ \sigma(\psi_r(\boldsymbol{\rm e}_s, \boldsymbol{\rm e}_o))=f(\text{vec}([\bar{\boldsymbol{\rm e}}_s;\bar{\boldsymbol{\rm e}}_r]*\omega))\boldsymbol{\rm W})\boldsymbol{\rm e}_o $$ フィルタ\(\omega\)の畳み込み層が\(\mathcal{T}\in\mathbb{R}^{c\times m \times n}\)の特徴マップのテンソルを返すとき\(\text{vec}\)は\(\text{vec}(\mathcal{T})\in\mathbb{R}^{cmn}\)としてテンソルをベクトルに戻す。 \(f\)は活性化関数であり、正規化線形ユニットを使う。

損失関数は交差エントロピーが使われる。 \(p\)を上の式で導出されたスコアとすると、損失関数は次の式をとる。 $$ \mathcal{L}(p, t)=\frac{1}{N}\sum_i(t_i\cdot \log(p_i)+(1-t_i)\cdot\log(1-p_i)) $$ 計算するときは、あるエンティティと関係\(s, r\)の組について、対向エンティティ\(o\)の候補のスコアを並行して計算することで計算時間を短縮できる。

こちらからダウンロードできます。 文中の図は論文から引用されています。