論文メモ Translating Embeddings for Modeling Multi-relational Data

December 5, 2020

ナレッジグラフを低次元のベクトル空間に埋め込むアルゴリズムTransEを提案した。 エンティティは複数種類のラベルをもってよく、埋め込まれたエンティティやラベルの距離を計算することで、入力されたグラフに欠けているリンクを推定できる。

TransEは、エンティティとラベルの和がリンク先のエンティティのベクトルになるよう、ナレッジグラフをベクトル空間に埋め込む。 距離関数\(d\)には\(L_1\), \(L_2\)ノルムをつかう。

学習には、ネガティブサンプリングをもちいる。 ラベル\(l\)のリンクの両端にある上位、下位エンティティを\(h, t\)としてエンティティグラフを\(S=\{(h, l, t)\}\), エンティティの集合を\(E\), ラベルの集合を\(L\), 正則化のためのマージン\(\gamma>0\), 埋め込まれるベクトル空間\(\mathbb{R}^k\)の次元を\(k\)とかく。 このとき、損失関数\(\mathcal{L}\)は次の式をとる。 パラメタの更新には確率的勾配降下法がつかえる。

$$ \mathcal{L}=\sum_{(h, l, t)\in S}\sum_{(h',l,t')\in S'_{(h, l, t)}}[\gamma+d(\boldsymbol{h}+\boldsymbol{l}, \boldsymbol{t})-d(\boldsymbol{h'}+\boldsymbol{l},\boldsymbol{t'})]_+ $$

\([x]_+\)は\(x\)の正のとき\(x\), それ以外では\(0\)となる。 \(S'\)はネガティブサンプリングされたサンプルの集合をしめす。 次の式の\(h', t'\)は相手のエンティティとリンク\(l\)で結ばれておらず無作為に選ばれたエンティティをしめす。

$$ S'_{(h, l, t)} = \{(h',l,t)\mid h'\in E\}\cup\{(h,l,t')\mid t'\in E\} $$