論文メモ Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
January 4, 2020概要
クエリと文書を同じ低次元の空間に射影する深層学習のモデルを提案した論文である。 クエリと文書は、適合度合いが高いほど、近くに配置される。 教師データは、クエリと文書の組からなる教師データである。 実験では、商用検索エンジンから抽出した16510件のクエリと対応するWeサイトのタイトルがつかわれる。 Web文書の大量の語彙をあつかうために、語彙の増加に対して次元数を抑えるbag-of-wordsの手法、word hasingも提案した。
モデルのアーキテクチャ
word hasingの後に全結合層をつなげた順伝播ネットワークである。
以下の図は、アーキテクチャの全体像である。\(Q\)はクエリ、\(D_{i}\)は文書、四角の中の数値はユニット数、\(R\)はコサイン類似度、\(P\)は温度付きソフトマックスを示す。
\(W\)は重み、\(b\)はバイアス、活性化関数は\(tanh\)であるから
$$
l_1 = W_1 x
$$
$$
l_i = f(W_i\ l_{i-1} + b), i=2, \dots , N-1
$$
$$
y = f(W_{N}\ l_{N-1}+b_N)
$$
$$
f(x) = \frac{1-e^{-2x}}{1+e^{-2x}}
$$
となる。
温度はホールドアウトのデータで決められる。
計算量の都合から、次の温度付きソフトマックスにある分母を近似する必要がある。
$$ P(D^{+}\mid Q) = \frac{\exp(\gamma R(Q, D^{+}))}{\sum_{D'\in \boldsymbol{D}}\exp (\gamma R(Q, D'))} $$ そのため、\(\boldsymbol{D}\)は、無作為に抽出した負例\(\{D_j^-;j=1,\dots 4\}\)と正例\(D^{+}\)からなる集合で近似される。
目的関数は、クエリが与えられたときの正例文書の尤度を最大化する次の式である。 $$ L(\Lambda)=-\log\prod_{(Q, D^+)}P(D^+\mid Q) $$
Word hasing
word-hasingは文字単位のnグラムである。
はじめに、単語の始端と終端に記号をつけ、good
を#good#
のように、単語の始まりと終わりを明示する。
つぎに、記号つきの単語をnグラムに分解する。
#good#
であれば、#go
, goo
, ood
, od#
に分解される。
さいごに、n-gramでベクトルをつくる。
感想
実験には、クエリとタイトルをデータとして、NDCGが採用された。 TF-IDFとBM25の単語マッチングよりも提案手法のほうが0.04ポイント程度上まわった。 これはクエリやタイトルが短いからなのかが気になる。
ソフトマックスではなく温度付きソフトマックスを採用する理由は明示されてないが、温度付きソフトマックスがProbability calibrationにはたらく研究がある。 当該研究の概要をこちらにまとめた。
- 論文へのリンク
- 図はすべて論文から引用さています。