Using TF-IDF to Determine Word Relevance in Document Queries(2003)

February 19, 2022

自然言語による文書検索で、TF-IDFをベースラインにつかう利点と欠点を調べた。 クエリにある各単語のTF-IDF値の総和が最大の文書を最も関連する文書とみなす。 実験では、TFのみで検索する手法よりも予測性能がよかったが、類義語同士の同一判定をできない問題があった。

文書を\(d\), \(d\)に出現する単語\(w\)の数を\(f_{w, d}\), 大きさ\(D\)のコーパスにおいて\(w\)をふくむ文書数を\(f_{w, D}\)とするとき、 次の値を文書\(d\)の単語\(w\)のTF-IDF値とみなす。 $$ w_d = f_{w,d}*\log(\frac{\mid D \mid}{f_{w, D}}) $$

クエリの単語\(w_i\)の集合とすると、以下のクエリに出現する単語のTF-IDF値の総和がたかくなるほどクエリに関連する文書とみなす。 $$ \sum_iw_{i, d} $$

論文をこちらからダウンロードできます。