メモ Enriching Word Vectors with Subword Information
August 10, 2018概要
Fasttextを提案、評価した論文。 Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価している。 単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。 部分文字列のベクトルの和が単語のベクトルとなる。 実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。
感想
- Fasttextが土台にあるStarSpaceのPre-trained embeddingsの実験結果において同じ文字列を含む単語同士が近くに配置されたのは、上にある分散表現の作り方に由来する気がしました。
- Fastの由来は、skip-gramでは(非疎)行列の乗算がなく高速に処理できる*ことにあるように読めました。
論文はこちらからダウンロードできます。