Coda

メモ Enriching Word Vectors with Subword Information

August 10, 2018

概要

Fasttextを提案、評価した論文。 Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価している。 単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。 部分文字列のベクトルの和が単語のベクトルとなる。 実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。

感想


論文はこちらからダウンロードできます。