抄訳 Bidirectional LSTM-CRF Models for Sequence Tagging(2015)
概要
NLPにおける系列ラベリングためのニューラルネットワークアーキテクチャの提案と評価がなされている。 このアーキテクチャは、当サイトで以前紹介したContextual String Embeddings for Sequence Labelingで応用されている。
NLPにおける系列ラベリングためのニューラルネットワークアーキテクチャの提案と評価がなされている。 このアーキテクチャは、当サイトで以前紹介したContextual String Embeddings for Sequence Labelingで応用されている。
表題の論文は、flairのアルゴリズムを提案、評価したもの。 論文は、テキストの系列ラベリングに向いた単語の分散表現モデルを提案し、 提案手法が予測性能において既存手法より優れいたことを実験的に示した。 本手法における単語の分散表現は、単語の字面だけでなく、文中における単語の出現位置によって決まる。 いいかえると、同じ単語であっても、文中における出現位置が異なれば、単語は異なる分散表現に変換される。 著者らは、分散表現に文脈の情報を含められることを強調して、提案手法をContextual String Embeddingsと名付けた。
UMLFiTという、様々なNLPの問題に適用可能なファインチューニングの手法を提案、評価した。 評価手段として、6種のテキスト分類のタスクにおける既存手法とのエラー率の比較が採られている。 主要な評価として、100件のラベル付きデータだけでその100倍のデータを要した事前学習を用いない手法と同等の予測性能が出たことを報告している。
異種混合ネットワークから、ノード数x次元数の分散表現を獲得するための手法。 異種混合とは、企業、業界、ニュースなど複数の種類の概念がグラフのノードとして扱われていることを意味する。 獲得した分散表現を訓練データとして分類、クラスタリング、検索に応用し、既存手法と比較している。
論文では、Airbnbが深層学習を宿泊先検索に適用した時の試行錯誤と結果を紹介している。 採用したモデルのアルゴリズムと特徴量エンジニアリングの説明が本稿の大部分を占める。 深層学習を試す以前はGBDTを採用おり、以下の順にアルゴリズムを変えていった。 当初は、アルゴリズムを段階的に高度にしていくつもりはなく、1.以前には複雑なアルゴリズムをいきなり試したが、失敗に終わっている。
Fasttextの論文。 Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価した。 単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。 単語のベクトルは部分文字列のベクトルの和である。 実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。
バージョン管理ツールで追跡されている変更とバグを紐付ける手法を提案した。
CRFに入力する学習データを集めるための半教師学習の手法を提案と評価した論文。 本手法はCRFに与える学習データを集めるための手法であり、CRFのアルゴリズム自体に変更を加えることはない。
Mecabの中の人の資料で紹介でされている、Mecabのアルゴリズムを提案・評価した論文。