Coda

メモ Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data

October 12, 2018

概要

本稿は、条件付き確率場(Conditional Random Fields, CRF)を提案し、品詞タグづけにおけるerror rateをもとに評価した。 評価の比較対象には、Maximum entropy Markov models(MEMMs)が採用されている。

Read more

メモ Bidirectional LSTM-CRF Models for Sequence Tagging

October 5, 2018

概要

本稿では、NLPにおける系列ラベリングためのニューラルネットワークアーキテクチャの提案と評価がなされている。 このアーキテクチャは、当ページで以前紹介したContextual String Embeddings for Sequence Labelingで応用されている。

Read more

メモ Contextual String Embeddings for Sequence Labeling

September 28, 2018

概要

表題の論文は、ライブラリflairのアルゴリズムを提案、評価したもの。

論文は、テキストの系列ラベリングに向いた単語の分散表現モデルを提案し、 提案手法が予測性能において既存手法より優れいたことを実験的に示した。 本手法における単語の分散表現は、単語の字面だけでなく、文中における単語の出現位置によって決まる。 いいかえると、同じ単語であっても、文中における出現位置が異なれば、単語は異なる分散表現に変換される。 著者らは、分散表現に文脈の情報を含められることを強調して、提案手法をContextual String Embeddingsと名付けた。

Read more

メモ Universal Language Model Fine-tuning for Text Classification

September 14, 2018

概要

UMLFiTという、様々なNLPの問題に適用可能なファインチューニングの手法を提案、評価した。 評価手段として、6種のテキスト分類のタスクにおける既存手法とのエラー率の比較が採られている。 主要な評価として、100件のラベル付きデータだけでその100倍のデータを要した事前学習を用いない手法と同等の予測性能が出たことを報告している。

Read more

メモ metapath2vec: Scalable Representation Learning for Heterogeneous Networks

September 7, 2018

異種混合ネットワークから、ノード数x次元数の分散表現を獲得するための手法。 異種混合とは、企業、業界、ニュースなど複数の種類の概念がグラフのノードとして扱われていることを意味する。 獲得した分散表現を訓練データとして分類、クラスタリング、検索に応用し、既存手法と比較している。

Read more

Applying Deep Learning To Airbnb Search

August 31, 2018

概要

論文では、Airbnbが深層学習を宿泊先検索に適用した時の試行錯誤と結果を紹介している。 採用したモデルのアルゴリズムと特徴量エンジニアリングの説明が本稿の大部分を占める。 深層学習を試す以前はGBDTを採用おり、以下の順にアルゴリズムを変えていった。 当初は、アルゴリズムを段階的に高度にしていくつもりはなく、1.以前には複雑なアルゴリズムをいきなり試したが、失敗に終わっている。

Read more

メモ The Relationship Between Precision-Recall and ROC Curve

August 25, 2018

ROCとPrecision Recallの関係を示した論文。 1 Recallが0でなければ、ROC曲線には一対一に対応するPR曲線がある。 2 PR曲線AがPR曲線Bに対して常に優位であることとは、ROC曲線においてAがBより常に優位であることの必要十分条件。 3 1,2よりROC空間上の凸包に対応するPR曲線は、他の妥当なPR曲線よりも優位な曲線になる。 4 線形補間でROC曲線を描くことは妥当。一方で、Recallの分母は固定値であるが、Precisionの分母の値はRecallが上がると増える。そのため、PR曲線を線形補間でプロットすると、評価の甘い曲線になる。 論文はこちらからダウンロードできます。
Read more

メモ Enriching Word Vectors with Subword Information

August 10, 2018

概要

Fasttextを提案、評価した論文。 Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価している。 単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。 部分文字列のベクトルの和が単語のベクトルとなる。 実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。

Read more

概要 When Do Chagnes Induce Fixes?

August 3, 2018

概要

ざっくり言うと、バージョン管理ツールとバグチケット管理ツールを導入しているプロジェクトにおいて、 バージョン管理ツールで追跡されている変更とバグチケット管理ツールで追跡されているバグを紐付ける手法を提案した。

Read more

要約 A Simple Semi-supervised Algorithm For Named Entity Recognition

July 17, 2018

概要

CRFに入力する学習データを集めるための半教師学習の手法を提案と評価した論文。 本手法はCRFに与える学習データを集めるための手法であり、CRFのアルゴリズム自体に変更を加えることはない。

Read more