Posts

メモ metapath2vec: Scalable Representation Learning for Heterogeneous Networks

異種混合ネットワークから、ノード数x次元数の分散表現を獲得するための手法。 異種混合とは、企業、業界、ニュースなど複数の種類の概念がグラフのノードとして扱われていることを意味する。 獲得した分散表現を訓練データとして分類、クラスタリング、検索に応用し、既存手法と比較している。

Applying Deep Learning To Airbnb Search

概要

論文では、Airbnbが深層学習を宿泊先検索に適用した時の試行錯誤と結果を紹介している。 採用したモデルのアルゴリズムと特徴量エンジニアリングの説明が本稿の大部分を占める。 深層学習を試す以前はGBDTを採用おり、以下の順にアルゴリズムを変えていった。 当初は、アルゴリズムを段階的に高度にしていくつもりはなく、1.以前には複雑なアルゴリズムをいきなり試したが、失敗に終わっている。

メモ The Relationship Between Precision-Recall and ROC Curve

ROCとPrecision Recallの関係を示した論文。 1 Recallが0でなければ、ROC曲線には一対一に対応するPR曲線がある。 2 PR曲線AがPR曲線Bに対して常に優位であることとは、ROC曲線においてAがBより常に優位であることの必要十分条件。 3 1,2よりROC空間上の凸包に対応するPR曲線は、他の妥当なPR曲線よりも優位な曲線になる。 4 線形補間でROC曲線を描くことは妥当。一方で、Recallの分母は固定値であるが、Precisionの分母の値はRecallが上がると増える。そのため、PR曲線を線形補間でプロットすると、評価の甘い曲線になる。 論文はこちらからダウンロードできます。

メモ Enriching Word Vectors with Subword Information

概要

Fasttextを提案、評価した論文。 Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価している。 単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。 部分文字列のベクトルの和が単語のベクトルとなる。 実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。

概要 When Do Chagnes Induce Fixes?

概要

ざっくり言うと、バージョン管理ツールとバグチケット管理ツールを導入しているプロジェクトにおいて、 バージョン管理ツールで追跡されている変更とバグチケット管理ツールで追跡されているバグを紐付ける手法を提案した。

要約 A Simple Semi-supervised Algorithm For Named Entity Recognition

概要

CRFに入力する学習データを集めるための半教師学習の手法を提案と評価した論文。 本手法はCRFに与える学習データを集めるための手法であり、CRFのアルゴリズム自体に変更を加えることはない。

要約 Applying Conditional Random Fields to Japanese Morphological Analysis

Mecabの中の人の資料で紹介でされている、Mecabのアルゴリズムを提案・評価した論文。

概要 Text Classification from Labeled and Unlabeled Documents using EM

アルゴリズム

提案手法は、Naive BayesとEMアルゴリズムを組み合わせたもの。 ラベル付きデータが\(D^l\)でラベルなしデータが\(D^u\)で表されるとき、対数尤度\(\log P(D^l)P(D^u)\)を最大化する問題を解く。