Posts

メモ Learning on the Border: Active Learning in Imbalanced Data Classification

概要

表題にある論文は、不均衡データの二値分類についての予測性能を能動学習で改善する手法を提案している。 着想は、学習器のマージン付近では正例と負例がよりバランスしていると仮定し、 マージン付近にあるデータを集めることで、均衡のとれたデータセットを用意することにある。 具体的には、ラベルづけしたデータでSVMをオンライン学習し、無作為に抽出されたラベルのないデータの中で最も超平面に近いデータにラベルをつける手順をマージンの中にあるデータ数が変わらなくなるまで繰り返す。

メモ Distilling the Knowledge in a Neural Network

概要

表題にあるニューラルネットワークの蒸留についての論文を紹介する。 蒸留は、既存のモデルを使い、できるだけ予測性能を落とさずに、より小さいモデルを作るための学習手法である。 既存のモデルとして想定されているのは、複数のモデルからなるモデルや正則化された大きなモデルのように予測性能は高いが計算コストが高いものであり、 蒸留の目的は本番の運用に耐えられるデプロイ可能なモデル作ることにある。 本論文は、出力層の活性化関数に温度つきソフトマックスを使った多クラス分類のモデルを蒸留する手法を提案し、実験により手法を評価している。

メモ FastXML: A Fast, Accurate and Stable Tree-classifier for eXtreme Multi-label Learning

表題にあるExtreme multi-label classificationの手法を紹介する。 Extreme multi-label classificationの目的は、大量のラベルの候補から与えられたデータに関連する複数のラベルを推定する学習器を構築することにある。 FastXMLは、弱学習器に決定木を使うアンサンブル学習であり、ノードの分割の評価関数にnDCGを採用することで、学習にかかる時間と予測精度の向上を意図している。

メモ Advantages and Disadvantages of a Monolithic Repository

概要

表題は、マルチリポジトリと比べたときのモノリシックリポジトリの長所と短所の調べた論文のタイトルである。 論文は2018年のICSEでGoogleから発表された。 調査方法はGoogle社のエンジニアへのアンケートとエンジニアの行動ログの分析が採用されている。 Googleではモノリシックリポジトリが採用されており、エンジニアがこれまで経験したマルチリポジトリが比較対象となっている。

メモ CatBoost: unbaiased boosting with categorical features

概要

表題はNeurIPS 2018で発表されたCatBoostという勾配ブースティングの手法を論文にちなむ。 Target Statisticsというカテゴリカル特徴量の前処理と勾配ブースティングの学習時に生じる一種のleakageが起きることを示し、leakageをさけて前処理と学習をする手法を示した。 CatBoostは二進木の決定木を弱識別器に用いる。

メモ Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches

概要

表題は、ニューラルネットワークを用いた推薦システムを提案、評価した論文における実験の再現性と予測性能の再評価した論文のタイトルにあたる。 発表学会は、2019年のRecSys。著者らは、以下の2つのRQに回答するためにトップ会議で発表された18の論文を調査した。その結果、実験を再現できた論文は7稿であり、その中でも単純な手法を上回る性能が認められたのは1稿だけだった。

  • RQ1: ニューラルネットワークを用いた推薦システムの研究の再現性はどの程度か
  • RQ2: 最近発表されたアルゴリズムは、ハイパーパラメタチューニングされた単純な手法と比べてどの程度性能がいいか

メモ Gaussian Processes for Regression

表題はガウス過程の回帰問題への応用を提案した論文。著者らは、scikit-learnのガウス過程回帰の 元になっているGaussian Processes for Machine Learningの著者と同じ。 論文の構成は、ガウス過程回帰の予測分布の式、ハイパーパラメタ推定方法、実験による評価からなる。

概要 Google Vizier: A Service for Black-Box Optimization

概要

表題にあるVizierはGoogleにおいてデファクトになっているブラックボックス最適化のためのサービスであり、 論文は、Vizierのシステムアーキテクチャの構成とアルゴリズムの説明とその評価からなる。

概要 Learning Active Learning from Data

概要

表題にある論文は、次にラベルを与えるべきデータが何かという能動学習における問題を、 あるサンプルを教師データに追加したときの損失関数の減少値を予測する回帰の問題としてとらえる。 能動学習の目的は最小限データで最大の予測性能をもつモデルを構築することであり、次にアノテーションすべきデータが何かを正しく予測することが課題になる。 論文は、アノテーションすべきサンプルを予測する回帰モデルを学習するアルゴリズムを提案、評価する。アルゴリズムは2値分類の分類器を対象としている。

概要 TextRank: Bringing Order into Texts

概要

表題にある論文は、ドキュメントからキーワードとキーセンテンスを抽出するためのグラフベースのアルゴリズムTextRankを提案、評価した。 TextRankは、名前から推測できるようにPageRankを応用した手法であり、頂点の重要度を、頂点の内容のような局所的な情報ではなく、他の頂点との辺の接続関係を含むグラフ全体の大域的な情報から決定する。PageRankとTextRankのアルゴリズムの違いは、TextRankの場合は辺ごとに重みが設定できるところにある。