Posts

SimCSE: Simple Contrastive Learning of Sentence Embeddings

対照学習は、意味の近い要素同士を近くに、異なる要素を遠くに配置する分散表現を獲得する。 SimCSEは、文の分散表現のための対照学習であり、教師なしと教師ありの2つの学習方法を提供する。 教師なし学習は、Dropout層を通したサンプルが近くに配置されるように、Dropout層の出力2つからなるペアを教師データにする。 教師あり学習は、自然言語推論(含意関係認識)の教師データをつかい、前提と含意の分散表現が近くになるように学習する。

Stochastic Gradient Boosting

Gradient Boostingは、反復的に、モデルの予測と正解の残差に弱識別器をあてはめ、弱識別器をモデルに追加する。 Stochastic Gradient Boostingは、弱識別器の学習に非復元抽出したデータの部分集合をつかい、精度と学習速度を向上する。

LightGBM: A Highly Efficient Gradient Boosting Decision Tree

LightGBMは、GBDTを高速化したアルゴリズムであり、XGBoostよりも必要な計算時間と消費メモリが少ない。 GBDTの処理時間のボトルネックは決定木の分岐を決めるところである。 その前処理で特徴の値をソートする場合は、ソートがボトルネックになる。 勾配の小さいサンプルを除外することでデータを減らし、また、同時に0でない値にならない排他的な特徴をマージすることで特徴の種類を減らし、ソートを高速化した。

Adam: A Method for Stochastic Optimization

ADAMはAdaptive moment estimationに由来し、名前のとおり、推定した1, 2次のモーメントによる学習率最適化のアルゴリズムである。 勾配が疎なときに有効なAdaGradの利点と、目的関数が時間とともに変化してもよいRMSPropの利点をそなえる。 一次や二次のモーメントを、指数関数的に加重を減少させる移動平均で推定する。 ただし、モーメントの初期値を0にすると最初のうちはモーメントの推定値が0に偏ってしまう。 そこで、反復回数がすくないほど推定値を大きくなるよう補正する。

XGBoost: A Scalable Tree Boosting System

XGBoostは、キャッシュやシャーディングによる高速な勾配ブースティングのライブラリであり、スパースなデータでも高速に学習できる。 情報利得が大きくなるにノードから枝をのばすときは、ノードにあるサンプルで分岐の条件を決定する。 このとき、分岐条件の特徴が欠損するサンプルを左右どちらかに無条件にふり分けると利得が大きくなるかを計算する。 これにより、欠損のないサンプル数の線形オーダまで計算量を削減する。

Classifier Chains for Multi-label Classification

scikit-learnのClassifier Chainで実装されたClassifier Chainsは、ラベルの相関関係を特徴につかうマルチラベル分類のモデルで、相関関係をもちいる既存手法よりも計算量がすくない。 より細かくみれば、Classifier Chainsは、Classifier Chain Model(CC)とCCのアンサンブル学習であるEnsembles of Classifier Chains(ECC)の2つにわかれる。

Effective Multi-Label Active Learning for Text Classification

SVMをつかったマルチラベル文書分類のための能動学習である。 ラベルをつければモデルの損失を最も小さくできるデータをさがす。 ラベルつきデータでSVMを学習し、さらに、その識別関数の値を特徴としてラベルの数を予測するロジスティック回帰を学習する。 ラベルのないデータを両モデルに入力し、ロジスティック回帰が予測するラベルの数だけ、識別関数の値の高い順にラベルを選び、そのデータのマルチラベルとみなす。 このとき、その推定したマルチラベルと識別関数の値がほど、損失関数を最も小さくできるデータとみなす。

Pegasos: Primal Estimated sub-GrAdient SOlver for SVM

Pegasosは、SVMの学習のための反復的なアルゴリズムであり、2022年3月現在、scikit-learnのSGDClassifierで学習率を更新に採用されている。 Pegasosは、目的関数の最小値の近似値をもとめる。 求める最小値との誤差を\(\epsilon\), SVMの正則化パラメタを\(\lambda\), 各サンプルの説明変数の0でない要素数の上限を\(d\)とすると、線形カーネルをつかうSVMの時間計算量は、\(\tilde{O}(d/\lambda \epsilon)\)になる。 訓練データの数が計算量に影響しないので、教師データの数に対してスケールする。

An Interior-Point Method for Large-Scale L1-Regularized Least Squares

前処理付共役勾配法により、スパースな説明変数をもつリッジ回帰の学習を高速化する。 リッジ回帰の目的関数は、凸関数だが微分可能ではない。 また、リッジ回帰の係数はスパースになりやすい。 そこで、目的関数を最小化する係数の探索を、線形不等式制約つきの凸二次計画問題とらえ、前処理付共役勾配法をつかった内点法で係数の更新方向を探索する。

Regularization Paths for Generalized Linear Models via Coordinate Descent

ラッソ、リッジ、またはその両方をくみあわせるelastictnetを正則化項とする一般化線形モデルの学習を高速化した座標降下法である。 座標降下法を単純に実装すると、スパースで次元数の多い特徴だと学習に時間がかかる。 表題の手法は、その単純なパラメタの更新式の一部を、説明変数の内積におきかえ、学習データの数や次元数に対して学習時間を短縮する。