Posts

PLS-regression: a basic tool of chemometrics

重回帰分析は、説明変数の行列がフルランクでないとき、多重共線性により、出力が不安定になる。 そのため、説明変数の数を減らし、説明変数間に相関関係がないようにする必要がある。 PLS(部分的最小二乗法)は、入力変数の線形結合で表わせる潜在変数を求め、潜在変数の線形結合で目的変数を表現する。 説明変数の数より少ない数の潜在変数を求めることで、説明変数間の相関関係をとりのぞく。

Statistics and Causal Inference(1986)

ルービンの因果モデルによる統計的因果推定では、群\(U\)の要素を\(u\), 処置を\(t\), \(c\), \(Y\)を潜在的結果変数とすると、\(u\)に対して処置\(c\)を適用するときの処置\(t\)の因果効果を、\(T = Y_t(u) - Y_c(u)\)とみなす。 たとえば、\(u\)を人、\(t\), \(c\)を運動をする、しない、\(Y\)をコレステロールの値とすれば、運動とコレステロール値の関係になる。 \(Y_t(u)\)と\(Y_c(u)\)は観測できないので、因果効果は、観測するのではなく、推定するものになる。

A Family of Experiments on Test-Driven Development

コードの品質への影響を調査するTDDの先行研究は複数あるが、研究手法、被検者、プログラミング環境などの実験条件は様々、結論は違い、明確なこたえはない。 表題の論文は、個別のTDDの実験結果の精度と汎化性を上げることにあり、そのために、結果に影響すると考えられる実験条件をかえ、TDDとITL(iterative test-last development)を比較する12の実験を実施した。 被検者は4大学と企業12社、5つのトイタスクを解き、通ったテストオラクルの割合で実装の品質を評価した。 結果、TDDをはじめたばかりの被検者はITLによる実装のほうが品質が高かった。 エディタや言語、ITLとTDDの実験の被験順序、TDDとITLをどちらを先に学んだかは品質に影響しなかった。 学生よりも企業に所属するプロフェッショナルのほうがTDD、ITL両方で品質がよかったが、TDDで実装したときの品質の下がり幅は学生の下がり幅の2倍に及んだ。

SimCSE: Simple Contrastive Learning of Sentence Embeddings

対照学習は、意味の近い要素同士を近くに、異なる要素を遠くに配置する分散表現を獲得する。 SimCSEは、文の分散表現のための対照学習であり、教師なしと教師ありの2つの学習方法を提供する。 教師なし学習は、Dropout層を通したサンプルが近くに配置されるように、Dropout層の出力2つからなるペアを教師データにする。 教師あり学習は、自然言語推論(含意関係認識)の教師データをつかい、前提と含意の分散表現が近くになるように学習する。

Stochastic Gradient Boosting

Gradient Boostingは、反復的に、モデルの予測と正解の残差に弱識別器をあてはめ、弱識別器をモデルに追加する。 Stochastic Gradient Boostingは、弱識別器の学習に非復元抽出したデータの部分集合をつかい、精度と学習速度を向上する。

LightGBM: A Highly Efficient Gradient Boosting Decision Tree

LightGBMは、GBDTを高速化したアルゴリズムであり、実験ではXGBoostよりも計算時間と消費メモリが少ない。 GBDTは決定木の分岐を決めるのに最も時間がかかる。 その前処理で特徴の値をソートする場合は、ソートがボトルネックになる。 勾配の小さいサンプルを除外することでデータを減らし、また、同時に0でない値にならない排他的な特徴をマージすることで特徴の種類を減らし、ソートを高速化した。

ADAM: A METHOD FOR STOCASTIC OPTIMIZATION

ADAMはAdaptive moment estimationに由来し、名前のとおり、推定した1, 2次のモーメントによる学習率最適化のアルゴリズムである。 勾配が疎なときに有効なAdaGradの利点と、目的関数が時間とともに変化してもよいRMSPropの利点をそなえる。 一次や二次のモーメントを、指数関数的に加重を減少させる移動平均で推定する。 ただし、モーメントの初期値を0にすると最初のうちはモーメントの推定値が0に偏ってしまう。 そこで、反復回数がすくないほど推定値を大きくなるよう補正する。

XGBoost: A Scalable Tree Boosting System

XGBoostは、キャッシュやシャーディングによる高速な勾配ブースティングのライブラリであり、スパースなデータもあつかえる。 情報利得を最大化する分岐をもとめてノードからのばすときは、ノードにあるサンプルで分岐の条件を決定する。 このとき、欠損のない特徴の値のみをつかい、欠損のないサンプル数の線形オーダまで計算量を削減する。 情報利得の最大値をもとめるときは、分岐条件になる特徴が欠損しているときに左右どちらに分岐させるべきかを計算する。

Classifier Chains for Multi-label Classification

scikit-learnのClassifier Chainで実装されたClassifier Chainsは、ラベルの相関関係を特徴につかうマルチラベル分類のモデルで、既存の相関関係をもちいる手法よりも計算量がすくない。 より細かくみれば、Classifier Chainsは、Classifier Chain Model(CC)とCCのアンサンブル学習であるEnsembles of Classifier Chains(ECC)の2つにわかれる。

Effective Multi-Label Active Learning for Text Classification

SVMをつかったマルチラベル文書分類のための能動学習である。 ラベルをつければモデルの損失を最も小さくできるデータをさがす。 ラベルつきデータでSVMを学習し、さらに、その識別関数の値を特徴としてラベルの数を予測するロジスティック回帰を学習する。 ラベルのないデータを両モデルに入力し、ロジスティック回帰が予測するラベルの数だけ、識別関数の値の高い順にラベルを選び、そのデータのマルチラベルとみなす。 このとき、その推定したマルチラベルと識別関数の値がほど、損失関数を最も小さくできるデータとみなす。