Deep Learning Based Text Classification: A Comprehensive Review (2020)

December 25, 2021

深層学習によるテキスト分類のサーベイで、調査したモデル数の多さで論文の貢献を主張している。 文章の構成は、150個のモデル、40件のデータセット、定量的な評価指標の解説がつづく。 文書分類を広くとらえ、典型的なテキスト分類だけでなくQAやテキスト含意への言及もある。

論文の中では、モデルを、FNN, RNN, CNN, Capsule Network, 注意機構、Memory-augmented network, Graph neural network, Siamense Neural Netowrk, Transformerに大別する。 FNNはテキストを多重集合とみなす。RNNはテキストを時系列にならぶ単語の列としてあつかい単語の依存関係とテキストの構造をとらえる。 はなれた単語同士の関係を学習できるので、品詞タグづけやQAタスクで効果を発揮する。 画像を対象につかわれるCNNをテキスト分類につかう場合、単語を空間にならべ、テキストによって出現する位置がまちまちで局所的な単語のパターンを学習できる。

CNNのプーリング層には、画像のパターン同士の位置関係を情報を消すことに対して批判がある。 ところが、パターンの位置関係が失われると、向きが違うだけの同じ画像を判別する場合などで必要な学習データ量が増えてしまう。 CapsuleNetworkは、このCNNのプーリング層の問題からうまれた。 CNNのニューロン(ユニット)がスカラー値を出力するのに対し、CapsuleNetworkはニューロンのグループごとに、異なる特徴の空間の位置情報をベクトル値をとして出力する。 カプセルはこのニューロンのグループを意味する。

自然言語処理での注意機構は、文中の単語同士の相関関係を学習でき、言語モデルであれば重要さをあらわすベクトルとみなすことができる。 pair-wizeランキング学習やテキストマッチングでもよくつかわれる。 Yang et al.は文書分類のための階層的な注意機構のネットワークを提案した。 エンコーディングのときに注意機構がモデル内部に保存するベクトルを内部メモリとすると、Memory-Augmented Networkは、モデルが読み書きできる外部のメモリとモデルが結合したアーキテクチャである。

Graph neural networkは文を構文や単語の意味上の依存関係を木構造でとらえる。 TextRankはキーワードやキーセンテンスを文書から抽出する教師なし学習のGrapth neural networkにあたる。 よく使われるのは文書分類で、文書や単語間の関係からラベルを推論する。 T N. Kipfらは、畳み込みをもちいた半教師あり学習のネットワークを提案した。

Siamense Neural Networkは、Deep Structured Semantic Modelでも知られ、テキストマッチングむけに設計されている。 QA集からクエリに対して適当な回答を見つけるタスクでつかわれる。

RNNの計算上のボトルネックはテキストを直列的に処理するところにあり、必要な計算量は文の長さに依存する。 Transformerモデルは、自己注意機構によって並列に各単語の注意スコアを計算することで、RNNやCNNよりも並列に学習することができる。

最もよいモデルはタスクごとに違うことを前提におきつつ、Transfomerや学習ずみ言語モデルをタスクにあわせて調整することをすすめている。 Hugging FaceはBERTをはじめとするTransfermerモデルを提供している。 公開されている言語モデルは汎用的なコーパスで学習されたものであり、汎用コーパスがタスクのもとと大きく違うことがある。 その場合、事前学習ずみモデルにドメイン適用をほどこしてドメインの差を埋めたうえで、fine tuningで予測性能を上げ、最後に運用のためにモデルを軽量化する。

論文をこちらからダウンロードできます。