Coda

論文メモ An Empirical Study On Program Failures On Deep Learning Jobs

August 7, 2020

Microsoftの社内では深層学習のプラットフォームPhillyが運用されており、そこで起きた4960件のジョブの失敗原因を調査した。 調査では、失敗の原因を20のカテゴリに分類し、カテゴリごとに失敗の件数を集計した。

20のカテゴリは、さらに大きく4つのカテゴリに分けられる。 この4つのカテゴリでの失敗件数の内訳は、下の円グラフで描かれる。 失敗の約半分(48%)を占めるExecution Environmentは、プログラムを実装する環境とPhillyの環境差分によるエラーであり、ファイルやディレクトリ、ライブラリ、権限が無いことによる失敗が該当する。 failures

さらに400件については、ヒアリングなどを通して根本の原因をつきとめ、その原因を次の5つに分類し、さらに集計を進めた。

failures

深層学習に特有のエラーでは、GPU Out of Memoryが目立つ。 上の4960件の分類でも深層学習固有のエラー13.5%のうち、65.0%はGPU Out of Memoryによるものであった。