Coda

論文メモ Statistical Errors in Software Engineering Experiments: A Preliminary Literature Review

August 14, 2020

ソフトウェア工学の実験において、統計をもちいた手法がどれだけ誤用されているかを調査した。 薬学や心理学の実験では、統計による手法が時に誤って使われていることが知られている。 一方で、ソフトウェア工学では、どの程度誤用がみられるのかは分かっていない。 著者らは、2006から2015年のソフトウェア工学のトップ会議ICSEで発表された論文770件から、実験や評価に統計的手法をもちいたものを選び、10の観点からなる判断基準で、手法の妥当性を評価した。

評価の結果、3割の論文において、仮説検定やサンプルサイズの計算の欠如、誤った多重比較などがみられた。 観点とその結果は次のとおり。 checklist

表4のstandalone experimentsは、著者らが精選した21稿の結果であり、experiments as evaluationは、各年の論文から無作為に選ばれた3稿の論文30稿の結果に対応する。

results

調査対象の論文と評価結果は公開されている(1, 2)。