2009__SIGPLAN__Producing Wrong Data Without Doing Anything Obviously Wrong!

## Memo <blockquote class="twitter-tweet" data-theme="dark" data-dnt="true" align="center"><p lang="ja" dir="ltr">ちょっとずれてるけど，再現可能性という観点では，システム系論文のmeasurement biasヤバない？みたいな論文がありましたね<br><br>Producing Wrong Data Without Doing Anything Obviously Wrong!<a href="https://t.co/owgmFCiu8i">https://t.co/owgmFCiu8i</a></p>— mumumu (@mumumu_vm) <a href="https://twitter.com/mumumu_vm/status/1290536360583946240?ref_src=twsrc%5Etfw">August 4, 2020</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> ## Abstract この論文では、一見無害に見える実験装置を変更することで、システム研究者が実験から誤った結論を導き出す可能性があるという、驚くべき結果を提示する。実験セットアップの一見無害な側面が、実は評価に重大なバイアスをもたらすことがある。この現象は、自然科学や社会科学の分野では、測定バイアスと呼ばれている。我々の結果は、測定バイアスがコンピュータシステムの評価において重要かつ一般的であることを実証している。測定バイアスが重要であるということは，測定バイアスは，ある効果を過剰に表現する，あるいは，誤った結論をもたらすような性能分析につながる可能性があるということである．一般的というのは、測定バイアスが、試したすべてのアーキテクチャ（Pentium 4、Core 2、m5 O3CPU）、試した両方のコンパイラー（gccとインテルのCコンパイラー）、およびSPEC CPU2006 Cプログラムのほとんどで発生することを意味します。したがって、測定値のバイアスを無視することはできません。しかし，ASPLOS，PACT，PLDI，CGOの133件の文献を調査したところ，実験結果を含むどの論文も測定バイアスを適切に考慮していないことが判明した．我々は、他の科学分野における同様の問題とその解決策にヒントを得て、測定バイアスの検出（因果関係分析）と回避（設定ランダム化）の2つの方法を説明・実証する。 [[2009__SIGPLAN__Producing Wrong Data Without Doing Anything Obviously Wrong!__translations]]