「分析者のためのデータ解釈学入門」第三部



分析者のためのデータ解釈学入門を読んで、自分への戒めや、知らなかったことなどに関する個人的なメモ(第三部

本書について

本書では、各種分析手法をただ網羅するだけでなく、データのばらつきやバイアスに関する基礎知識、データにさまざまな偏りを生じさせる行動心理学、,サンプリングの方法と理論、データハンドリングのノウハウ、各種分析の考え方、データの解釈における認知バイアスや数理モデリングのポイント、システム運用時に発生する問題など、非常に幅広い視点でデータ分析者が知っておかなければならない知識を整理し、平易に解説しています。(amazonの書籍HPより引用)

本書は三部構成で、それぞれ
第一部:データの性質に関する基礎知識
第二部:データの分析に関する基礎知識
第三部:データの解釈・活用に関する基礎知識

となっており、第三部では、データ分析の結果の解釈で起こりがちな問題が、分析の技術側面からだけでなく実践的な側面からも紹介されている

全体を通しての個人的感想・概要

  • データ分析を実施するにあたって知っておくべき知識やノウハウがかなり広い範囲でカバーされている。
  • 範囲が広いためそれぞれの詳細には突っ込まないが、数式がないため初学者や数学アレルギーの人でも読みやすい。
  • データ分析の落とし穴やデータ分析あるあるなどが、実際に事例つきで説明してある。この事例が単に読み物としても面白い。

データ分析で意識すること

何もいえないという結論をもつこと

データ分析の結果は以下の3パターン(例:「変数Xが変数Yに影響を与えているかどうか」を分析した時...)

  1. 影響を与えていると考えられる。
  2. 影響を与えていないと考えられる。
  3. このデータからではなんとも言えない。

3も結論の一つとしてあり得ることを肝に命じておく。探索的データ分析では、「まだ試していない分析法を用いると、何か特徴が見つかるかもしれない」という誘惑にかられるが、「基本的な分析で出ない程度の特徴であれば、いずれにせよ大きな特徴ではない」という判断のもとに分析を打ち切ることも大切。

モデルを信じ過ぎないこと

「数理モデルはあくまで現象の近似にすぎない」ということを意識するピグマリオン症候群*にならないように気をつける。
(数理モデルが真理であって、現象がそれからズレているのは他のファクターのせいある」という解釈をしてしまうこと)

分析の目的を整理する

  1. 探索的データ分析:データの記述・探索によってデータの性質をつかむ。
    (記述統計量や相関係数の計算、分布の可視化、相関の構造分析やクラスタリング、データの観察など)
  2. 予測:目的変数と説明変数を設定し、説明変数からおく的変数を計算する数理モデルを構築する。
    (単純な回帰モデルから、機械学習などの複雑なモデルまで適宜利用する)
  3. 因果推論:ある目的変数に対して、着目した説明変数が直接どれだけ影響を与えているか評価する。
    (交絡因子の影響をいかに取り除いて、統計的にどれだけ強い効果が認められたかを評価する)

データ解釈の罠

再現性のない分析結果が公表されてしまうことが多々ある。
これは、分析者が望ましくない方法でデータの解釈・発表を行ってしまうことが要因。
例えば...

  • HARking:実験や分析を行った後に、その結果にそうような仮説を立案し、あたかもその仮説を検証するためにデータを取得したかのように報告すること。
  • p-hacking:有意水準を下回るp値を得るために、人為的にさまざまな操作を行う。

p-hackingを避けるために提案されているガイドラインref

  1. データ取得を始める前に、どこまでデータをとるのかを決定しておく。
  2. 一つの条件に付き、最低でも20の観測値を集める。
  3. 収集した全ての変数について報告する。
  4. データを取得した全ての実験条件を報告する。
  5. もし観測地を取り除く場合は、それを取り除かなかった場合の分析結果も示す。
  6. 分析である変数の影響を取り除く操作(共変量の統制)を行った場合は、そうしなかった場合の結果も示す。

Hillの基準

疫学の分野でよく知られている因果関係を判定するための基準であり、以下の9つの要素から成る。

  1. 頑強性:要因が結果と強く結びついていること
  2. 一貫性:様々な異なるサンプルに対して行われた調査で、一貫して同じ結果が得られること
  3. 特異性:特定の要因のみからその結果が生じるという特別な対応関係(特異性)が評価できるか
  4. 時間性:原因となる要因は、結果よりも時間的に前に起きているか
  5. 容量反応関係:原因の程度が大きくなれば、それに応じて結果への影響も大きくなるか
  6. 妥当性:関連性を支持する論理的な解釈が可能か
  7. 整合性:関連性が、既知の事実と矛盾しないか
  8. 実験の有無:介入を行う実験的研究によって関連性が支持されているか
  9. 類似性:別の似た関連性が存在していた場合解釈を転用できるか

間違ったデータ解釈の例

誤謬(謝った推論)

  • 前後即因果の誤謬 :ある事象Aが起きた後に別の事象Bが起きた時、「AがBの原因となった」と考えてしまうこと。
  • ギャンブラーの誤謬:ある事象がたまたま連続して起こった後には、発生確率が小さくなると考えてしまうこと。

バイアス

  • 利用可能性バイアス:頭に浮かびやすい事象に対して、それを優先して過大評価してしまうこと。
  • 確証バイアス:自分の仮説を検証する際に、それを支持する情報ばかりを集め、反証となるような情報を無視すること。
  • 楽観主義バイアス:自分にとって都合のいいことが起こるように想定して、リスクを過小評価してしまうこと。
  • 正常バイアス:異常なことが起こっていることを示すデータに対して、正常な範囲内の出来事であると誤って判断してしまう傾向のこと

データ分析を進める上で意識するべきこと

データ分析の活用

「数理モデル」による予測や分析について一切信用しようとしない人たちも一定数いる。
特に、数理モデルは現実と大きくかけ離れていて、定量的なレベルで信用できないと思い込んでいたり、ブラックボックスであるという印象を持っている人が多い。

上記の思い込みを防ぐためにも、データ分析者はデータ分析の手続き、知識・経験を身につけることに加えて、分析結果をどう伝え・理解してもらうか考えることが重要

データの取得と活用

データ取得の計画を立てる際には...

  • 事前にしっかりと対象を調査しどのようにしてデータを取得すれば良いかも含めて設計する(交絡因子を軽視して、「とりあえずデータを取れば、後はなんとかなるだろう」という考えはNG)
  • 目的・分析手法・結果から何を結論づけるかを事前に決め、得られる利益がそれを行うために必要なコスト(金銭的・時間的 etc..)に見合うか検討する

参考