「分析者のためのデータ解釈学入門」第一部


分析者のためのデータ解釈学入門を読んで、自分への戒めや、知らなかったことなどに関する個人的なメモ(第一部


本書について

本書では、各種分析手法をただ網羅するだけでなく、データのばらつきやバイアスに関する基礎知識、データにさまざまな偏りを生じさせる行動心理学、,サンプリングの方法と理論、データハンドリングのノウハウ、各種分析の考え方、データの解釈における認知バイアスや数理モデリングのポイント、システム運用時に発生する問題など、非常に幅広い視点でデータ分析者が知っておかなければならない知識を整理し、平易に解説しています。(amazonの書籍HPより引用)

本書は三部構成で、それぞれ
第一部:データの性質に関する基礎知識
第二部:データの分析に関する基礎知識
第三部:データの解釈・活用に関する基礎知識
となっており、第一部では、データの性質が分析・解釈にどう影響を与えるのか、また、それらを適切に処理する方法について述べられている。

変数間の関係性とできること

  • 因果関係が正しく特定 → 現象のメカニズム理解できる
  • 因果関係がある → 変数をコントロールできる
  • 相関がある → 片方の変数から、もう片方の変数を予測できる
  • たまたま関係があるように見えている → なにもできない

見かけの因果関係が生じるパターン

  • たまたま相関が生じる
  • 共通の原因となる要因がある。(交絡因子
  • 逆の因果関係がある。
  • 選択バイアスがかかる操作をしている。
交絡因子(confounding factor)
  • 原因となる変数と関連し、かつ結果の変数と因果関係もつ要因のこと
  • 着目する変数間の関係性を調べるにはそれらの影響をできるだけ排除することが必要

因果効果(causal effect)を正しく評価する方法

ランダム化比較試験(RCT)

  • 集団を対象として分析を行い、着目する変数の平均敵機な効果を評価する。
  • 被験者を二つの群(実験群と対象群)に分ける時、ランダムに分ける。

重回帰分析(multiple regression analysis)

目的の変数を、着目する変数の足し算で表現することで、それぞれの要因がどれくらい影響を与えているか評価する。

ロジスティック回帰(logistic regression)

ロジスティック関数を使うことで、重回帰分析では表現できなかった目的変数(0,1の二値や、0~1の範囲に納める場合)を表現できるようにしたもの。

回帰不連続デザイン(regression discountinuity design, RDD)

統計学、計量経済学、政治学、疫学や他の関連分野において、その点以上もしくは以下で介入がなされるカットオフもしくは閾値を割り当てることで、介入の因果効果を取り出す準実験的事前事後テストデザインでのこと。(参考:wikipedia

傾向スコアマッチング(propensity score matching)

  • 傾向スコア(ロジスティック回帰などによって得られたスコア。複数の交絡因子をまとめたものとも見なせる)をもと、分析対象となる二つのグループを作る。
  • 調べたい因子で二つにグループを分ける際に、他の交絡因子の効果が両グループとして同じくらいになる。

バランス化(balancing)

交絡因子となりそうな要因について、二つの群で全体として一致するように調整する。

一定化(regularization)

指定した要因が一定の値になるように選んでデータを収集する。

参考