分析者のためのデータ解釈学入門を読んで、自分への戒めや、知らなかったことなどに関する個人的なメモ(第二部)
本書について
本書では、各種分析手法をただ網羅するだけでなく、データのばらつきやバイアスに関する基礎知識、データにさまざまな偏りを生じさせる行動心理学、,サンプリングの方法と理論、データハンドリングのノウハウ、各種分析の考え方、データの解釈における認知バイアスや数理モデリングのポイント、システム運用時に発生する問題など、非常に幅広い視点でデータ分析者が知っておかなければならない知識を整理し、平易に解説しています。(amazonの書籍HPより引用)
本書は三部構成で、それぞれ
第一部:データの性質に関する基礎知識
第二部:データの分析に関する基礎知識
第三部:データの解釈・活用に関する基礎知識
となっており、第二部では、データが与えられた後の、問題設定〜分析手法の選択までの流れ、必要な知識や考え方について述べられている。
個人的感想・概要
- データ分析を実施するにあたって知っておくべき知識やノウハウがかなり広い範囲でカバーされている。
- 範囲が広いためそれぞれの詳細には突っ込まないが、数式がないため初学者や数学アレルギーの人でも読みやすい。
- データ分析の落とし穴やデータ分析あるあるなどが、実際に事例つきで説明してある。この事例が単に読み物としても面白い。
戒め(メモ)
第一に優先すべきは、
「データ分析しないことも選択肢に含めた課題の解決」であって、データ分析はあくまで手段に過ぎない
ということ。
データ分析の流れ
- データの観測
実験や調査の実施, 計測システムの導入, 公開データの利用 - 前処理
外れ値、欠損値の処理, ノイズの除去, フォーマット調整, データの標準化/整形 - 分析
統計モデリング, 機械学習,数理モデル構築 - 結果の解釈・利用
数理モデルの性能評価, 既存知識に照らした解釈/理解, システム実装
2. 前処理(メモ)
外れ値をチェックする
- データをグラフにプロットしてチェックすることが重要(複数の変数をまとめてプロットすることで見つけられることもある)
- 異常値なのか、除外してもよい外れ値なのかどうか入念にチェックする。
データの前処理は時間をかけて丁寧に行うべき
- 一つ一つの処理の前後で、想定される処理が正しく行われていることを逐一全て確認する。
- 複数の処理をまとめた分析を最初から行ってしまうのはNG
- 同じ処理を行うコードは一つにまとめる。(安易にコピーして使わないこと)
- 分析コードとそこから出力された結果は、両者の対応が着くように名前をつけて管理する。
データの集計ミスに気をつける
そもそもデータを手で入力しなければならない状況が一切発生しないようにすることが重要。
(データは手でさわれば触るほどエラーが載る)
3. 分析
統計モデリング:データを理論分布で表現すること。(うまく表現できるように分布の設定やパラメータフィッティングを行う)
仮説検定の使い方
- 仮説の設定:示したい仮説、それに対応する帰無仮説を設定する。
- 手法の選択:目的に対応した検定手法を選択する。
- 仮設検定の実施:(p値や、検定の妥当性を評価する指標をもとめ、仮説が主張できるか検討する。)
t検定による二群比較
- 観測地の分布が正規分布と見なせるかどうかを検討する。
正規分布とみなせる場合 => 2.に進む。
正規分布とみなせない場合 => マン・ホイットニーのU検定を実施 - 比較する二つの群の分散が等しいかどうか(F検定により)検討する。
分散が等しい場合 => スチューデントのt検定を実施
分散が等しくない場合 => ウェルチのt検定を実施
対応のある比較
対応のある比較:二つのグループの間で観測者同士を紐づけて比較すること
- データの分布が正規分布であるとみなせる場合 => 対応のあるt検定を実施
- データの分布が正規分布であるとみなせない場合 => ウィルコクソンの符号順位検定を実施
3つ以上の比較
分散分析を実施する。分散分析では着目した要因が観測地に影響を与えているかを評価できる。
一元配置分散分析:着目する要因が一つ
(水準の数が二つの場合の一元配置分散分析は、t検定とまったく同じ操作)
二元配置分散分析:着目する要因が二つ。交互作用などを考慮する必要が出てくる。
偏相関係数:XとYの間に高い変数がみられ、かつXとYの両方に影響を与えている別の変数Zがある場合、Zの影響を除いた状態でのXとYの相関係数のこと。 潜在変数:共通因子という観測できていない変数のこと。
因子分析:変数を少ない数の共通因子の和でうまく表現し、各々の変数の背後に存在する根本的な要因を特定する(ことを目指す)
検定の多重性について
検定の多重性仮説検定を何度も繰り返すことで、発生する問題のこと。(p値が「たまたま」有意水準を下回ってしまうなど)
多重性の補正方法
- Bonferroni法:検定の全体を踏まえてp値を評価する方法。検定の回数をM回とすると有意水準をMで割ったものを新たな有意水準として採用する。
(「本当は変数間の関係があるのに有意水準が小さすぎて検出できない」という問題がある) - Holm法:一番p値が小さいものには α/Mを、2番目に小さいものには、α/(M-1) を...という具合に有意水準を緩めていく。
(Bonferroni法の問題点を緩和したもの)
補足(注意点)
検定の多重性の補正は、確証的データ検証の場合には有効(第一種過誤をある程度コントロールできる)が、探索的データ分析の場合には、仮設検定の考え方とは相容れない状況になる。
(探索的データ分析で見つかったデータの特徴が「たまたま」見つかったものではないという検証が仮設検定ではうまくできない。この問題は、新しいデータを追加することで解決することが可能)
探索的データ分析:網羅的にデータの特徴を調べる。
確証的データ分析:事前に決めた仮説を検証する。
第一種過誤:本当は関係がないのに、誤って有意だと結論づけること。
相関係数について
相関係数の罠
- 相関係数は外れ値に極めて大きく影響される。
- データの中に複数のグループが存在している場合にも相関係数は影響を受ける。
- 相関係数はあくまで直線的な関係性の有無しか示せない、それ以外の特徴を見出すためには散布図をプロットすることが重要
- 相関係数が「たまたま」大きくなってしまうことがあり、この場合、無相関検定を実施する必要がある。
無相関検定:「相関係数がr=0である」ことを帰無仮説として検定をおこなうことで、相関係数が0でないこと主張を支持できる。
無相関検定での注意点
無相関検定のp値と相関係数 rは独立に考える。
(無相関検定で評価するのは「相関が0でないかどうか」だけなので、相関が強いかどうかはp値からは主張できない)
- rの絶対値が大きく、p値も有意水準を下回っている場合
=> 二つの変数の間になんららかの関係があると解釈するのが妥当
- rの絶対値が小さいが、p値は有意水準を下回っている場合
=> 相関は存在すると考えられるが、関係の強さは弱いと解釈する。 - p値が有意水準を上回っている場合
=> 標本から得られたデータからどのようなrの値が得られていても、実際に相関関係があるかどうかはこのデータからは結論付けられない。
分析手法の整理
探索的な分析がしたい場合
- 個々の相関をみる(散布図や相関行列、偏相関係数)
- 多くの変数を少ない変数で表現し直すことで、本質的な特徴を見出す(因子分析、主成分分析、クラスタリング)
- データのまとまりをみる(クラスタリングや、2次元平面へのプロットなど)
目的変数への説明変数の影響をみたい場合
- 「目的変数も説明変数も量的変数」の場合
=> 重回帰分析など - 「目的変数がカテゴリ変数」で「説明変数が量的変数」の場合
=> ロジスティック回帰など - 「目的変数が量的変数」で「説明変数がカテゴリ変数」の場合
=> 分散分析や多重比較分析(説明変数をダミー変数化して回帰分析も可) - 「目的変数も量的変数もカテゴリ変数の場合
=> クロス集計表にまとめたり、χ2(カイ二乗)検定などを用いる