RDkit

Fingerprintの可視化について

フィンガープリント(Fingerprint)をRDkitで可視化する方法についてまとめた。 (本記事は「化学の新しいカタチ」の内容を簡潔にまとめたものです。より詳しい内容はそちらに載っています) フィンガープリントについて フィンガープリン...
可視化

主成分分析の概要とpython実装

主成分分析について 概要 教師なし手法の一つであり、PCA(Principal Component Analysis)と呼ばれる。 多次元のデータを低次元化する手法であり、データの可視化によく用いられる。 (低次元化し2次元にマッピングす...
変数選択

Borutaによる変数選択

変数選択は精度の高い予測モデルの構築において非常に重要といえる。 本記事では、変数選択手法の一つであるBorutaについてまとめた。 Borutaについて ランダムフォレスト(RF)の変数重要度に基づく変数選択方法 目的変...
検定

多重検定問題を回避した変数選択(ホルム法|Holm法)

前回は、多重検定問題を回避する方法の一つとして知られるBonferroni法(ボンフェローニ法)についてまとめたが、ついでに今回はHolm法(ホルム法)についてまとめた。 多重の多重性について 検定の多重性とは、仮設検定を何度も繰り返すこと...
検定

多重検定問題を回避した変数選択(Bonferroni法)

多重検定問題を回避する方法の一つとして知られるBonferroni法(ボンフェローニ法)についてまとめた。 多重の多重性について 検定の多重性とは、仮説検定を何度も繰り返すことで、発生する問題のことをさす。 例えば、回帰や分類問題の解析にお...
検定

無相関検定(概要とpython実装)

ある因子(変数)ペアに互に相関があるか検定できる無相関検定についてまとめた。 無相関検定について 標本から得られた相関係数から「母集団にも同様の相関がある」と言えるかどうかを検定するもの。 帰無仮説を「母相関係数は0である (同様の相関は...
可視化

相関係数の計算と可視化

データ解析・ケモインフォマティクスでは、ある化合物の物性など(目的変数)に対して、実験条件や記述子など(説明変数)が関係しているか調査するために、相関係数を計算することが必須の作業になる。 本記事では相関係数の種類や計算方法についてまとめた...
検定

正規性の検定(概要とpython実装)

正規性の検定について 得られたデータが正規分布に従うか(正規性を有するか)を調べるための検定方法として、シャピロ-ウィルク検定や、コロモゴロフ-スルミノフ検定などがある。 データの正規性に関する情報は、t 検定やF検定などの種々の検定を行う...
検定

ウィルコクソンの符号順位和検定(概要とpython実装)

ウィルコクソンの符号順位和検定について ノンパラメトリック検定の一つ サインランク検定ともいう 順位尺度を用いており、データ間における代表値(中央値)の差を検定する方法 対応のあるデータにおいて、データに正規性を仮定できない(データが正規...
検定

対応のあるt検定(概要とpython実装)

対応のあるt検定について 2群間の平均値の差を比較する検定(下図参照) 2群間の平均値が独立とはいえない、つまりデータに対応がある(従属である)場合に用いる。 (例:ある患者たちの1ヶ月の体重の推移をみる場合など) ...