データ分析

スポンサーリンク
可視化

変数のクラスタリングとデンドログラム作成

回帰分析やクラス分類をする際、ある2つの説明変数間に強い相関がある(=相関係数の絶対値が大きい)とき、それらの変数のうちどちらか1つの変数を削除する必要がある。単に、説明変数の数を減らすだけならこの方法で問題ないが、モデルに解釈な必要な変数...
回帰

重回帰分析の概要とpython 実装

 概要 回帰分析:目的変数と説明変数の関係をモデル化し、説明変数によって目的変数がどれだけ説明できるのかを定量的に分析すること。(説明変数が一つなら単回帰分析、複数なら重回帰分析と呼ぶ) Multiple Linear Regressio...
分類

ロジスティック回帰の概要とpythonでの実装

ロジスティック回帰とは 一般化線形モデルの一つであり、目的変数が2値の時(二値判別問題)や確率を求めたい時によく使用される。(例|病気の発症率や、迷惑メールか否かの判定など) ある事象がおこる確率を予測し、クラス分類の問題の場合には、その...
可視化

主成分分析の概要とpython実装

主成分分析について 概要 教師なし手法の一つであり、PCA(Principal Component Analysis)と呼ばれる。 多次元のデータを低次元化する手法であり、データの可視化によく用いられる。 (低次元化し2次元にマッピングす...
変数選択

Borutaによる変数選択

変数選択は精度の高い予測モデルの構築において非常に重要といえる。 本記事では、変数選択手法の一つであるBorutaについてまとめた。 Borutaについて ランダムフォレスト(RF)の変数重要度に基づく変数選択方法 目的変...
可視化

相関係数の計算と可視化

データ解析・ケモインフォマティクスでは、ある化合物の物性など(目的変数)に対して、実験条件や記述子など(説明変数)が関係しているか調査するために、相関係数を計算することが必須の作業になる。 本記事では相関係数の種類や計算方法についてまとめた...
機械学習

XGBoostについて(ハイパーパラメータ最適化)

XGboostのハイパーパラメータ調整方法についてまとめた。 XGBoostの概要、ハイパーパラメータについては前回の記事参照。 今回検討したパラメータ最適化方法 ランダムサーチ パラメータの候補となる値をランダムに選出&組み合わせたモデ...
機械学習

XGBoostについて(概要と実装)

XGBoostの概要(理論面はのぞく)、使い方、ハイパーパラメータとその調整の仕方についてまとめた。 XGBoostについて(ざっくり) 回帰・クラス分類手法の一つ(データ分析コンペでもよく使われる人気の手法) 決定木ベー...