データ分析

機械学習

Optunaを使ったXGBoostのハイパーパラメータ最適化

optunaとは PFNにより公開されている最適化用のライブラリ。 TPE (Tree-structured Parzen Estimato)という、ベイズ最適化の一種を使って関数をいい感じで最適化するらしい。 XGBoost などのハイパ...
データ分析

カテゴリ変数のエンコーディングについて

データ分析において、カテゴリ変数は何らかの数値に変換する必要がある。 その変換方法とコードについてのまとめ。 エンコーディングの種類(概要) One-Hot エンコーディング:変数におけるラベルの種類ごとに特徴量(列)を生成し、True(...
可視化

bokeh入門(インタラクティブなグラフ作成)

bokeh とは インタラクティブなデータ可視化ライブラリ (参考:bokehを使ったデータ可視化例) (作成したグラフの例) bokehのチュートリアル(First steps)のうち、必要そうな部分をまとめた。 Step 1-3. グラ...
可視化

変数のクラスタリングとデンドログラム作成

回帰分析やクラス分類をする際、ある2つの説明変数間に強い相関がある(=相関係数の絶対値が大きい)とき、それらの変数のうちどちらか1つの変数を削除する必要がある。単に、説明変数の数を減らすだけならこの方法で問題ないが、モデルに解釈な必要な変数...
回帰

重回帰分析の概要とpython 実装

 概要 回帰分析:目的変数と説明変数の関係をモデル化し、説明変数によって目的変数がどれだけ説明できるのかを定量的に分析すること。(説明変数が一つなら単回帰分析、複数なら重回帰分析と呼ぶ) Multiple Linear Regressio...
分類

ロジスティック回帰の概要とpythonでの実装

ロジスティック回帰とは 一般化線形モデルの一つであり、目的変数が2値の時(二値判別問題)や確率を求めたい時によく使用される。(例|病気の発症率や、迷惑メールか否かの判定など) ある事象がおこる確率を予測し、クラス分類の問題の場合には、その...
可視化

主成分分析の概要とpython実装

主成分分析について 概要 教師なし手法の一つであり、PCA(Principal Component Analysis)と呼ばれる。 多次元のデータを低次元化する手法であり、データの可視化によく用いられる。 (低次元化し2次元にマッピングす...
変数選択

Borutaによる変数選択

変数選択は精度の高い予測モデルの構築において非常に重要といえる。 本記事では、変数選択手法の一つであるBorutaについてまとめた。 Borutaについて ランダムフォレスト(RF)の変数重要度に基づく変数選択方法 目的変...
可視化

相関係数の計算と可視化

データ解析・ケモインフォマティクスでは、ある化合物の物性など(目的変数)に対して、実験条件や記述子など(説明変数)が関係しているか調査するために、相関係数を計算することが必須の作業になる。 本記事では相関係数の種類や計算方法についてまとめた...
機械学習

XGBoostについて(ハイパーパラメータ最適化)

XGboostのハイパーパラメータ調整方法についてまとめた。 XGBoostの概要、ハイパーパラメータについては前回の記事参照。 今回検討したパラメータ最適化方法 ランダムサーチ パラメータの候補となる値をランダムに選出&組み合わせたモデ...