データ分析

可視化

pythonを使った三角ダイアグラム(ternary plot)の描画

三角プロット(ternary diagram)とは 三角プロット(ternary diagram)は,3成分のデータを三角形のグラフにプロットしたもので、3成分の相対的な割合(組成データなど)をによって,正三角形の位置でグラフ化する。プロッ...
データ分析

SHAP を用いた機械学習への解釈性付与

(noteの「クリエイターを応援する」で応援していただけると嬉しいです。よろしくお願いします) SHAP(SHapley Additive exPlanations)とは 背景 昨今では機械学習モデルに解釈性や説明性が強く求められるようにな...
機械学習

catBoostの概要と使い方

CatBoostについて(ざっくり) 勾配ブースティング決定木 (Gradient Boosting Decision Tree) を扱うためのフレームワーク LightGBM や XGBoost と並んでよく用いられている。予測精度や速...
機械学習

LightGBM Tunerを使ったハイパーパラメータ最適化

lightGBM Tunerについて Preferred NetworksによってOptunaの拡張機能として開発された、LightGBMのハイパーパラメータ自動最適化モジュール。 通常のハイパーパラメータ最適化では、最適化したいパラメー...
機械学習

lightGBMの使い方とハイパーパラメータについて

lightGBMについて(ざっくり) 回帰・クラス分類手法の一つ(XGBoostと並んでKaggleでもよく使われる人気の手法) 決定木ベースの勾配ブースティング手法(Gradient Boosting Dicision Tree) アン...
データ分析

テーブルデータ分析コンペに参加して(メモ)

データ分析コンペ(テーブルコンペ|ビギナー用)に参加した際に自分なりに工夫した点のメモ。 (ちなみにコンペの結果は7位でした) コンペの内容 中古マンションの価格を予想するというもの。 2000年第1四半期〜2020年第2四半期までのデータ...
機械学習

Optunaを使ったXGBoostのハイパーパラメータ最適化

optunaとは PFNにより公開されている最適化用のライブラリ。 TPE (Tree-structured Parzen Estimato)という、ベイズ最適化の一種を使って関数をいい感じで最適化するらしい。 XGBoost などのハイパ...
データ分析

カテゴリ変数のエンコーディングについて

データ分析において、カテゴリ変数は何らかの数値に変換する必要がある。 その変換方法とコードについてのまとめ。 エンコーディングの種類(概要) One-Hot エンコーディング:変数におけるラベルの種類ごとに特徴量(列)を生成し、True(...
可視化

bokeh入門(インタラクティブなグラフ作成)

bokeh とは インタラクティブなデータ可視化ライブラリ (参考:bokehを使ったデータ可視化例) (作成したグラフの例) bokehのチュートリアル(First steps)のうち、必要そうな部分をまとめた。 Step 1-3. グラ...
可視化

変数のクラスタリングとデンドログラム作成

回帰分析やクラス分類をする際、ある2つの説明変数間に強い相関がある(=相関係数の絶対値が大きい)とき、それらの変数のうちどちらか1つの変数を削除する必要がある。単に、説明変数の数を減らすだけならこの方法で問題ないが、モデルに解釈な必要な変数...