データ分析

データ分析

欠損値の補完や取り扱いについて(python)

分析に利用するデータには多くの場合、なんらかの理由により記録されなかった値、欠損値 (missing data) が含まれる。 欠損値があると統計的処理や、機械学習の処理がそのまま適用できなかったり、結果にバイアスが生じてしまうので、デ...
機械学習

scikit-learn準拠の変換器,推定器を自作する

こちらの記事、でscikit-learnのpipelineモジュールを用いた機械学習パイプラインの作成を紹介した。 pipelineモジュールに組み込めるのは、fit, transformメソッドなど持つ、sklean準拠の変換器(tran...
機械学習

scikit-learnを用いた機械学習パイプラインの作成

パイプラインとは何か パイプライン処理とは、ある処理プログラムの出力が次の処理プログラムの入力となるようにした複数の処理プログラムを直列に連結したもの。 機械学習パイプラインでは、複数の変換器と予測器を直列に繋げ、一連の処理(前処理1 → ...
データ分析

Pycaretの前処理一覧

pycaretの前処理について pycaretでは、setupを実行することでPyCaretを初期化し、関数内で渡されたデータ・目的変数、その他すべてのパラメータを基に、pipelineを作成する。(詳しくはコチラを参照) このsetupの...
データ分析

Pycaretの使い方

pycaretおおまかな操作方法について。 (必要そうな部分のみのメモ) インストール pipでインストール conda でもインストール出来るらしいがエラーが出ることが多いらしい。 pip install pycaret データの準備 さ...
可視化

pythonを使った三角ダイアグラム(ternary plot)の描画

三角プロット(ternary diagram)とは 三角プロット(ternary diagram)は,3成分のデータを三角形のグラフにプロットしたもので、3成分の相対的な割合(組成データなど)をによって,正三角形の位置でグラフ化する。プロッ...
データ分析

SHAP を用いた機械学習への解釈性付与

(noteの「クリエイターを応援する」で応援していただけると嬉しいです。よろしくお願いします) SHAP(SHapley Additive exPlanations)とは 背景 昨今では機械学習モデルに解釈性や説明性が強く求められるようにな...
機械学習

catBoostの概要と使い方

CatBoostについて(ざっくり) 勾配ブースティング決定木 (Gradient Boosting Decision Tree) を扱うためのフレームワーク LightGBM や XGBoost と並んでよく用いられている。予測精度や速...
機械学習

LightGBM Tunerを使ったハイパーパラメータ最適化

lightGBM Tunerについて Preferred NetworksによってOptunaの拡張機能として開発された、LightGBMのハイパーパラメータ自動最適化モジュール。 通常のハイパーパラメータ最適化では、最適化したいパラメー...
機械学習

lightGBMの使い方とハイパーパラメータについて

lightGBMについて(ざっくり) 回帰・クラス分類手法の一つ(XGBoostと並んでKaggleでもよく使われる人気の手法) 決定木ベースの勾配ブースティング手法(Gradient Boosting Dicision Tree) アン...