データ分析欠損値の補完や取り扱いについて(python) 分析に利用するデータには多くの場合、なんらかの理由により記録されなかった値、欠損値 (missing data) が含まれる。 欠損値があると統計的処理や、機械学習の処理がそのまま適用できなかったり、結果にバイアスが生じてしまうので、デ... 2022.08.27データ分析前処理
機械学習scikit-learn準拠の変換器,推定器を自作する こちらの記事、でscikit-learnのpipelineモジュールを用いた機械学習パイプラインの作成を紹介した。 pipelineモジュールに組み込めるのは、fit, transformメソッドなど持つ、sklean準拠の変換器(tran... 2022.06.19機械学習
機械学習scikit-learnを用いた機械学習パイプラインの作成 パイプラインとは何か パイプライン処理とは、ある処理プログラムの出力が次の処理プログラムの入力となるようにした複数の処理プログラムを直列に連結したもの。 機械学習パイプラインでは、複数の変換器と予測器を直列に繋げ、一連の処理(前処理1 → ... 2022.06.19機械学習
データ分析Pycaretの前処理一覧 pycaretの前処理について pycaretでは、setupを実行することでPyCaretを初期化し、関数内で渡されたデータ・目的変数、その他すべてのパラメータを基に、pipelineを作成する。(詳しくはコチラを参照) このsetupの... 2022.05.08データ分析
データ分析Pycaretの使い方 pycaretおおまかな操作方法について。 (必要そうな部分のみのメモ) インストール pipでインストール conda でもインストール出来るらしいがエラーが出ることが多いらしい。 pip install pycaret データの準備 さ... 2022.05.05データ分析
可視化pythonを使った三角ダイアグラム(ternary plot)の描画 三角プロット(ternary diagram)とは 三角プロット(ternary diagram)は,3成分のデータを三角形のグラフにプロットしたもので、3成分の相対的な割合(組成データなど)をによって,正三角形の位置でグラフ化する。プロッ... 2022.01.17可視化
データ分析SHAP を用いた機械学習への解釈性付与 (noteの「クリエイターを応援する」で応援していただけると嬉しいです。よろしくお願いします) SHAP(SHapley Additive exPlanations)とは 背景 昨今では機械学習モデルに解釈性や説明性が強く求められるようにな... 2021.11.14データ分析
機械学習catBoostの概要と使い方 CatBoostについて(ざっくり) 勾配ブースティング決定木 (Gradient Boosting Decision Tree) を扱うためのフレームワーク LightGBM や XGBoost と並んでよく用いられている。予測精度や速... 2021.10.07機械学習
機械学習LightGBM Tunerを使ったハイパーパラメータ最適化 lightGBM Tunerについて Preferred NetworksによってOptunaの拡張機能として開発された、LightGBMのハイパーパラメータ自動最適化モジュール。 通常のハイパーパラメータ最適化では、最適化したいパラメー... 2021.10.04機械学習
機械学習lightGBMの使い方とハイパーパラメータについて lightGBMについて(ざっくり) 回帰・クラス分類手法の一つ(XGBoostと並んでKaggleでもよく使われる人気の手法) 決定木ベースの勾配ブースティング手法(Gradient Boosting Dicision Tree) アン... 2021.10.03機械学習