tipsXGBoost, lightGBM, Catboost をGoogle ColaboratoryのGPUで実行する方法 Boosting系モデル(XGBoost, lightGBM, CatBoost)の計算をGoogle ColaboratoryのGPUで実行する方法 準備 準備 Google Colabでipynbファイルを開き以下の操作を行なっておく。... 2021.10.02tips
データ分析テーブルデータ分析コンペに参加して(メモ) データ分析コンペ(テーブルコンペ|ビギナー用)に参加した際に自分なりに工夫した点のメモ。 (ちなみにコンペの結果は7位でした) コンペの内容 中古マンションの価格を予想するというもの。 2000年第1四半期〜2020年第2四半期までのデータ... 2021.10.02データ分析
機械学習Optunaを使ったXGBoostのハイパーパラメータ最適化 optunaとは PFNにより公開されている最適化用のライブラリ。 TPE (Tree-structured Parzen Estimato)という、ベイズ最適化の一種を使って関数をいい感じで最適化するらしい。 XGBoost などのハイパ... 2021.09.16機械学習
データ分析カテゴリ変数のエンコーディングについて データ分析において、カテゴリ変数は何らかの数値に変換する必要がある。 その変換方法とコードについてのまとめ。 エンコーディングの種類(概要) One-Hot エンコーディング:変数におけるラベルの種類ごとに特徴量(列)を生成し、True(... 2021.09.13データ分析
可視化bokeh入門(インタラクティブなグラフ作成) bokeh とは インタラクティブなデータ可視化ライブラリ (参考:bokehを使ったデータ可視化例) (作成したグラフの例) bokehのチュートリアル(First steps)のうち、必要そうな部分をまとめた。 Step 1-3. グラ... 2021.08.09可視化
tipsショートカットファイルのリンク先ファイルを一括取得するpythonコード(windows) フォルダ内のショートカットファイル(.lnk)を全て、参照元のファイルと置き換えるpythonコード import win32com.client import os import shutil import glob #処理するフォルダ... 2021.08.09tips
高分子化学ポリマーのガラス転移温度について ケモインフォマティクスでの高分子の解析事例として度々登場するガラス転移温度についてまとめた。 (ここの記事はポリマーのガラス転移温度に関する内容です) ガラス転移点とは (樹脂,ポリマーの場合)ゴム状態から固化状態(ガラス状態)になる境界の... 2021.07.08高分子化学
可視化変数のクラスタリングとデンドログラム作成 回帰分析やクラス分類をする際、ある2つの説明変数間に強い相関がある(=相関係数の絶対値が大きい)とき、それらの変数のうちどちらか1つの変数を削除する必要がある。単に、説明変数の数を減らすだけならこの方法で問題ないが、モデルに解釈な必要な変数... 2021.07.06可視化
データスクレイピングで化合物データを試薬サイトから収集する はじめに マテリアルズインフォマティクス、材料分野におけるデータ解析では、データがないという問題に直面することが多々ある。試薬サイトには化合物の基礎物性情報が集約されているため、そこからデータを収集してみた。(試薬サイトのサイト名、サイトU... 2021.07.05データ
高分子化学ハンセン溶解度パラメーターと溶解パラメーター(SP値)について ハンセン溶解度パラメーターとは 物質の溶解性に用いられる値(Charles M. Hansenが1967年に博士論文で発表した) HSP(Hansen solubility parameter)とも呼ばれる 以下の3つのパラメーターから構... 2021.07.04高分子化学