データ分析とケモインフォ
ケモインフォ
RDkit
実践
量子化学
データ
高分子化学
データ分析・統計
回帰
分類
機械学習
変数選択
可視化
統計モデリング
検定
数学
統計基礎
統計検定など
E資格レポート
統計検定4級
統計検定3級
統計検定2級
統計検定準1級
統計検定1級(数理)
統計検定1級(応用)
DS基礎
DS発展
DSエキスパート
参考
要素技術まとめ
参考書籍
参考HP
参考資料
TIPS集
その他
お問い合わせ
プライバシーポリシー
HOME
ケモインフォマティクス関連の要素技術まとめ
ケモインフォマティクス関連の要素技術まとめ
参考書籍のまとめは
こちら
随時アップデート予定
(*付きは外部リンクです)
データ収集・データ生成
外部データベースのまとめ
化合物のデータセット一覧*
化合物データベースからの情報取得
pubchemから化合物情報を一気に取得する
化合物データベースChemSpiderをpythonで使いこなす*
QM9は量子化学計算に基づいた機械学習用の大規模データセット*
スクレイピングで化合物データを試薬サイトから収集する
ベイズ最適化
ベイズ最適化(Bayesian Optimization, BO)~実験計画法で使ったり、ハイパーパラメータを最適化したり~*
ベイズ最適化で期待できること*
ベイズ最適化において一度に複数の実験をするときに候補を選択するシンプルな方法*
量子化学計算
Pythonで量子化学計算(Psi4)
計算化学にpythonとpsi4で入門*
計算化学における電荷:psi4を用いた電子密度解析*
計算化学の構造最適化の基本をpsi4で学ぶ*
Pythonで量子化学計算*
実験計画法
実験計画法の概要~データを上手く使って実験のコスパを上げましょう!~*
実験計画法で実験パラメータの候補を選択する (直交表を作成する) プログラムを公開します*
化学データの取り扱い
記述子
化合物の記述子化まとめ
RDKitでフィンガープリントを使った分子類似性の判定*
QSARにおける立体因子の記述*
量子化学計算を利用した記述子*
BCUTは分子のグラフ構造を基にした2D記述子*
RDkitの操作
RDKitの分子Molオブジェクトを扱う*
分子構造の描画
RDkit を用いた分子構造の描画
Fingerprintの可視化について
rdMolDraw2Dモジュールを使って構造式描画をカスタマイズ
分子記述子への各原子の寄与率を可視化する
分子のフラグメント化
RDkitを用いた分子操作(分子のフラグメント化)
RDKitでRECAPを用いた分子のフラグメント化*
RDKitでBRICSを用いた仮想ライブラリーの構築*
合成難易度の評価
RDKitで合成難易度を評価して化合物をスクリーニング*
化学反応
ケモインフォマティクスにおける反応式の扱い方*
分子構造の骨格変換など
RDkit を用いた分子の骨格変換
BRICSBuildによる分子構造生成
RDkitを用いた分子構造生成1(A-B型)
RDkitを用いた分子構造生成2(A-B-C型)
分子の3次元構造
RDkitを用いた3D構造の最適化
RDKitによる3次元構造の生成*
化合物の類似度評価
RRDKitでフィンガープリントを使った分子類似性の判定*
RDKitでFraggleを用いた化合物の類似度評価*
その他
化学構造・分子・化合物の扱いに関する基本的なこと*
データの可視化
相関係数の計算と可視化
変数のクラスタリングとデンドログラム作成
自己組織化マップ(Self-Organizing Map, SOM)*
Generative Topographic Mapping (GTM)*
Sparse Generative Topographic Mapping(SGTM)*
主成分分析の概要とpython実装
独立成分分析 (Independent Component Analysis, ICA)*
ガウス過程による潜在変数モデル(Gaussian Process Latent Variable Model, GPLVM)*
Matplotlibで3次元の散布図を描画する
t-distributed Stochastic Neighbor Embedding (t-SNE)
仮説検定
マン・ホイットニーのU検定
F検定
対応のあるt検定
正規性の検定
多重検定問題を回避した変数選択(Holm法)
分散分析
pythonで統計学基礎:03 検定・分散分析*
スチューデントのt検定
ウェルチのt検定
ウィルコクソンの符号順位和検定
無相関検定
多重検定問題を回避した変数選択(Bonferroni法)
データの前処理
基本的なデータの前処理
基本的なデータの前処理方法*
スペクトル・時系列データ
平滑化 (スムージング) と微分*
外れ値検出
外れ値検出 (Outlier Detection) もしくは 外れサンプル検出*
回帰分析のときにアンサンブル学習で自動的かつロバストに外れサンプルを見つける*
One-Class Support Vector Machine (OCSVM) での外れ値・外れサンプルを検出*
変数作成・変数選択
Borutaによる変数選択
変数変換
ロジット変換*
対数変換*
Box-Cox変換とYeo-Josnson変換*
Setpwise法による変数選択
Stepwise (ステップワイズ) 法による説明変数 (入力変数・記述子・特徴量) の選択*
GAPLS, GASVR
GAPLS, GASVR でモデルの推定性能がよくなるように説明変数の選択をしよう*
TIPS, 考え方
特徴量に関する基本的な考え方*
変数選択・特徴量選択のときに注意すること*
変数選択・特徴量選択のときの意識は、モデルの予測精度を上げることより、不要な変数・特徴量を削除することです*
変数のクラスタリングとデンドログラム作成
相関係数で変数選択したり変数のクラスタリングをしたりしてみましょう*
欠損値の補完
iterative Gaussian Mixture Regression(iGMR)で欠損値を補完*
欠損値のないサンプルがデータセットにないときの iGMR の使い方*
解析関連
データの分割
トレーニングデータ・バリデーションデータ・テストデータの定義*
Kennard-Stoneアルゴリズム*
その他
回帰分析からクラス分類に変換したり、クラス分類から回帰分析に変換したりするメリット・デメリット*
クラス分類のデータも回帰分析に変換する方法*
回帰手法
重回帰分析の概要とpython 実装
LASSO回帰・リッジ回帰
Ridge回帰, LASSO回帰, Elastic Net*
正則化項により過学習(オーバーフィッティング)を防ごう!
決定木
決定木(Decision Tree, TD)*
勾配ブースティング
XGBoostについて(ハイパーパラメータ最適化)
XGBoost論文を丁寧に解説する*
勾配ブースティング(GBDT, XGBoost, LightGBM)*
ニューラルネットワーク
誤差逆伝播法によるニューラルネットワーク*
混合ガウスモデル
教師あり混合ガウスモデルで回帰分析も逆解析も自由自在に(GMR|Gaussian Mixture Regression)*
どうしてGMRやGTMRといったモデルの直接的逆解析法は良好な結果を生み出すのか?*
ガウス過程回帰
ガウス過程回帰(Gaussian Process Regression, GPR)*
ガウス過程回帰の使い方と注意点*
ガウス過程回帰(GPR)におけるカーネル関数を11個の中から最適化する*
PLS(部分的最小二乗回帰)
*
部分的最小二乗回帰(Partial Least Squares Regression, PLS)*
Locally-Weighted Partial Least Squares (LWPLS, 局所PLS)*
SVR(サポートベクター回帰)
サポートベクター回帰(SVR)*
サポートベクター回帰(SVR)のハイパーパラメータを高速に最適化する方法*
ランダムフォレスト
ランダムフォレスト(RF)*
K最近傍法
k最近傍法(k-NN)でクラス分類・回帰分析・モデルの適用範囲の設定をしよう!*
TIPS・考え方
モデルの予測精度を上げるための考え方・方針*
目的変数 Y における測定誤差などのばらつきを考慮したモデリング*
目的変数の実測値vs.予測値プロットが横になってしまうときは非線形手法を検討しよう*
その他
LASSO も SVR もスパースモデリング!*
分類手法
線形判別分析
線形判別分析(LDA)*
決定木
決定木(TD)*
K最近傍法
k最近傍法(k-NN)でクラス分類・回帰分析・モデルの適用範囲(適用領域)の設定をしよう*
勾配ブースティング
XGBoostについて(ハイパーパラメータ最適化)
XGBoost論文を丁寧に解説する*
勾配ブースティング(GBDT, XGBoost, LightGBM)*
ロジスティック回帰
ナイーブベイズ
単純ベイズ分類器 (ナイーブベイズ) でクラス分類*
ランダムフォレスト
ランダムフォレスト(RF)*
ニューラルネットワーク
誤差逆伝播法によるニューラルネットワーク*
勾配ブースティング
XGBoostについて(ハイパーパラメータ最適化)
XGBoost論文を丁寧に解説する*
勾配ブースティング(GBDT, XGBoost, LightGBM)*
TIPS・考え方
モデルの予測精度を上げるための考え方・方針*
クラスタリング
変数のクラスタリングとデンドログラム作成
混合ガウスモデル (GMM)*
k平均法 (k-means clustering)*
半教師あり学習・転移学習
半教師あり学習
半教師あり学習の4つのメリット*
主成分分析(PCA)に基づく半教師あり学習*
転移学習
転移学習を用いたデータ解析*
モデルの検証など
交差検証
ダブルクロスバリデーションでテストデータいらず*
y-randomization
y-randomizationで過学習, 偶然の相関の危険度を評価!*
評価指標(回帰)
精度評価指標と回帰モデルの評価*
オーバーフィッティング(過剰適合)
ぜんぶオーバーフィッティングのせいだ*
オーバーフィッティングの本質を理解して実用的な議論をする*
モデルの適用範囲
モデルの適用範囲・モデルの適用領域 (AD)*
k最近傍法(k-NN)でクラス分類・回帰分析・モデルの適用範囲の設定をしよう!*
One-Class Support Vector Machineで外れ値・外れサンプルを検出したりデータ密度を推定したりしよう!*
Local Outlier Factor によるデータ密度の推定・外れサンプルの検出・異常検出*
最適化
遺伝的アルゴリズム
Pythonで入門 遺伝的アルゴリズム*
ベイズ最適化
ベイズ最適化(Bayesian Optimization, BO)*
ベイズ最適化で期待できること*
ベイズ最適化において一度に複数の実験をするときに候補を選択するシンプルな方法*
逆解析
サンプル生成
GMMを用いたサンプル生成*
化学構造の生成
RDkitを用いた分子の骨格変換
BRICSBuildによる分子構造生成
RDkitを用いた分子構造生成1(A-B型)
RDkitを用いた分子構造生成2(A-B-C型)
モデルの適用範囲
モデルの適用範囲・モデルの適用領域 (AD)*
k最近傍法(k-NN)でクラス分類・回帰分析・モデルの適用範囲の設定をしよう!*
One-Class Support Vector Machineで外れ値・外れサンプルを検出したりデータ密度を推定したりしよう!*
Local Outlier Factorによるデータ密度の推定・外れサンプルの検出・異常検出*
化学関連
溶解パラメーターについて
ポリマーのガラス転移温度について
プロセス解析
ソフトセンサー
適応型ソフトセンサーで産業プラントにおけるプロセス状態等の変化に対応する*
Locally-Weighted Partial Least Squares (局所PLS)*
Ensemble Online Support Vector Regression (EOSVR)*
異常検出・異常診断
T2統計量・Q統計量*
One-Class Support Vector Machine で外れ値・外れサンプルを検出したりデータ密度を推定したりしよう!*
Local Outlier Factor によるデータ密度の推定・外れサンプル(外れ値)の検出・異常検出*
その他
誤差について(メモ)