ケモインフォマティクス関連の要素技術まとめ 2021.07.24参考書籍のまとめはこちら 随時アップデート予定 (*付きは外部リンクです)データ収集・データ生成外部データベースのまとめ化合物のデータセット一覧*化合物データベースからの情報取得pubchemから化合物情報を一気に取得する化合物データベースChemSpiderをpythonで使いこなす*QM9は量子化学計算に基づいた機械学習用の大規模データセット*スクレイピングで化合物データを試薬サイトから収集するベイズ最適化ベイズ最適化(Bayesian Optimization, BO)~実験計画法で使ったり、ハイパーパラメータを最適化したり~*ベイズ最適化で期待できること*ベイズ最適化において一度に複数の実験をするときに候補を選択するシンプルな方法*量子化学計算Pythonで量子化学計算(Psi4)計算化学にpythonとpsi4で入門*計算化学における電荷:psi4を用いた電子密度解析*計算化学の構造最適化の基本をpsi4で学ぶ*Pythonで量子化学計算*実験計画法実験計画法の概要~データを上手く使って実験のコスパを上げましょう!~*実験計画法で実験パラメータの候補を選択する (直交表を作成する) プログラムを公開します*化学データの取り扱い記述子化合物の記述子化まとめRDKitでフィンガープリントを使った分子類似性の判定*QSARにおける立体因子の記述*量子化学計算を利用した記述子*BCUTは分子のグラフ構造を基にした2D記述子*RDkitの操作RDKitの分子Molオブジェクトを扱う*分子構造の描画RDkit を用いた分子構造の描画Fingerprintの可視化についてrdMolDraw2Dモジュールを使って構造式描画をカスタマイズ分子記述子への各原子の寄与率を可視化する分子のフラグメント化RDkitを用いた分子操作(分子のフラグメント化)RDKitでRECAPを用いた分子のフラグメント化*RDKitでBRICSを用いた仮想ライブラリーの構築*合成難易度の評価RDKitで合成難易度を評価して化合物をスクリーニング*化学反応ケモインフォマティクスにおける反応式の扱い方*分子構造の骨格変換などRDkit を用いた分子の骨格変換BRICSBuildによる分子構造生成RDkitを用いた分子構造生成1(A-B型)RDkitを用いた分子構造生成2(A-B-C型)分子の3次元構造RDkitを用いた3D構造の最適化RDKitによる3次元構造の生成*化合物の類似度評価RRDKitでフィンガープリントを使った分子類似性の判定*RDKitでFraggleを用いた化合物の類似度評価*その他化学構造・分子・化合物の扱いに関する基本的なこと*データの可視化相関係数の計算と可視化変数のクラスタリングとデンドログラム作成自己組織化マップ(Self-Organizing Map, SOM)*Generative Topographic Mapping (GTM)*Sparse Generative Topographic Mapping(SGTM)*主成分分析の概要とpython実装独立成分分析 (Independent Component Analysis, ICA)*ガウス過程による潜在変数モデル(Gaussian Process Latent Variable Model, GPLVM)*Matplotlibで3次元の散布図を描画するt-distributed Stochastic Neighbor Embedding (t-SNE)仮説検定マン・ホイットニーのU検定F検定対応のあるt検定正規性の検定多重検定問題を回避した変数選択(Holm法)分散分析pythonで統計学基礎:03 検定・分散分析*スチューデントのt検定ウェルチのt検定ウィルコクソンの符号順位和検定無相関検定多重検定問題を回避した変数選択(Bonferroni法)データの前処理基本的なデータの前処理基本的なデータの前処理方法*スペクトル・時系列データ平滑化 (スムージング) と微分*外れ値検出外れ値検出 (Outlier Detection) もしくは 外れサンプル検出*回帰分析のときにアンサンブル学習で自動的かつロバストに外れサンプルを見つける*One-Class Support Vector Machine (OCSVM) での外れ値・外れサンプルを検出*変数作成・変数選択Borutaによる変数選択変数変換ロジット変換*対数変換*Box-Cox変換とYeo-Josnson変換*Setpwise法による変数選択Stepwise (ステップワイズ) 法による説明変数 (入力変数・記述子・特徴量) の選択*GAPLS, GASVRGAPLS, GASVR でモデルの推定性能がよくなるように説明変数の選択をしよう*TIPS, 考え方特徴量に関する基本的な考え方*変数選択・特徴量選択のときに注意すること*変数選択・特徴量選択のときの意識は、モデルの予測精度を上げることより、不要な変数・特徴量を削除することです*変数のクラスタリングとデンドログラム作成相関係数で変数選択したり変数のクラスタリングをしたりしてみましょう*欠損値の補完iterative Gaussian Mixture Regression(iGMR)で欠損値を補完*欠損値のないサンプルがデータセットにないときの iGMR の使い方*解析関連データの分割トレーニングデータ・バリデーションデータ・テストデータの定義*Kennard-Stoneアルゴリズム*その他回帰分析からクラス分類に変換したり、クラス分類から回帰分析に変換したりするメリット・デメリット*クラス分類のデータも回帰分析に変換する方法*回帰手法重回帰分析の概要とpython 実装LASSO回帰・リッジ回帰Ridge回帰, LASSO回帰, Elastic Net*正則化項により過学習(オーバーフィッティング)を防ごう!決定木決定木(Decision Tree, TD)*勾配ブースティングXGBoostについて(ハイパーパラメータ最適化)XGBoost論文を丁寧に解説する*勾配ブースティング(GBDT, XGBoost, LightGBM)*ニューラルネットワーク誤差逆伝播法によるニューラルネットワーク*混合ガウスモデル教師あり混合ガウスモデルで回帰分析も逆解析も自由自在に(GMR|Gaussian Mixture Regression)*どうしてGMRやGTMRといったモデルの直接的逆解析法は良好な結果を生み出すのか?*ガウス過程回帰ガウス過程回帰(Gaussian Process Regression, GPR)*ガウス過程回帰の使い方と注意点*ガウス過程回帰(GPR)におけるカーネル関数を11個の中から最適化する*PLS(部分的最小二乗回帰)*部分的最小二乗回帰(Partial Least Squares Regression, PLS)*Locally-Weighted Partial Least Squares (LWPLS, 局所PLS)*SVR(サポートベクター回帰)サポートベクター回帰(SVR)*サポートベクター回帰(SVR)のハイパーパラメータを高速に最適化する方法*ランダムフォレストランダムフォレスト(RF)*K最近傍法k最近傍法(k-NN)でクラス分類・回帰分析・モデルの適用範囲の設定をしよう!*TIPS・考え方モデルの予測精度を上げるための考え方・方針*目的変数 Y における測定誤差などのばらつきを考慮したモデリング*目的変数の実測値vs.予測値プロットが横になってしまうときは非線形手法を検討しよう*その他LASSO も SVR もスパースモデリング!*分類手法線形判別分析線形判別分析(LDA)*決定木決定木(TD)*K最近傍法k最近傍法(k-NN)でクラス分類・回帰分析・モデルの適用範囲(適用領域)の設定をしよう*勾配ブースティングXGBoostについて(ハイパーパラメータ最適化)XGBoost論文を丁寧に解説する*勾配ブースティング(GBDT, XGBoost, LightGBM)*ロジスティック回帰ナイーブベイズ単純ベイズ分類器 (ナイーブベイズ) でクラス分類*ランダムフォレストランダムフォレスト(RF)*ニューラルネットワーク誤差逆伝播法によるニューラルネットワーク*勾配ブースティングXGBoostについて(ハイパーパラメータ最適化)XGBoost論文を丁寧に解説する*勾配ブースティング(GBDT, XGBoost, LightGBM)*TIPS・考え方モデルの予測精度を上げるための考え方・方針*クラスタリング変数のクラスタリングとデンドログラム作成混合ガウスモデル (GMM)*k平均法 (k-means clustering)*半教師あり学習・転移学習半教師あり学習半教師あり学習の4つのメリット*主成分分析(PCA)に基づく半教師あり学習*転移学習転移学習を用いたデータ解析*モデルの検証など交差検証ダブルクロスバリデーションでテストデータいらず*y-randomizationy-randomizationで過学習, 偶然の相関の危険度を評価!*評価指標(回帰)精度評価指標と回帰モデルの評価*オーバーフィッティング(過剰適合)ぜんぶオーバーフィッティングのせいだ*オーバーフィッティングの本質を理解して実用的な議論をする*モデルの適用範囲モデルの適用範囲・モデルの適用領域 (AD)*k最近傍法(k-NN)でクラス分類・回帰分析・モデルの適用範囲の設定をしよう!*One-Class Support Vector Machineで外れ値・外れサンプルを検出したりデータ密度を推定したりしよう!*Local Outlier Factor によるデータ密度の推定・外れサンプルの検出・異常検出*最適化遺伝的アルゴリズムPythonで入門 遺伝的アルゴリズム*ベイズ最適化ベイズ最適化(Bayesian Optimization, BO)*ベイズ最適化で期待できること*ベイズ最適化において一度に複数の実験をするときに候補を選択するシンプルな方法*逆解析サンプル生成GMMを用いたサンプル生成*化学構造の生成RDkitを用いた分子の骨格変換BRICSBuildによる分子構造生成RDkitを用いた分子構造生成1(A-B型)RDkitを用いた分子構造生成2(A-B-C型)モデルの適用範囲モデルの適用範囲・モデルの適用領域 (AD)*k最近傍法(k-NN)でクラス分類・回帰分析・モデルの適用範囲の設定をしよう!*One-Class Support Vector Machineで外れ値・外れサンプルを検出したりデータ密度を推定したりしよう!*Local Outlier Factorによるデータ密度の推定・外れサンプルの検出・異常検出*化学関連溶解パラメーターについてポリマーのガラス転移温度についてプロセス解析ソフトセンサー適応型ソフトセンサーで産業プラントにおけるプロセス状態等の変化に対応する*Locally-Weighted Partial Least Squares (局所PLS)*Ensemble Online Support Vector Regression (EOSVR)*異常検出・異常診断T2統計量・Q統計量*One-Class Support Vector Machine で外れ値・外れサンプルを検出したりデータ密度を推定したりしよう!*Local Outlier Factor によるデータ密度の推定・外れサンプル(外れ値)の検出・異常検出*その他誤差について(メモ)