化学データ可視化SHAPを使った構造物性相関の予測根拠可視化 以前、構造物性相関解析(QSPR)でフィンガープリントを変数として回帰分析した際に、化学構造のどの部分が物性に寄与しているかを可視化するという記事を書いた(フィンガープリントによる化合物の予測根拠可視化)。 ただ、以前用いた方法は線形回帰... 2022.05.08化学データ可視化
データ分析Pycaretの前処理一覧 pycaretの前処理について pycaretでは、setupを実行することでPyCaretを初期化し、関数内で渡されたデータ・目的変数、その他すべてのパラメータを基に、pipelineを作成する。(詳しくはコチラを参照) このsetupの... 2022.05.08データ分析
データ分析Pycaretの使い方 pycaretおおまかな操作方法について。 (必要そうな部分のみのメモ) インストール pipでインストール conda でもインストール出来るらしいがエラーが出ることが多いらしい。 pip install pycaret データの準備 さ... 2022.05.05データ分析
RDkitSA スコアを使った合成難易度の見積もり ケモインフォマティクスにおける逆解析では、何か有用そうな化合物構造が得られたとしても、>その化合物が実際に合成できるかどうか<はまた別の話。仮に化合物提案ができたとしても合成が出来なかったり、そもそもそのような構造が存在し得ない... 2022.04.25RDkitケモインフォマティクス
数理最適化クラス分けの最適化(PuLPを使った数理最適化) 数理最適化用のモジュール PuLP を使ってグループ分けの最適化を勉強したので、その備忘録として記事にしました。 下記の本を参考にしています。 (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObj... 2022.04.17数理最適化
統計基礎データの標準化とは(pythonコードあり) 標準化とは あるデータを変換して、その平均を0、分散を1にすること 元のデータを$x$とおくと、以下の式で標準化後のデータ$x'$を求めることができる。 ($\bar{x}$は平均値、$s$は標準偏差) $$x'= \frac{x-\bar... 2022.02.28統計基礎
統計基礎変数の種類と尺度水準について 変数の尺度 統計やデータ分析において、変数はその性質に応じて質的変数と量的変数に分けられる。 さらに質的変数と量的変数はその性質に応じて以下4つの種類に分けることができる 質的変数 名義尺度: 他と区別し分類するための名称のようなもの(数... 2022.02.27統計基礎
統計基礎クロス集計表の作成(pythonコードあり) クロス集計表とは 2つのカテゴリーに属するデータをそれぞれのカテゴリーで分類、集計した表のこと。 行、列にそれぞれのカテゴリーを記入し、各カテゴリが交わるセルにカウントデータを記入する。 クロス集計表の作成方法 次のような各生徒の性別と所属... 2022.02.26統計基礎
統計モデリング一般化線形モデルについて 本記事は、データ解析のための統計モデリング入門(通称緑本)の3,4,5章を参考にしています。 (もし内容に不備等あればご一報ください) (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=... 2022.02.12統計モデリング
統計モデリング最尤推定について 本記事は、データ解析のための統計モデリング入門(通称緑本)の2章を参考にしています。 (もし内容に不備等あればご一報ください) R,Pythonコード、使用しているデータはこちら (function(b,c,f,g,a,d,e){b.M... 2022.02.06統計モデリング