化学データ可視化

SHAPを使った構造物性相関の予測根拠可視化

以前、構造物性相関解析(QSPR)でフィンガープリントを変数として回帰分析した際に、化学構造のどの部分が物性に寄与しているかを可視化するという記事を書いた(フィンガープリントによる化合物の予測根拠可視化)。 ただ、以前用いた方法は線形回帰...
データ分析

Pycaretの前処理一覧

pycaretの前処理について pycaretでは、setupを実行することでPyCaretを初期化し、関数内で渡されたデータ・目的変数、その他すべてのパラメータを基に、pipelineを作成する。(詳しくはコチラを参照) このsetupの...
データ分析

Pycaretの使い方

pycaretおおまかな操作方法について。 (必要そうな部分のみのメモ) インストール pipでインストール conda でもインストール出来るらしいがエラーが出ることが多いらしい。 pip install pycaret データの準備 さ...
RDkit

SA スコアを使った合成難易度の見積もり

ケモインフォマティクスにおける逆解析では、何か有用そうな化合物構造が得られたとしても、>その化合物が実際に合成できるかどうか<はまた別の話。仮に化合物提案ができたとしても合成が出来なかったり、そもそもそのような構造が存在し得ない...
数理最適化

クラス分けの最適化(PuLPを使った数理最適化)

数理最適化用のモジュール PuLP を使ってグループ分けの最適化を勉強したので、その備忘録として記事にしました。 下記の本を参考にしています。 (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObj...
統計基礎

データの標準化とは(pythonコードあり)

標準化とは あるデータを変換して、その平均を0、分散を1にすること 元のデータを$x$とおくと、以下の式で標準化後のデータ$x'$を求めることができる。 ($\bar{x}$は平均値、$s$は標準偏差) $$x'= \frac{x-\bar...
統計基礎

変数の種類と尺度水準について

変数の尺度 統計やデータ分析において、変数はその性質に応じて質的変数と量的変数に分けられる。 さらに質的変数と量的変数はその性質に応じて以下4つの種類に分けることができる 質的変数 名義尺度: 他と区別し分類するための名称のようなもの(数...
統計基礎

クロス集計表の作成(pythonコードあり)

クロス集計表とは 2つのカテゴリーに属するデータをそれぞれのカテゴリーで分類、集計した表のこと。 行、列にそれぞれのカテゴリーを記入し、各カテゴリが交わるセルにカウントデータを記入する。 クロス集計表の作成方法 次のような各生徒の性別と所属...
統計モデリング

一般化線形モデルについて

本記事は、データ解析のための統計モデリング入門(通称緑本)の3,4,5章を参考にしています。 (もし内容に不備等あればご一報ください) (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=...
統計モデリング

最尤推定について

本記事は、データ解析のための統計モデリング入門(通称緑本)の2章を参考にしています。 (もし内容に不備等あればご一報ください) R,Pythonコード、使用しているデータはこちら (function(b,c,f,g,a,d,e){b.M...