データ分析

Pycaretの使い方

pycaretおおまかな操作方法について。 (必要そうな部分のみのメモ) インストール pipでインストール conda でもインストール出来るらしいがエラーが出ることが多いらしい。 pip install pycaret データの準備 さ...
RDkit

SA スコアを使った合成難易度の見積もり

ケモインフォマティクスにおける逆解析では、何か有用そうな化合物構造が得られたとしても、>その化合物が実際に合成できるかどうか<はまた別の話。仮に化合物提案ができたとしても合成が出来なかったり、そもそもそのような構造が存在し得ない...
数理最適化

クラス分けの最適化(PuLPを使った数理最適化)

数理最適化用のモジュール PuLP を使ってグループ分けの最適化を勉強したので、その備忘録として記事にしました。 下記の本を参考にしています。 (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObj...
統計基礎

データの標準化とは(pythonコードあり)

標準化とは あるデータを変換して、その平均を0、分散を1にすること 元のデータを$x$とおくと、以下の式で標準化後のデータ$x'$を求めることができる。 ($\bar{x}$は平均値、$s$は標準偏差) $$x'= \frac{x-\bar...
統計基礎

変数の種類と尺度水準について

変数の尺度 統計やデータ分析において、変数はその性質に応じて質的変数と量的変数に分けられる。 さらに質的変数と量的変数はその性質に応じて以下4つの種類に分けることができる 質的変数 名義尺度: 他と区別し分類するための名称のようなもの(数...
統計基礎

クロス集計表の作成(pythonコードあり)

クロス集計表とは 2つのカテゴリーに属するデータをそれぞれのカテゴリーで分類、集計した表のこと。 行、列にそれぞれのカテゴリーを記入し、各カテゴリが交わるセルにカウントデータを記入する。 クロス集計表の作成方法 次のような各生徒の性別と所属...
統計モデリング

一般化線形モデルについて

本記事は、データ解析のための統計モデリング入門(通称緑本)の3,4,5章を参考にしています。 (もし内容に不備等あればご一報ください) (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=...
統計モデリング

最尤推定について

本記事は、データ解析のための統計モデリング入門(通称緑本)の2章を参考にしています。 (もし内容に不備等あればご一報ください) R,Pythonコード、使用しているデータはこちら (function(b,c,f,g,a,d,e){b.M...
tips

Jupyter Notebook のデザインカスタマイズ

(参考|Jupyter Notebook テーマのカスタマイズ) 1. jupyterthemesのインストール # use conda conda install -c conda-forge jupyterthemes # use p...
tips

エクセル表のMarkdown形式への変換(python)

ライブラリ pandas、pytablewriterを使用する。 モジュールのインスール # conda conda install -c conda-forge pytablewriter # pip pip install pytab...