テーブルデータ分析コンペに参加して（メモ）

データ分析コンペ（テーブルコンペ｜ビギナー用）に参加した際に自分なりに工夫した点のメモ。
（ちなみにコンペの結果は7位でした）

コンペの内容

中古マンションの価格を予想するというもの。
2000年第1四半期〜2020年第2四半期までのデータを使い、2020年第3,4四半期の価格を予想する。

データの内容（説明変数）は、マンションの所在地情報や用途、面積や築年数などの情報。

各変数を使うか否かのパラメータをoptunaを使って最適化し、最もテストデータの精度が高くなるような変数セットをコンペ提出用サンプルの予測に用いた。

主に以下の三つのエンコーディングを実施。

複数のラベルを含む場合がある変数は、one-hotエンコーディングも実施。
（例｜「用途」という変数は "住居、店舗" と複数の項目を含む）

ターゲットエンコーディングも検討したが、過学習を起こしてしまったので最終的には使用しなかった。

また、変数ごとの交互作用を考慮したカテゴリ変数もいくつか用意した。

変数ごとに以下の処置を実施

XGBoost, lightGBM, catBoostのアンサンブルで作成
それぞれでモデルに対して、乱数を変えて100回予測値を算出。これらの平均値と中央値を最終的な予測値とした。

optunaを使って最適化した。
（googlecolabの連続稼働時間が12時間なので、この範囲内で最適化）

欠損値補完用の予測モデルのハイパーパラメータ最適化はlightGBM Tunerを使用。

精度検証（ハイパーパラメータ）でのデータ分割は、実際のコンペ提出用サンプルを想定して実施した。

精度検証
学習用サンプル：2000年第1四半期〜2018年第4四半期
精度検証サンプル：①2019年第1,2四半期、
　　　　　　　　　②2019年第3,4四半期、
　　　　　　　　　③2020年第1,2四半期

コンペ提出
学習用サンプル：2000年第1四半期〜2020年第2四半期
コンペ提出用サンプル：2020年第3,4四半期

地区名や最寄駅などなどカーディナリティが高い（ラベルの種類が多い）変数は、なるべく外部データを使って人口密度や乗降者数などの量的な変数に変換するようにした。