Skip to content

Latest commit

 

History

History
24 lines (15 loc) · 1000 Bytes

File metadata and controls

24 lines (15 loc) · 1000 Bytes

欠損データの補完

一部のデータの欠損は、スクリプトで補完が可能である。

レーサーの追加

race_entries テーブルには存在するが racers テーブルに存在しないレーサーは以下のスクリプトでクロールできる。

$ python scripts/crawl_missing_racers.py

※ ただし、引退したレーサーに関しては公式サイトのページ自体が消失しているため原理的にデータが収集できない

レーサーの登録期の更新

既出の通り、公式サイトではレーサーが引退するとプロフィールは閲覧できなくなる。
その場合、特徴量として利用する重要なデータが取得することができない。

レーサーのデータのうち、登録期に関しては、以下のスクリプトを実行することで登録番号から推測・更新することができる。

$ python scripts/update_incomplete_racer_terms.py