一部のデータの欠損は、スクリプトで補完が可能である。
race_entries テーブルには存在するが racers テーブルに存在しないレーサーは以下のスクリプトでクロールできる。
$ python scripts/crawl_missing_racers.py※ ただし、引退したレーサーに関しては公式サイトのページ自体が消失しているため原理的にデータが収集できない
既出の通り、公式サイトではレーサーが引退するとプロフィールは閲覧できなくなる。
その場合、特徴量として利用する重要なデータが取得することができない。
レーサーのデータのうち、登録期に関しては、以下のスクリプトを実行することで登録番号から推測・更新することができる。
$ python scripts/update_incomplete_racer_terms.py