/home/data/Common/配下にある、データについて~- 前処理して得られたデータから、
列名1、列名2を用いて交通手段を推定する。
- 記述統計による欠損値などの把握と処理方針の決定 (feature/00001-scaffold-clean-core)
- 日時列の記述統計、可視化を行う関数の実装
- [ ]
-
/home/data/fukui/interim/の配下をagg_before_filter,filter,filteredに設定した - shell scriptを使ってlogsの配下に指定するフォルダを作れた
- []
/home/data/fukui/interim配下のold_user_counts_weeklyとuser_counts_weeklyの競合 -
/home/data/fukui/配下のoutを消したい(実行中のため実行が終わり次第) - []
/home/data/fukui/interim/user_counts_weekly/sampledata配下の整理
←をクリックして以前のログを表示
-
/home/data/fukui/codefileから/home/fukui/workspace/TravelModeEstimationへのコード移植、コードのリファクタ -
/home/data/fukui/配下のデータ見直し-
{value}_{monthly|weekly|daily}/という命名規則に従ってinterimを整理
-
←をクリックして詳細を表示
- 対応が必要なこと - `/home/data/fukui/interim`配下の`old_user_counts_weekly`と`user_counts_weekly`の競合 - `/home/data/fukui/interim/user_counts_weekly/sampledata`配下の整理- データがそんなに大きくないので、
メモリ効率より可読性の高い処理を優先する。 メモリ効率の高い処理は、文字通り可読性よりもメモリ効率を優先した処理を指し、例えばpandasでは再帰代入(recursive query/function)が挙げられる。可読性の高い処理は、メモリ効率よりも可読性を優先した処理を指し、例えばpandasではquery methodとmethod chainingが挙げられる。- なお、どちらの処理においても余計なコピーや参照エラーが発生しやすく可読性の低いBoolean Indexingや推奨されないchaining(chained indexing/assignment、あるいはhidden chaining)、mutatingといった処理は極力使わない。
←をクリックしてツリーを展開
├───notebooks
│ 01_descriptive_statics.py
│
├───src
│ ├───clean_core
│ │ __init__.py
│ │
│ └───descriptive_statics
│ │ describe.py
│ │ missing.py
│ │ plot_missing.py
│ │ query_patterns.py
│ │ __init__.py
│ │
│ └───__pycache__
│
└───tests
test_n01_descriptive_statics.py
| 言語・フレームワーク | バージョン |
|---|---|
| Python | 3.12.10 |