pycrawler start from Nov 27 2019 more info: https://pycrawler.cupoy.com/
Day 1: 資料來源與檔案存取
Day 2: 實作:Python 下載CSV檔案與解析
Day 3: 實作:Python 下載XML檔案與解析
Day 4: HTTP Server-Client 架構說明與 利用 Python 存取 API
Day 5: 實作 Day:API 資料串接 - 基本 API + JSON
Day 6: 實作 Day:API 資料串接 - Headers
Day 7: HTTP 靜態網頁架構說明與淺談HTML / CSS / JavaScript
Day 8:靜態網頁的資料爬蟲策略
Day 9:圖片下載
Day 10: PyQuery/grab
Day 11: Regular expression
Day 12: 實作 Day:ETTODAY 靜態爬蟲實作練習
Day 13: 實作 Day:PTT(批踢踢)網路爬蟲實作練習
Day 14: 實作 Day:Yahoo! 電影網頁爬蟲實作練習
Day 15: 實作 Day:金融資訊網頁爬蟲實作練習
Day 16: 實作 Day:Wiki的爬蟲實作練習
Day 17: HTTP 動態網頁架構說明與非同步取得資料
Day 18: 瀏覽器開發者工具介紹
Day 19: 動態網頁爬蟲 - 使用Selenium + BeautifulSoup 模擬瀏覽器執行
Day 20: 動態網頁爬蟲 - 利用開發者工具,觀察模擬 API 存取
Day 21: 實作 Day:ETTODAY 動態爬蟲實作練習
Day 22: 實作 Day:空氣污染網站爬蟲實作練習
Day 23: 實作 Day:東森新聞雲網站爬蟲實作練習
Day 24: 實作 Day:104人力銀行網站爬蟲實作練習
Day 26: Scrapy 爬蟲流程 (1) - 建立流程 + 送出請求
Day 27: Scrapy 爬蟲流程 (2) - XPath + Item Pipeline
Day 28: Scrapy 爬蟲流程 (3) - API
Day 29: Scrapy 爬蟲流程 (4) - 多網頁爬蟲
Day 30: 爬蟲可能會遇到的問題
Day 31: 反爬:瀏覽器標頭與基本資訊
Day 32: 反爬:驗證碼處理
Day 33: 反爬:登入授權模擬
Day 34: 反爬:代理 IP
Day 35: 加速:多線程爬蟲
Day 36: 加速:非同步爬蟲
Day 37: 自動化更新機制(排程)