数据来源: 玩加赛事http://www.wanplus.com/lol/schedule
最核心的步骤:
- 用google浏览器检查赛事详情页,找到适合抓取的请求页
- Json解析网页源代码,并获取到赛事数据
搞定了以上,其余就是一些锦上添花的步骤:
- 还是requests库的get请求,此次还需要传入一个自定义的headers
- 定义一个URl参数num,控制英雄联盟比赛索引页的范围,比如LPL夏季赛的比赛id可能范围在35000到40000。
- 用pymongo将获取的数据存入mongoDB
- 添加多线程爬取,提高爬取效率