Crawler em formato de utilitário de linha de comando para extrair dados de forma mais rápida e simples.
Antes de tudo, de uma olhada no help:
python spider.py -hSe você tiver o link de download de um CSV por exemplo, dentro do repositório Baby_Spider, faça:
python spider.py --url "https://exemplo.com/arquivo.csv" -e csvSe o arquivo for um JSON ou qualquer outro formato, substitua o valor do parametro -e
python spider.py --url "https://exemplo.com/arquivo.json" -e jsone se quiser criar um script importando esse arquivo, adicione o --r-script para gerar automaticamente:
python spider.py --url "https://exemplo.com/arquivo.csv" -e csv --r-scriptCaso você tem o link de um ZIP, faça o seguinte comando:
python spider.py --url "https://exemplo.com/pacote.zip" -zSe quiser extrair todo o conteúdo desse pacote zip, adicione o parametro --zip-all
python spider.py --url "https://exemplo.com/pacote.zip" -z --zip-all- Clone o projeto
git clone https://github.com/FelipeSantos-cco/Baby_Spider.git- Entre no repositório que foi clonado
cd Baby_Spider- Instale as dependencias do projeto
pip install -r requirements.txt