Skip to content

GabrielTrentino/WebScraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Principal

Projetos de Web Scraping:

Web Scraping é uma forma de mineração de dados que permite a extração de informações em sites da internet para serem estruturadas em posterior análise. Essa ferramenta é uma forma automatizada de se obter dados públicos em sites através da utilização de algumas bibliotecas como Scrapy, Beautiful Soup e Selenium, por exemplo.

O Web Scraping atualmente é classificada como uma grey-area legal nos Estados Unidos, isso é, poucos sabem lidar com a legalidade de sua prática (como elucidada no video). Por essa razão, alguns sites evitam o congestionamento do trafego causado por um script de Web Scraping utilizando o banimento de IP.

Documentação das Biblitoecas em Python:

Books to Scrape:

Banner

Books to Scrape é um site criado com a unica finalidade de praticar o Web Scraping e, a partir desse site, o Meigarom a elaboração de um Projeto de Data Engineering em seu post na qual foi inspiração para realizar este projeto. A Situação Ficticia foi sintetizada com minhas palavras de acordo com a ideia geral passada no post.

Situação Ficticia: Uma Startup de troca de livros possui um modelo de negócio à base na troca de livros cadastrados pelo usuário. O objetivo como Data Scientist é de construir um Sistema de Recomendação de Compra de livros melhores avaliados por gênero. Logo, antes de construir um sistema de recomendação, você precisa coletar e armazenar os dados do site. Portanto seu primeiro trabalho como um Data Scientist será coletar e armazenar os seguintes dados:

  1. O nome do livro;
  2. A categoria do livro;
  3. O número de estrelas que o livro recebeu;
  4. O preço do livro;
  5. Se o livro está em Estoque ou não.

Os outros processos metodologicos estão disponíveis no README.md do projeto. A análise exploratória e as informações para as possíveis tomadas de decisão estão disponíveis no notebook.

LinkedIn Auto ADD:

Os códigos desse projeto está disponível no link.

O LinkedIn é uma rede social que é principalmente utilizada por profissionais com o intuito de mostrar as aptidões. O objetivo desse programa é buscar os perfis mais bem selecionados e adicionar em sua rede social. Para utilizar essa automação é necessário inserir usuário, senha, profissões, localidades e quantas páginas do google essa automação deve buscar.

Com o programa rodando, ele começará logando no seu perfil no Linkedin. Em seguida, irá pesquisar e coletar as paginas dos perfis de acordo com as possíveis cidades e profissões pelo Google. Em seguida, irá adicionar os perfis do LinkedIn de acordo com o grau de relacionamento.

Dúvidas e Redes Sociais:

O repositório aumentará o seu tamanho de acordo com as realizações dos cursos. E claro, aceito recomendações de cursos, livros ou vídeos! Qualquer duvida me chame no LinkedIn.

About

Esse repositório contêm os arquivos de Web Scraping realizados

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors