O buscaDOE é um pequeno projeto, ainda em desenvolvimento, feito em Python para a busca de termos em arquivos PDF.
Ele foi criado para suprir a necessidade de verificar se certos termos estavam presentes em um Diário Oficial que é publicado em PDF. Caso os termos sejam encontrados é enviada uma mensagem para um chatbot do telegram informando as páginas em que os termos foram encontrados.
É utilizada a biblioteca tesseract-ocr, versão 4.0, para a conversão de arquivos PDF com imagens em texto.
O uso do tesseract-ocr fez-se necessário pois os arquivos PDF são compostos por imagens.
O tesseract-ocr é uma ferramenta OCR gratuíta e de código-aberto.
O passo-a-passo para instalar o tesseract-ocr no Linux, Windows ou MacOS podem ser verificados na wiki do projeto
Outros links do projeto tesseract-ocr:
Utilizar o Tesseract portuguese language trained data
- Baixar o arquivo: por.traineddata e copiar para a pasta:
/usr/share/tesseract-ocr/4.00/tessdata.
OBS: Necessário python3.8 ou superior
sudo apt install poppler-utils tesseract-ocr python3-pip git# Baixar o projeto
git clone https://gitlab.com/francinaldo/buscadoe.git
# Acessar a pasta do projeto
cd buscadoe
# Instalar as dependencias
pip install -r requirements.txt# Criar o arquivo .env
touch .envO arquivo ficará conforme a estrutura abaixo
# Telegram Bot Credentials
TOKEN='TELEGRAM_TOKEN'
RECEIVE_ID=TELEGRAM_RECEIVE_ID
- https://canaltech.com.br/apps/como-criar-um-bot-no-telegram-botfather/
- https://www.youtube.com/watch?v=WyJM2ckBgMs&themeRefresh=1
search_terms = ["Term 1", "Term 2", "Term ..."]
python3 doepb.py