GitHub - francinaldocn/buscadoe: Search terms in a pdf file on DOEPB.

O que é o buscaDOE

O buscaDOE é um pequeno projeto, ainda em desenvolvimento, feito em Python para a busca de termos em arquivos PDF.

Motivo para o desenvolvimento do projeto

Ele foi criado para suprir a necessidade de verificar se certos termos estavam presentes em um Diário Oficial que é publicado em PDF. Caso os termos sejam encontrados é enviada uma mensagem para um chatbot do telegram informando as páginas em que os termos foram encontrados.

O que está sendo utilizado no projeto

É utilizada a biblioteca tesseract-ocr, versão 4.0, para a conversão de arquivos PDF com imagens em texto.

O uso do tesseract-ocr fez-se necessário pois os arquivos PDF são compostos por imagens.

O tesseract-ocr é uma ferramenta OCR gratuíta e de código-aberto.

O passo-a-passo para instalar o tesseract-ocr no Linux, Windows ou MacOS podem ser verificados na wiki do projeto

Outros links do projeto tesseract-ocr:

Utilizar o Tesseract portuguese language trained data

Baixar o arquivo: por.traineddata e copiar para a pasta: /usr/share/tesseract-ocr/4.00/tessdata.

Exemplo de instalação em Ubuntu Linux

Pacotes necessários

OBS: Necessário python3.8 ou superior

sudo apt install poppler-utils tesseract-ocr python3-pip git

Baixando o projeto direto do repositório e instalando as dependências

# Baixar o projeto
git clone https://gitlab.com/francinaldo/buscadoe.git

# Acessar a pasta do projeto
cd buscadoe

# Instalar as dependencias
pip install -r requirements.txt

Criar o arquivo .env onde serão armazenadas o TOKEN e o RECEIVER_ID do Telegram

# Criar o arquivo .env
touch .env

O arquivo ficará conforme a estrutura abaixo

# Telegram Bot Credentials
TOKEN='TELEGRAM_TOKEN'
RECEIVE_ID=TELEGRAM_RECEIVE_ID

Como criar uma chatbot no Telegram

Exemplo DOEPB

Inserir os termos a serem buscados no arquivo `doepb.py` na linha, separados por vírgula:

search_terms = ["Term 1", "Term 2", "Term ..."]

Executar o arquivo `doepb.py`

python3 doepb.py

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
tests		tests
.coverage		.coverage
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
.yamllint		.yamllint
Makefile		Makefile
README.md		README.md
doepb.py		doepb.py
poetry.lock		poetry.lock
poetry.toml		poetry.toml
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
send_telegram_msg.py		send_telegram_msg.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

O que é o buscaDOE

Motivo para o desenvolvimento do projeto

O que está sendo utilizado no projeto

Exemplo de instalação em Ubuntu Linux

Pacotes necessários

Baixando o projeto direto do repositório e instalando as dependências

Criar o arquivo .env onde serão armazenadas o TOKEN e o RECEIVER_ID do Telegram

Como criar uma chatbot no Telegram

Exemplo DOEPB

Inserir os termos a serem buscados no arquivo `doepb.py` na linha, separados por vírgula:

Executar o arquivo `doepb.py`

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

O que é o buscaDOE

Motivo para o desenvolvimento do projeto

O que está sendo utilizado no projeto

Exemplo de instalação em Ubuntu Linux

Pacotes necessários

Baixando o projeto direto do repositório e instalando as dependências

Criar o arquivo .env onde serão armazenadas o TOKEN e o RECEIVER_ID do Telegram

Como criar uma chatbot no Telegram

Exemplo DOEPB

Inserir os termos a serem buscados no arquivo doepb.py na linha, separados por vírgula:

Executar o arquivo doepb.py

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Inserir os termos a serem buscados no arquivo `doepb.py` na linha, separados por vírgula:

Executar o arquivo `doepb.py`

Packages