Skip to content

Latest commit

 

History

History
50 lines (32 loc) · 2 KB

File metadata and controls

50 lines (32 loc) · 2 KB

Projeto de Dissertação de Mestrado

Introdução

Este projeto é fruto do trabalho de pesquisa da dissertação de mestrado intitulada "Explorando a Generalização de Classificadores de Notícias Falsas em Português Baseados em Modelos de Linguagem", de autoria de Camila Gusmão, com orientação da professora Aline Paes, no Programa de Pós-Graduação em Computação da Universidade Federal Fluminense (UFF).

A maior parte do projeto foi desenvolvida na linguagem Python, com exceção dos experimentos que utilizaram as plataformas CohereAI e MaritalkAI, cujas requisições foram criadas em JavaScript.

Organização do repositório

O repositório está organizado da seguinte forma:

  • /eda: contém a análise dos dados dos datasets selecionados
  • /dataset: contempla os dados em suas diferentes versões, sejam os dados originais coletados, trabalhados durante a análise de dados, pré-processados ou modificados para envio de requisições para plataformas fechadas como a CohereAI.
  • /models: guarda os modelos treinados (aqui não disponíveis, mas passíveis de serem recriados via código).
  • /results: guarda os resultados dos experimentos realizados, desde dados crus até as métricas finais geradas para avaliação.
  • /src: contém o cerne do projeto, com todos os códigos desenvolvidos para construção dos experimentos e a configuração adotada por eles (arquivo config.json). Os códigos estão dispostos em:
    • /consolidating_results
    • /evaluate
    • /fine_tuning
    • /preprocessing
    • /utils
    • /zero_shot
  • /general_analysis: apresenta as análises gerais dos conjuntos de dados aqui trabalhados.

Setup

A criação do ambiente pode ser feita via requirements.txt ou utilizando algum framework de apoio. Neste projeto utilizamos o framework uv.

Montagem de ambiente via pip

pip install -r requirements.txt

Montagem de ambiente via uv

uv install

Execução dos experimentos

Citações