Oi, pessoal. Primeiramente gostaria de dizer que achei o paper e evals bastante interessantes - e importantes.
Fiquei curioso se vocês conhecem e/ou planejam fazer a portabilidade dos evals para a plataforma Environments Hub (usando o framework de evals/RL envs verifiers).
Acho que ajudaria na compatibilidade e na descoberta do projeto por provedores de modelos - o que poderia contribuir para que (os provedores) abordassem essas tarefas no treinamento de seus modelos, seja por terem um eval facilmente acessível e compatível com os padrões da indústria (padrão de API da OpenAI, por exemplo), ou até mesmo por treinarem com Aprendizado Por Reforço no mesmo eval.
Eu adoraria fazer a portabilidade se não estiver no plano de vocês, e até mesmo rodar os evals com alguns modelos internacionais (a família Qwen, por exemplo, que tem bom desempenho em tarefas multilingual)
Oi, pessoal. Primeiramente gostaria de dizer que achei o paper e evals bastante interessantes - e importantes.
Fiquei curioso se vocês conhecem e/ou planejam fazer a portabilidade dos evals para a plataforma Environments Hub (usando o framework de evals/RL envs
verifiers).Acho que ajudaria na compatibilidade e na descoberta do projeto por provedores de modelos - o que poderia contribuir para que (os provedores) abordassem essas tarefas no treinamento de seus modelos, seja por terem um eval facilmente acessível e compatível com os padrões da indústria (padrão de API da OpenAI, por exemplo), ou até mesmo por treinarem com Aprendizado Por Reforço no mesmo eval.
Eu adoraria fazer a portabilidade se não estiver no plano de vocês, e até mesmo rodar os evals com alguns modelos internacionais (a família Qwen, por exemplo, que tem bom desempenho em tarefas multilingual)