Skip to content

Pull requests: MERA-Evaluation/MERA

Author
Filter by author
Loading
Label
Filter by label
Loading
Use alt + click/return to exclude labels
or + click/return for logical OR
Projects
Filter by project
Loading
Milestones
Filter by milestone
Loading
Reviews
Assignee
Filter by who’s assigned
Assigned to nobody Loading
Sort

Pull requests list

Add ruregions code: TO_CHECK Проверить корректность реализации задачи в LMEH. Запустить прогон. dataset: TO_CHECK Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE). docs: TO_CHECK Проверить корректность документации и метаинформации по сету. PRIVATE Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.
#30 opened May 4, 2026 by mathamateur Loading…
cpb
#28 opened Apr 22, 2026 by Alikata Loading…
Add logic_stories benchmark task and README with results tables.
#27 opened Apr 22, 2026 by king-menin2 Collaborator Loading…
openjudge pollux
#26 opened Apr 22, 2026 by danil31219as Loading…
Luzitania init code: TO_CHECK Проверить корректность реализации задачи в LMEH. Запустить прогон. dataset: TO_CHECK Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE). docs: TO_CHECK Проверить корректность документации и метаинформации по сету. PUBLIC Публичный датасет. Вопросы и ответы загружены на HF и доступны пользователям.
#25 opened Apr 14, 2026 by 077136 Loading…
add riddles task code: TO_CHECK Проверить корректность реализации задачи в LMEH. Запустить прогон. dataset: TO_CHECK Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE). docs: TO_CHECK Проверить корректность документации и метаинформации по сету. PRIVATE Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.
#24 opened Apr 1, 2026 by Alex-ast7 Loading…
Add MMReD: Dense Context Reasoning Benchmark code: TO_CHECK Проверить корректность реализации задачи в LMEH. Запустить прогон. dataset: TO_CHECK Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE). docs: TO_CHECK Проверить корректность документации и метаинформации по сету. PUBLIC Публичный датасет. Вопросы и ответы загружены на HF и доступны пользователям.
#23 opened Mar 25, 2026 by Fr0do Loading…
add new_reason task code: TO_CHECK Проверить корректность реализации задачи в LMEH. Запустить прогон. dataset: TO_CHECK Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE). docs: TO_CHECK Проверить корректность документации и метаинформации по сету. PRIVATE Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.
#21 opened Mar 10, 2026 by Alex-ast7 Loading…
add enantiosemy task
#20 opened Mar 6, 2026 by Alex-ast7 Loading…
add characters task
#19 opened Mar 6, 2026 by Alex-ast7 Loading…
add sage task code: TO_CHECK Проверить корректность реализации задачи в LMEH. Запустить прогон. dataset: TO_CHECK Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE). docs: TO_CHECK Проверить корректность документации и метаинформации по сету. new_dataset The dataset for the new release PRIVATE Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.
#18 opened Feb 17, 2026 by Alex-ast7 Loading…
adapted MERA text for common lm-eval fork
#16 opened Jan 16, 2026 by ZenMan123 Loading…
ruAIME dataset code: OK Задача корректно реализована, прогон запускается и выдает метрики. dataset: OK Формат и содержание сета корректны docs: OK Документация и метаинформация по сету написаны корректно. new_dataset The dataset for the new release PUBLIC Публичный датасет. Вопросы и ответы загружены на HF и доступны пользователям.
#15 opened Sep 23, 2025 by antoshkaxxr Loading…
ProTip! Filter pull requests by the default branch with base:release.