-
Notifications
You must be signed in to change notification settings - Fork 10
Pull requests: MERA-Evaluation/MERA
Author
Label
Projects
Milestones
Reviews
Assignee
Sort
Pull requests list
Add ruregions
code: TO_CHECK
Проверить корректность реализации задачи в LMEH. Запустить прогон.
dataset: TO_CHECK
Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE).
docs: TO_CHECK
Проверить корректность документации и метаинформации по сету.
PRIVATE
Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.
#30
opened May 4, 2026 by
mathamateur
Loading…
Add logic_stories benchmark task and README with results tables.
#27
opened Apr 22, 2026 by
king-menin2
Collaborator
Loading…
Luzitania init
code: TO_CHECK
Проверить корректность реализации задачи в LMEH. Запустить прогон.
dataset: TO_CHECK
Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE).
docs: TO_CHECK
Проверить корректность документации и метаинформации по сету.
PUBLIC
Публичный датасет. Вопросы и ответы загружены на HF и доступны пользователям.
#25
opened Apr 14, 2026 by
077136
Loading…
add riddles task
code: TO_CHECK
Проверить корректность реализации задачи в LMEH. Запустить прогон.
dataset: TO_CHECK
Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE).
docs: TO_CHECK
Проверить корректность документации и метаинформации по сету.
PRIVATE
Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.
#24
opened Apr 1, 2026 by
Alex-ast7
Loading…
Add MMReD: Dense Context Reasoning Benchmark
code: TO_CHECK
Проверить корректность реализации задачи в LMEH. Запустить прогон.
dataset: TO_CHECK
Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE).
docs: TO_CHECK
Проверить корректность документации и метаинформации по сету.
PUBLIC
Публичный датасет. Вопросы и ответы загружены на HF и доступны пользователям.
#23
opened Mar 25, 2026 by
Fr0do
Loading…
add new_reason task
code: TO_CHECK
Проверить корректность реализации задачи в LMEH. Запустить прогон.
dataset: TO_CHECK
Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE).
docs: TO_CHECK
Проверить корректность документации и метаинформации по сету.
PRIVATE
Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.
#21
opened Mar 10, 2026 by
Alex-ast7
Loading…
add sage task
code: TO_CHECK
Проверить корректность реализации задачи в LMEH. Запустить прогон.
dataset: TO_CHECK
Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE).
docs: TO_CHECK
Проверить корректность документации и метаинформации по сету.
new_dataset
The dataset for the new release
PRIVATE
Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.
#18
opened Feb 17, 2026 by
Alex-ast7
Loading…
ruAIME dataset
code: OK
Задача корректно реализована, прогон запускается и выдает метрики.
dataset: OK
Формат и содержание сета корректны
docs: OK
Документация и метаинформация по сету написаны корректно.
new_dataset
The dataset for the new release
PUBLIC
Публичный датасет. Вопросы и ответы загружены на HF и доступны пользователям.
#15
opened Sep 23, 2025 by
antoshkaxxr
Loading…
ProTip!
Filter pull requests by the default branch with base:release.