add new_reason task by Alex-ast7 · Pull Request #21 · MERA-Evaluation/MERA

Alex-ast7 · 2026-03-10T20:46:14Z

Сделана кодовая база для харнесса для датасета Новый ризонинг (имя таски new_reason):

файл new_reason.yaml
utils.py

king-menin2 · 2026-05-12T01:44:18Z

Обзор датасета `new_reason`

Источник: data/test.jsonl (локальная сборка из CSV).

Параметры скоринга в eval: полный текст задания как в doc_to_text — подстановка instruction.format(**inputs) (инструкция + вопрос + блок вариантов + суффикс «Ответ:»). Длины ниже считаются в символах Unicode для этой строки.

Число записей: 372

Распределение типов задач

Поле meta.categories.task_type (англоязычная категория типа рассуждения):

Тип задачи	Кол-во	Доля, %
Decompositional Reasoning	40	10.8
Cause-and-Effect Reasoning	39	10.5
Analogical Reasoning	35	9.4
Value Reasoning	32	8.6
Critical Thinking	31	8.3
Deductive Reasoning	31	8.3
Complex Reasoning	29	7.8
Metaphoric Inference	29	7.8
Case-based Reasoning	28	7.5
Fuzzy Logic	28	7.5
Inductive Reasoning	28	7.5
Abductive Reasoning	22	5.9

Всего уникальных типов: 12. Распределение по смыслу близко к равномерному (диапазон 22–40 на тип).

Распределение типов ответов

Нормализованное поле outputs: ответ в виде одной или нескольких кириллических букв, разделённых "; " (как после нормализации в пайплайне датасета).

По числу указанных букв в эталоне

Число букв в gold	Кол-во	Доля, %
0 (пустой эталон)	2	0.5
1 (один вариант)	315	84.7
2	45	12.1
3	7	1.9
4	2	0.5
5	1	0.3

Записи с пустым outputs: meta.id 188 и 305 — для скоринга (EM) они дадут нулевой вклад; имеет смысл проверить исходную разметку в CSV.

По типу фьюшота (колонка Few-Shots в CSV)

Поле meta.categories.fewshot_ref (буква набора эталонов А/Б/В/Г):

fewshot_ref	Кол-во	Доля, %
А	184	49.5
Б	110	29.6
В	63	16.9
Г	15	4.0

Распределение длин текста заданий

Сводка по длине строки instruction.format(**inputs) (символы):

Метрика	Значение
Минимум	552
Максимум	5203
Среднее	1003.1
Медиана	857
Ст. откл.	469.7
90-й перцентиль	≈1476
95-й перцентиль	≈1959

Квартили (метод statistics.quantiles, (n=4)): Q1 ≈ 710, Q2 857, Q3 ≈ 1144.

Гистограмма (диапазоны в символах)

Диапазон длины	Кол-во	Доля, %
0–499	0	0
500–799	149	40.1
800–1099	121	32.5
1100–1499	68	18.3
1500+	34	9.1

Заданий короче 500 символов нет; минимальная длина попадает в интервал 500–799.

Дополнительно: поле `source_dataset`

Распределение по meta.categories.source_dataset отражает конструкцию бенча (исходники А–И по 50 строк каждый, плюс дополнительные варианты):

source_dataset	Кол-во
А - исходник	50
Б - инверсия	50
В - изменение количеств (цифр)	50
Г - изменение параметров (системы измерений, степеней измерения)	50
Д - изменение качества/наполнения (вместо яблок машинки)	50
З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности?	50
И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления)	50
Ж доп	9
Е доп	7
Ё доп	6

Оценка качества решения моделей

Источник сырых логов: архив results.zip (после распаковки — results/Qwen__Qwen3.5-35B-A3B/ и results/Qwen__Qwen3.5-9B/). Метрика совпадает с eval: Exact Match после нормализации ответа (utils._normalize_model_answer, как в process_results). Оценка на 372 примерах; 2 строки с пустым эталоном (outputs) дают EM = 0 у обеих моделей и исключены из разбиения «оба верны / оба неверны» ниже.

Сводка по моделям

Модель	EM (доля верных)	Верных	Неверных
Qwen3.5-35B-A3B	0.5027	187	185
Qwen3.5-9B	0.4194	156	216

Большая модель стабильно выше на ~8.3 п.п. EM.

Согласованность ответов двух моделей

После нормализации буквенных ответов модели совпадают на 200 из 372 примеров (53.8%), расходятся на 172 (46.2%). Для бинарного «верно по EM» на примерах с непустым эталоном (n = 370): обе верны — 126, обе неверны — 153, только 35B верна — 61, только 9B верна — 30. Коэна κ (бинарное EM, все 372 примера) ≈ 0.511 — умеренное согласие: модели часто ошибаются по-разному, а не копируют друг друга.

Среди случаев, где обе модели промахнулись по эталону (n = 153), совпадает неверный нормализованный ответ в 73 случаях и различается в 80. Это означает, что примерно половина «совместных» ошибок — согласованный систематический промах (один и тот же неверный набор букв), вторая половина — разные гипотезы.

Выводы про ошибки

По task_type наиболее «жёсткими» для обеих моделей оказываются Metaphoric Inference и Decompositional Reasoning (самая высокая доля ошибок); относительно лучше получаются Value Reasoning и Complex Reasoning (ниже доля ошибок).
По source_dataset хуже всего для 35B варианты И (пошаговый ризонинг с нарушением порядка) и З (смена типа решения); для 9B заметно проседают Д (замена домена/наполнения), Б (инверсия) и А (исходник) — у малой модели ошибок больше почти на всех срезах.
По knowledge для обеих моделей выделяются Игра слов и Логика абсурда (мало примеров, но очень высокая доля ошибок); также высока ошибочность на Рассуждение и Алгоритмическое мышление у 35B; у 9B дополнительно сильный провал на Поиск подмены.

Ошибки по `task_type`

Qwen3.5-35B-A3B

task_type	N	Ошибок	Ошибок, %
Decompositional Reasoning	40	25	62.5
Metaphoric Inference	29	22	75.9
Analogical Reasoning	35	21	60.0
Cause-and-Effect Reasoning	39	19	48.7
Critical Thinking	31	16	51.6
Deductive Reasoning	31	14	45.2
Fuzzy Logic	28	13	46.4
Inductive Reasoning	28	13	46.4
Case-based Reasoning	28	12	42.9
Abductive Reasoning	22	10	45.5
Complex Reasoning	29	10	34.5
Value Reasoning	32	10	31.2

Qwen3.5-9B

task_type	N	Ошибок	Ошибок, %
Decompositional Reasoning	40	29	72.5
Metaphoric Inference	29	23	79.3
Critical Thinking	31	22	71.0
Case-based Reasoning	28	21	75.0
Cause-and-Effect Reasoning	39	20	51.3
Analogical Reasoning	35	18	51.4
Value Reasoning	32	16	50.0
Abductive Reasoning	22	15	68.2
Fuzzy Logic	28	15	53.6
Complex Reasoning	29	14	48.3
Deductive Reasoning	31	12	38.7
Inductive Reasoning	28	11	39.3

Ошибки по `source_dataset`

Qwen3.5-35B-A3B

source_dataset	N	Ошибок	Ошибок, %
И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления)	50	32	64.0
З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности?	50	28	56.0
Б - инверсия	50	26	52.0
Д - изменение качества/наполнения (вместо яблок машинки)	50	26	52.0
А - исходник	50	23	46.0
В - изменение количеств (цифр)	50	21	42.0
Г - изменение параметров (системы измерений, степеней измерения)	50	19	38.0
Е доп	7	5	71.4
Ж доп	9	4	44.4
Ё доп	6	1	16.7

Qwen3.5-9B

source_dataset	N	Ошибок	Ошибок, %
Д - изменение качества/наполнения (вместо яблок машинки)	50	34	68.0
Б - инверсия	50	32	64.0
А - исходник	50	31	62.0
И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления)	50	31	62.0
З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности?	50	30	60.0
В - изменение количеств (цифр)	50	23	46.0
Г - изменение параметров (системы измерений, степеней измерения)	50	22	44.0
Ж доп	9	7	77.8
Е доп	7	5	71.4
Ё доп	6	1	16.7

Ошибки по `knowledge`

Qwen3.5-35B-A3B

knowledge	N	Ошибок	Ошибок, %
Рассуждение	46	27	58.7
Очевидная логика	48	21	43.8
Алгоритмическое мышление	32	19	59.4
Оценка возможностей	53	19	35.8
Поиск подмены	35	18	51.4
Загадка	28	15	53.6
Арифметика под *	35	14	40.0
Ловушки мышления	25	13	52.0
Сообразительность	28	12	42.9
Данетки	21	11	52.4
Логика абсурда	14	10	71.4
Игра слов	7	6	85.7

Qwen3.5-9B

knowledge	N	Ошибок	Ошибок, %
Оценка возможностей	53	28	52.8
Рассуждение	46	28	60.9
Очевидная логика	48	25	52.1
Поиск подмены	35	24	68.6
Алгоритмическое мышление	32	18	56.2
Сообразительность	28	17	60.7
Арифметика под *	35	15	42.9
Данетки	21	14	66.7
Загадка	28	14	50.0
Ловушки мышления	25	14	56.0
Логика абсурда	14	12	85.7
Игра слов	7	7	100.0

Критические (ошибки разметки)

Проблема	Где
Пустой эталон `outputs`	Записи с `meta.id` 188 и 305 — в CSV в колонке ответа пусто (`;;;;;;…` перед номером задания). Нужно восстановить буквы из первичной разметки.

Массовые огрехи шаблона инструкции (все 372 строк `test.jsonl`)

Один и тот же task_instruction из CSV:

Фрагмент «пропусков - и выберите» — двойной пробел перед «выберите».
После фразы «(и только эти буквы)» в конце инструкции стоит лишний пробел.

Тот же шаблон повторяется во всех эталонах в fewshots_by_type.json.

Двойной пробел только в тексте вопроса (не в общей инструкции)

После конца предложения (. ? !) встречается два пробела подряд — 10 записей: meta.id 1, 50, 51, 100, 258, 329, 330, 331, 363, 370.

add new_reason task

8b1d77e

Alex-ast7 requested a review from mathamateur March 10, 2026 20:46

mathamateur requested a review from king-menin April 30, 2026 10:41

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add new_reason task#21

add new_reason task#21
Alex-ast7 wants to merge 1 commit into
v2_devfrom
new_reason

Alex-ast7 commented Mar 10, 2026

Uh oh!

king-menin2 commented May 12, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

Alex-ast7 commented Mar 10, 2026

Uh oh!

king-menin2 commented May 12, 2026

Обзор датасета new_reason

Распределение типов задач

Распределение типов ответов

По числу указанных букв в эталоне

По типу фьюшота (колонка Few-Shots в CSV)

Распределение длин текста заданий

Гистограмма (диапазоны в символах)

Дополнительно: поле source_dataset

Оценка качества решения моделей

Сводка по моделям

Согласованность ответов двух моделей

Выводы про ошибки

Ошибки по task_type

Qwen3.5-35B-A3B

Qwen3.5-9B

Ошибки по source_dataset

Qwen3.5-35B-A3B

Qwen3.5-9B

Ошибки по knowledge

Qwen3.5-35B-A3B

Qwen3.5-9B

Критические (ошибки разметки)

Массовые огрехи шаблона инструкции (все 372 строк test.jsonl)

Двойной пробел только в тексте вопроса (не в общей инструкции)

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Обзор датасета `new_reason`

Дополнительно: поле `source_dataset`

Ошибки по `task_type`

Ошибки по `source_dataset`

Ошибки по `knowledge`

Массовые огрехи шаблона инструкции (все 372 строк `test.jsonl`)