add new_reason task#21
Conversation
Обзор датасета
|
| Тип задачи | Кол-во | Доля, % |
|---|---|---|
| Decompositional Reasoning | 40 | 10.8 |
| Cause-and-Effect Reasoning | 39 | 10.5 |
| Analogical Reasoning | 35 | 9.4 |
| Value Reasoning | 32 | 8.6 |
| Critical Thinking | 31 | 8.3 |
| Deductive Reasoning | 31 | 8.3 |
| Complex Reasoning | 29 | 7.8 |
| Metaphoric Inference | 29 | 7.8 |
| Case-based Reasoning | 28 | 7.5 |
| Fuzzy Logic | 28 | 7.5 |
| Inductive Reasoning | 28 | 7.5 |
| Abductive Reasoning | 22 | 5.9 |
Всего уникальных типов: 12. Распределение по смыслу близко к равномерному (диапазон 22–40 на тип).
Распределение типов ответов
Нормализованное поле outputs: ответ в виде одной или нескольких кириллических букв, разделённых "; " (как после нормализации в пайплайне датасета).
По числу указанных букв в эталоне
| Число букв в gold | Кол-во | Доля, % |
|---|---|---|
| 0 (пустой эталон) | 2 | 0.5 |
| 1 (один вариант) | 315 | 84.7 |
| 2 | 45 | 12.1 |
| 3 | 7 | 1.9 |
| 4 | 2 | 0.5 |
| 5 | 1 | 0.3 |
Записи с пустым outputs: meta.id 188 и 305 — для скоринга (EM) они дадут нулевой вклад; имеет смысл проверить исходную разметку в CSV.
По типу фьюшота (колонка Few-Shots в CSV)
Поле meta.categories.fewshot_ref (буква набора эталонов А/Б/В/Г):
| fewshot_ref | Кол-во | Доля, % |
|---|---|---|
| А | 184 | 49.5 |
| Б | 110 | 29.6 |
| В | 63 | 16.9 |
| Г | 15 | 4.0 |
Распределение длин текста заданий
Сводка по длине строки instruction.format(**inputs) (символы):
| Метрика | Значение |
|---|---|
| Минимум | 552 |
| Максимум | 5203 |
| Среднее | 1003.1 |
| Медиана | 857 |
| Ст. откл. | 469.7 |
| 90-й перцентиль | ≈1476 |
| 95-й перцентиль | ≈1959 |
Квартили (метод statistics.quantiles, (n=4)): Q1 ≈ 710, Q2 857, Q3 ≈ 1144.
Гистограмма (диапазоны в символах)
| Диапазон длины | Кол-во | Доля, % |
|---|---|---|
| 0–499 | 0 | 0 |
| 500–799 | 149 | 40.1 |
| 800–1099 | 121 | 32.5 |
| 1100–1499 | 68 | 18.3 |
| 1500+ | 34 | 9.1 |
Заданий короче 500 символов нет; минимальная длина попадает в интервал 500–799.
Дополнительно: поле source_dataset
Распределение по meta.categories.source_dataset отражает конструкцию бенча (исходники А–И по 50 строк каждый, плюс дополнительные варианты):
| source_dataset | Кол-во |
|---|---|
| А - исходник | 50 |
| Б - инверсия | 50 |
| В - изменение количеств (цифр) | 50 |
| Г - изменение параметров (системы измерений, степеней измерения) | 50 |
| Д - изменение качества/наполнения (вместо яблок машинки) | 50 |
| З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности? | 50 |
| И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления) | 50 |
| Ж доп | 9 |
| Е доп | 7 |
| Ё доп | 6 |
Оценка качества решения моделей
Источник сырых логов: архив results.zip (после распаковки — results/Qwen__Qwen3.5-35B-A3B/ и results/Qwen__Qwen3.5-9B/). Метрика совпадает с eval: Exact Match после нормализации ответа (utils._normalize_model_answer, как в process_results). Оценка на 372 примерах; 2 строки с пустым эталоном (outputs) дают EM = 0 у обеих моделей и исключены из разбиения «оба верны / оба неверны» ниже.
Сводка по моделям
| Модель | EM (доля верных) | Верных | Неверных |
|---|---|---|---|
| Qwen3.5-35B-A3B | 0.5027 | 187 | 185 |
| Qwen3.5-9B | 0.4194 | 156 | 216 |
Большая модель стабильно выше на ~8.3 п.п. EM.
Согласованность ответов двух моделей
После нормализации буквенных ответов модели совпадают на 200 из 372 примеров (53.8%), расходятся на 172 (46.2%). Для бинарного «верно по EM» на примерах с непустым эталоном (n = 370): обе верны — 126, обе неверны — 153, только 35B верна — 61, только 9B верна — 30. Коэна κ (бинарное EM, все 372 примера) ≈ 0.511 — умеренное согласие: модели часто ошибаются по-разному, а не копируют друг друга.
Среди случаев, где обе модели промахнулись по эталону (n = 153), совпадает неверный нормализованный ответ в 73 случаях и различается в 80. Это означает, что примерно половина «совместных» ошибок — согласованный систематический промах (один и тот же неверный набор букв), вторая половина — разные гипотезы.
Выводы про ошибки
- По task_type наиболее «жёсткими» для обеих моделей оказываются Metaphoric Inference и Decompositional Reasoning (самая высокая доля ошибок); относительно лучше получаются Value Reasoning и Complex Reasoning (ниже доля ошибок).
- По source_dataset хуже всего для 35B варианты И (пошаговый ризонинг с нарушением порядка) и З (смена типа решения); для 9B заметно проседают Д (замена домена/наполнения), Б (инверсия) и А (исходник) — у малой модели ошибок больше почти на всех срезах.
- По knowledge для обеих моделей выделяются Игра слов и Логика абсурда (мало примеров, но очень высокая доля ошибок); также высока ошибочность на Рассуждение и Алгоритмическое мышление у 35B; у 9B дополнительно сильный провал на Поиск подмены.
Ошибки по task_type
Qwen3.5-35B-A3B
| task_type | N | Ошибок | Ошибок, % |
|---|---|---|---|
| Decompositional Reasoning | 40 | 25 | 62.5 |
| Metaphoric Inference | 29 | 22 | 75.9 |
| Analogical Reasoning | 35 | 21 | 60.0 |
| Cause-and-Effect Reasoning | 39 | 19 | 48.7 |
| Critical Thinking | 31 | 16 | 51.6 |
| Deductive Reasoning | 31 | 14 | 45.2 |
| Fuzzy Logic | 28 | 13 | 46.4 |
| Inductive Reasoning | 28 | 13 | 46.4 |
| Case-based Reasoning | 28 | 12 | 42.9 |
| Abductive Reasoning | 22 | 10 | 45.5 |
| Complex Reasoning | 29 | 10 | 34.5 |
| Value Reasoning | 32 | 10 | 31.2 |
Qwen3.5-9B
| task_type | N | Ошибок | Ошибок, % |
|---|---|---|---|
| Decompositional Reasoning | 40 | 29 | 72.5 |
| Metaphoric Inference | 29 | 23 | 79.3 |
| Critical Thinking | 31 | 22 | 71.0 |
| Case-based Reasoning | 28 | 21 | 75.0 |
| Cause-and-Effect Reasoning | 39 | 20 | 51.3 |
| Analogical Reasoning | 35 | 18 | 51.4 |
| Value Reasoning | 32 | 16 | 50.0 |
| Abductive Reasoning | 22 | 15 | 68.2 |
| Fuzzy Logic | 28 | 15 | 53.6 |
| Complex Reasoning | 29 | 14 | 48.3 |
| Deductive Reasoning | 31 | 12 | 38.7 |
| Inductive Reasoning | 28 | 11 | 39.3 |
Ошибки по source_dataset
Qwen3.5-35B-A3B
| source_dataset | N | Ошибок | Ошибок, % |
|---|---|---|---|
| И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления) | 50 | 32 | 64.0 |
| З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности? | 50 | 28 | 56.0 |
| Б - инверсия | 50 | 26 | 52.0 |
| Д - изменение качества/наполнения (вместо яблок машинки) | 50 | 26 | 52.0 |
| А - исходник | 50 | 23 | 46.0 |
| В - изменение количеств (цифр) | 50 | 21 | 42.0 |
| Г - изменение параметров (системы измерений, степеней измерения) | 50 | 19 | 38.0 |
| Е доп | 7 | 5 | 71.4 |
| Ж доп | 9 | 4 | 44.4 |
| Ё доп | 6 | 1 | 16.7 |
Qwen3.5-9B
| source_dataset | N | Ошибок | Ошибок, % |
|---|---|---|---|
| Д - изменение качества/наполнения (вместо яблок машинки) | 50 | 34 | 68.0 |
| Б - инверсия | 50 | 32 | 64.0 |
| А - исходник | 50 | 31 | 62.0 |
| И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления) | 50 | 31 | 62.0 |
| З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности? | 50 | 30 | 60.0 |
| В - изменение количеств (цифр) | 50 | 23 | 46.0 |
| Г - изменение параметров (системы измерений, степеней измерения) | 50 | 22 | 44.0 |
| Ж доп | 9 | 7 | 77.8 |
| Е доп | 7 | 5 | 71.4 |
| Ё доп | 6 | 1 | 16.7 |
Ошибки по knowledge
Qwen3.5-35B-A3B
| knowledge | N | Ошибок | Ошибок, % |
|---|---|---|---|
| Рассуждение | 46 | 27 | 58.7 |
| Очевидная логика | 48 | 21 | 43.8 |
| Алгоритмическое мышление | 32 | 19 | 59.4 |
| Оценка возможностей | 53 | 19 | 35.8 |
| Поиск подмены | 35 | 18 | 51.4 |
| Загадка | 28 | 15 | 53.6 |
| Арифметика под * | 35 | 14 | 40.0 |
| Ловушки мышления | 25 | 13 | 52.0 |
| Сообразительность | 28 | 12 | 42.9 |
| Данетки | 21 | 11 | 52.4 |
| Логика абсурда | 14 | 10 | 71.4 |
| Игра слов | 7 | 6 | 85.7 |
Qwen3.5-9B
| knowledge | N | Ошибок | Ошибок, % |
|---|---|---|---|
| Оценка возможностей | 53 | 28 | 52.8 |
| Рассуждение | 46 | 28 | 60.9 |
| Очевидная логика | 48 | 25 | 52.1 |
| Поиск подмены | 35 | 24 | 68.6 |
| Алгоритмическое мышление | 32 | 18 | 56.2 |
| Сообразительность | 28 | 17 | 60.7 |
| Арифметика под * | 35 | 15 | 42.9 |
| Данетки | 21 | 14 | 66.7 |
| Загадка | 28 | 14 | 50.0 |
| Ловушки мышления | 25 | 14 | 56.0 |
| Логика абсурда | 14 | 12 | 85.7 |
| Игра слов | 7 | 7 | 100.0 |
Критические (ошибки разметки)
| Проблема | Где |
|---|---|
Пустой эталон outputs |
Записи с meta.id 188 и 305 — в CSV в колонке ответа пусто (;;;;;;… перед номером задания). Нужно восстановить буквы из первичной разметки. |
Массовые огрехи шаблона инструкции (все 372 строк test.jsonl)
Один и тот же task_instruction из CSV:
- Фрагмент «пропусков - и выберите» — двойной пробел перед «выберите».
- После фразы «(и только эти буквы)» в конце инструкции стоит лишний пробел.
Тот же шаблон повторяется во всех эталонах в fewshots_by_type.json.
Двойной пробел только в тексте вопроса (не в общей инструкции)
После конца предложения (. ? !) встречается два пробела подряд — 10 записей: meta.id 1, 50, 51, 100, 258, 329, 330, 331, 363, 370.
Сделана кодовая база для харнесса для датасета Новый ризонинг (имя таски new_reason):