Skip to content

add new_reason task#21

Open
Alex-ast7 wants to merge 1 commit into
v2_devfrom
new_reason
Open

add new_reason task#21
Alex-ast7 wants to merge 1 commit into
v2_devfrom
new_reason

Conversation

@Alex-ast7
Copy link
Copy Markdown

Сделана кодовая база для харнесса для датасета Новый ризонинг (имя таски new_reason):

  • файл new_reason.yaml
  • utils.py

@Alex-ast7 Alex-ast7 requested a review from mathamateur March 10, 2026 20:46
@mathamateur mathamateur requested a review from king-menin April 30, 2026 10:41
@mathamateur mathamateur added PRIVATE Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны. code: TO_CHECK Проверить корректность реализации задачи в LMEH. Запустить прогон. docs: TO_CHECK Проверить корректность документации и метаинформации по сету. dataset: TO_CHECK Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE). labels Apr 30, 2026
@king-menin2
Copy link
Copy Markdown
Collaborator

Обзор датасета new_reason

Источник: data/test.jsonl (локальная сборка из CSV).

Параметры скоринга в eval: полный текст задания как в doc_to_text — подстановка instruction.format(**inputs) (инструкция + вопрос + блок вариантов + суффикс «Ответ:»). Длины ниже считаются в символах Unicode для этой строки.

Число записей: 372


Распределение типов задач

Поле meta.categories.task_type (англоязычная категория типа рассуждения):

Тип задачи Кол-во Доля, %
Decompositional Reasoning 40 10.8
Cause-and-Effect Reasoning 39 10.5
Analogical Reasoning 35 9.4
Value Reasoning 32 8.6
Critical Thinking 31 8.3
Deductive Reasoning 31 8.3
Complex Reasoning 29 7.8
Metaphoric Inference 29 7.8
Case-based Reasoning 28 7.5
Fuzzy Logic 28 7.5
Inductive Reasoning 28 7.5
Abductive Reasoning 22 5.9

Всего уникальных типов: 12. Распределение по смыслу близко к равномерному (диапазон 22–40 на тип).


Распределение типов ответов

Нормализованное поле outputs: ответ в виде одной или нескольких кириллических букв, разделённых "; " (как после нормализации в пайплайне датасета).

По числу указанных букв в эталоне

Число букв в gold Кол-во Доля, %
0 (пустой эталон) 2 0.5
1 (один вариант) 315 84.7
2 45 12.1
3 7 1.9
4 2 0.5
5 1 0.3

Записи с пустым outputs: meta.id 188 и 305 — для скоринга (EM) они дадут нулевой вклад; имеет смысл проверить исходную разметку в CSV.

По типу фьюшота (колонка Few-Shots в CSV)

Поле meta.categories.fewshot_ref (буква набора эталонов А/Б/В/Г):

fewshot_ref Кол-во Доля, %
А 184 49.5
Б 110 29.6
В 63 16.9
Г 15 4.0

Распределение длин текста заданий

Сводка по длине строки instruction.format(**inputs) (символы):

Метрика Значение
Минимум 552
Максимум 5203
Среднее 1003.1
Медиана 857
Ст. откл. 469.7
90-й перцентиль ≈1476
95-й перцентиль ≈1959

Квартили (метод statistics.quantiles, (n=4)): Q1 ≈ 710, Q2 857, Q3 ≈ 1144.

Гистограмма (диапазоны в символах)

Диапазон длины Кол-во Доля, %
0–499 0 0
500–799 149 40.1
800–1099 121 32.5
1100–1499 68 18.3
1500+ 34 9.1

Заданий короче 500 символов нет; минимальная длина попадает в интервал 500–799.


Дополнительно: поле source_dataset

Распределение по meta.categories.source_dataset отражает конструкцию бенча (исходники А–И по 50 строк каждый, плюс дополнительные варианты):

source_dataset Кол-во
А - исходник 50
Б - инверсия 50
В - изменение количеств (цифр) 50
Г - изменение параметров (системы измерений, степеней измерения) 50
Д - изменение качества/наполнения (вместо яблок машинки) 50
З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности? 50
И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления) 50
Ж доп 9
Е доп 7
Ё доп 6

Оценка качества решения моделей

Источник сырых логов: архив results.zip (после распаковки — results/Qwen__Qwen3.5-35B-A3B/ и results/Qwen__Qwen3.5-9B/). Метрика совпадает с eval: Exact Match после нормализации ответа (utils._normalize_model_answer, как в process_results). Оценка на 372 примерах; 2 строки с пустым эталоном (outputs) дают EM = 0 у обеих моделей и исключены из разбиения «оба верны / оба неверны» ниже.

Сводка по моделям

Модель EM (доля верных) Верных Неверных
Qwen3.5-35B-A3B 0.5027 187 185
Qwen3.5-9B 0.4194 156 216

Большая модель стабильно выше на ~8.3 п.п. EM.

Согласованность ответов двух моделей

После нормализации буквенных ответов модели совпадают на 200 из 372 примеров (53.8%), расходятся на 172 (46.2%). Для бинарного «верно по EM» на примерах с непустым эталоном (n = 370): обе верны — 126, обе неверны — 153, только 35B верна — 61, только 9B верна — 30. Коэна κ (бинарное EM, все 372 примера) ≈ 0.511 — умеренное согласие: модели часто ошибаются по-разному, а не копируют друг друга.

Среди случаев, где обе модели промахнулись по эталону (n = 153), совпадает неверный нормализованный ответ в 73 случаях и различается в 80. Это означает, что примерно половина «совместных» ошибок — согласованный систематический промах (один и тот же неверный набор букв), вторая половина — разные гипотезы.

Выводы про ошибки

  • По task_type наиболее «жёсткими» для обеих моделей оказываются Metaphoric Inference и Decompositional Reasoning (самая высокая доля ошибок); относительно лучше получаются Value Reasoning и Complex Reasoning (ниже доля ошибок).
  • По source_dataset хуже всего для 35B варианты И (пошаговый ризонинг с нарушением порядка) и З (смена типа решения); для 9B заметно проседают Д (замена домена/наполнения), Б (инверсия) и А (исходник) — у малой модели ошибок больше почти на всех срезах.
  • По knowledge для обеих моделей выделяются Игра слов и Логика абсурда (мало примеров, но очень высокая доля ошибок); также высока ошибочность на Рассуждение и Алгоритмическое мышление у 35B; у 9B дополнительно сильный провал на Поиск подмены.

Ошибки по task_type

Qwen3.5-35B-A3B

task_type N Ошибок Ошибок, %
Decompositional Reasoning 40 25 62.5
Metaphoric Inference 29 22 75.9
Analogical Reasoning 35 21 60.0
Cause-and-Effect Reasoning 39 19 48.7
Critical Thinking 31 16 51.6
Deductive Reasoning 31 14 45.2
Fuzzy Logic 28 13 46.4
Inductive Reasoning 28 13 46.4
Case-based Reasoning 28 12 42.9
Abductive Reasoning 22 10 45.5
Complex Reasoning 29 10 34.5
Value Reasoning 32 10 31.2

Qwen3.5-9B

task_type N Ошибок Ошибок, %
Decompositional Reasoning 40 29 72.5
Metaphoric Inference 29 23 79.3
Critical Thinking 31 22 71.0
Case-based Reasoning 28 21 75.0
Cause-and-Effect Reasoning 39 20 51.3
Analogical Reasoning 35 18 51.4
Value Reasoning 32 16 50.0
Abductive Reasoning 22 15 68.2
Fuzzy Logic 28 15 53.6
Complex Reasoning 29 14 48.3
Deductive Reasoning 31 12 38.7
Inductive Reasoning 28 11 39.3

Ошибки по source_dataset

Qwen3.5-35B-A3B

source_dataset N Ошибок Ошибок, %
И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления) 50 32 64.0
З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности? 50 28 56.0
Б - инверсия 50 26 52.0
Д - изменение качества/наполнения (вместо яблок машинки) 50 26 52.0
А - исходник 50 23 46.0
В - изменение количеств (цифр) 50 21 42.0
Г - изменение параметров (системы измерений, степеней измерения) 50 19 38.0
Е доп 7 5 71.4
Ж доп 9 4 44.4
Ё доп 6 1 16.7

Qwen3.5-9B

source_dataset N Ошибок Ошибок, %
Д - изменение качества/наполнения (вместо яблок машинки) 50 34 68.0
Б - инверсия 50 32 64.0
А - исходник 50 31 62.0
И - пошаговый ризонинг (и нарушение порядка шагов и оснований деления) 50 31 62.0
З - изменение типа решения (с алгебраического на геометрическое) - чем отличается от кроссмодальности? 50 30 60.0
В - изменение количеств (цифр) 50 23 46.0
Г - изменение параметров (системы измерений, степеней измерения) 50 22 44.0
Ж доп 9 7 77.8
Е доп 7 5 71.4
Ё доп 6 1 16.7

Ошибки по knowledge

Qwen3.5-35B-A3B

knowledge N Ошибок Ошибок, %
Рассуждение 46 27 58.7
Очевидная логика 48 21 43.8
Алгоритмическое мышление 32 19 59.4
Оценка возможностей 53 19 35.8
Поиск подмены 35 18 51.4
Загадка 28 15 53.6
Арифметика под * 35 14 40.0
Ловушки мышления 25 13 52.0
Сообразительность 28 12 42.9
Данетки 21 11 52.4
Логика абсурда 14 10 71.4
Игра слов 7 6 85.7

Qwen3.5-9B

knowledge N Ошибок Ошибок, %
Оценка возможностей 53 28 52.8
Рассуждение 46 28 60.9
Очевидная логика 48 25 52.1
Поиск подмены 35 24 68.6
Алгоритмическое мышление 32 18 56.2
Сообразительность 28 17 60.7
Арифметика под * 35 15 42.9
Данетки 21 14 66.7
Загадка 28 14 50.0
Ловушки мышления 25 14 56.0
Логика абсурда 14 12 85.7
Игра слов 7 7 100.0

Критические (ошибки разметки)

Проблема Где
Пустой эталон outputs Записи с meta.id 188 и 305 — в CSV в колонке ответа пусто (;;;;;;… перед номером задания). Нужно восстановить буквы из первичной разметки.

Массовые огрехи шаблона инструкции (все 372 строк test.jsonl)

Один и тот же task_instruction из CSV:

  • Фрагмент «пропусков - и выберите» — двойной пробел перед «выберите».
  • После фразы «(и только эти буквы)» в конце инструкции стоит лишний пробел.

Тот же шаблон повторяется во всех эталонах в fewshots_by_type.json.

Двойной пробел только в тексте вопроса (не в общей инструкции)

После конца предложения (. ? !) встречается два пробела подряд — 10 записей: meta.id 1, 50, 51, 100, 258, 329, 330, 331, 363, 370.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

code: TO_CHECK Проверить корректность реализации задачи в LMEH. Запустить прогон. dataset: TO_CHECK Проверить формат и содержание сета на HF(PUBLIC)/ZIP или OBS(PRIVATE). docs: TO_CHECK Проверить корректность документации и метаинформации по сету. PRIVATE Приватный датасет. Вопросы загружены на HF и доступны пользователям, ответы недоступны.

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants