DataCon'26 — Финальная задача

🧪 О проекте

Финальная задача DataCon'26 посвящена автоматической экстракции химических данных из научной литературы.

Химия — одна из наиболее насыщенных данными наук, однако большая часть экспериментальных результатов по-прежнему хранится в виде неструктурированного текста в PDF-статьях. Автоматическое извлечение структурированной информации из таких источников открывает путь к созданию баз данных химических соединений и разработке предсказательных моделей.

В основе задачи лежит бенчмарк ChemX — первый систематический бенчмарк для оценки систем извлечения информации из химических публикаций, созданный Центром ИИ в химии и опубликованный на NeurIPS 2025. Бенчмарк охватывает 10 датасетов по двум направлениям: малые молекулы и наноматериалы. Каждый датасет содержит тексты научных статей и соответствующие им структурированные аннотации с химическими свойствами соединений.

Участники должны разработать собственную систему экстракции, которая превзойдёт базовый подход single-agent, опубликованный в статье ChemX (NeurIPS 2025), и продемонстрировать её работу через веб-интерфейс.

⚙️ Пайплайн

  Научная статья (PDF)
          │
          ▼
  ┌───────────────────┐
  │   Предобработка   │  парсинг PDF, извлечение текста / изображений
  └────────┬──────────┘
           │
           ▼
  ┌───────────────────┐
  │    Экстракция     │  LLM, fine-tuning, multi-agent, RAG,
  │                   │  классические NLP-методы или их комбинация
  └────────┬──────────┘
           │
           ▼
  ┌───────────────────┐
  │  Оценка качества  │  Precision, Recall, Macro-F1 по полям домена;
  │  и сравнение с    │  сопоставление с метриками single-agent
  │  ChemX            │  бейзлайна из статьи ChemX
  └────────┬──────────┘
           │
           ▼
  ┌───────────────────┐
  │  Веб-интерфейс    │  загрузка статьи → просмотр извлечённых данных
  └───────────────────┘

Выбор технологий на каждом этапе полностью свободен.

📋 Описание задачи

Датасеты ChemX

Бенчмарк содержит 10 датасетов, разделённых на два направления.

Каждый датасет — это таблица, где одна строка соответствует одному извлечённому химическому объекту (соединению, наноматериалу или экспериментальному измерению) из конкретной научной статьи. Столбцы делятся на два типа:

Химические поля — целевые значения, которые нужно извлечь: структура молекулы (SMILES), измеренные свойства (концентрации, размеры, активности и т. д.), условия эксперимента.
Поля источника — откуда взяты данные: DOI статьи, номер страницы, раздел, тип источника (текст / таблица / рисунок).

Задача системы экстракции — по тексту статьи воспроизвести химические поля для каждого объекта. Поля источника в оценке не участвуют. Размер в таблицах ниже — количество строк (извлечённых объектов) в датасете.

Малые молекулы

Датасет	Описание	Размер
EyeDrops	Проницаемость роговицы и липофильность препаратов для глазных капель	163
Benzimidazoles	Антибактериальная активность (MIC) производных бензимидазола	1 720
Oxazolidinones	Антибактериальная активность (pMIC) производных оксазолидинона	2 920
Co-crystals	Свойства фармацевтических сокристаллов (растворимость, фотостабильность)	70
Complexes	Металло-лигандные комплексы для радиофармацевтики	907

Наноматериалы

Датасет	Описание	Размер
Nanozymes	Наночастицы с ферментоподобной активностью (кинетика, условия реакции)	1 140
Synergy	Синергетический антимикробный эффект наночастиц и антибиотиков	3 230
Nanomag	Магнитные и биомедицинские свойства магнитных наночастиц	2 580
Cytotox	Цитотоксичность наночастиц (жизнеспособность клеток)	5 480
SelTox	Антимикробная активность и токсичность наночастиц серебра	3 240

Бейзлайн

В статье ChemX для каждого домена опубликованы метрики подхода single-agent. Его архитектура:

Предобработка PDF — библиотека marker-pdf конвертирует статью в Markdown, сохраняя структуру документа: текст и таблицы переводятся в Markdown, для изображений генерируются локальные пути, которые вставляются на соответствующие позиции в документе.
Описание изображений — каждое извлечённое изображение обрабатывается моделью gpt-4o-2024-11-20 с помощью специального промпта для описания. Результат вставляется в Markdown внутри тегов <DESCRIPTION_FROM_IMAGE>, формируя файл described.md.
Извлечение информации — итоговый described.md передаётся модели gpt-4.1-mini-2025-04-14, которая извлекает структурированные данные в формате датасета ChemX и сохраняет результат в CSV-файл.

Цель — превзойти метрики single-agent хотя бы на одном домене. За каждый дополнительный домен начисляются бонусные баллы.

Домен	Направление	Macro-F1 (single-agent)
Benzimidazoles	Малые молекулы	0.217
Oxazolidinones	Малые молекулы	0.491
Co-crystals	Малые молекулы	0.296
Complexes	Малые молекулы	0.290
Nanozymes	Наноматериалы	0.164
Synergy	Наноматериалы	0.080
Nanomag	Наноматериалы	0.034
Cytotox	Наноматериалы	0.182
SelTox	Наноматериалы	0.045

Подробные метрики (Precision, Recall, F1 по каждому полю) для каждого домена и каждой экстрагированной величины доступны в папке metrics/.

Метрика оценки

Качество экстракции оценивается по схеме ChemX:

Precision, Recall, F1 для каждого поля записи
Macro-F1 — усреднённый F1 по всем полям домена (основная метрика сравнения с бейзлайном)

Требования к решению

Система экстракции — любые технологии и подходы.
Веб-интерфейс — приложение, позволяющее загрузить PDF-статью и получить извлечённые данные в табличном виде.
Репозиторий — воспроизводимый код, инструкция по запуску (README), зафиксированные зависимости.
Финальные метрики — значения Macro-F1 на тестовых данных ChemX с указанием домена(ов).

⚠️ Важно: значительная часть данных в статьях содержится не в тексте, а в таблицах, графиках и рисунках. Корректная обработка изображений — один из ключевых факторов качества экстракции.

🏆 Критерии оценивания

Критерий	Баллы	Описание
Качество экстракции	40	Macro-F1 на тестовых данных ChemX относительно single-agent бейзлайна
Веб-интерфейс	20	Наличие, корректность работы, удобство отображения результатов
Качество кода	20	Структура репозитория, читаемость, воспроизводимость запуска
README репозитория	20	Описание подхода и обоснование выбранных решений, анализ ошибок, финальные метрики, инструкция по установке и запуску
Итого	100

Дополнительные баллы

За выход за рамки минимальных требований начисляются бонусные баллы:

Бонус	Баллы
Каждый дополнительный домен сверх одного (макс. 8)	+5 за домен
Решение, работающее на обоих направлениях (малые молекулы + наноматериалы)	+10

🔗 Полезная информация

Ресурсы

Ресурс	Ссылка
Датасеты ChemX (Hugging Face)	https://huggingface.co/collections/ai-chem/chemx
Код бенчмарка и бейзлайнов (GitHub)	https://github.com/ai-chem/ChemX
Статья ChemX (NeurIPS 2025)	https://proceedings.neurips.cc/paper_files/paper/2025/file/9e08a1db869a9646418e3371b24c6ae6-Paper-Datasets_and_Benchmarks_Track.pdf

Советы

Начните с одного домена — воспроизведите метрику бейзлайна, затем улучшайте.
Изучите схему каждого датасета на Hugging Face: поля, типы данных, примеры значений — это определяет, что именно нужно извлекать.
Веб-интерфейс можно реализовать минимальными средствами (Streamlit, Gradio), главное — корректная работа.
Код экспериментов бейзлайна в репозитории ChemX (LLM/) — полезная отправная точка для понимания входного формата и схемы оценки.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
metrics		metrics
README.md		README.md
im1.jpg		im1.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataCon'26 — Финальная задача

🧪 О проекте

⚙️ Пайплайн

📋 Описание задачи

Датасеты ChemX

Бейзлайн

Метрика оценки

Требования к решению

🏆 Критерии оценивания

Дополнительные баллы

🔗 Полезная информация

Ресурсы

Советы

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

DataCon'26 — Финальная задача

🧪 О проекте

⚙️ Пайплайн

📋 Описание задачи

Датасеты ChemX

Бейзлайн

Метрика оценки

Требования к решению

🏆 Критерии оценивания

Дополнительные баллы

🔗 Полезная информация

Ресурсы

Советы

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages