Финальная задача DataCon'26 посвящена автоматической экстракции химических данных из научной литературы.
Химия — одна из наиболее насыщенных данными наук, однако большая часть экспериментальных результатов по-прежнему хранится в виде неструктурированного текста в PDF-статьях. Автоматическое извлечение структурированной информации из таких источников открывает путь к созданию баз данных химических соединений и разработке предсказательных моделей.
В основе задачи лежит бенчмарк ChemX — первый систематический бенчмарк для оценки систем извлечения информации из химических публикаций, созданный Центром ИИ в химии и опубликованный на NeurIPS 2025. Бенчмарк охватывает 10 датасетов по двум направлениям: малые молекулы и наноматериалы. Каждый датасет содержит тексты научных статей и соответствующие им структурированные аннотации с химическими свойствами соединений.
Участники должны разработать собственную систему экстракции, которая превзойдёт базовый подход single-agent, опубликованный в статье ChemX (NeurIPS 2025), и продемонстрировать её работу через веб-интерфейс.
Научная статья (PDF)
│
▼
┌───────────────────┐
│ Предобработка │ парсинг PDF, извлечение текста / изображений
└────────┬──────────┘
│
▼
┌───────────────────┐
│ Экстракция │ LLM, fine-tuning, multi-agent, RAG,
│ │ классические NLP-методы или их комбинация
└────────┬──────────┘
│
▼
┌───────────────────┐
│ Оценка качества │ Precision, Recall, Macro-F1 по полям домена;
│ и сравнение с │ сопоставление с метриками single-agent
│ ChemX │ бейзлайна из статьи ChemX
└────────┬──────────┘
│
▼
┌───────────────────┐
│ Веб-интерфейс │ загрузка статьи → просмотр извлечённых данных
└───────────────────┘
Выбор технологий на каждом этапе полностью свободен.
Бенчмарк содержит 10 датасетов, разделённых на два направления.
Каждый датасет — это таблица, где одна строка соответствует одному извлечённому химическому объекту (соединению, наноматериалу или экспериментальному измерению) из конкретной научной статьи. Столбцы делятся на два типа:
- Химические поля — целевые значения, которые нужно извлечь: структура молекулы (SMILES), измеренные свойства (концентрации, размеры, активности и т. д.), условия эксперимента.
- Поля источника — откуда взяты данные: DOI статьи, номер страницы, раздел, тип источника (текст / таблица / рисунок).
Задача системы экстракции — по тексту статьи воспроизвести химические поля для каждого объекта. Поля источника в оценке не участвуют. Размер в таблицах ниже — количество строк (извлечённых объектов) в датасете.
Малые молекулы
| Датасет | Описание | Размер |
|---|---|---|
| EyeDrops | Проницаемость роговицы и липофильность препаратов для глазных капель | 163 |
| Benzimidazoles | Антибактериальная активность (MIC) производных бензимидазола | 1 720 |
| Oxazolidinones | Антибактериальная активность (pMIC) производных оксазолидинона | 2 920 |
| Co-crystals | Свойства фармацевтических сокристаллов (растворимость, фотостабильность) | 70 |
| Complexes | Металло-лигандные комплексы для радиофармацевтики | 907 |
Наноматериалы
| Датасет | Описание | Размер |
|---|---|---|
| Nanozymes | Наночастицы с ферментоподобной активностью (кинетика, условия реакции) | 1 140 |
| Synergy | Синергетический антимикробный эффект наночастиц и антибиотиков | 3 230 |
| Nanomag | Магнитные и биомедицинские свойства магнитных наночастиц | 2 580 |
| Cytotox | Цитотоксичность наночастиц (жизнеспособность клеток) | 5 480 |
| SelTox | Антимикробная активность и токсичность наночастиц серебра | 3 240 |
В статье ChemX для каждого домена опубликованы метрики подхода single-agent. Его архитектура:
- Предобработка PDF — библиотека
marker-pdfконвертирует статью в Markdown, сохраняя структуру документа: текст и таблицы переводятся в Markdown, для изображений генерируются локальные пути, которые вставляются на соответствующие позиции в документе. - Описание изображений — каждое извлечённое изображение обрабатывается моделью
gpt-4o-2024-11-20с помощью специального промпта для описания. Результат вставляется в Markdown внутри тегов<DESCRIPTION_FROM_IMAGE>, формируя файлdescribed.md. - Извлечение информации — итоговый
described.mdпередаётся моделиgpt-4.1-mini-2025-04-14, которая извлекает структурированные данные в формате датасета ChemX и сохраняет результат в CSV-файл.
Цель — превзойти метрики single-agent хотя бы на одном домене. За каждый дополнительный домен начисляются бонусные баллы.
| Домен | Направление | Macro-F1 (single-agent) |
|---|---|---|
| Benzimidazoles | Малые молекулы | 0.217 |
| Oxazolidinones | Малые молекулы | 0.491 |
| Co-crystals | Малые молекулы | 0.296 |
| Complexes | Малые молекулы | 0.290 |
| Nanozymes | Наноматериалы | 0.164 |
| Synergy | Наноматериалы | 0.080 |
| Nanomag | Наноматериалы | 0.034 |
| Cytotox | Наноматериалы | 0.182 |
| SelTox | Наноматериалы | 0.045 |
Подробные метрики (Precision, Recall, F1 по каждому полю) для каждого домена и каждой экстрагированной величины доступны в папке metrics/.
Качество экстракции оценивается по схеме ChemX:
- Precision, Recall, F1 для каждого поля записи
- Macro-F1 — усреднённый F1 по всем полям домена (основная метрика сравнения с бейзлайном)
- Система экстракции — любые технологии и подходы.
- Веб-интерфейс — приложение, позволяющее загрузить PDF-статью и получить извлечённые данные в табличном виде.
- Репозиторий — воспроизводимый код, инструкция по запуску (
README), зафиксированные зависимости. - Финальные метрики — значения Macro-F1 на тестовых данных ChemX с указанием домена(ов).
⚠️ Важно: значительная часть данных в статьях содержится не в тексте, а в таблицах, графиках и рисунках. Корректная обработка изображений — один из ключевых факторов качества экстракции.
| Критерий | Баллы | Описание |
|---|---|---|
| Качество экстракции | 40 | Macro-F1 на тестовых данных ChemX относительно single-agent бейзлайна |
| Веб-интерфейс | 20 | Наличие, корректность работы, удобство отображения результатов |
| Качество кода | 20 | Структура репозитория, читаемость, воспроизводимость запуска |
| README репозитория | 20 | Описание подхода и обоснование выбранных решений, анализ ошибок, финальные метрики, инструкция по установке и запуску |
| Итого | 100 |
За выход за рамки минимальных требований начисляются бонусные баллы:
| Бонус | Баллы |
|---|---|
| Каждый дополнительный домен сверх одного (макс. 8) | +5 за домен |
| Решение, работающее на обоих направлениях (малые молекулы + наноматериалы) | +10 |
| Ресурс | Ссылка |
|---|---|
| Датасеты ChemX (Hugging Face) | https://huggingface.co/collections/ai-chem/chemx |
| Код бенчмарка и бейзлайнов (GitHub) | https://github.com/ai-chem/ChemX |
| Статья ChemX (NeurIPS 2025) | https://proceedings.neurips.cc/paper_files/paper/2025/file/9e08a1db869a9646418e3371b24c6ae6-Paper-Datasets_and_Benchmarks_Track.pdf |
- Начните с одного домена — воспроизведите метрику бейзлайна, затем улучшайте.
- Изучите схему каждого датасета на Hugging Face: поля, типы данных, примеры значений — это определяет, что именно нужно извлекать.
- Веб-интерфейс можно реализовать минимальными средствами (Streamlit, Gradio), главное — корректная работа.
- Код экспериментов бейзлайна в репозитории ChemX (
LLM/) — полезная отправная точка для понимания входного формата и схемы оценки.
