Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion docs/zh/part1/ch03_data_stack.md
Original file line number Diff line number Diff line change
Expand Up @@ -320,7 +320,7 @@ $$\text{数据工程 ROI} = \frac{\Delta\text{模型性能} \times \text{模型

**第七篇(RAG 应用数据工程)**中知识库的实时更新管线,依赖本章§3.2.3 中向量数据库选型(Milvus/Qdrant)的方案来承载向量索引,同时依赖本章§3.2.5 的合规审计能力确保进入知识库的文档不存在版权风险。

**第八篇(DataOps 平台建设)**是本章的"升维扩展版":第8章将在本章五层架构的基础上,深入探讨如何构建数据管线的端到端可观测性系统、如何实现数据资产的自动化治理,以及如何将本章讨论的质量评分卡与 CI/CD 流水线深度集成,最终让整个数据平台从"手工作坊"升级为"智能数据工厂"。
**第八篇(DataOps 平台建设)**是本章的"升维扩展版":第24~26章将在本章五层架构的基础上,深入探讨如何构建数据管线的端到端可观测性系统、如何实现数据资产的自动化治理,以及如何将本章讨论的质量评分卡与 CI/CD 流水线深度集成,最终让整个数据平台从"手工作坊"升级为"智能数据工厂"。

关于能力边界的核心原则:**凡是多个项目或多个数据阶段共同需要的能力,应当平台化**(如去重算子库、质量评分卡框架、数据版本管理);**凡是与特定业务场景高度定制的能力,应当项目化**(如某个垂直领域的实体识别规则、某个特定数据源的解析逻辑)。平台化的边界不是越大越好。过度抽象会降低具体项目的迭代效率,使项目团队被迫适应平台接口,而不是让平台服务于实际需求。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -51,13 +51,13 @@

### 40.2.3 子图表全类型清单与布局特征

数据集内嵌子图摒弃单一柱状、折线局限,囊括22 种业界主流可视化图表样式,完整清单:圆环图、饼图、径向图、径向条形图、气泡图、表格图、色块图、卡片指标图、排名卡片图、排行榜图、地图热力图、树形图、层级矩形树图、普通柱状图、3D 柱状图、堆叠柱状图、分组柱状图、甘特图、折线图、时间轴图、散点图、象形统计图、和弦图。
数据集内嵌子图摒弃单一柱状、折线局限,囊括23 种业界主流可视化图表样式,完整清单:圆环图、饼图、径向图、径向条形图、气泡图、表格图、色块图、卡片指标图、排名卡片图、排行榜图、地图热力图、树形图、层级矩形树图、普通柱状图、3D 柱状图、堆叠柱状图、分组柱状图、甘特图、折线图、时间轴图、散点图、象形统计图、和弦图。

单张复合信息图内部采用随机组合排布逻辑:无固定子图搭配规则,创作者原生排版是什么组合,数据集即保留什么组合,出现 “地图 + 表格 + 堆叠柱状 + 象形图”“饼图 + 排名卡片 + 折线时序图” 等任意混搭形式,也是跨图表聚合任务的天然来源。不同图表数据存储逻辑差异化:表格以行列结构化存储数值、地图依托地理分区标注指标、象形图以图标数量表征统计量、时序折线按年份排布变化数据,模型需要适配多格式数据读取规则,再跨格式汇总数据。

![](../../images/part12/ch40_chart.png)

### 40.2.3 子问题全题型清单与组合特征
### 40.2.4 子问题全题型清单与组合特征

数据集配套子问题脱离单一抽取题型限制,囊括 13 类主流推理设问类型,完整清单:数值提取、类别识别、求和运算、均值计算、极值查找、数量统计、位次排序、占比求解、趋势分析、差值运算、异常识别、条件推理、视觉推理。

Expand All @@ -79,7 +79,7 @@

![](../../images/part12/ch40_where_the_most_shark_attacks_occur_in_the_united_states_1.jpg)

案例原图为一张一体化科普信息图,内部被天然划分为三大独立子图分区,三个子图分属不同图表类型、不同统计口径、不同数据维度,同框排布、共用页面标题与侧边注释:
案例原图为一张一体化科普信息图,内部被天然划分为四大独立子图分区,四个子图分属不同图表类型、不同统计口径、不同数据维度,同框排布、共用页面标题与侧边注释:

- 子图 A(Radial Chart):美国历史累计鲨鱼袭击县域排行榜;关键数据:沃卢西亚(佛罗里达州)累计 343 起,为全美县域极值。该子图用于回答极值类问题(子问题 1)。
- 子图 B(Map Chart):美国近 10 年各州鲨鱼袭击汇总统计;关键数据:佛罗里达州 242 起、夏威夷 71 起;支撑子问题 2、子问题 3 数值来源。
Expand Down Expand Up @@ -123,7 +123,7 @@

## 40.4 数据集全流程构建流水线

本数据集从原始素材到最终标注数据集落地分为五大标准化工序:原始信息图爬取筛选→多子图区域人工划分→链式问题分层设计→答案人工核验标注。全流程无自动生成图表,保障样本真实度,此外利用大模型自动生成问答,并依托人工完成校验。
本数据集从原始素材到最终标注数据集落地分为四大标准化工序:原始信息图爬取筛选→多子图区域人工划分→链式问题分层设计→答案人工核验标注。全流程无自动生成图表,保障样本真实度,此外利用大模型自动生成问答,并依托人工完成校验。

![](../../images/part12/ch40_pipeline.png)

Expand Down
16 changes: 8 additions & 8 deletions docs/zh/part13/ch47_vlm_data_recipes.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,7 +24,7 @@ VLM 数据配方;视觉语言模型;重描述;高分辨率训练;OCR-Ric
这个故事并不罕见,它几乎是过去三年里每一个认真组建多模态团队的必经之痛。它揭示了当今 VLM 工程的核心命题:**数据配方的精密程度,决定了模型智力的上限**。架构层面的创新已经趋于收敛,数据工程层面的差距,才是今天头部实验室与跟随者之间真正难以逾越的护城河。在 2024 到 2025 年的多模态大爆发周期中,真正拉开现代头部 VLM 差距的,早已不是模型架构的细微调整,而是**极度精细、甚至苛刻的多模态数据工程配方**。

> **前置知识与合规边界提示**:
> 本章专注于探讨针对具体 VLM 特化的“数据配方”与 Curriculum 调度差异。关于基础的图文对抓取、MinHash 去重流水线、基础 OCR 抽取,以及跨模态对齐的通用预处理(如 Resize/CenterCrop 等图像处理流),已经在 **Ch08(图文对)**、**Ch09(重标注与文档理解)**、**Ch10(视频与音频)** 与 **Ch11(跨模态对齐)** 中做了详尽铺垫。对于底层通用流水线,可先复习图47-1 的多模态数据工程全景。此外,任何涉及图像爬虫版权的溯源风险,请直接参阅 **Ch04 §4.4** 与 **Ch27(数据合规)**。本章只讲“配方”,不重复“造轮子”。
> 本章专注于探讨针对具体 VLM 特化的“数据配方”与 Curriculum 调度差异。关于基础的图文对抓取、MinHash 去重流水线、基础 OCR 抽取,以及跨模态对齐的通用预处理(如 Resize/CenterCrop 等图像处理流),已经在 **Ch08(图文对)**、**Ch09(重标注与文档理解)**、**Ch10(视频与音频)** 与 **Ch11(跨模态对齐)** 中做了详尽铺垫。对于底层通用流水线,可先复习图47-1 的多模态数据工程全景。此外,任何涉及图像爬虫版权的溯源风险,请直接参阅 **Ch04 §4.4** 与 **Ch36(数据合规)**。本章只讲“配方”,不重复“造轮子”。

![图47-1:多模态数据工程全景图](../../images/part11/8_1_multimodal_data_panorama.png)

Expand Down Expand Up @@ -56,7 +56,7 @@ VLM 数据配方;视觉语言模型;重描述;高分辨率训练;OCR-Ric

这一阶段数据量剧减至百万甚至十万级别,核心目标是让模型学会"人类对话的调性"。数据来源包括:复杂逻辑推理题(Visual CoT)、视觉数学题解析(MathVista (Lu et al. 2023)、GeoQA、MathV360K)、GPT-4V 合成对话蒸馏、多轮交互对话,以及人类偏好反馈(RLHF/DPO)。

SFT 阶段对数据质量的要求达到三个阶段之最。Qwen2.5-VL 的技术报告披露 [D],其 SFT 数据混合中,经人工审核的高质量样本占比超过 30%,LLM-as-Judge 自动评分低于 4.0/5.0 的样本会被直接丢弃。与此同时,InternVL3 的 SFT 数据集(约 1.2M 全开源)中,纯自然场景图文对已降至不足 10%,而 OCR-Rich、Grounding、Chart 等高密度类型合计超过 60% [D]——这个比例在三年前几乎是不可想象的。由于高质量数据极度稀缺,**合成(Synthesis)成为了该阶段的主旋律**,也是 §32.4 重点拆解的核心议题。
SFT 阶段对数据质量的要求达到三个阶段之最。Qwen2.5-VL 的技术报告披露 [D],其 SFT 数据混合中,经人工审核的高质量样本占比超过 30%,LLM-as-Judge 自动评分低于 4.0/5.0 的样本会被直接丢弃。与此同时,InternVL3 的 SFT 数据集(约 1.2M 全开源)中,纯自然场景图文对已降至不足 10%,而 OCR-Rich、Grounding、Chart 等高密度类型合计超过 60% [D]——这个比例在三年前几乎是不可想象的。由于高质量数据极度稀缺,**合成(Synthesis)成为了该阶段的主旋律**,也是 §47.4 重点拆解的核心议题。

---

Expand Down Expand Up @@ -298,14 +298,14 @@ InternVL 团队为开源界立下了巨大的丰碑,他们不但开源了模

多模态 VLM 的崛起,表面上是视觉架构与语言架构的联姻,骨子里却是一场极其壮烈的数据治理战役。本章从一个真实的"配方翻车"事故出发,系统拆解了当今头部 VLM 数据配方的四个核心维度:

- **三阶段流水线**(§32.1):预训练-多任务对齐-SFT 三阶段对数据规模、质量、类型的要求完全不同,强行混用是最常见的失败根源;
- **横向对比趋势**(§32.2):从 Qwen2.5-VL、InternVL3、LLaVA-OneVision 到 MiniCPM-V,"Re-captioning 优先于 alt-text"、"Interleaved 数据比例决定推理深度"、"端侧精炼哲学"是三条可以直接落地的工程规律;
- **分辨率二分法**(§32.3):Native Resolution(Qwen路线)与 Dynamic Hi-Res(InternVL/LLaVA路线)之间没有绝对的优劣,只有与团队资源匹配的合理权衡;
- **合成数据工厂**(§32.4-§32.5):自蒸馏 Caption 重写流水线、OCR 强制注入、长视频动态变帧频策略,是三个可以直接复用的高价值工程模块。
- **三阶段流水线**(§47.1):预训练-多任务对齐-SFT 三阶段对数据规模、质量、类型的要求完全不同,强行混用是最常见的失败根源;
- **横向对比趋势**(§47.2):从 Qwen2.5-VL、InternVL3、LLaVA-OneVision 到 MiniCPM-V,"Re-captioning 优先于 alt-text"、"Interleaved 数据比例决定推理深度"、"端侧精炼哲学"是三条可以直接落地的工程规律;
- **分辨率二分法**(§47.3):Native Resolution(Qwen路线)与 Dynamic Hi-Res(InternVL/LLaVA路线)之间没有绝对的优劣,只有与团队资源匹配的合理权衡;
- **合成数据工厂**(§47.4-§47.5):自蒸馏 Caption 重写流水线、OCR 强制注入、长视频动态变帧频策略,是三个可以直接复用的高价值工程模块。

三个案例拆解(§32.6)提供了从"全开源复现"(InternVL3)、"脏数据提纯"(LAION-Recap)到"技术报告反推配方"(Qwen2.5-VL 长视频)的三条不同切入路径,分别对应不同资源禀赋和工程起点的团队。
三个案例拆解(§47.6)提供了从"全开源复现"(InternVL3)、"脏数据提纯"(LAION-Recap)到"技术报告反推配方"(Qwen2.5-VL 长视频)的三条不同切入路径,分别对应不同资源禀赋和工程起点的团队。

七条踩坑指南(§32.7)揭示了技术报告中普遍回避的工程细节,尤其是"适用边界"一节提醒读者:**最复杂的配方不一定是最适合的配方,始终以业务场景和团队资源约束为第一优先级**。
七条踩坑指南(§47.7)揭示了技术报告中普遍回避的工程细节,尤其是"适用边界"一节提醒读者:**最复杂的配方不一定是最适合的配方,始终以业务场景和团队资源约束为第一优先级**。

当 VLM 通过本章所述的苛刻配方,掌握了对物理世界与二维平面的"看图理解"能力后,它也就具备了干涉物理世界的基础。在下一章 **Ch48:多模态生成模型数据工程** 中,我们将视野翻转,去探讨当模型不再只甘于做"观察者",而是试图拿起画笔去生成像素与视频时,数据配方又将如何翻天覆地地演化。

Expand Down
Loading