datascale-ai · yiyixhjiang · Jun 7, 2026
diff --git a/docs/zh/part1/ch03_data_stack.md b/docs/zh/part1/ch03_data_stack.md
@@ -320,7 +320,7 @@ $$\text{数据工程 ROI} = \frac{\Delta\text{模型性能} \times \text{模型
 
 **第七篇（RAG 应用数据工程）**中知识库的实时更新管线，依赖本章§3.2.3 中向量数据库选型（Milvus/Qdrant）的方案来承载向量索引，同时依赖本章§3.2.5 的合规审计能力确保进入知识库的文档不存在版权风险。
 
-**第八篇（DataOps 平台建设）**是本章的"升维扩展版"：第8章将在本章五层架构的基础上，深入探讨如何构建数据管线的端到端可观测性系统、如何实现数据资产的自动化治理，以及如何将本章讨论的质量评分卡与 CI/CD 流水线深度集成，最终让整个数据平台从"手工作坊"升级为"智能数据工厂"。
+**第八篇（DataOps 平台建设）**是本章的"升维扩展版"：第24～26章将在本章五层架构的基础上，深入探讨如何构建数据管线的端到端可观测性系统、如何实现数据资产的自动化治理，以及如何将本章讨论的质量评分卡与 CI/CD 流水线深度集成，最终让整个数据平台从"手工作坊"升级为"智能数据工厂"。
 
 关于能力边界的核心原则：**凡是多个项目或多个数据阶段共同需要的能力，应当平台化**（如去重算子库、质量评分卡框架、数据版本管理）；**凡是与特定业务场景高度定制的能力，应当项目化**（如某个垂直领域的实体识别规则、某个特定数据源的解析逻辑）。平台化的边界不是越大越好。过度抽象会降低具体项目的迭代效率，使项目团队被迫适应平台接口，而不是让平台服务于实际需求。
 

diff --git a/docs/zh/part12/ch40_multi_chart_infographic_reasoning_dataset.md b/docs/zh/part12/ch40_multi_chart_infographic_reasoning_dataset.md
@@ -51,13 +51,13 @@
 
 ### 40.2.3 子图表全类型清单与布局特征
 
-数据集内嵌子图摒弃单一柱状、折线局限，囊括22 种业界主流可视化图表样式，完整清单：圆环图、饼图、径向图、径向条形图、气泡图、表格图、色块图、卡片指标图、排名卡片图、排行榜图、地图热力图、树形图、层级矩形树图、普通柱状图、3D 柱状图、堆叠柱状图、分组柱状图、甘特图、折线图、时间轴图、散点图、象形统计图、和弦图。
+数据集内嵌子图摒弃单一柱状、折线局限，囊括23 种业界主流可视化图表样式，完整清单：圆环图、饼图、径向图、径向条形图、气泡图、表格图、色块图、卡片指标图、排名卡片图、排行榜图、地图热力图、树形图、层级矩形树图、普通柱状图、3D 柱状图、堆叠柱状图、分组柱状图、甘特图、折线图、时间轴图、散点图、象形统计图、和弦图。
 
 单张复合信息图内部采用随机组合排布逻辑：无固定子图搭配规则，创作者原生排版是什么组合，数据集即保留什么组合，出现 “地图 + 表格 + 堆叠柱状 + 象形图”“饼图 + 排名卡片 + 折线时序图” 等任意混搭形式，也是跨图表聚合任务的天然来源。不同图表数据存储逻辑差异化：表格以行列结构化存储数值、地图依托地理分区标注指标、象形图以图标数量表征统计量、时序折线按年份排布变化数据，模型需要适配多格式数据读取规则，再跨格式汇总数据。
 
 ![](../../images/part12/ch40_chart.png)
 
-### 40.2.3 子问题全题型清单与组合特征
+### 40.2.4 子问题全题型清单与组合特征
 
 数据集配套子问题脱离单一抽取题型限制，囊括 13 类主流推理设问类型，完整清单：数值提取、类别识别、求和运算、均值计算、极值查找、数量统计、位次排序、占比求解、趋势分析、差值运算、异常识别、条件推理、视觉推理。
 
@@ -79,7 +79,7 @@
 
 ![](../../images/part12/ch40_where_the_most_shark_attacks_occur_in_the_united_states_1.jpg)
 
-案例原图为一张一体化科普信息图，内部被天然划分为三大独立子图分区，三个子图分属不同图表类型、不同统计口径、不同数据维度，同框排布、共用页面标题与侧边注释：
+案例原图为一张一体化科普信息图，内部被天然划分为四大独立子图分区，四个子图分属不同图表类型、不同统计口径、不同数据维度，同框排布、共用页面标题与侧边注释：
 
 - 子图 A（Radial Chart）：美国历史累计鲨鱼袭击县域排行榜；关键数据：沃卢西亚（佛罗里达州）累计 343 起，为全美县域极值。该子图用于回答极值类问题（子问题 1）。
 - 子图 B（Map Chart）：美国近 10 年各州鲨鱼袭击汇总统计；关键数据：佛罗里达州 242 起、夏威夷 71 起；支撑子问题 2、子问题 3 数值来源。
@@ -123,7 +123,7 @@
 
 ## 40.4 数据集全流程构建流水线
 
-本数据集从原始素材到最终标注数据集落地分为五大标准化工序：原始信息图爬取筛选→多子图区域人工划分→链式问题分层设计→答案人工核验标注。全流程无自动生成图表，保障样本真实度，此外利用大模型自动生成问答，并依托人工完成校验。
+本数据集从原始素材到最终标注数据集落地分为四大标准化工序：原始信息图爬取筛选→多子图区域人工划分→链式问题分层设计→答案人工核验标注。全流程无自动生成图表，保障样本真实度，此外利用大模型自动生成问答，并依托人工完成校验。
 
 ![](../../images/part12/ch40_pipeline.png)
 

diff --git a/docs/zh/part13/ch47_vlm_data_recipes.md b/docs/zh/part13/ch47_vlm_data_recipes.md
@@ -24,7 +24,7 @@ VLM 数据配方；视觉语言模型；重描述；高分辨率训练；OCR-Ric
 这个故事并不罕见，它几乎是过去三年里每一个认真组建多模态团队的必经之痛。它揭示了当今 VLM 工程的核心命题：**数据配方的精密程度，决定了模型智力的上限**。架构层面的创新已经趋于收敛，数据工程层面的差距，才是今天头部实验室与跟随者之间真正难以逾越的护城河。在 2024 到 2025 年的多模态大爆发周期中，真正拉开现代头部 VLM 差距的，早已不是模型架构的细微调整，而是**极度精细、甚至苛刻的多模态数据工程配方**。
 
 > **前置知识与合规边界提示**：
-> 本章专注于探讨针对具体 VLM 特化的“数据配方”与 Curriculum 调度差异。关于基础的图文对抓取、MinHash 去重流水线、基础 OCR 抽取，以及跨模态对齐的通用预处理（如 Resize/CenterCrop 等图像处理流），已经在 **Ch08（图文对）**、**Ch09（重标注与文档理解）**、**Ch10（视频与音频）** 与 **Ch11（跨模态对齐）** 中做了详尽铺垫。对于底层通用流水线，可先复习图47-1 的多模态数据工程全景。此外，任何涉及图像爬虫版权的溯源风险，请直接参阅 **Ch04 §4.4** 与 **Ch27（数据合规）**。本章只讲“配方”，不重复“造轮子”。
+> 本章专注于探讨针对具体 VLM 特化的“数据配方”与 Curriculum 调度差异。关于基础的图文对抓取、MinHash 去重流水线、基础 OCR 抽取，以及跨模态对齐的通用预处理（如 Resize/CenterCrop 等图像处理流），已经在 **Ch08（图文对）**、**Ch09（重标注与文档理解）**、**Ch10（视频与音频）** 与 **Ch11（跨模态对齐）** 中做了详尽铺垫。对于底层通用流水线，可先复习图47-1 的多模态数据工程全景。此外，任何涉及图像爬虫版权的溯源风险，请直接参阅 **Ch04 §4.4** 与 **Ch36（数据合规）**。本章只讲“配方”，不重复“造轮子”。
 
 ![图47-1：多模态数据工程全景图](../../images/part11/8_1_multimodal_data_panorama.png)
 
@@ -56,7 +56,7 @@ VLM 数据配方；视觉语言模型；重描述；高分辨率训练；OCR-Ric
 
 这一阶段数据量剧减至百万甚至十万级别，核心目标是让模型学会"人类对话的调性"。数据来源包括：复杂逻辑推理题（Visual CoT）、视觉数学题解析（MathVista (Lu et al. 2023)、GeoQA、MathV360K）、GPT-4V 合成对话蒸馏、多轮交互对话，以及人类偏好反馈（RLHF/DPO）。
 
-SFT 阶段对数据质量的要求达到三个阶段之最。Qwen2.5-VL 的技术报告披露 [D]，其 SFT 数据混合中，经人工审核的高质量样本占比超过 30%，LLM-as-Judge 自动评分低于 4.0/5.0 的样本会被直接丢弃。与此同时，InternVL3 的 SFT 数据集（约 1.2M 全开源）中，纯自然场景图文对已降至不足 10%，而 OCR-Rich、Grounding、Chart 等高密度类型合计超过 60% [D]——这个比例在三年前几乎是不可想象的。由于高质量数据极度稀缺，**合成（Synthesis）成为了该阶段的主旋律**，也是 §32.4 重点拆解的核心议题。
+SFT 阶段对数据质量的要求达到三个阶段之最。Qwen2.5-VL 的技术报告披露 [D]，其 SFT 数据混合中，经人工审核的高质量样本占比超过 30%，LLM-as-Judge 自动评分低于 4.0/5.0 的样本会被直接丢弃。与此同时，InternVL3 的 SFT 数据集（约 1.2M 全开源）中，纯自然场景图文对已降至不足 10%，而 OCR-Rich、Grounding、Chart 等高密度类型合计超过 60% [D]——这个比例在三年前几乎是不可想象的。由于高质量数据极度稀缺，**合成（Synthesis）成为了该阶段的主旋律**，也是 §47.4 重点拆解的核心议题。
 
 ---
 
@@ -298,14 +298,14 @@ InternVL 团队为开源界立下了巨大的丰碑，他们不但开源了模
 
 多模态 VLM 的崛起，表面上是视觉架构与语言架构的联姻，骨子里却是一场极其壮烈的数据治理战役。本章从一个真实的"配方翻车"事故出发，系统拆解了当今头部 VLM 数据配方的四个核心维度：
 
-- **三阶段流水线**（§32.1）：预训练-多任务对齐-SFT 三阶段对数据规模、质量、类型的要求完全不同，强行混用是最常见的失败根源；
-- **横向对比趋势**（§32.2）：从 Qwen2.5-VL、InternVL3、LLaVA-OneVision 到 MiniCPM-V，"Re-captioning 优先于 alt-text"、"Interleaved 数据比例决定推理深度"、"端侧精炼哲学"是三条可以直接落地的工程规律；
-- **分辨率二分法**（§32.3）：Native Resolution（Qwen路线）与 Dynamic Hi-Res（InternVL/LLaVA路线）之间没有绝对的优劣，只有与团队资源匹配的合理权衡；
-- **合成数据工厂**（§32.4-§32.5）：自蒸馏 Caption 重写流水线、OCR 强制注入、长视频动态变帧频策略，是三个可以直接复用的高价值工程模块。
+- **三阶段流水线**（§47.1）：预训练-多任务对齐-SFT 三阶段对数据规模、质量、类型的要求完全不同，强行混用是最常见的失败根源；
+- **横向对比趋势**（§47.2）：从 Qwen2.5-VL、InternVL3、LLaVA-OneVision 到 MiniCPM-V，"Re-captioning 优先于 alt-text"、"Interleaved 数据比例决定推理深度"、"端侧精炼哲学"是三条可以直接落地的工程规律；
+- **分辨率二分法**（§47.3）：Native Resolution（Qwen路线）与 Dynamic Hi-Res（InternVL/LLaVA路线）之间没有绝对的优劣，只有与团队资源匹配的合理权衡；
+- **合成数据工厂**（§47.4-§47.5）：自蒸馏 Caption 重写流水线、OCR 强制注入、长视频动态变帧频策略，是三个可以直接复用的高价值工程模块。
 
-三个案例拆解（§32.6）提供了从"全开源复现"（InternVL3）、"脏数据提纯"（LAION-Recap）到"技术报告反推配方"（Qwen2.5-VL 长视频）的三条不同切入路径，分别对应不同资源禀赋和工程起点的团队。
+三个案例拆解（§47.6）提供了从"全开源复现"（InternVL3）、"脏数据提纯"（LAION-Recap）到"技术报告反推配方"（Qwen2.5-VL 长视频）的三条不同切入路径，分别对应不同资源禀赋和工程起点的团队。
 
-七条踩坑指南（§32.7）揭示了技术报告中普遍回避的工程细节，尤其是"适用边界"一节提醒读者：**最复杂的配方不一定是最适合的配方，始终以业务场景和团队资源约束为第一优先级**。
+七条踩坑指南（§47.7）揭示了技术报告中普遍回避的工程细节，尤其是"适用边界"一节提醒读者：**最复杂的配方不一定是最适合的配方，始终以业务场景和团队资源约束为第一优先级**。
 
 当 VLM 通过本章所述的苛刻配方，掌握了对物理世界与二维平面的"看图理解"能力后，它也就具备了干涉物理世界的基础。在下一章 **Ch48：多模态生成模型数据工程** 中，我们将视野翻转，去探讨当模型不再只甘于做"观察者"，而是试图拿起画笔去生成像素与视频时，数据配方又将如何翻天覆地地演化。