diff --git a/docs/zh/part1/ch03_data_stack.md b/docs/zh/part1/ch03_data_stack.md index 515e368b..b36e0dc2 100644 --- a/docs/zh/part1/ch03_data_stack.md +++ b/docs/zh/part1/ch03_data_stack.md @@ -320,7 +320,7 @@ $$\text{数据工程 ROI} = \frac{\Delta\text{模型性能} \times \text{模型 **第七篇(RAG 应用数据工程)**中知识库的实时更新管线,依赖本章§3.2.3 中向量数据库选型(Milvus/Qdrant)的方案来承载向量索引,同时依赖本章§3.2.5 的合规审计能力确保进入知识库的文档不存在版权风险。 -**第八篇(DataOps 平台建设)**是本章的"升维扩展版":第8章将在本章五层架构的基础上,深入探讨如何构建数据管线的端到端可观测性系统、如何实现数据资产的自动化治理,以及如何将本章讨论的质量评分卡与 CI/CD 流水线深度集成,最终让整个数据平台从"手工作坊"升级为"智能数据工厂"。 +**第八篇(DataOps 平台建设)**是本章的"升维扩展版":第24~26章将在本章五层架构的基础上,深入探讨如何构建数据管线的端到端可观测性系统、如何实现数据资产的自动化治理,以及如何将本章讨论的质量评分卡与 CI/CD 流水线深度集成,最终让整个数据平台从"手工作坊"升级为"智能数据工厂"。 关于能力边界的核心原则:**凡是多个项目或多个数据阶段共同需要的能力,应当平台化**(如去重算子库、质量评分卡框架、数据版本管理);**凡是与特定业务场景高度定制的能力,应当项目化**(如某个垂直领域的实体识别规则、某个特定数据源的解析逻辑)。平台化的边界不是越大越好。过度抽象会降低具体项目的迭代效率,使项目团队被迫适应平台接口,而不是让平台服务于实际需求。 diff --git a/docs/zh/part12/ch40_multi_chart_infographic_reasoning_dataset.md b/docs/zh/part12/ch40_multi_chart_infographic_reasoning_dataset.md index 84c72058..be20ee42 100644 --- a/docs/zh/part12/ch40_multi_chart_infographic_reasoning_dataset.md +++ b/docs/zh/part12/ch40_multi_chart_infographic_reasoning_dataset.md @@ -51,13 +51,13 @@ ### 40.2.3 子图表全类型清单与布局特征 -数据集内嵌子图摒弃单一柱状、折线局限,囊括22 种业界主流可视化图表样式,完整清单:圆环图、饼图、径向图、径向条形图、气泡图、表格图、色块图、卡片指标图、排名卡片图、排行榜图、地图热力图、树形图、层级矩形树图、普通柱状图、3D 柱状图、堆叠柱状图、分组柱状图、甘特图、折线图、时间轴图、散点图、象形统计图、和弦图。 +数据集内嵌子图摒弃单一柱状、折线局限,囊括23 种业界主流可视化图表样式,完整清单:圆环图、饼图、径向图、径向条形图、气泡图、表格图、色块图、卡片指标图、排名卡片图、排行榜图、地图热力图、树形图、层级矩形树图、普通柱状图、3D 柱状图、堆叠柱状图、分组柱状图、甘特图、折线图、时间轴图、散点图、象形统计图、和弦图。 单张复合信息图内部采用随机组合排布逻辑:无固定子图搭配规则,创作者原生排版是什么组合,数据集即保留什么组合,出现 “地图 + 表格 + 堆叠柱状 + 象形图”“饼图 + 排名卡片 + 折线时序图” 等任意混搭形式,也是跨图表聚合任务的天然来源。不同图表数据存储逻辑差异化:表格以行列结构化存储数值、地图依托地理分区标注指标、象形图以图标数量表征统计量、时序折线按年份排布变化数据,模型需要适配多格式数据读取规则,再跨格式汇总数据。 ![](../../images/part12/ch40_chart.png) -### 40.2.3 子问题全题型清单与组合特征 +### 40.2.4 子问题全题型清单与组合特征 数据集配套子问题脱离单一抽取题型限制,囊括 13 类主流推理设问类型,完整清单:数值提取、类别识别、求和运算、均值计算、极值查找、数量统计、位次排序、占比求解、趋势分析、差值运算、异常识别、条件推理、视觉推理。 @@ -79,7 +79,7 @@ ![](../../images/part12/ch40_where_the_most_shark_attacks_occur_in_the_united_states_1.jpg) -案例原图为一张一体化科普信息图,内部被天然划分为三大独立子图分区,三个子图分属不同图表类型、不同统计口径、不同数据维度,同框排布、共用页面标题与侧边注释: +案例原图为一张一体化科普信息图,内部被天然划分为四大独立子图分区,四个子图分属不同图表类型、不同统计口径、不同数据维度,同框排布、共用页面标题与侧边注释: - 子图 A(Radial Chart):美国历史累计鲨鱼袭击县域排行榜;关键数据:沃卢西亚(佛罗里达州)累计 343 起,为全美县域极值。该子图用于回答极值类问题(子问题 1)。 - 子图 B(Map Chart):美国近 10 年各州鲨鱼袭击汇总统计;关键数据:佛罗里达州 242 起、夏威夷 71 起;支撑子问题 2、子问题 3 数值来源。 @@ -123,7 +123,7 @@ ## 40.4 数据集全流程构建流水线 -本数据集从原始素材到最终标注数据集落地分为五大标准化工序:原始信息图爬取筛选→多子图区域人工划分→链式问题分层设计→答案人工核验标注。全流程无自动生成图表,保障样本真实度,此外利用大模型自动生成问答,并依托人工完成校验。 +本数据集从原始素材到最终标注数据集落地分为四大标准化工序:原始信息图爬取筛选→多子图区域人工划分→链式问题分层设计→答案人工核验标注。全流程无自动生成图表,保障样本真实度,此外利用大模型自动生成问答,并依托人工完成校验。 ![](../../images/part12/ch40_pipeline.png) diff --git a/docs/zh/part13/ch47_vlm_data_recipes.md b/docs/zh/part13/ch47_vlm_data_recipes.md index c4a54e49..c8527447 100644 --- a/docs/zh/part13/ch47_vlm_data_recipes.md +++ b/docs/zh/part13/ch47_vlm_data_recipes.md @@ -24,7 +24,7 @@ VLM 数据配方;视觉语言模型;重描述;高分辨率训练;OCR-Ric 这个故事并不罕见,它几乎是过去三年里每一个认真组建多模态团队的必经之痛。它揭示了当今 VLM 工程的核心命题:**数据配方的精密程度,决定了模型智力的上限**。架构层面的创新已经趋于收敛,数据工程层面的差距,才是今天头部实验室与跟随者之间真正难以逾越的护城河。在 2024 到 2025 年的多模态大爆发周期中,真正拉开现代头部 VLM 差距的,早已不是模型架构的细微调整,而是**极度精细、甚至苛刻的多模态数据工程配方**。 > **前置知识与合规边界提示**: -> 本章专注于探讨针对具体 VLM 特化的“数据配方”与 Curriculum 调度差异。关于基础的图文对抓取、MinHash 去重流水线、基础 OCR 抽取,以及跨模态对齐的通用预处理(如 Resize/CenterCrop 等图像处理流),已经在 **Ch08(图文对)**、**Ch09(重标注与文档理解)**、**Ch10(视频与音频)** 与 **Ch11(跨模态对齐)** 中做了详尽铺垫。对于底层通用流水线,可先复习图47-1 的多模态数据工程全景。此外,任何涉及图像爬虫版权的溯源风险,请直接参阅 **Ch04 §4.4** 与 **Ch27(数据合规)**。本章只讲“配方”,不重复“造轮子”。 +> 本章专注于探讨针对具体 VLM 特化的“数据配方”与 Curriculum 调度差异。关于基础的图文对抓取、MinHash 去重流水线、基础 OCR 抽取,以及跨模态对齐的通用预处理(如 Resize/CenterCrop 等图像处理流),已经在 **Ch08(图文对)**、**Ch09(重标注与文档理解)**、**Ch10(视频与音频)** 与 **Ch11(跨模态对齐)** 中做了详尽铺垫。对于底层通用流水线,可先复习图47-1 的多模态数据工程全景。此外,任何涉及图像爬虫版权的溯源风险,请直接参阅 **Ch04 §4.4** 与 **Ch36(数据合规)**。本章只讲“配方”,不重复“造轮子”。 ![图47-1:多模态数据工程全景图](../../images/part11/8_1_multimodal_data_panorama.png) @@ -56,7 +56,7 @@ VLM 数据配方;视觉语言模型;重描述;高分辨率训练;OCR-Ric 这一阶段数据量剧减至百万甚至十万级别,核心目标是让模型学会"人类对话的调性"。数据来源包括:复杂逻辑推理题(Visual CoT)、视觉数学题解析(MathVista (Lu et al. 2023)、GeoQA、MathV360K)、GPT-4V 合成对话蒸馏、多轮交互对话,以及人类偏好反馈(RLHF/DPO)。 -SFT 阶段对数据质量的要求达到三个阶段之最。Qwen2.5-VL 的技术报告披露 [D],其 SFT 数据混合中,经人工审核的高质量样本占比超过 30%,LLM-as-Judge 自动评分低于 4.0/5.0 的样本会被直接丢弃。与此同时,InternVL3 的 SFT 数据集(约 1.2M 全开源)中,纯自然场景图文对已降至不足 10%,而 OCR-Rich、Grounding、Chart 等高密度类型合计超过 60% [D]——这个比例在三年前几乎是不可想象的。由于高质量数据极度稀缺,**合成(Synthesis)成为了该阶段的主旋律**,也是 §32.4 重点拆解的核心议题。 +SFT 阶段对数据质量的要求达到三个阶段之最。Qwen2.5-VL 的技术报告披露 [D],其 SFT 数据混合中,经人工审核的高质量样本占比超过 30%,LLM-as-Judge 自动评分低于 4.0/5.0 的样本会被直接丢弃。与此同时,InternVL3 的 SFT 数据集(约 1.2M 全开源)中,纯自然场景图文对已降至不足 10%,而 OCR-Rich、Grounding、Chart 等高密度类型合计超过 60% [D]——这个比例在三年前几乎是不可想象的。由于高质量数据极度稀缺,**合成(Synthesis)成为了该阶段的主旋律**,也是 §47.4 重点拆解的核心议题。 --- @@ -298,14 +298,14 @@ InternVL 团队为开源界立下了巨大的丰碑,他们不但开源了模 多模态 VLM 的崛起,表面上是视觉架构与语言架构的联姻,骨子里却是一场极其壮烈的数据治理战役。本章从一个真实的"配方翻车"事故出发,系统拆解了当今头部 VLM 数据配方的四个核心维度: -- **三阶段流水线**(§32.1):预训练-多任务对齐-SFT 三阶段对数据规模、质量、类型的要求完全不同,强行混用是最常见的失败根源; -- **横向对比趋势**(§32.2):从 Qwen2.5-VL、InternVL3、LLaVA-OneVision 到 MiniCPM-V,"Re-captioning 优先于 alt-text"、"Interleaved 数据比例决定推理深度"、"端侧精炼哲学"是三条可以直接落地的工程规律; -- **分辨率二分法**(§32.3):Native Resolution(Qwen路线)与 Dynamic Hi-Res(InternVL/LLaVA路线)之间没有绝对的优劣,只有与团队资源匹配的合理权衡; -- **合成数据工厂**(§32.4-§32.5):自蒸馏 Caption 重写流水线、OCR 强制注入、长视频动态变帧频策略,是三个可以直接复用的高价值工程模块。 +- **三阶段流水线**(§47.1):预训练-多任务对齐-SFT 三阶段对数据规模、质量、类型的要求完全不同,强行混用是最常见的失败根源; +- **横向对比趋势**(§47.2):从 Qwen2.5-VL、InternVL3、LLaVA-OneVision 到 MiniCPM-V,"Re-captioning 优先于 alt-text"、"Interleaved 数据比例决定推理深度"、"端侧精炼哲学"是三条可以直接落地的工程规律; +- **分辨率二分法**(§47.3):Native Resolution(Qwen路线)与 Dynamic Hi-Res(InternVL/LLaVA路线)之间没有绝对的优劣,只有与团队资源匹配的合理权衡; +- **合成数据工厂**(§47.4-§47.5):自蒸馏 Caption 重写流水线、OCR 强制注入、长视频动态变帧频策略,是三个可以直接复用的高价值工程模块。 -三个案例拆解(§32.6)提供了从"全开源复现"(InternVL3)、"脏数据提纯"(LAION-Recap)到"技术报告反推配方"(Qwen2.5-VL 长视频)的三条不同切入路径,分别对应不同资源禀赋和工程起点的团队。 +三个案例拆解(§47.6)提供了从"全开源复现"(InternVL3)、"脏数据提纯"(LAION-Recap)到"技术报告反推配方"(Qwen2.5-VL 长视频)的三条不同切入路径,分别对应不同资源禀赋和工程起点的团队。 -七条踩坑指南(§32.7)揭示了技术报告中普遍回避的工程细节,尤其是"适用边界"一节提醒读者:**最复杂的配方不一定是最适合的配方,始终以业务场景和团队资源约束为第一优先级**。 +七条踩坑指南(§47.7)揭示了技术报告中普遍回避的工程细节,尤其是"适用边界"一节提醒读者:**最复杂的配方不一定是最适合的配方,始终以业务场景和团队资源约束为第一优先级**。 当 VLM 通过本章所述的苛刻配方,掌握了对物理世界与二维平面的"看图理解"能力后,它也就具备了干涉物理世界的基础。在下一章 **Ch48:多模态生成模型数据工程** 中,我们将视野翻转,去探讨当模型不再只甘于做"观察者",而是试图拿起画笔去生成像素与视频时,数据配方又将如何翻天覆地地演化。