Skip to content

Commit 914fc89

Browse files
committed
docs: upgrade Gemini version to 3.0 Flash and finalize project details
1 parent 0dc06d5 commit 914fc89

1 file changed

Lines changed: 47 additions & 0 deletions

File tree

Lines changed: 47 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,47 @@
1+
---
2+
title: Shanghai Dialect Exercises Digitization
3+
description: 1910年《上海方言练习》数字化项目:结合 Gemini 3.0 Flash 视觉识别与 JPEG XL 极致压缩的语言学文献保护实践。
4+
link: "https://github.com/Tinnci/shanghai-dialect-1910"
5+
tags: [Python, Digitization, JPEG XL, Linguistics, Gemini-3.0-Flash]
6+
status: completed
7+
featured: true
8+
---
9+
10+
## 项目背景 | Background
11+
12+
《上海方言练习》(*Shanghai Dialect Exercises in Romanized and Character*)由 D.H. Davis 编写,于1910年在上海土山湾印书馆出版。这部作品是老派上海话(尖团分明、保留入声)的活化石。
13+
14+
本项目旨在将这份公有领域(Public Domain)的珍贵文献,通过现代 AI 技术与前沿图像压缩技术,转化为一个结构化的、高性能的数字化档案。
15+
16+
## 数字化工作流 | Workflow
17+
18+
不同于简单的 PDF 转图片,我们采用了深度语义化的处理逻辑:
19+
20+
1. **原始提取 (Raw Extraction)**:
21+
* 使用 `PyMuPDF` 从原始 PDF 中直接提取 294 张嵌入的原始 JPEG 图像,确保不经过二次渲染的无损品质。
22+
2. **AI 识别与梳理 (AI-Powered Analysis)**:
23+
* **Gemini 3.0 Flash**: 核心识别引擎。利用其强大的长上下文与多模态能力,直接对提取的每一页图像进行 OCR 识别,并对晦涩的罗马字拼写与清末方言词汇进行归纳。
24+
* 项目索引 ([PAGE_INDEX.md](https://github.com/Tinnci/shanghai-dialect-1910/blob/main/digitized/PAGE_INDEX.md)) 的 3000 余行对话记录,见证了 AI 对 155 课内容的精细解析。
25+
3. **极致压缩 (JXL Optimization)**:
26+
* 引入 `JPEG XL (JXL)` 格式。在保留 150 DPI 高保真细节的前提下,将存储体积从 2.5 GB(PNG/JPEG 混杂)压缩至 **725 MB**
27+
28+
## 语言学亮点 | Linguistic Highlights
29+
30+
通过本项目,您可以方便地查阅 1910 年代地道的上海话表达:
31+
32+
* **社会生活**: 像 **“閒散閒散”** ('an-san 'an-san, 散步) 时的惬意,或是 **“勞力做生活”** (lau-lih tsoo sang-weh, 出苦力) 的艰辛。
33+
* **职业印记**: 记录了老上海特有的 **“包打聽”** (Pau-tang-thing, 侦探) 与 **“门差”** (Mung-tsha, 门警) 之间的职业对话。
34+
* **时代印记**: 文中甚至捕捉到了 1910 年 **“哈利掃帚星”** (Halley's Comet) 回归时引发的社会趣闻。
35+
36+
## 目录结构 | Structure (Johnny Decimal)
37+
38+
项目采用 **Johnny Decimal** 索引系统,不仅让文件有序,更让知识可索引:
39+
40+
* `10-19 Preliminary`: 封面、序言与详尽目录。
41+
* `20-29 Pronunciation Guide`: 核心发音指南(音标与声调)。
42+
* `30-39 Lessons`: 155 门精心分级的方言练习课。
43+
* `40-49 Appendices`: 包含英文索引与极其珍贵的四页勘误表(Errata)。
44+
45+
---
46+
47+
> **“光陰如箭,日月如梭”** —— 这一数字化副本让百年前的方言不再随风而逝。

0 commit comments

Comments
 (0)