Skip to content

lsgggggg/Excel-Standardizer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🧹 Excel Standardizer

Excel 数据标准化清洗工具 — 100+ 智能规则,安全两阶段处理

上传 Excel → 自动扫描全部单元格 → 生成变更提案 → 逐条审核确认 → 导出标准化文件
12 大类 100+ 条标准化规则 · 先扫描后应用 · 宁可漏改不可误改 · 公式永远不动


✨ 为什么需要 Excel Standardizer?

你的 Excel 数据中是否存在这些问题?

  • 🔤 全角半角混用:Hello vs Hello123 vs 123
  • 🀄 繁简体不统一:國際貿易 vs 国际贸易
  • 📅 日期格式五花八门:2024/01/152024-1-15Jan 15, 2024
  • 📞 电话号码格式混乱:13800138000138-0013-8000+86 138 0013 8000
  • 🏢 公司名称不统一:有限责任公司 vs 有限公司() vs ()
  • 📝 多余空格、不可见字符、零宽字符
  • 🔢 数值格式不一致:(1,234.56) vs -1234.56

手动清洗?几千行数据能让你清洗到怀疑人生。

Excel Standardizer 用 100+ 条智能规则帮你一键搞定,而且绝对安全:

核心优势 说明
🛡️ 两阶段处理 第一阶段:扫描生成变更提案;第二阶段:你逐条审核后才应用
📊 原始文件预览 点击任意变更条目,右侧实时展示该单元格在原始 Excel 中的上下文位置
🎯 智能列类型推断 自动识别电话列、日期列、金额列等,对症下药
✏️ 自定义修改 不满意系统建议?可直接编辑为你想要的值
📋 完整变更日志 导出详细的变更记录 Excel,每一处修改都有迹可循
安全分级 每条规则标注安全/中等/危险等级,一键切换「仅安全模式」
🔒 公式绝不触碰 所有公式单元格自动跳过,格式样式不受影响

📋 12 大类标准化规则一览

类别 覆盖内容
一、字符编码与不可见字符 全角→半角、Unicode 标准化、零宽字符清除、BOM 移除
二、大小写标准化 首字母大写、全部大/小写、驼峰转换
三、中文相关标准化 繁→简转换、中文标点规范
四、标点符号与特殊字符 波浪线、省略号、引号、破折号统一
五、数字与数值标准化 千分位、百分号、负数括号格式统一
六、日期与时间标准化 多格式统一为标准 YYYY-MM-DD
七、公司/机构名称标准化 有限公司统一、括号标准化、后缀规范化
八、通用文本标准化 空格清理、邮箱规范化、URL 统一
九、电话号码与证件号 格式统一、区号补全
十、Excel 格式与样式 表头清洗、空行清理
十一、数据结构与完整性 表头去重、格式对齐
十二、地址与地理信息 地址格式标准化

🖥️ 界面预览

运行后自动打开浏览器,左侧导航栏引导你完成全流程:

📂 上传文件 → 支持 .xlsx / .xlsm,显示工作表列表
⚙️ 规则设置 → 按类别浏览 100+ 条规则,一键开关,支持搜索
🔍 扫描分析 → 扫描所有单元格,统计变更数、列类型推断
👁️ 审核变更 → 左右分栏:左侧变更列表 + 右侧 Excel 原始预览
✅ 导出结果 → 下载标准化文件 + 变更日志


🚀 快速开始

1. 环境要求

  • Python 3.8+(推荐 3.10+)
  • 操作系统:Windows / macOS / Linux 均可

2. 安装

# 克隆项目
git clone https://github.com/你的用户名/Excel-Standardizer.git
cd Excel-Standardizer

# 安装依赖
pip install flask openpyxl

3. 运行

python app.py

程序将自动在浏览器中打开 http://localhost:5001 ,按界面提示操作即可。

💡 也可以直接运行 python excel_standardizer.py 使用命令行版本,功能完全相同。


📁 项目结构

Excel-Standardizer/
├── app.py                    # Flask 网页应用(运行此文件即可)
├── excel_standardizer.py     # 核心标准化引擎(纯后端,也可独立运行)
├── TestFile.xlsx             # 测试用 Excel 文件
└── README.md                 # 本文件

📝 使用提示

  • 首次使用? 项目内附带了 TestFile.xlsx 测试文件,包含各种常见的脏数据场景,可直接体验
  • 不确定规则? 建议先点击「🛡️ 仅安全」按钮,仅启用安全等级规则,风险最低
  • 核心原则:宁可漏改,不可误改 — 所有变更都需要你确认后才会生效
  • 输入文件建议: 确保 Excel 文件没有隐藏行、隐藏文字或折叠分组,否则可能影响分析结果(程序不会修改原始文件,可放心尝试)

⚠️ 注意事项

  • 程序不会覆盖你的原始 Excel 文件,标准化结果保存为新文件(文件名带 _标准化 后缀)
  • 所有公式单元格自动跳过,绝不修改
  • 完全离线运行,无需网络连接,无需 API Key,完全免费

📄 License

本项目基于 MIT License 开源,欢迎自由使用和二次开发。

About

🧹 Excel 数据标准化清洗工具 | 100+智能规则 · 两阶段安全处理 · 公式不动 · 逐条审核 · 变更日志导出

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages