Skip to content

Stars-OC/thesis-creator

Repository files navigation

论文创作 Agent 系统

面向中国本科生的毕业论文全流程写作辅助系统

从选题到交稿,一句话搞定

License Python Claude Version

功能特性快速开始使用文档贡献指南


简介

论文创作 Agent 系统是一个基于 Claude Code 的毕业论文写作辅助工具。通过智能化的 10 步工作流,帮助本科生高效完成毕业论文创作,同时提供降重优化、AIGC 检测和文献真实性验证功能。

功能特性

特性 说明
🔄 全流程覆盖 从选题到交稿的端到端工作流
📉 降重优化 句式重构、同义替换、段落重组
🤖 AIGC 降低 场景化重写、自然承接、轻冗余控制和高密度句拆解,降低模板化与机械表达特征
🔗 自然承接语 压缩模板化连接词,允许“具体来说、换句话说、放到实际使用里看”等解释型转场
🪶 轻冗余控制 删除机械废话,保留少量“通常、往往、也会、在一定程度上”等缓冲词
🧩 高密度句拆解 将职责、流程、目标塞在一句内的内容拆成主干、动作和解释层
📚 成语适度使用 仅在非技术性总结或维护效果说明处少量使用,避免技术细节附近堆砌
🔍 本地检测 轻量级 AIGC 检测工具,快速预估检测率
📝 格式检查 自动检查论文结构规范性
💬 智能讨论 三轮深入讨论充分理解论文需求
🖼️ 图片生成 从图片需求清单生成 Mermaid、Graphviz、PlantUML 图表,并支持用户截图占位
📄 图片插入 Word 文档自动插入图片和图注
📚 文献验证 三源学术搜索 + DOI 验证 + 虚构文献自动替换 ⭐ NEW
⚙️ 配置化 YAML 配置文件,API Key / 日志 / 导出格式可配置 ⭐ NEW
📝 摘要生成 自动生成中英文摘要与关键词 ⭐ NEW
📊 文档导出 支持 Word/PDF 格式一键导出

AIGC 降低效果展示

改写示例

原文(检测率100%):

检索增强生成(Retrieval-Augmented Generation,RAG)技术的出现,为解决上述问题提供了有效方案。RAG通过将检索系统与大模型结合,使模型能够基于特定知识库生成回答,显著提升了回答的准确性和可靠性。 从实践角度看,中小企业在部署AI知识库时面临诸多挑战。商业化的企业级知识管理产品往往价格昂贵、部署复杂,难以满足中小企业的实际需求。开源方案虽然成本较低,但技术门槛高、集成难度大
。因此,设计一个技术成熟、部署灵活、成本可控的AI知识库系统,对推动中小企业数字化转型具有重要的实践意义。

国内外研究现状
知识管理领域的研究始于20世纪90年代。Nonaka于1995年提出的SECI知识创造模型,系统阐述了隐性知识与显性知识的转化过程,为后续研究奠定了理论基础[3]。进入21世纪后,随着互联网技术的发展
,知识管理系统的研究重心逐渐从理论框架转向技术实现。
在知识表示与存储方面,知识图谱(Knowledge Graph)技术成为研究热点。2012年,Google正式发布知识图谱项目,将其应用于搜索引擎优化。此后,Facebook、Amazon、Microsoft等科技公司相继推
出类似产品。知识图谱通过结构化的方式表示实体及其关系,使机器能够"理解"知识语义,为智能问答提供了有力支撑[4]。学者们围绕知识图谱的构建方法、存储优化、推理机制等展开了深入研究。Bo
rdes等人提出的TransE模型开创了知识图谱嵌入学习的先河,后续的TransH、TransR等模型进一步提升了表示学习的效果[5]。
在智能问答方面,早期的研究主要基于关键词匹配和模板填充。随着深度学习技术的发展,基于神经网络的问答系统逐渐成为主流。2017年,Vaswani等人提出的Transformer架构引发了自然语言处理领
域的范式变革[6]。基于Transformer的预训练模型,如BERT、GPT系列,在问答任务上取得了突破性进展。2022年,ChatGPT的发布更是将智能问答推向了新的高度。
RAG技术的提出解决了大模型在专业领域应用中的知识局限性问题。Lewis等人于2020年首次系统阐述了RAG框架,通过引入外部知识库增强模型的生成能力[7]。此后,众多学者对RAG进行了改进和优化。
Karpukhin等人提出的DPR(Dense Passage Retrieval)方法,利用双塔编码器实现高效的语义检索[8]。Gao等人探索了RAG在医疗、法律等专业领域的应用,验证了其在垂直场景的有效性[9]。
纵观国内外研究现状,知识库系统的发展呈现出以下特点:
其一,技术架构从单一存储向多元融合演进。现代知识库系统不仅支持结构化数据和非结构化文档的统一管理,还融合了向量检索、图数据库等新技术,实现了多模态知识的高效组织。
其二,智能化程度不断提升。从早期的关键词搜索到语义检索,从简单的问答对匹配到大模型驱动的智能对话,知识库系统的交互方式日益智能化。
其三,部署模式趋于灵活。云原生架构、微服务设计的普及,使得知识库系统能够根据企业规模和需求灵活部署,降低了中小企业的使用门槛。
然而,现有研究和产品仍存在一定不足:部分商业产品价格高昂,中小企业难以承受;开源项目技术门槛较高,需要较强的研发能力;现有系统在知识图谱自动化构建、多源知识融合等方面的能力有待
提升。本研究将在现有技术基础上,设计一个适合中小企业部署的轻量级AI知识库系统

研究内容
本文围绕AI知识库系统的设计与实现展开研究,主要内容包括:
(1)系统架构设计。研究适合中小企业部署的系统架构,采用前后端分离、微服务设计思想,确保系统的可扩展性和可维护性。
(2)核心技术实现。深入研究RAG架构、向量检索、知识图谱等核心技术,设计合理的实现方案。
(3)功能模块开发。实现用户管理、知识库管理、智能问答、知识图谱、系统配置等功能模块,满足企业的实际业务需求。
(4)系统测试与优化。对系统进行功能测试和性能测试,验证系统的正确性和稳定性。

改写后(人性化处理,检测率约 65.39%疑似): 检索增强生成(Retrieval-Augmented Generation,RAG)技术应运而生,为上述难题打开了突破口。RAG的核心思路是将检索系统与大模型"联姻"——模型生成回答前,先从特定知识库中检索相关信息。回答的 准确性和可靠性因此有了比较大的改善。

但实践层面,中小企业部署AI知识库并非一帆风顺。商业化产品动辄数十万,部署也颇为复杂;开源方案虽然免费,技术门槛却高不可攀,集成起来困难重重。这便是本研究的出发点:设计一个技术成熟、部 署灵活、成本可控的AI知识库系统,为中小企业数字化转型提供切实可行的路径。

国内外研究现状

知识管理研究起点可以追溯到20世纪90年代。Nonaka在1995年提出SECI模型,系统揭示了隐性知识与显性知识转化机制,后来者多有沿袭[3]。进入21世纪,互联网技术突飞猛进,研究重心也随之从理论框架 转向技术落地。

知识图谱的兴起是一个重要节点。2012年Google正式发布知识图谱项目后,Facebook、Amazon、Microsoft等科技巨头紧随其后。知识图谱用结构化方式表示实体及其关系,机器因此能够"理解"知识语义,智 能问答有了坚实根基[4]。围绕知识图谱的构建方法、存储优化、推理机制等,学者们展开了较为深入的研究。Bordes等人提出的TransE模型开创了知识图谱嵌入学习先河,后续的TransH、TransR等模型又将 表示学习效果推上新台阶[5]——这几篇论文在当时被引用得相当多。

智能问答的演进同样耐人寻味。早期方案依赖关键词匹配和模板填充,粗糙而僵化。深度学习入场后,基于神经网络问答系统逐渐成为主流。2017年是转折点——Vaswani等人提出的Transformer架构颠覆了自然 语言处理既有范式[6]。BERT、GPT等预训练模型相继涌现,问答任务取得长足进步。2022年ChatGPT发布,更是将智能问答推向公众视野中心。

RAG技术则在另一个维度上发力:它解决的是大模型在专业领域的知识短板。根据Lewis等人(2020)的阐述,RAG框架通过引入外部知识库来增强模型生成能力[7]。此后改进方案层出不穷:Karpukhin等人提 出DPR方法,用双塔编码器实现高效语义检索[8];Gao等人则在医疗、法律等领域验证了RAG实战价值[9]。

纵观研究现状,知识库系统演进呈现出几条清晰脉络。技术架构层面,从单一存储走向多元融合——现代知识库系统既能管理结构化数据,也能处理非结构化文档,向量检索、图数据库等技术引入让多模态知识 组织更加高效。智能化程度持续深化,交互方式也从关键词搜索升级为语义检索,从问答对匹配进化为大模型驱动智能对话。部署模式日趋灵活,云原生架构和微服务设计逐渐普及,中小企业可以根据自身规 模和需求灵活部署。

当然,现有研究和产品仍有短板。商业产品价格令人望而却步;开源项目对研发能力要求较高;知识图谱自动化构建、多源知识融合等能力也还有提升空间。本研究将在现有技术基础上,设计一个适合中小企 业部署的轻量级AI知识库系统。

研究内容

本文围绕AI知识库系统设计与实现展开研究,主要工作包括:

(1)系统架构设计。针对中小企业部署场景,采用前后端分离、微服务设计思想,兼顾可扩展性与可维护性。

(2)核心技术实现。围绕RAG架构、向量检索、知识图谱等关键技术,设计切实可行的实现方案。

(3)功能模块开发。完成用户管理、知识库管理、智能问答、知识图谱、系统配置等模块开发工作。

(4)系统测试与优化。开展功能测试和性能测试,验证系统正确性与稳定性。

策略应用说明

策略 应用前后对比
场景化重写 先判断段落功能,从真实使用场景切入,而不是只替换词语
自然承接语 压缩「此外、综上所述」等模板连接,保留“具体来说、换句话说”等解释型转场
轻冗余控制 保留少量“通常、往往、也会”等缓冲词,避免文本被压缩得过于生硬
高密度句拆解 将职责、动作、目标集中的长句拆成主干句、动作说明和解释层
条款结构保护 保留(1)(2)(3)等编号、标题和顺序,只改条款内部表达
学术边界 不新增虚构接口、表结构、实验指标或参考文献,避免口语化和宣传化

📌 AIGC检测率对比

AIGC检测率对比


⚠️ 重要提示

Warning

关于 AIGC 降低的客观认知

降低检测率的同时,文本可能会失去部分学术严谨性

  • 成语替换可能让学术表达显得稍显文学化
  • 「的」字删除需谨慎处理,过长定语保留可读性
  • 微瑕疵模拟不应影响核心论点的逻辑清晰
  • 不同学科对成语接受度不同,请参考学科适配表

建议:将降重视为辅助工具,最终内容需人工审核确保学术质量。


工作流程

┌─────────────────────────────────────────────────────────────┐
│                      论文创作工作流                           │
├─────────────────────────────────────────────────────────────┤
│  Step 0: 初始化工作区                                        │
│      ↓                                                       │
│  Step 1: 环境准备  →  Step 1.5: 背景信息讨论                  │
│      ↓                                                       │
│  Step 2: 读取参考资料  →  Step 3: 生成论文大纲                │
│      ↓                                                       │
│  Step 4: 分章节撰写(含摘要生成)→  Step 5: 降重处理           │
│      ↓                                                       │
│  Step 6: AIGC 人性化  →  Step 7: 合并检测                     │
│      ↓                                                       │
│  Step 8: 图片生成与渲染 🖼️                                   │
│      ↓                                                       │
│  Step 9: 文档导出(Word/PDF + 图片插入)                      │
└─────────────────────────────────────────────────────────────┘

各平台查重及 AIGC 检测结果

朱雀全文检测

朱雀全文检测展示


PaperPass检测

PaperPass检测展示


paperYY检测

paperYY检测展示


快速开始

前置要求

  • Python 3.9+
  • Claude Code 已安装
  • Windows 10/11

安装

方式一:Claude Skill 安装

# 自然语言安装
帮我安装下 skill,项目地址是:https://github.com/Stars-OC/thesis-creator.git

# 从 GitHub 安装
git clone https://github.com/Stars-OC/thesis-creator.git
将文件放入./claude-skills/skills/# 市场安装 (待进行)

方式二:OpenSkills 安装

使用 OpenSkills 包管理器安装:

# 安装 OpenSkills CLI(如未安装)
pip install openskills

# 或从 GitHub 安装
openskills install https://github.com/Stars-OC/thesis-creator.git
openskills sync

方式三:完整安装(推荐)

包含 Python 工具和依赖:

# 克隆仓库
git clone https://github.com/Stars-OC/thesis-creator.git
cd thesis-creator

# 安装 Python 依赖
.\scripts\install.ps1
手动安装 Python 依赖
# 创建虚拟环境
python -m venv .venv

# 激活虚拟环境
.\.venv\Scripts\Activate.ps1

# 安装依赖
pip install -r scripts\requirements.txt

使用

1. 准备参考资料

references/
├── templates/         # 学校论文格式模板
├── examples/          # 优秀范文
├── guidelines/        # 写作规范
├── prompt/
│   └── background.md  # 论文背景信息(必填)
└── reference/
    ├── code/          # 参考代码
    └── doc/           # 参考文献

2. 触发 Skill

在 Claude Code 中输入:

帮我写论文,主题是《大数据在精准营销中的应用研究》

系统将自动执行完整工作流。

单功能模式

触发语 功能 说明
帮我降重这段文字:… 降重优化 同义替换、句式重构
降低这段的 AIGC 率:… 人性化改写 输出处理前计划、改写文本和清单自检,按场景化重写、自然承接、轻冗余和高密度句拆解处理
用成语降重这段文字:… 成语替换改写 侧重成语替换策略
检测这段文字的 AIGC 率 AIGC 检测 调用 scripts/aigc/detect.py 本地快速预估
帮我生成论文大纲 大纲生成 根据背景信息生成
生成摘要 摘要生成 ⭐ 中英文摘要 + 关键词
生成图片 / 生成图表 / 生成架构图 图片生成 自动生成 Mermaid、Graphviz、PlantUML 图表
为第X章配图 图片生成 为指定章节生成图表
导出 Word / 导出文档 文档导出 Word + 图片插入
导出 PDF 文档导出 PDF 格式
一键导出 图片+文档 自动生成图片并导出 Word
验证文献 / 搜索文献 文献验证 ⭐ 三源搜索 + DOI 验证

AIGC 降低策略一览

策略层级 策略名称 说明 优先级
P0 场景化重写 先判断段落功能,从真实使用场景切入,避免只做词语替换 必做
P0 自然承接语 压缩“因此、此外、综上所述”等模板连接,允许“具体来说、换句话说、放到实际使用里看”等解释型转场 必做
P0 轻冗余控制 删除机械废话,保留少量“通常、往往、也会、在一定程度上”等缓冲词 必做
P0 高密度句拆解 对职责、流程、目标集中在一句内的内容按“抽主干 → 拆动作 → 补解释层”处理 必做
P0 条款结构保护 保留(1)(2)(3)等编号、标题和顺序,只改条款内部表达 必做
P1 句长波动 形成短句点题、长句解释、中句收束的节奏,避免句长过度均匀 建议
P1 原句骨架重组 语义接近前提下调整句序和段内组织,避免机械同义替换 建议
P2 成语适度使用 仅在非技术性总结或维护效果说明处少量使用,技术细节附近不堆砌 可选
P2 学术边界复核 检查是否未新增虚构接口、表结构、实验指标、参考文献或系统能力 必做

目录结构

thesis-creator/
├── SKILL.md                 # 主 Skill 定义
├── README.md                # 项目说明
├── LICENSE                  # MIT 许可证
├── CONTRIBUTING.md          # 贡献指南
├── .openskills.json         # OpenSkills 包配置
├── docs/                    # 文档
│   ├── usage_guide.md       #   使用指南
│   ├── ROADMAP.md           #   开发路线图
│   └── CHANGELOG.md         #   更新日志
├── prompts/                 # 提示词模板
│   ├── reference_citation_prompt.md  #   文献引用提示词 ⭐
│   └── image_generation.md          #   图片生成提示词 ⭐
├── scripts/                 # Python 工具
│   ├── INDEX.md             #   scripts 总索引
│   ├── aigc/                #   AIGC 检测与降 AIGC 子模块
│   │   ├── INDEX.md         #   AIGC 脚本索引
│   │   ├── detect.py        #   通用 AIGC 检测入口
│   │   ├── technical_detect.py # 技术论文 AIGC 检测入口
│   │   └── term_whitelist.txt  # 技术术语白名单
│   ├── aigc_detect.py       #   兼容入口(包装器)
│   ├── synonym_replace.py   #   同义词替换
│   ├── text_analysis.py     #   文本分析
│   ├── format_checker.py    #   格式检查
│   ├── charts/              #   图表生成渲染子系统
│   │   ├── INDEX.md         #   图表脚本索引
│   │   ├── manifest_builder.py  # 从正文占位符生成 images.yaml
│   │   ├── source_writer.py     # 准备并校验 dot/mmd/puml 源文件
│   │   ├── render.py            # 按 Mermaid/Graphviz/PlantUML 渲染 PNG
│   │   ├── markdown_updater.py  # 回填 Markdown 图片引用
│   │   └── validate.py          # 校验图表链路完整性
│   ├── references/          #   参考文献流程子模块
│   │   ├── INDEX.md         #   参考文献脚本索引
│   │   ├── reference_engine.py  # 多源搜索 + DOI验证 ⭐
│   │   ├── reference_validator.py # 参考文献验证(增强版) ⭐
│   │   ├── reference_searcher.py  # 文献搜索
│   │   └── verified_reference_pool.py # 已验证文献池 ⭐
│   ├── keyword_extractor.py       #   关键词提取器 ⭐
│   ├── document_exporter.py #   文档导出(含图片插入)
│   ├── merge_drafts.py      #   章节合并(支持大纲匹配)
│   └── logger.py            #   日志系统(可配置)
├── scripts/templates/       # 图表模板
│   ├── chart_themes.yaml    #   图表主题配置 ⭐
│   └── charts/              #   图表模板目录 ⭐
├── references/              # 参考资料
│   └── templates/
│       └── .thesis-config.yaml  #   项目配置文件 ⭐
├── workflows/               # 工作流文档 ⭐
│   ├── step_0_init.md       #   Step 0 初始化
│   ├── step_3_outline.md    #   Step 3 大纲生成
│   ├── step_4_writing.md    #   Step 4 撰写(含摘要)
│   ├── step_7_merge_detect.md   #   Step 7 合并检测
│   ├── step_8_image.md      #   Step 8 图片生成
│   ├── step_9_export.md     #   Step 9 文档导出
│   └── reference_workflow.md    #   文献搜索工作流
└── workspace/               # 论文产出
    ├── outline.md           #   论文大纲
    ├── drafts/              #   初稿
    ├── reduced/             #   降重版
    ├── history/             #   历史版本
    ├── final/               #   终稿
    │   ├── images/          #   论文图片
    │   ├── 论文终稿.md       #   Markdown 终稿
    │   ├── 论文终稿.docx    #   Word 终稿(含图片)
    │   └── 论文终稿.pdf     #   PDF 终稿

目标指标

指标 目标值
论文产出速度 3000 字 / 30 分钟
查重率 ≤ 30%
AIGC 检测率 ≤ 15%
排版合规率 符合学校模板

文档

文档 说明
使用指南 详细安装、配置和使用说明
开发路线图 项目功能规划
更新日志 版本更新记录
贡献指南 如何参与项目开发

注意事项

Warning

本地 AIGC 检测为近似估计,正式提交前建议使用知网/维普进行官方检测。 建议使用智谱模型的 GLM(GLM-5/GLM-5.1) 系列 其他模型可能生成的效果不太好(用 gpt-5.4 尝试过)

  • 版本控制:每次改写前自动备份到 workspace/history/
  • 术语保护:专业术语不会被降重工具打乱
  • 断点续传:支持任意步骤中断后恢复

测试指南

目前 只用于论文 初稿 的创建中,功能尚未完善 需要自己调整 排版

贡献

欢迎贡献代码、报告问题或提出建议!

请阅读 贡献指南 了解如何参与项目。

许可证

本项目基于 MIT License 开源。

致谢


⬆ 回到顶部

如果这个项目对你有帮助,请给一个 ⭐ Star 支持一下!

About

适用于 Claude Code / Agent 的论文写作 Skill (论文.SKILL)。涵盖论文内容、数据库ER图、整体流程图生成。针对本科论文进行aigc率降低、降重的优化,助力毕业设计高质量生成。

Topics

Resources

License

Contributing

Stars

Watchers

Forks

Packages

 
 
 

Contributors