Skip to content

AI-change-the-world/DocHive

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

103 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DocHive - 智能文档分类分级系统

基于大语言模型的智能文档管理平台

License Python React FastAPI

📋 项目简介

DocHive 是一个智能文档分类分级系统,通过大语言模型实现文档的自动分类、信息抽取、智能编号和全文检索。

核心思路

传统的 RAG(Retrieval-Augmented Generation) 实际上是一个相对粗糙的概念。在实践中,绝大多数文档类型(例如简历、报告、合同等)并不适合直接采用传统 RAG 进行处理。即便后续出现的 GraphRAG 等变体引入了"实体–关系"图的概念,也仅仅是在知识组织层面进行了扩展。对于缺乏显性实体的文档类型(如政策法规、技术规范、制度文件等),这些方法仍然难以解决检索性能差、上下文关联弱的问题。

在 2025 年 4 月,我提出过一个设想:将所有非结构化文档转化为结构化数据进行处理。 理由是:几乎所有类型的文档都围绕某种"关注对象"展开。只要能够准确抽取并索引这些关注信息,就可以在检索阶段快速锁定相关内容,从而显著提升 RAG 的准确性与响应效率。

接下来,我计划将这一"文档结构化"思路与 分类分级体系 相结合,以"结构化(或半结构化)文档"为核心,使文档具备更强的 可比性可检索性。这不仅能优化 RAG 的信息召回效果,也为构建可解释、可控的知识语义体系奠定基础。

核心功能

  • 🏷️ 自定义分类模板 - 支持多级分类层级设计
  • 📄 文档上传解析 - 支持 PDF、DOCX、TXT、Markdown 等多种格式
  • 🤖 智能分类引擎 - 基于 LLM 的文档自动分类
  • 🔍 信息抽取引擎 - 智能提取关键字段和结构化数据
  • 🔢 自动编号管理 - 规则化编号生成与索引
  • 🔎 多维度检索 - 支持全文检索、分类筛选、时间范围等

🏗️ 技术栈

后端

  • 框架: FastAPI
  • 数据库: SQLite/PostgreSQL/MySQL
  • 搜索引擎: Elasticsearch
  • 对象存储: MinIO
  • LLM: OpenAI/DeepSeek

前端

  • 框架: React + TypeScript
  • UI 库: Ant Design
  • 状态管理: Zustand
  • 构建工具: Vite

🚀 快速开始

使用 Docker Compose (推荐)

  1. 克隆项目代码:
git clone https://github.com/AI-change-the-world/DocHive.git
cd DocHive
  1. 进入 docker 目录并启动服务:
cd docker
docker-compose up -d
  1. 等待服务启动完成,访问以下地址:

开发环境启动

后端

cd backend
pip install -r requirements.txt
python run.py

前端

cd frontend
pnpm install
pnpm dev

📚 详细文档

有关项目的详细信息,请参阅以下文档:

🐱 一些截图

  • 知识库问答

    image

    • 自然语言转Agent

    image

  • 系统截图

    image image
    image image
    image image
    image image

✍🏻 TODO list

  • 需要支持长时记忆,现在智能体记忆是单个session有效,我想实现某些记忆长时间生效的功能(long term memory)
    • 现在大模型操作记录,只记录了问答内容,没记录哪个模块的,这个需要分清楚,后续可以作为agent调优数据
    • 现在工具,没有用户反馈机制,比如用户的一个query进来,最后会经过多个工具,但是每个工具都缺少用户反馈入口。有了这个反馈,可以基于long term memory再次对agent进行调优
  • 自然语言转agent需要支持goto,if-else逻辑(暂时没有想好怎么实现,loop不打算实现,因为简单的loop逻辑可以暂时创建新的工具实现,复杂的loop业务逻辑还需要先支持goto这样的逻辑再说。我觉得可以依然考虑用大模型规划的做法)

🤝 贡献

欢迎提交 Issue 和 Pull Request!

📄 许可证

TODO


⭐ 如果这个项目对您有帮助,请给一个 Star!

最后更新: 2025-11-17
版本: v1.2.0

About

一个文档分类检索系统,为了大模型知识库服务 WIP

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors