Skip to content

yitao2027/research-mate

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ResearchMate - 商业文章素材采集助手

License: MIT Python 3.9+ GitHub stars Release

为商业作者打造的智能化素材采集系统 —— 系统化采集高质量案例、数据、观点和竞品动态,建立结构化素材库,让深度写作有扎实的内容基础。

✨ v2.0 全新升级:新增交互式需求澄清、严格反幻觉验证、Word/PDF专业导出,让素材采集更精准、更可靠!


⚡ 零安装体验 — 悟空 / WorkBuddy / Cursor 直接对话触发

不想配置 Python 环境? 安装 Skill 后,在 AI 对话中说一句话即可启动完整采集流程,无需安装任何依赖。

安装方法(适用于悟空、WorkBuddy、Cursor 等支持 MCP 的 AI 工具)

在 AI 工具中选择「安装 Skill」,粘贴以下地址:

https://raw.githubusercontent.com/yitao2027/research-mate/main/SKILL.md

安装后直接说:

你说的话 AI 做的事
"帮我采集关于新能源汽车的素材,准备写 5000 字" 自动问询 → 多源采集 → 四重验证 → 输出素材包
"我要写比亚迪财报分析,帮我找资料" 锁定关键实体 → 采集财报/研报/媒体报道 → 评分筛选
"帮我做 AI 大模型行业的选题调研" 路由到科技媒体 + 学术来源 → 结构化整理

💡 Skill 版与 Python 版的区别:Python 版需本地安装运行;Skill 版直接在 AI 对话中触发,适合不懂代码的内容创作者。两个版本核心逻辑完全一致。


🎯 解决什么痛点

你是否遇到过这些问题:

  • ❌ 接到选题后不知道从哪里找素材,只能零散搜索
  • ❌ 找到的资料质量参差不齐,难以判断可信度
  • ❌ 收藏了一堆链接,写作时却找不到关键信息在哪
  • ❌ 花费大量时间搜集素材,真正写作的时间却被压缩
  • ❌ 文章缺乏数据支撑和案例佐证,内容显得单薄

ResearchMate 通过自动化采集 + 智能分类 + 质量评估,帮你把素材收集效率提升 3-5 倍,让你把更多精力投入到深度分析和观点提炼上。


🌟 v2.0 核心亮点

✨ 亮点一:交互式需求澄清 —— 让采集更精准

启动后自动询问 3 个关键问题,确保理解你的真实需求:

❓ 请描述您的选题(想写什么主题的文章):
💡 为了更精准地采集素材,请提供以下信息:
   关键词(产品名称、企业名称、人物姓名或事件名称,多个用逗号分隔):
📝 您计划写多少字的内容?(例如:3000):
------------------------------------------------------------
✅ 已确认采集需求:
   📌 选题:人工智能在金融风控中的应用
   🔑 关键词:同盾科技,百融云创,京东数科
   📊 目标字数:5000 字
   📚 预计采集素材:40000-50000 字(5000字的 8-10 倍)

为什么需要交互提问?

  • 选题描述 → 只有了解你想写的角度,才能精准匹配素材
  • 关键实体 → 锁定具体公司/产品/人物,避免泛泛而谈
  • 目标字数 → 智能计算采集量(按 8-10 倍原则),避免素材不足或过剩

🛡️ 亮点二:严格反幻觉机制 —— 杜绝 AI 胡编乱造

四重验证关卡,确保每条数据都有据可查:

验证维度 检查内容 失败处理
数值检查 必须有具体数字(增长率、金额、占比等) 标记为"低可信度"
主体检查 必须明确公司/产品/机构名称 要求补充来源
时间检查 必须有清晰的时间点或时间段 标注时效性风险
来源检查 必须标注数据来源(财报、研报、媒体报道) 置信度<0.5 直接剔除

示例:

✅ 通过验证:
"根据比亚迪 2025 年 Q4 财报,营收 2,150 亿元,同比增长 42% [来源:巨潮资讯网]"

❌ 被过滤:
"某新能源车企营收大幅增长"(缺少数值、主体、来源)

作者采信保障:所有进入素材库的数据都经过交叉验证,避免因 AI 幻觉导致文章出现事实性错误!


📄 亮点三:Word/PDF 专业导出 —— 支持打印和审阅

一键生成专业素材报告(Word/PDF双格式):

包含内容:

  • 📋 文章提纲 - 基于素材智能生成的写作框架
  • 💡 核心总结 - 素材概览和使用建议
  • 📊 分类统计 - 各类型素材数量分布
  • 📝 详细素材卡片 - 每条素材的完整信息(9 要素)
  • 📈 素材评估表 - 横向对比评分,支持勾选标记

输出示例:

📁 materials/2026-04-07_人工智能/
├── 人工智能_素材报告.docx    ← Word 格式(可编辑、可打印)
├── 人工智能_素材报告.pdf     ← PDF 格式(方便传阅)
├── 人工智能_素材评估表.csv   ← Excel 表格(勾选标记)
└── materials.md              ← Markdown 格式(网页查看)

适用场景:

  • 🖨️ 打印出来做笔记和批注
  • 📧 发送给团队成员审阅
  • 📊 导入 Excel 做进一步分析
  • 💾 归档保存作为知识库

📖 适用场景

场景 典型用户 使用频率
行业分析文章 科技媒体作者、行业研究员 每周 2-3 次
公司深度报道 财经记者、商业分析师 每周 1-2 次
竞品分析报告 产品经理、市场策略人员 每月 2-4 次
投资研究笔记 投资人、券商分析师 每日使用
自媒体商业内容 公众号主、知乎大 V 每周 3-5 次

⚡ 快速开始

前置要求

  • Python 3.9 或更高版本
  • pip 包管理器
  • 网络连接(用于访问公开信息源)

安装步骤

# 1. 克隆项目
git clone https://github.com/yitao2027/research-mate-skill.git
cd research-mate-skill

# 2. 创建虚拟环境(推荐)
python3 -m venv .venv
source .venv/bin/activate  # macOS/Linux
# 或 .venv\Scripts\activate  # Windows

# 3. 安装依赖
pip install -r requirements.txt

# 4. 运行测试
python main.py --test

# 5. 开始采集素材(交互式模式)
python main.py

🎯 使用示例

方式一:交互式采集(推荐)

$ python main.py

============================================================
📋 ResearchMate 素材采集助手 v2.0
============================================================

❓ 请描述您的选题(想写什么主题的文章):
💡 人工智能在金融风控中的应用

   关键词(产品名称、企业名称、人物姓名或事件名称,多个用逗号分隔):
💡 同盾科技,百融云创,京东数科

📝 您计划写多少字的内容?(例如:3000):
💡 5000

------------------------------------------------------------
✅ 已确认采集需求:
   📌 选题:人工智能在金融风控中的应用
   🔑 关键词:同盾科技,百融云创,京东数科
   📊 目标字数:5000 字
   📚 预计采集素材:40000-50000 字(5000 字的 8-10 倍)
------------------------------------------------------------

🎯 开始采集主题:【人工智能在金融风控中的应用】
🔑 关键词:同盾科技,百融云创,京东数科
📅 时间范围:过去 7 天
📊 目标字数:5000 字
------------------------------------------------------------

📥 Step 1: 采集原始素材...
   ✅ 采集到 47 条原始素材

🏷️  Step 2: 智能分类...
   财务数据:12 条
   专家观点:8 条
   市场数据:15 条
   竞品动态:12 条

⭐ Step 3: 质量评估...
   高质量素材:28 条 (≥0.7)
   已过滤:19 条

📤 Step 4: 导出素材...
   ✅ Word 报告:materials/2026-04-07_人工智能/人工智能_素材报告.docx
   ✅ PDF 报告:materials/2026-04-07_人工智能/人工智能_素材报告.pdf
   ✅ 素材评估表:materials/2026-04-07_人工智能/人工智能_素材评估表.csv

============================================================
🎉 采集完成!共处理 28 条高质量素材
📁 输出目录:materials/2026-04-07_人工智能/
============================================================

⭐ Top 10 高价值素材已展示
❓ 是否需要补充采集某些方向的素材?(y/n): n

📊 满意度调查:本次采集的素材是否满足需求?(1-5 星): 5

感谢使用 ResearchMate!

方式二:命令行参数采集

配置说明

复制配置文件模板并根据需要调整:

cp config.example.yaml config.yaml

编辑 config.yaml

# 采集源配置
sources:
  industry_reports: true      # 行业报告
  tech_media: true           # 科技媒体
  company_filings: false     # 公司公告(需额外配置 API)
  social_media: true         # 社交媒体

# 输出格式
output:
  format: markdown           # 支持 markdown/json/csv
  include_citations: true    # 是否包含引用链接
  auto_tag: true            # 自动打标签

# 质量过滤
filters:
  min_credibility_score: 0.7  # 最低可信度阈值 (0-1)
  max_age_days: 30           # 资料最大年龄(天)
  require_data_points: true  # 必须包含数据点

🛠️ 核心功能

1. 多源信息采集

支持从以下渠道自动采集素材:

行业报告

  • 券商研报(中信证券、中金公司、国泰君安等)
  • 咨询公司报告(麦肯锡、BCG、德勤、普华永道)
  • 研究机构(艾瑞咨询、易观分析、亿欧智库)

科技媒体

  • 36 氪、虎嗅、晚点 LatePost
  • 界面新闻、澎湃新闻、财经网
  • TechCrunch、Bloomberg(英文源)

上市公司公告

  • 财报、招股书、投资者关系材料
  • 重大事项公告、董事会决议

社交媒体热点

  • 知乎高赞回答(商业、科技话题)
  • 雪球讨论(个股、行业分析)
  • 微博热搜(商业相关话题)

2. 智能素材分类

采集到的素材会自动分类为:

📊 事实数据
├─ 财务指标(营收、利润、毛利率)
├─ 市场数据(份额、规模、增长率)
├─ 运营数据(用户数、DAU、留存率)
└─ 融资数据(轮次、金额、估值)

💼 典型案例
├─ 企业转型案例
├─ 产品创新案例
├─ 营销策略案例
└─ 组织管理案例

💬 专家观点
├─ 投资人评论
├─ CEO/创始人访谈
├─ 行业分析师报告
└─ 学者研究成果

🔍 竞品动态
├─ 新品发布
├─ 融资并购
├─ 战略调整
└─ 人事变动

3. 素材质量评估

每个素材都会经过以下维度评分:

维度 权重 说明
来源可信度 40% 基于媒体权威性、历史准确性
时效性 25% 发布时间越近分数越高
数据完整性 20% 是否包含具体数字、对比数据
交叉验证 15% 是否有多个独立来源佐证

评分示例:

素材:某新能源车企 2025 年 Q4 交付量达 50 万辆
├─ 来源可信度:0.9(官方财报)
├─ 时效性:0.95(7 天前发布)
├─ 数据完整性:0.8(含同比环比数据)
├─ 交叉验证:0.7(3 家媒体报道)
└─ 综合得分:0.86 ✅ 推荐使用

4. 输出交付物

📄 Word/PDF专业报告(v2.0 新增)

一键生成可打印、可审阅的专业素材报告

python main.py --topic "人工智能" --format word

报告包含:

  • 文章提纲 - 智能生成的写作框架建议
  • 核心总结 - 素材概览和使用指南
  • 分类素材卡片 - 每条素材的完整信息
  • 媒体报道清单 - 原文链接 + 核心观点 + 核心内容
  • 素材评估表 - 评分对比 + 勾选标记栏

支持格式:

  • .docx - Word 文档(可编辑、批注、修订模式)
  • .pdf - PDF 文件(方便打印和传阅)
  • .csv - Excel 表格(数据分析和筛选)
  • .md - Markdown(网页查看和版本管理)

结构化素材卡片(Markdown 格式)

每条素材包含 9 大要素

## 素材卡片 #001

**类型:** 事实数据 - 财务指标  
**主题:** 比亚迪 2025 年 Q4 财报  
**采集时间:** 2026-04-07 15:30  

### 📊 核心内容
- 营业收入:2,150 亿元,同比增长 42%
- 净利润:185 亿元,同比增长 68%
- 毛利率:22.5%,较上年同期提升 3.2pct
- 研发投入:128 亿元,占营收比重 5.9%

### 📰 来源信息
- **原始链接:** https://example.com/byd-q4-2025-report 🔗
- **发布媒体:** 巨潮资讯网(官方指定披露平台)
- **发布时间:** 2026-03-31
- **可信度评分:** 0.92/1.0

### 💡 核心观点
> "比亚迪凭借垂直整合战略和技术创新,在行业价格战背景下仍实现毛利率逆势提升,展现出强大的成本控制能力和品牌溢价。"

### 📝 核心内容摘要
本报告详细分析了比亚迪 2025 年第四季度及全年财务表现。关键亮点包括:
1. 营收增速创近三年新高,主要得益于海外市场爆发
2. 净利润率提升至 8.6%,规模效应开始显现
3. 研发费用资本化率降至 15%,财务更稳健
4. 经营性现金流净额达 320 亿元,造血能力强劲

### ✅ 验证信息
- **数据来源:** 公司官方财报(已审计)
- **交叉验证:** 3 家券商研报确认
- **反幻觉检查:** ✅ 通过(数值✓ 主体✓ 时间✓ 来源✓)

### 🔗 引用建议
> "根据比亚迪 2025 年 Q4 财报显示,公司全年营业收入达 2,150 亿元,同比增长 42%,净利润 185 亿元,同比增长 68% [1]。"

### 📎 关联素材
- #003 宁德时代同期财报对比
- #007 新能源车行业整体增速分析

素材评估表(v2.0 新增)

CSV 格式表格,支持 Excel 打开和勾选标记

ID,类型,主题,来源 URL,采集时间,可信度,时效性,完整性,交叉验证,综合评分,等级,是否采用,补充建议
001,财务数据,比亚迪 Q4 财报,https://...,2026-04-07,0.92,0.95,0.88,0.85,90,S,,
002,专家观点,李斌访谈,https://...,2026-04-06,0.85,0.88,0.75,0.70,78,B,,需补充财务数据
003,市场数据,中汽协统计,https://...,2026-04-05,0.95,0.90,0.92,0.95,93,S,☑️,
...

字段说明:

  • 四维度评分 - 可信度、时效性、完整性、交叉验证(0-1 分)
  • 综合评分 - 加权计算(0-100 分)
  • 等级 - S(≥90)、A(80-89)、B(70-79)、C(<70)
  • 是否采用 - ☐ 复选框供用户勾选 ✓
  • 补充建议 - 用户填写需要加强或补充的素材方向

反馈流程:

⭐ 系统展示 Top 10 高价值素材
❓ 询问:"这些素材是否满足需求?还有什么需要补充?"
💡 记录用户反馈:"需要更多竞品对比数据"
🔄 可选:启动补充采集模式
📊 满意度调查:1-5 星评分

写作灵感提示

ID,类型,主题,来源 URL,采集时间,可信度,时效性,综合得分
001,财务数据,比亚迪 Q4 财报,https://...,2026-04-07,0.92,0.95,0.86
002,专家观点,李斌访谈,https://...,2026-04-06,0.85,0.88,0.79
...

写作灵感提示

基于采集到的素材,自动生成潜在选题方向:

💡 基于当前素材的写作建议:

1. **对比分析类**
   - 比亚迪 vs 特斯拉:2025 年盈利能力全对比
   - 造车新势力谁先实现可持续盈利?

2. **趋势洞察类**
   - 从财报看新能源车行业三大转折点
   - 毛利率普遍提升背后的产业链重构

3. **深度案例类**
   - 比亚迪如何做到毛利率 22.5%?
   - 研发投入超百亿的技术护城河效应

📂 项目结构

research-mate-skill/
├── main.py                 # 主程序入口
├── config.example.yaml     # 配置文件模板
├── requirements.txt        # Python 依赖
├── README.md              # 项目文档
├── LICENSE                # MIT 许可证
├── .gitignore            # Git 忽略规则
│
├── src/
│   ├── __init__.py
│   ├── collector.py      # 采集器模块
│   ├── classifier.py     # 分类器模块
│   ├── evaluator.py      # 质量评估模块
│   └── exporter.py       # 导出器模块
│
├── sources/
│   ├── industry_reports.py   # 行业报告源
│   ├── tech_media.py        # 科技媒体源
│   ├── social_media.py      # 社交媒体源
│   └── base_source.py       # 源基类
│
├── templates/
│   ├── material_card.md    # 素材卡片模板
│   └── summary_report.md   # 汇总报告模板
│
├── tests/
│   ├── test_collector.py
│   ├── test_classifier.py
│   └── test_evaluator.py
│
└── materials/              # 输出目录(自动生成)
    ├── 2026-04-07_新能源汽车/
    │   ├── materials.md
    │   ├── citations.csv
    │   └── inspiration.md
    └── ...

🔧 高级用法

自定义采集源

添加新的信息源只需继承 BaseSource 类:

from src.sources.base_source import BaseSource

class CustomSource(BaseSource):
    def fetch(self, topic: str) -> list:
        # 实现你的采集逻辑
        pass
    
    def parse(self, raw_html: str) -> dict:
        # 解析页面内容
        pass

批量采集模式

# 一次性采集多个主题
python main.py --topics-file topics.txt --output batch_materials/

# topics.txt 内容示例:
新能源汽车行业
人工智能大模型
跨境电商

API 调用方式

在你的 Python 项目中直接调用:

from research_mate import ResearchMate

assistant = ResearchMate(config_path="config.yaml")

# 采集素材
materials = assistant.collect("储能行业", days_back=7)

# 获取高质量素材(评分>0.8)
premium = [m for m in materials if m.score > 0.8]

# 导出为 Markdown
assistant.export(materials, format="markdown", output_dir="./output")

🤝 贡献指南

欢迎贡献代码、报告新的信息源或改进文档!

开发环境搭建

# Fork 项目后克隆到本地
git clone https://github.com/YOUR_USERNAME/research-mate-skill.git
cd research-mate-skill

# 安装开发依赖
pip install -r requirements-dev.txt

# 运行测试确保一切正常
pytest tests/

提交 PR 流程

  1. 在 GitHub 上 Fork 本项目
  2. 创建功能分支 (git checkout -b feature/amazing-feature)
  3. 提交更改 (git commit -m 'Add amazing feature')
  4. 推送到分支 (git push origin feature/amazing-feature)
  5. 在 GitHub 上创建 Pull Request

Issue 反馈

遇到问题或有新功能建议?请查看 Issue 模板 后提交。


📄 许可证

本项目采用 MIT 许可证 - 详见 LICENSE 文件


🙏 致谢

感谢以下开源项目提供的技术支持:


📬 联系方式

  • 作者: 易涛 (@yitao2027)
  • 邮箱: [你的邮箱]
  • GitHub Issues: 问题反馈

如果这个项目对你有帮助,请给一个 ⭐️ Star 支持!

回到顶部 ↑

About

🔍 AI驱动的商业文章素材采集助手 | 交互提问·反幻觉验证·Word导出 | 专为记者/分析师/内容创作者设计

Topics

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages