为商业作者打造的智能化素材采集系统 —— 系统化采集高质量案例、数据、观点和竞品动态,建立结构化素材库,让深度写作有扎实的内容基础。
✨ v2.0 全新升级:新增交互式需求澄清、严格反幻觉验证、Word/PDF专业导出,让素材采集更精准、更可靠!
不想配置 Python 环境? 安装 Skill 后,在 AI 对话中说一句话即可启动完整采集流程,无需安装任何依赖。
在 AI 工具中选择「安装 Skill」,粘贴以下地址:
https://raw.githubusercontent.com/yitao2027/research-mate/main/SKILL.md
| 你说的话 | AI 做的事 |
|---|---|
| "帮我采集关于新能源汽车的素材,准备写 5000 字" | 自动问询 → 多源采集 → 四重验证 → 输出素材包 |
| "我要写比亚迪财报分析,帮我找资料" | 锁定关键实体 → 采集财报/研报/媒体报道 → 评分筛选 |
| "帮我做 AI 大模型行业的选题调研" | 路由到科技媒体 + 学术来源 → 结构化整理 |
💡 Skill 版与 Python 版的区别:Python 版需本地安装运行;Skill 版直接在 AI 对话中触发,适合不懂代码的内容创作者。两个版本核心逻辑完全一致。
你是否遇到过这些问题:
- ❌ 接到选题后不知道从哪里找素材,只能零散搜索
- ❌ 找到的资料质量参差不齐,难以判断可信度
- ❌ 收藏了一堆链接,写作时却找不到关键信息在哪
- ❌ 花费大量时间搜集素材,真正写作的时间却被压缩
- ❌ 文章缺乏数据支撑和案例佐证,内容显得单薄
ResearchMate 通过自动化采集 + 智能分类 + 质量评估,帮你把素材收集效率提升 3-5 倍,让你把更多精力投入到深度分析和观点提炼上。
启动后自动询问 3 个关键问题,确保理解你的真实需求:
❓ 请描述您的选题(想写什么主题的文章):
💡 为了更精准地采集素材,请提供以下信息:
关键词(产品名称、企业名称、人物姓名或事件名称,多个用逗号分隔):
📝 您计划写多少字的内容?(例如:3000):
------------------------------------------------------------
✅ 已确认采集需求:
📌 选题:人工智能在金融风控中的应用
🔑 关键词:同盾科技,百融云创,京东数科
📊 目标字数:5000 字
📚 预计采集素材:40000-50000 字(5000字的 8-10 倍)
为什么需要交互提问?
- ✅ 选题描述 → 只有了解你想写的角度,才能精准匹配素材
- ✅ 关键实体 → 锁定具体公司/产品/人物,避免泛泛而谈
- ✅ 目标字数 → 智能计算采集量(按 8-10 倍原则),避免素材不足或过剩
四重验证关卡,确保每条数据都有据可查:
| 验证维度 | 检查内容 | 失败处理 |
|---|---|---|
| 数值检查 | 必须有具体数字(增长率、金额、占比等) | 标记为"低可信度" |
| 主体检查 | 必须明确公司/产品/机构名称 | 要求补充来源 |
| 时间检查 | 必须有清晰的时间点或时间段 | 标注时效性风险 |
| 来源检查 | 必须标注数据来源(财报、研报、媒体报道) | 置信度<0.5 直接剔除 |
示例:
✅ 通过验证:
"根据比亚迪 2025 年 Q4 财报,营收 2,150 亿元,同比增长 42% [来源:巨潮资讯网]"
❌ 被过滤:
"某新能源车企营收大幅增长"(缺少数值、主体、来源)
作者采信保障:所有进入素材库的数据都经过交叉验证,避免因 AI 幻觉导致文章出现事实性错误!
一键生成专业素材报告(Word/PDF双格式):
包含内容:
- 📋 文章提纲 - 基于素材智能生成的写作框架
- 💡 核心总结 - 素材概览和使用建议
- 📊 分类统计 - 各类型素材数量分布
- 📝 详细素材卡片 - 每条素材的完整信息(9 要素)
- 📈 素材评估表 - 横向对比评分,支持勾选标记
输出示例:
📁 materials/2026-04-07_人工智能/
├── 人工智能_素材报告.docx ← Word 格式(可编辑、可打印)
├── 人工智能_素材报告.pdf ← PDF 格式(方便传阅)
├── 人工智能_素材评估表.csv ← Excel 表格(勾选标记)
└── materials.md ← Markdown 格式(网页查看)
适用场景:
- 🖨️ 打印出来做笔记和批注
- 📧 发送给团队成员审阅
- 📊 导入 Excel 做进一步分析
- 💾 归档保存作为知识库
| 场景 | 典型用户 | 使用频率 |
|---|---|---|
| 行业分析文章 | 科技媒体作者、行业研究员 | 每周 2-3 次 |
| 公司深度报道 | 财经记者、商业分析师 | 每周 1-2 次 |
| 竞品分析报告 | 产品经理、市场策略人员 | 每月 2-4 次 |
| 投资研究笔记 | 投资人、券商分析师 | 每日使用 |
| 自媒体商业内容 | 公众号主、知乎大 V | 每周 3-5 次 |
- Python 3.9 或更高版本
- pip 包管理器
- 网络连接(用于访问公开信息源)
# 1. 克隆项目
git clone https://github.com/yitao2027/research-mate-skill.git
cd research-mate-skill
# 2. 创建虚拟环境(推荐)
python3 -m venv .venv
source .venv/bin/activate # macOS/Linux
# 或 .venv\Scripts\activate # Windows
# 3. 安装依赖
pip install -r requirements.txt
# 4. 运行测试
python main.py --test
# 5. 开始采集素材(交互式模式)
python main.py方式一:交互式采集(推荐)
$ python main.py
============================================================
📋 ResearchMate 素材采集助手 v2.0
============================================================
❓ 请描述您的选题(想写什么主题的文章):
💡 人工智能在金融风控中的应用
关键词(产品名称、企业名称、人物姓名或事件名称,多个用逗号分隔):
💡 同盾科技,百融云创,京东数科
📝 您计划写多少字的内容?(例如:3000):
💡 5000
------------------------------------------------------------
✅ 已确认采集需求:
📌 选题:人工智能在金融风控中的应用
🔑 关键词:同盾科技,百融云创,京东数科
📊 目标字数:5000 字
📚 预计采集素材:40000-50000 字(5000 字的 8-10 倍)
------------------------------------------------------------
🎯 开始采集主题:【人工智能在金融风控中的应用】
🔑 关键词:同盾科技,百融云创,京东数科
📅 时间范围:过去 7 天
📊 目标字数:5000 字
------------------------------------------------------------
📥 Step 1: 采集原始素材...
✅ 采集到 47 条原始素材
🏷️ Step 2: 智能分类...
财务数据:12 条
专家观点:8 条
市场数据:15 条
竞品动态:12 条
⭐ Step 3: 质量评估...
高质量素材:28 条 (≥0.7)
已过滤:19 条
📤 Step 4: 导出素材...
✅ Word 报告:materials/2026-04-07_人工智能/人工智能_素材报告.docx
✅ PDF 报告:materials/2026-04-07_人工智能/人工智能_素材报告.pdf
✅ 素材评估表:materials/2026-04-07_人工智能/人工智能_素材评估表.csv
============================================================
🎉 采集完成!共处理 28 条高质量素材
📁 输出目录:materials/2026-04-07_人工智能/
============================================================
⭐ Top 10 高价值素材已展示
❓ 是否需要补充采集某些方向的素材?(y/n): n
📊 满意度调查:本次采集的素材是否满足需求?(1-5 星): 5
感谢使用 ResearchMate!方式二:命令行参数采集
复制配置文件模板并根据需要调整:
cp config.example.yaml config.yaml编辑 config.yaml:
# 采集源配置
sources:
industry_reports: true # 行业报告
tech_media: true # 科技媒体
company_filings: false # 公司公告(需额外配置 API)
social_media: true # 社交媒体
# 输出格式
output:
format: markdown # 支持 markdown/json/csv
include_citations: true # 是否包含引用链接
auto_tag: true # 自动打标签
# 质量过滤
filters:
min_credibility_score: 0.7 # 最低可信度阈值 (0-1)
max_age_days: 30 # 资料最大年龄(天)
require_data_points: true # 必须包含数据点支持从以下渠道自动采集素材:
- 券商研报(中信证券、中金公司、国泰君安等)
- 咨询公司报告(麦肯锡、BCG、德勤、普华永道)
- 研究机构(艾瑞咨询、易观分析、亿欧智库)
- 36 氪、虎嗅、晚点 LatePost
- 界面新闻、澎湃新闻、财经网
- TechCrunch、Bloomberg(英文源)
- 财报、招股书、投资者关系材料
- 重大事项公告、董事会决议
- 知乎高赞回答(商业、科技话题)
- 雪球讨论(个股、行业分析)
- 微博热搜(商业相关话题)
采集到的素材会自动分类为:
📊 事实数据
├─ 财务指标(营收、利润、毛利率)
├─ 市场数据(份额、规模、增长率)
├─ 运营数据(用户数、DAU、留存率)
└─ 融资数据(轮次、金额、估值)
💼 典型案例
├─ 企业转型案例
├─ 产品创新案例
├─ 营销策略案例
└─ 组织管理案例
💬 专家观点
├─ 投资人评论
├─ CEO/创始人访谈
├─ 行业分析师报告
└─ 学者研究成果
🔍 竞品动态
├─ 新品发布
├─ 融资并购
├─ 战略调整
└─ 人事变动
每个素材都会经过以下维度评分:
| 维度 | 权重 | 说明 |
|---|---|---|
| 来源可信度 | 40% | 基于媒体权威性、历史准确性 |
| 时效性 | 25% | 发布时间越近分数越高 |
| 数据完整性 | 20% | 是否包含具体数字、对比数据 |
| 交叉验证 | 15% | 是否有多个独立来源佐证 |
评分示例:
素材:某新能源车企 2025 年 Q4 交付量达 50 万辆
├─ 来源可信度:0.9(官方财报)
├─ 时效性:0.95(7 天前发布)
├─ 数据完整性:0.8(含同比环比数据)
├─ 交叉验证:0.7(3 家媒体报道)
└─ 综合得分:0.86 ✅ 推荐使用
一键生成可打印、可审阅的专业素材报告:
python main.py --topic "人工智能" --format word报告包含:
- ✅ 文章提纲 - 智能生成的写作框架建议
- ✅ 核心总结 - 素材概览和使用指南
- ✅ 分类素材卡片 - 每条素材的完整信息
- ✅ 媒体报道清单 - 原文链接 + 核心观点 + 核心内容
- ✅ 素材评估表 - 评分对比 + 勾选标记栏
支持格式:
.docx- Word 文档(可编辑、批注、修订模式).pdf- PDF 文件(方便打印和传阅).csv- Excel 表格(数据分析和筛选).md- Markdown(网页查看和版本管理)
每条素材包含 9 大要素:
## 素材卡片 #001
**类型:** 事实数据 - 财务指标
**主题:** 比亚迪 2025 年 Q4 财报
**采集时间:** 2026-04-07 15:30
### 📊 核心内容
- 营业收入:2,150 亿元,同比增长 42%
- 净利润:185 亿元,同比增长 68%
- 毛利率:22.5%,较上年同期提升 3.2pct
- 研发投入:128 亿元,占营收比重 5.9%
### 📰 来源信息
- **原始链接:** https://example.com/byd-q4-2025-report 🔗
- **发布媒体:** 巨潮资讯网(官方指定披露平台)
- **发布时间:** 2026-03-31
- **可信度评分:** 0.92/1.0
### 💡 核心观点
> "比亚迪凭借垂直整合战略和技术创新,在行业价格战背景下仍实现毛利率逆势提升,展现出强大的成本控制能力和品牌溢价。"
### 📝 核心内容摘要
本报告详细分析了比亚迪 2025 年第四季度及全年财务表现。关键亮点包括:
1. 营收增速创近三年新高,主要得益于海外市场爆发
2. 净利润率提升至 8.6%,规模效应开始显现
3. 研发费用资本化率降至 15%,财务更稳健
4. 经营性现金流净额达 320 亿元,造血能力强劲
### ✅ 验证信息
- **数据来源:** 公司官方财报(已审计)
- **交叉验证:** 3 家券商研报确认
- **反幻觉检查:** ✅ 通过(数值✓ 主体✓ 时间✓ 来源✓)
### 🔗 引用建议
> "根据比亚迪 2025 年 Q4 财报显示,公司全年营业收入达 2,150 亿元,同比增长 42%,净利润 185 亿元,同比增长 68% [1]。"
### 📎 关联素材
- #003 宁德时代同期财报对比
- #007 新能源车行业整体增速分析CSV 格式表格,支持 Excel 打开和勾选标记:
ID,类型,主题,来源 URL,采集时间,可信度,时效性,完整性,交叉验证,综合评分,等级,是否采用,补充建议
001,财务数据,比亚迪 Q4 财报,https://...,2026-04-07,0.92,0.95,0.88,0.85,90,S,☐,
002,专家观点,李斌访谈,https://...,2026-04-06,0.85,0.88,0.75,0.70,78,B,☐,需补充财务数据
003,市场数据,中汽协统计,https://...,2026-04-05,0.95,0.90,0.92,0.95,93,S,☑️,
...字段说明:
- 四维度评分 - 可信度、时效性、完整性、交叉验证(0-1 分)
- 综合评分 - 加权计算(0-100 分)
- 等级 - S(≥90)、A(80-89)、B(70-79)、C(<70)
- 是否采用 - ☐ 复选框供用户勾选 ✓
- 补充建议 - 用户填写需要加强或补充的素材方向
反馈流程:
⭐ 系统展示 Top 10 高价值素材
❓ 询问:"这些素材是否满足需求?还有什么需要补充?"
💡 记录用户反馈:"需要更多竞品对比数据"
🔄 可选:启动补充采集模式
📊 满意度调查:1-5 星评分
ID,类型,主题,来源 URL,采集时间,可信度,时效性,综合得分
001,财务数据,比亚迪 Q4 财报,https://...,2026-04-07,0.92,0.95,0.86
002,专家观点,李斌访谈,https://...,2026-04-06,0.85,0.88,0.79
...基于采集到的素材,自动生成潜在选题方向:
💡 基于当前素材的写作建议:
1. **对比分析类**
- 比亚迪 vs 特斯拉:2025 年盈利能力全对比
- 造车新势力谁先实现可持续盈利?
2. **趋势洞察类**
- 从财报看新能源车行业三大转折点
- 毛利率普遍提升背后的产业链重构
3. **深度案例类**
- 比亚迪如何做到毛利率 22.5%?
- 研发投入超百亿的技术护城河效应
research-mate-skill/
├── main.py # 主程序入口
├── config.example.yaml # 配置文件模板
├── requirements.txt # Python 依赖
├── README.md # 项目文档
├── LICENSE # MIT 许可证
├── .gitignore # Git 忽略规则
│
├── src/
│ ├── __init__.py
│ ├── collector.py # 采集器模块
│ ├── classifier.py # 分类器模块
│ ├── evaluator.py # 质量评估模块
│ └── exporter.py # 导出器模块
│
├── sources/
│ ├── industry_reports.py # 行业报告源
│ ├── tech_media.py # 科技媒体源
│ ├── social_media.py # 社交媒体源
│ └── base_source.py # 源基类
│
├── templates/
│ ├── material_card.md # 素材卡片模板
│ └── summary_report.md # 汇总报告模板
│
├── tests/
│ ├── test_collector.py
│ ├── test_classifier.py
│ └── test_evaluator.py
│
└── materials/ # 输出目录(自动生成)
├── 2026-04-07_新能源汽车/
│ ├── materials.md
│ ├── citations.csv
│ └── inspiration.md
└── ...
添加新的信息源只需继承 BaseSource 类:
from src.sources.base_source import BaseSource
class CustomSource(BaseSource):
def fetch(self, topic: str) -> list:
# 实现你的采集逻辑
pass
def parse(self, raw_html: str) -> dict:
# 解析页面内容
pass# 一次性采集多个主题
python main.py --topics-file topics.txt --output batch_materials/
# topics.txt 内容示例:
新能源汽车行业
人工智能大模型
跨境电商在你的 Python 项目中直接调用:
from research_mate import ResearchMate
assistant = ResearchMate(config_path="config.yaml")
# 采集素材
materials = assistant.collect("储能行业", days_back=7)
# 获取高质量素材(评分>0.8)
premium = [m for m in materials if m.score > 0.8]
# 导出为 Markdown
assistant.export(materials, format="markdown", output_dir="./output")欢迎贡献代码、报告新的信息源或改进文档!
# Fork 项目后克隆到本地
git clone https://github.com/YOUR_USERNAME/research-mate-skill.git
cd research-mate-skill
# 安装开发依赖
pip install -r requirements-dev.txt
# 运行测试确保一切正常
pytest tests/- 在 GitHub 上 Fork 本项目
- 创建功能分支 (
git checkout -b feature/amazing-feature) - 提交更改 (
git commit -m 'Add amazing feature') - 推送到分支 (
git push origin feature/amazing-feature) - 在 GitHub 上创建 Pull Request
遇到问题或有新功能建议?请查看 Issue 模板 后提交。
本项目采用 MIT 许可证 - 详见 LICENSE 文件
感谢以下开源项目提供的技术支持:
- Requests - HTTP 请求库
- BeautifulSoup - HTML 解析
- PyYAML - 配置文件解析
- Rich - 终端美化输出
- 作者: 易涛 (@yitao2027)
- 邮箱: [你的邮箱]
- GitHub Issues: 问题反馈
如果这个项目对你有帮助,请给一个 ⭐️ Star 支持!