-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathrules.yaml
More file actions
160 lines (146 loc) · 5.77 KB
/
rules.yaml
File metadata and controls
160 lines (146 loc) · 5.77 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
# 新闻筛选规则
# ───────────────────────────
# 流程:规则粗筛(关键词/来源/打分) → AI 精排(按分类挑选) → 摘要补全
# ───────────────────────────
# 分类语义定义(注入 AI prompt,让 AI 严格按定义筛选,跑错类的直接丢)
# 例:搜 "OpenAI" 抓回来的股价新闻,会被 AI 判为不属于 AI 类而丢弃
# ───────────────────────────
category_definitions:
AI: |
AI 技术与行业动向:新模型/新产品发布、研究突破、开源、智能体、监管、行业变局。
严格排除:纯股价/融资/财报/IPO(那是财经类);纯芯片硬件销量(那是科技类硬件或财经类)。
科技: |
前沿科技与硬科技:能源(电池/光伏/核能)、航天(火箭/卫星/空间站)、机器人/无人机、
生命科学(基因/合成生物/脑机接口)、量子物理、新材料、武器装备。
严格排除:纯财报/股价(财经);纯软件/AI 模型(AI 类)。
财经: |
市场与公司财务:股市、汇率、债券、商品、加密货币、IPO、并购、财报、行业资本动向。
严格排除:纯宏观政策(宏观类);纯技术动态(AI/科技类)。
宏观: |
国家层面政治/政策/外交 + 国内民生政策与统计数据:
央行货币政策、关税贸易、地缘冲突、立法监管、国际关系;
房地产/教育/户籍/养老/医保等民生政策;
国家统计局发布的人口/出生率/结婚率/离婚率/CPI/PPI 等核心数据;
国家部委(发改委/工信部/教育部/住建部/卫健委/商务部等)的文件发布、行业新规。
严格排除:单一公司新闻;纯市场波动(财经类);地方政绩通稿/活动新闻;
商家促销/产品广告(潮流或财经类)。
潮流: |
全球消费/文化/生活方式:流行趋势、热门产品、社交媒体话题、Z世代风潮、影视音乐流媒体。
严格排除:财报/股价;硬技术细节。
人文: |
人文社科与基础科学发现:考古/历史发现、艺术文学、获奖、纪录片、博物馆、气候研究、社会议题。
优先报道:原创发现、独立研究、真实民众事件、有事实细节的报道。
严格排除:政府宣传、官方活动通稿、地方政绩工程(如"XX区举办XX文化节"/"XX大讲堂启动")、
商业新闻、应用技术、企业 CSR 活动、奖项颁布(除非获奖者本身有研究突破)。
# ───────────────────────────
# RSS 拉取参数(控并发、防限流)
# ───────────────────────────
fetch:
concurrency: 5 # 同时进行的请求数;Google News 对短时高并发敏感,5 比较稳
retries: 3 # 失败后总尝试次数(含首次),指数退避 1s / 2s / 4s
max_age_hours: 30 # 抓回来的新闻 published 超过这么多小时就丢弃(给时区一点缓冲)
# 命中即丢弃
block_keywords:
- 八卦
- 明星
- 明星离婚 # 不写"离婚",否则"离婚率"等民生统计新闻会被误杀
- 出轨
- 直播带货
- 抽奖
- gossip
- celebrity
- lottery
- giveaway
# 加分关键词(关键词: 权重)
boost_keywords:
发布: 1.0
推出: 0.8
launch: 1.0
release: 0.8
融资: 1.5
收购: 1.5
acquisition: 1.5
merger: 1.5
IPO: 2.0
财报: 1.5
earnings: 1.5
突破: 1.5
breakthrough: 1.5
开源: 1.0
open-source: 1.0
benchmark: 0.8
评测: 0.8
美联储: 1.5
Fed: 1.2
加息: 1.5
rate cut: 1.5
CPI: 1.2
inflation: 1.0
# 高权重来源(域名包含即加分)
source_weights:
bloomberg.com: 2.0
reuters.com: 2.0
ft.com: 2.0
wsj.com: 2.0
nytimes.com: 1.5
techcrunch.com: 1.5
theverge.com: 1.3
arstechnica.com: 1.3
wired.com: 1.3
nature.com: 2.0
science.org: 2.0
caixin.com: 1.8
yicai.com: 1.5
21jingji.com: 1.3
36kr.com: 1.3
jiqizhixin.com: 1.5
qbitai.com: 1.5
ithome.com: 1.0
# 粗筛阈值(最终分 >= 才进入候选)
min_score: 0.8
# 标题最短长度
min_title_length: 8
# 去重相似度阈值(字符 trigram Jaccard,0~1,越高越严)
# 0.55~0.65 适合多源同事件聚合;0.8+ 仅去掉几乎完全相同的
dedup_similarity: 0.6
# AI 精排
ai:
enabled: true
# 模型名:.env 里的 OPENAI_MODEL 会覆盖此项
model: gpt-4o-mini
# 每个分类粗筛后送给 AI 的候选数量上限
candidates_per_category: 25
# 每个分类最终选出数量
pick_per_category: 10
# 是否启用 DDG 验证(作为时效守门员:搜不到 = 整条丢弃)
fetch_detail: true
# 是否让 AI 把 DDG 原始片段整理成精炼中文(增加 token 消耗但可读性高)
polish_detail: true
# DDG 搜索的时效限制 + 验证守门员
# d=一天 / w=一周 / m=一月 / y=一年 / null=不限
# 注意:DDG 在此时效内搜不到的新闻会被【整条丢弃】,不进报告
enrich_timelimit: w
# DDG 抓回的片段含下列词时直接跳过整段(防止色情/博彩广告污染报告)
enrich_blocklist:
- 小姐
- 约炮
- 援交
- 上门服务
- 包夜
- 找小姐
- 外围
- 博彩
- 彩票网
- 刷单
- 代孕
- escort
- casino
- betting site
- adult dating
- sex chat
# 可选:成本估算(单价 = 每 1M token 的价格;币种自填,不填默认 $)
# 注释掉则不估算成本,只显示 token 数
# pricing:
# input: 0.15 # gpt-4o-mini 示例:$0.15 / 1M input
# output: 0.60 # gpt-4o-mini 示例:$0.60 / 1M output
# currency: "$"