Skip to content

lhfer/xhs-profiler

Repository files navigation

XHS Profiler

XHS Profiler — 小红书用户深度画像 & 追求策略 AI 引擎

给我一个小红书主页链接,还你一份 FBI 级别的人物画像 + 量身定制的追求路线图

Models Vision Psychology Output License

它能做什么快速开始核心能力架构效果展示FAQ


🎯 它能做什么?

你暗恋一个人,只有 TA 的小红书主页链接。

这个工具会自动浏览 TA 的全部公开内容——每一条笔记的图片和文字、每一个收藏、每一次互动——用 5 大心理学理论多模态 AI 视觉分析 构建出一份比 TA 自己都更了解 TA 的深度画像,再基于画像生成一套 分阶段、有话术、有分支应对 的个性化追求策略。

最终产出:一份精美的 7 Tab 交互式 HTML 报告,内含雷达图、理想型匹配度自测工具、可搜索的笔记列表和量身定制的话术锦囊。

和其他工具的区别

特性 其他工具 XHS Profiler
数据源 只抓文字 图文多模态分析(小红书 80% 信息在图片里)
AI 模型 绑定单一模型 任意 LLM(GPT-4o/Claude/Gemini/本地模型一行切换)
分析深度 简单标签 9 维度 + 5 大心理学理论框架
收藏分析 不分析收藏 收藏夹深挖(发布是前台,收藏才是真实偏好)
输出 纯文本 7 Tab 交互式 HTML 报告 + 匹配度自测

🚀 30秒快速开始

# 1. 克隆
git clone https://github.com/lhfer/xhs-profiler.git
cd xhs-profiler

# 2. 安装
pip install -r requirements.txt
playwright install chromium

# 3. 配置 API Key(任选一个模型)
export OPENAI_API_KEY="sk-xxx"        # GPT-4o
# export ANTHROPIC_API_KEY="sk-ant-xxx" # Claude
# export GEMINI_API_KEY="xxx"           # Gemini

# 4. 运行!
python main.py "https://www.xiaohongshu.com/user/profile/xxxxx"

浏览器会自动打开 → 请先登录小红书 → 回到终端等待分析完成 → 报告自动生成在 outputs/ 目录。


✨ 核心能力

1️⃣ 多模态数据采集 — 图片 + 文字一个不漏

📊 采集能力:
├── 笔记全量扫描(破解虚拟滚动,边滚边收集)
├── 笔记图片逐张截取(多模态 AI 分析穿搭/场景/品牌/审美)
├── 笔记精读(正文 + 标签 + 评论区分析)
├── 收藏夹全量深挖(前台 vs 后台偏好对比)
└── 主页截图 + 基础数据采集

为什么图片分析至关重要? 小红书是图文平台,一个人的穿搭风格、旅行地点、消费品牌、审美偏好——这些信息 80% 藏在图片里。纯文字分析等于蒙着眼睛做画像。

2️⃣ 9 维度深度画像 — 比 TA 更懂 TA

维度 分析内容 方法论
📋 基础人口学 年龄、职业、城市、教育 多信号交叉验证
💰 消费与生活方式 消费力、品牌偏好、兴趣图谱 内容聚类 + 图片品牌识别
🧠 心理与人格 Big Five 人格模型评估 Watson et al. (2004)
🌐 社会关系与影响力 KOL/KOC 分级、社群归属 粉丝互动分析
⏰ 时间行为模式 发布规律、主题演变 时序分析
💬 社交互动偏好 回复什么类型的评论 评论区逆向工程
💕 情感状态推断 是否有伴侣的蛛丝马迹 多信号综合(⚠️ 低置信度)
🔑 吸引力密码 TA 最引以为豪的身份 Goffman 拟剧论
💜 理想型画像 TA 会被什么样的人吸引 5 大心理学理论综合推断

3️⃣ 理想型画像推断 — 学术级别的读心术

基于 5 大经典心理学理论框架,从 6 个维度推断 TA 的理想型:

📖 Byrne 相似-吸引范式 (1971)     → 什么人让 TA 感到「遇到同类」
📖 Watson Big Five 匹配 (2004)    → 什么性格和 TA 最兼容
📖 Aron 自我扩展模型 (1986)       → 谁能带给 TA 全新体验
📖 Bowlby 依恋理论                → TA 需要什么样的安全感
📖 Dweck 成长型思维 (2006)        → TA 欣赏什么样的上进姿态

6 维度分析:审美共鸣力 · 文化视野 · 自我扩展力 · 安全型依恋 · 成长型人格 · 情感联结力

核心洞察:收藏夹是理想型推断的金矿。 发布内容是给别人看的「前台表演」,收藏才是给自己看的「内隐偏好」——TA 收藏了但没发过的主题,就是 TA 向往但缺乏契机的领域,也是你的最佳切入点。

4️⃣ 追求策略 — 军师级别的作战计划

不是鸡汤,是有 具体行动步骤 + 话术模板 + 分支应对 的完整路线图:

Phase 1: 刷存在感(1-2周)→ 评论话术 × 5 + 三种回应应对
Phase 2: 建立连接(2-4周)→ 首条私信 × 3 版本
Phase 3: 深入了解(3-6周)→ 转微信话术 + 聊天节奏
Phase 4: 线下见面(4-8周)→ 3 个量身定制约会场景
Phase 5: 关系升温(6-12周)→ 表白时机判断信号

5️⃣ 模型自由 — 一行切换,不锁定任何 AI

python main.py "链接" --model gpt-4o                    # OpenAI
python main.py "链接" --model claude-sonnet-4-6             # Anthropic
python main.py "链接" --model gemini/gemini-2.0-flash    # Google
python main.py "链接" --model ollama/llava               # 本地模型(免费!)

底层使用 LiteLLM 统一接口,支持 100+ 模型,包括本地部署的开源模型。


🏗️ 技术架构

                    ┌─────────────────┐
                    │   用户提供链接    │
                    └────────┬────────┘
                             │
              ┌──────────────▼──────────────┐
              │     Playwright 自动化浏览器    │
              ├─────────────────────────────┤
              │  • 虚拟滚动破解(边滚边收集)   │
              │  • 笔记图片逐张截取             │
              │  • 收藏夹全量扫描              │
              │  • 登录弹窗自动处理            │
              └──────────────┬──────────────┘
                             │ 文字 + 截图 + 图片
                ┌────────────▼────────────┐
                │   LiteLLM 统一接口        │
                │   (任意多模态 LLM)         │
                ├────────────────────────┤
                │  GPT-4o │ Claude │ Gemini │
                │  Qwen-VL │ LLaVA │ ...   │
                ├────────────────────────┤
                │  9 维度画像 + 理想型推断    │
                │  5 阶段追求策略生成         │
                └────────────┬────────────┘
                             │
                ┌────────────▼────────────┐
                │    Jinja2 报告引擎        │
                ├────────────────────────┤
                │  7-Tab 交互式 HTML        │
                │  Chart.js 数据可视化      │
                │  匹配度自测工具            │
                └─────────────────────────┘

📁 项目结构

xhs-profiler/
├── main.py                 # CLI 入口
├── xhs_scraper.py          # Playwright 数据采集(998行)
├── xhs_analyzer.py         # LiteLLM 多模态分析(788行)
├── xhs_reporter.py         # HTML 报告生成器
├── config.yaml             # 模型 & 采集配置
├── requirements.txt
├── prompts/
│   ├── profile_analysis.md # 9维度画像分析 prompt
│   ├── strategy.md         # 追求策略 prompt
│   └── image_analysis.md   # 图片分析 prompt
└── templates/
    └── report.html         # 7 Tab 交互式报告模板

🎨 效果展示

总览 — 五维雷达图 + 核心标签

╔══════════════════════════════════════════════════╗
║  📊 用户画像总览                                  ║
║                                                  ║
║  「一个IT咨询师、环球旅行家和音乐追梦人——           ║
║    用脚步丈量75个国家,用音乐连接世界」             ║
║                                                  ║
║  🏷️ 环球旅行家 · IT咨询 · 巨蟹座 · 音乐控         ║
║                                                  ║
║        开放性 95                                  ║
║          ╱╲                                      ║
║    生活 ╱  ╲ 独立                                ║
║    85 ╱ ⬡⬡ ╲ 90                                 ║
║       ╲ ⬡⬡ ╱                                    ║
║    社交 ╲  ╱ 浪漫                                ║
║     70  ╲╱  80                                   ║
╚══════════════════════════════════════════════════╝

理想型匹配度自测

╔══════════════════════════════════════════════════╗
║  💜 为自己在每个维度打分(1-100):                  ║
║                                                  ║
║  🎨 审美共鸣力  ████████░░░░░  65                 ║
║  📚 文化视野    ██████████░░░  80                 ║
║  🚀 自我扩展力  ████████░░░░░  60                 ║
║  🤗 安全型依恋  █████████░░░░  70                 ║
║  📈 成长型人格  ██████████░░░  85                 ║
║  💗 情感联结力  ████████░░░░░  65                 ║
║                                                  ║
║         💕 匹配度:76% — 很有潜力的组合!          ║
╚══════════════════════════════════════════════════╝

⚙️ 配置说明

编辑 config.yaml

# 模型选择(一行切换)
model: "gpt-4o"

# 采集配置
scraper:
  headless: false     # true=无头模式(服务器), false=有窗口(方便登录)
  scroll_delay_ms: 400
  sample_deep_read: 4 # 精读笔记数量

# 分析配置
analyzer:
  max_tokens: 4096
  temperature: 0.7

❓ 常见问题

需要登录小红书吗?

强烈建议登录。 未登录只能看到约 10 条笔记,无法看收藏。登录后数据量提升 5-10 倍。首次运行时浏览器会打开,手动登录一次即可,后续自动复用登录态。

支持哪些 AI 模型?

通过 LiteLLM 支持 100+ 模型,包括:OpenAI (GPT-4o)、Anthropic (Claude)、Google (Gemini)、阿里 (Qwen-VL)、本地模型 (Ollama/LLaVA) 等。只要模型支持图片输入就行。

分析一个人需要多久?

取决于笔记数量和模型速度。通常 5-15 分钟。

用本地模型可以完全免费吗?

可以!用 ollama/llava 等本地多模态模型,零 API 费用。但分析质量取决于模型能力,建议用 GPT-4o 或 Claude 获得最佳效果。

收藏夹私密怎么办?

自动跳过,报告中标注「收藏夹不可见」。分析仍可进行,但会失去最有价值的「内隐偏好」数据。


⚖️ 免责声明

本工具仅供学习和个人娱乐使用。所有分析基于公开社交媒体内容,结合心理学研究结论生成,不等同于专业心理评估。请尊重他人隐私,理性使用分析结果。

最好的策略,永远是做真实的自己。


🤝 贡献

欢迎 PR!可以贡献的方向:

  • 🌍 支持更多平台(抖音、微博、Instagram...)
  • 🧠 增加更多心理学理论框架
  • 🎨 改进报告模板和可视化
  • 🔧 适配更多 LLM 模型
  • 📊 增加竞品分析功能

📜 License

MIT


Built with ❤️ and psychology
Powered by Playwright + LiteLLM + Chart.js

⭐ 如果觉得有用,请给个 Star!⭐

About

AI-powered Xiaohongshu (小红书) user deep profiling & pursuit strategy engine. Multi-modal analysis with any LLM (GPT-4o/Claude/Gemini/local). 9-dimension psychological profiling based on 5 academic theories. Interactive HTML reports with ideal-type matching. 给我一个小红书链接,还你一份FBI级人物画像+量身定制追求路线图。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors