현황
LongMemEval-S 초기 벤치마크 결과 (50문항, Qwen3.5-27B):
| 유형 |
Accuracy |
Session Recall |
| single-session-assistant |
75.0% |
높음 |
| single-session-user |
25.0% |
중간 |
| knowledge-update |
25.0% |
중간 |
| multi-session |
0.0% |
낮음 |
| temporal-reasoning |
0.0% |
낮음 |
| single-session-preference |
0.0% |
중간 |
| 전체 |
20.8% |
79.5% |
비교: Supermemory ASMR 98.6%, GPT-4o 64%
핵심 발견
- Session Recall 79.5% → 검색은 양호, LLM 답변 생성이 병목
- multi-session / temporal 유형이 0% → 이 두 유형만 해결하면 대폭 상승
개선 로드맵
Phase 1: Retrieval 개선 (목표 40%+)
Phase 2: Agentic Retrieval (목표 55%+)
Phase 3: 답변 생성 개선 (목표 60%+)
Phase 4: 고급 기능 (목표 75%+)
참고
🤖 Generated with Claude Code
현황
LongMemEval-S 초기 벤치마크 결과 (50문항, Qwen3.5-27B):
비교: Supermemory ASMR 98.6%, GPT-4o 64%
핵심 발견
개선 로드맵
Phase 1: Retrieval 개선 (목표 40%+)
Phase 2: Agentic Retrieval (목표 55%+)
AgentSearch에 LongMemEval 전용 intent 추가Phase 3: 답변 생성 개선 (목표 60%+)
Phase 4: 고급 기능 (목표 75%+)
참고
🤖 Generated with Claude Code