LongMemEval 개선 로드맵 — 20.8% → 60%+ 목표 (Agentic Retrieval)

## 현황
LongMemEval-S 초기 벤치마크 결과 (50문항, Qwen3.5-27B):

| 유형 | Accuracy | Session Recall |
|------|----------|---------------|
| single-session-assistant | **75.0%** | 높음 |
| single-session-user | 25.0% | 중간 |
| knowledge-update | 25.0% | 중간 |
| multi-session | **0.0%** | 낮음 |
| temporal-reasoning | **0.0%** | 낮음 |
| single-session-preference | 0.0% | 중간 |
| **전체** | **20.8%** | **79.5%** |

비교: Supermemory ASMR 98.6%, GPT-4o 64%

## 핵심 발견
- **Session Recall 79.5%** → 검색은 양호, LLM 답변 생성이 병목
- multi-session / temporal 유형이 0% → 이 두 유형만 해결하면 대폭 상승

## 개선 로드맵

### Phase 1: Retrieval 개선 (목표 40%+)
- [ ] **multi-session 검색**: 질문 분해 → 여러 검색 → 결과 합산 (Supermemory의 3 search agent 아이디어)
- [ ] **temporal 검색**: 날짜 파싱 + 시간 범위 쿼리 확장 ("2 days after X" → 날짜 계산)
- [ ] **knowledge-update**: 같은 토픽 최신 세션 우선 (timestamp 기반 recency boost)
- [ ] 검색 limit 15 → 20 + context 10 → 15로 확대

### Phase 2: Agentic Retrieval (목표 55%+)
- [ ] **3-axis search agent** 구현 (ASMR 아이디어 적용):
  - Agent 1: 직접 사실 검색 (exact fact lookup)
  - Agent 2: 맥락/관련 정보 검색 (contextual expansion)
  - Agent 3: 시간 순서 재구성 (temporal timeline)
- [ ] 검색 결과 병합 + 중복 제거 + 시간순 정렬
- [ ] `AgentSearch`에 LongMemEval 전용 intent 추가

### Phase 3: 답변 생성 개선 (목표 60%+)
- [ ] **Specialist prompt**: 유형별 특화 프롬프트 (counting, temporal, preference)
- [ ] **Chain-of-Note**: 검색 결과 각각에 대해 관련성 메모 → 최종 답변
- [ ] **Abstention 처리**: 정보 부족 시 "I don't know" 대신 구체적 이유 제시

### Phase 4: 고급 기능 (목표 75%+)
- [ ] **인덱싱 단계 Observer Agent**: 세션 인입 시 6축 추출 (개인정보/선호/이벤트/시간/업데이트/어시스턴트)
- [ ] **Fact-augmented key expansion**: 각 turn에서 핵심 사실 추출하여 검색 키워드 확장
- [ ] **Ensemble answering**: 여러 specialist가 독립 답변 → majority voting

## 참고
- [Supermemory ASMR 블로그](https://x.com/dhravyashah/status/2035517012647272689)
- [LongMemEval 논문](https://arxiv.org/abs/2410.10813)
- LongMemEval 연구팀 발견: fact-augmented key expansion이 recall +5%, time-aware query expansion이 +7-11%

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LongMemEval 개선 로드맵 — 20.8% → 60%+ 목표 (Agentic Retrieval) #5

현황

핵심 발견

개선 로드맵

Phase 1: Retrieval 개선 (목표 40%+)

Phase 2: Agentic Retrieval (목표 55%+)

Phase 3: 답변 생성 개선 (목표 60%+)

Phase 4: 고급 기능 (목표 75%+)

참고

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

유형	Accuracy	Session Recall
single-session-assistant	75.0%	높음
single-session-user	25.0%	중간
knowledge-update	25.0%	중간
multi-session	0.0%	낮음
temporal-reasoning	0.0%	낮음
single-session-preference	0.0%	중간
전체	20.8%	79.5%

LongMemEval 개선 로드맵 — 20.8% → 60%+ 목표 (Agentic Retrieval) #5

Description

현황

핵심 발견

개선 로드맵

Phase 1: Retrieval 개선 (목표 40%+)

Phase 2: Agentic Retrieval (목표 55%+)

Phase 3: 답변 생성 개선 (목표 60%+)

Phase 4: 고급 기능 (목표 75%+)

참고

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions