[리서치] LMCache Multi-LoRA 서빙 기능 개발 및 GovOn 도입 기대효과 분석 #543

umyunsang · 2026-04-07T01:26:31Z

umyunsang
Apr 7, 2026
Maintainer

배경

LMCache에 Multi-LoRA 환경에서 KV cache를 안전하게 사용할 수 있도록 LoRA-aware KV cache keying 기능을 개발하여 PR을 제출했습니다.

항목	링크
Feature Request	LMCache#2961
PR	LMCache#2962
테스트 Space	umyunsang/govon-multi-lora-test
개발 브랜치	umyunsang/LMCache:feat/lora-aware-caching

LMCache란?

LLM 서빙 엔진의 KV cache를 GPU 외부(CPU, Disk, Redis 등)로 오프로딩하여 TTFT를 절감하고 처리량을 증대하는 오픈소스 라이브러리입니다.

vLLM 내장 prefix caching은 GPU VRAM 안에서만 동작 → VRAM 부족 시 효과 제한
LMCache는 CPU RAM/Disk에 저장 → 용량 제한 없음, 재시작 후에도 유지

왜 기능 개발이 필요했나?

GovOn은 단일 vLLM 인스턴스에서 Multi-LoRA 서빙을 사용합니다 (civil-adapter, legal-adapter). LoRA adapter별로 attention weight가 달라 KV cache 값도 다릅니다.

기존 LMCache는 LoRA adapter를 구분하지 않아, 다른 adapter의 KV cache가 잘못 재사용되는 cache poisoning 위험이 있었습니다.

개발한 PR의 핵심:

extra_keys에 LoRA ID를 포함하여 chunk_hash 자체를 adapter별로 분리
CacheEngineKey.tags에 lmcache.tag.lora 반영
vLLM adapter에서 lora_request.lora_name 자동 추출

테스트 결과

HF Spaces L4 GPU에서 실제 모델(EXAONE-4.0-32B-AWQ + govon-civil-adapter)로 테스트:

Phase	결과
Multi-LoRA 기본 서빙	PASS — base model과 LoRA adapter가 다른 출력 생성 확인
캐시 격리	PASS — base model 캐시가 LoRA 요청에 누출되지 않음

머지 후 GovOn 도입 시 기대효과

TTFT 개선

호출 유형	고정 prefix	현재 TTFT	LMCache 후	개선율
Planner (base, 350tok)	100% 동일	~800-1200ms	~500-750ms	35-40%
Generator (civil LoRA, 250tok)	100% 동일	~1000-1500ms	~700-1050ms	25-30%
전체 파이프라인	-	~1800-2700ms	~1200-1800ms	30-35%

처리량 및 비용

항목	현재	LMCache 후	개선
동시 요청	2-3 req	3-4 req	+33-50%
분당 처리량	~3-5 req/min	~4-7 req/min	+30-40%
요청당 비용 (L4 $0.80/h)	~$0.003-0.004	~$0.002-0.003	25% 절감
재시작 후 첫 TTFT	~2-3s	~1-1.5s	50%

운영 이점

재시작 후 캐시 유지: Disk/Redis 백엔드로 HF Spaces idle timeout 대응
멀티 인스턴스 캐시 공유: Redis 백엔드로 스케일아웃 시 활용
최소 코드 변경: ~40-50줄 수정으로 통합 가능

리소스 영향

항목	추가 사용량	영향도
CPU 메모리	~113-180 MB	L4 15GB RAM 대비 1.2%
GPU VRAM	0 (CPU에 저장)	영향 없음
GPU-CPU 전송	~2-3ms/요청	prefill 절약 대비 무시 가능

도입 전제조건

[필수] LMCache#2962 PR 머지 및 릴리즈 패치
runtime_config.py에 LMCache 설정 추가 (~20줄)
api_server.py에 prefix caching 활성화 (~10줄)
LMCache config YAML 작성 (CPU backend, LRU eviction)
통합 테스트 — adapter 간 캐시 격리 검증

결론

LMCache LoRA-aware PR이 머지되면, GovOn은 TTFT 30-40% 개선, 처리량 30-50% 증가, 비용 25% 절감을 약 40줄 코드 변경으로 달성할 수 있습니다.

yuujjjj · 2026-04-07T01:32:05Z

yuujjjj
Apr 7, 2026

확인했습니다

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[리서치] LMCache Multi-LoRA 서빙 기능 개발 및 GovOn 도입 기대효과 분석 #543

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

[리서치] LMCache Multi-LoRA 서빙 기능 개발 및 GovOn 도입 기대효과 분석 #543

Uh oh!

umyunsang Apr 7, 2026 Maintainer

배경

LMCache란?

왜 기능 개발이 필요했나?

테스트 결과

머지 후 GovOn 도입 시 기대효과

TTFT 개선

처리량 및 비용

운영 이점

리소스 영향

도입 전제조건

결론

Replies: 1 comment

Uh oh!

yuujjjj Apr 7, 2026

umyunsang
Apr 7, 2026
Maintainer

yuujjjj
Apr 7, 2026