Replies: 1 comment
-
|
확인했습니다 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
배경
LMCache에 Multi-LoRA 환경에서 KV cache를 안전하게 사용할 수 있도록 LoRA-aware KV cache keying 기능을 개발하여 PR을 제출했습니다.
LMCache란?
LLM 서빙 엔진의 KV cache를 GPU 외부(CPU, Disk, Redis 등)로 오프로딩하여 TTFT를 절감하고 처리량을 증대하는 오픈소스 라이브러리입니다.
왜 기능 개발이 필요했나?
GovOn은 단일 vLLM 인스턴스에서 Multi-LoRA 서빙을 사용합니다 (civil-adapter, legal-adapter). LoRA adapter별로 attention weight가 달라 KV cache 값도 다릅니다.
기존 LMCache는 LoRA adapter를 구분하지 않아, 다른 adapter의 KV cache가 잘못 재사용되는 cache poisoning 위험이 있었습니다.
개발한 PR의 핵심:
extra_keys에 LoRA ID를 포함하여chunk_hash자체를 adapter별로 분리CacheEngineKey.tags에lmcache.tag.lora반영lora_request.lora_name자동 추출테스트 결과
HF Spaces L4 GPU에서 실제 모델(EXAONE-4.0-32B-AWQ + govon-civil-adapter)로 테스트:
머지 후 GovOn 도입 시 기대효과
TTFT 개선
처리량 및 비용
운영 이점
리소스 영향
도입 전제조건
runtime_config.py에 LMCache 설정 추가 (~20줄)api_server.py에 prefix caching 활성화 (~10줄)결론
LMCache LoRA-aware PR이 머지되면, GovOn은 TTFT 30-40% 개선, 처리량 30-50% 증가, 비용 25% 절감을 약 40줄 코드 변경으로 달성할 수 있습니다.
Beta Was this translation helpful? Give feedback.
All reactions