You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
현재 GovOn은 vLLM Multi-LoRA 서빙으로 civil-adapter와 legal-adapter를 per-request로 attach하고 있다 (PR #511). 향후 어댑터가 3개 이상으로 늘어날 때 런타임 메모리 관리와 스왑 전략을 미리 정의할 필요가 있다.
현재 구조
EXAONE 4.0-32B-AWQ 베이스 + LoRA r16 어댑터 2개
vLLM --enable-lora 플래그로 Multi-LoRA 활성화
ADAPTER_PATHS 환경변수로 어댑터 경로 지정
논의 사항
최대 동시 로드 어댑터 수: GPU 메모리 48GB 기준 몇 개까지 안전한가?
LRU 스왑: 자주 안 쓰는 어댑터를 unload하는 전략이 필요한가?
어댑터 버전 관리: HuggingFace Hub revision vs 로컬 경로 혼용 정책
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
Uh oh!
There was an error while loading. Please reload this page.
-
배경
현재 GovOn은 vLLM Multi-LoRA 서빙으로 civil-adapter와 legal-adapter를 per-request로 attach하고 있다 (PR #511). 향후 어댑터가 3개 이상으로 늘어날 때 런타임 메모리 관리와 스왑 전략을 미리 정의할 필요가 있다.
현재 구조
--enable-lora플래그로 Multi-LoRA 활성화ADAPTER_PATHS환경변수로 어댑터 경로 지정논의 사항
관련 자료
의견을 남겨주세요
각 항목에 대한 의견이나 대안을 자유롭게 코멘트해 주세요.
Beta Was this translation helpful? Give feedback.
All reactions