LLM VRAM 계산기
모델 메모리와 KV cache를 거칠게 추정해 GPU 단독 실행 가능성을 확인합니다.
관련 글 CTA
이 도구 결과를 바탕으로 더 자세한 해결 절차와 체크리스트를 확인할 수 있습니다.
FAQ
KV cache는 무엇인가요?
긴 context를 처리하기 위해 attention 계산 중 보관되는 메모리입니다.
계산값이 실제와 다른 이유는?
런타임 오버헤드, 모델 구조, 드라이버, 배치 정책이 다르기 때문입니다.
VRAM이 부족할 때 첫 조치는?
context length와 batch size를 낮추고 더 낮은 quantization을 선택합니다.
q4_K_M과 q5_K_M 중 무엇이 안전한가요?
VRAM 여유가 작으면 q4_K_M이 더 안전하고, 품질을 우선하면 q5_K_M을 테스트할 수 있습니다.
System RAM은 언제 중요해지나요?
CPU offload가 발생하거나 큰 모델을 일부 메모리에 올릴 때 system RAM 여유가 중요합니다.