LLM VRAM 계산기

모델 메모리와 KV cache를 거칠게 추정해 GPU 단독 실행 가능성을 확인합니다.

관련 글 CTA

이 도구 결과를 바탕으로 더 자세한 해결 절차와 체크리스트를 확인할 수 있습니다.

FAQ

KV cache는 무엇인가요?

긴 context를 처리하기 위해 attention 계산 중 보관되는 메모리입니다.

계산값이 실제와 다른 이유는?

런타임 오버헤드, 모델 구조, 드라이버, 배치 정책이 다르기 때문입니다.

VRAM이 부족할 때 첫 조치는?

context length와 batch size를 낮추고 더 낮은 quantization을 선택합니다.

q4_K_M과 q5_K_M 중 무엇이 안전한가요?

VRAM 여유가 작으면 q4_K_M이 더 안전하고, 품질을 우선하면 q5_K_M을 테스트할 수 있습니다.

System RAM은 언제 중요해지나요?

CPU offload가 발생하거나 큰 모델을 일부 메모리에 올릴 때 system RAM 여유가 중요합니다.