Ollama 모델 추천 계산기

하드웨어와 목적을 입력하면 모델, quantization, 실행 방식을 보수적으로 추천합니다.

관련 글 CTA

이 도구 결과를 바탕으로 더 자세한 해결 절차와 체크리스트를 확인할 수 있습니다.

관련 글

FAQ

VRAM이 부족하면 Ollama를 사용할 수 없나요?

사용할 수 있지만 CPU offload 또는 더 작은 quantization이 필요해 속도가 느려질 수 있습니다.

코딩 목적이면 어떤 모델이 유리한가요?

VRAM이 충분하면 Qwen Coder 계열 또는 DeepSeek Coder 계열을 우선 검토하는 것이 좋습니다.

OLLAMA_NUM_PARALLEL은 높을수록 좋은가요?

동시 요청은 늘지만 메모리 사용량도 증가하므로 VRAM이 작으면 1부터 시작하는 것이 안전합니다.

long_context 목적이면 무엇을 먼저 줄여야 하나요?

응답 속도보다 안정성이 중요하므로 동시 요청 수와 로딩 모델 수를 먼저 낮추는 것이 좋습니다.

추천 결과를 그대로 운영에 적용해도 되나요?

초기값으로 사용하되 실제 모델 로딩, 긴 프롬프트, 동시 요청 테스트를 거쳐 보정해야 합니다.