Llama 3, Qwen, Mistral 같은 오픈 웨이트를 자체 경계 안에서 돌리려면, 2026년에도 마찰이 적은 경로 중 하나는 Ollama입니다. 모델을 pull하고 로컬 /v1 OpenAI 호환 엔드포인트를 열고, 공식 문서대로 Linux + NVIDIA CUDA로 설치하는 흐름이 정석입니다. 본문은 cheap GPU VPS, run Ollama cloud 검색 의도에 맞춰 GPU 호스트가 토큰 API보다 이득인지, VRAM 선정, 붙여 넣기 가능한 CUDA / Docker 검수 목록, GPU 월세와 API 청구 대조를 정리합니다. vpszap 가격표는 만들지 않고 변수로 채우는 식만 제시합니다.
누가 GPU VPS에서 Ollama를 돌려야 하는가(프라이빗 추론, 컴플라이언스, 배치 vs 실시간 API)
GPU 서버에서 셀프호스트 Ollama가 맞는 경우: (1) 프롬프트·학습 데이터를 경계 밖으로보낼 수 없어 프라이빗 추론과 감사 로그가 필요할 때; (2) 야간·주말에 대량 요약·라벨링·RAG 인덱싱 같은 오프라인 배치가 있어 요청당 과금보다 저렴할 때; (3) 내부 서비스(대략 동시 3~20 호출)가 같은 모델을 두드려 API 지출이 매달 선형 증가할 때; (4) Q4_K_M, Q5 등 양자화 티어와 모델 버전을 고정해 업스트림 무음 교체를 피하고 싶을 때.
토큰 과금 상용 API가 이기는 경우: 피크가 예측 불가, 최신 클로즈드 모델이 필수, 드라이버·디스크를 유지할 사람이 없을 때. 월 토큰이 극소(예: 500만 미만)이고 지연에 여유가 있으면 GPU 고정 월세는 대부분 유휴입니다. 경계: CPU만 극소 양자화는 GPU 없는 저렴 VPS에서도 시험할 수 있으나 컨텍스트·tokens/s가 무너집니다. 본문은 Ollama + NVIDIA GPU를 전제로 합니다.
VRAM과 모델 규모(부족할 때 강등 경로)
선정은 「파라미터 ÷ 2」가 아닙니다. 파라미터 × 양자화 비트 + KV 캐시를 보고, 후자는 컨텍스트 길이·동시 세션에 따라 커집니다. 아래 표는 흔한 2026 추론 티어(단일 인스턴스, 컨텍스트 약 8k)입니다. 호스트에서 nvidia-smi로 반드시 검증하세요.
| 모델 규모 | 대표 양자화 | 권장 VRAM(단일 스트림) | 대표 클라우드 SKU | VRAM 부족 시 |
|---|---|---|---|---|
| 7B(Llama 3, Qwen 2.5 등) | Q4_K_M | ≈ 6–8 GB | RTX 3060 12G, T4; 4090은 여유 | Q3·짧은 컨텍스트; 동시 요청 축소 |
| 7B | Q8 / 일부 FP16 | ≈ 10–14 GB | RTX 3080/4080, L4 | Q4로 하향; 어댑터 제거 |
| 13B | Q4_K_M | ≈ 10–12 GB | RTX 4090 24G, A10 24G | 7B 증류; 오프라인 배치 |
| 34B–40B | Q4 | ≈ 22–26 GB | RTX 4090 24G(빡빡), A100 40G | 13B; 멀티 GPU(Ollama 버전에 따름) |
| 70B | Q4_K_M | ≈ 40–48 GB+ | A100 80G, H100, 멀티 GPU | 34B·파이프라인 분할; 피크는 API |
RTX 4090급 저렴 GPU VPS는 7B–13B 양자화의 스윗스팟입니다. A100 / H100 Cloud GPU는 70B·긴 컨텍스트·높은 병렬에 해당합니다. 강등 순서: 동시성 ↓ → 컨텍스트 축소 → 양자화 ↓ → 모델 축소 → 배치 분할—최대 웨이트부터 넣고 OOM 루프를 돌리지 마세요.
Docker와 베어메탈 CUDA: 두 가지 설치 체크리스트
경로 A: 베어메탈 Linux + NVIDIA 드라이버(프로덕션 기본)
- GPU 인스턴스 개통 후 SSH. 디스크 ≥ 80GB—모델 캐시가 빠르게 찹니다.
- NVIDIA 드라이버 설치 후
nvidia-smi로 검수(GPU 이름, 드라이버, VRAM 총량). - 공식대로 Ollama:
curl -fsSL https://ollama.com/install.sh | sh후sudo systemctl enable --now ollama(유닛명은 환경마다 다를 수 있음). - 모델 pull:
ollama pull qwen2.5:7b-instruct-q4_K_M(태그는 라이브러리 기준). - 헬스:
curl -s http://127.0.0.1:11434/api/tags가 JSON 반환. 외부 노출은 TLS·인증 뒤만. - OpenAI 호환:
curl http://127.0.0.1:11434/v1/models.
경로 B: Docker + NVIDIA Container Toolkit
nvidia-container-toolkit설치,sudo nvidia-ctk runtime configure --runtime=docker후 Docker 재시작.- 기동:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama(Docker Hub 태그 확인). - 컨테이너 안:
docker exec -it ollama ollama run llama3.2. - 동일 검수:
curl http://127.0.0.1:11434/api/tags; 로그는docker logs -f ollama.
게이트웨이 호스트에서 컨테이너를 이미 층으로 나눴다면, OpenClaw Docker Compose 배포·트러블슈팅의 헬스체크 사고방식이 Linux GPU + Ollama에도 그대로 통합니다(볼륨, 프로브, 「프로세스는 떴는데 핸드셰이크 실패」).
성능과 비용: tokens/s 벤치마크와 손익분기
경량 벤치마크(복사 가능)
# 1) VRAM 기준선
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1
# 2) 스트리밍 실행 — tokens/s 눈대중(pull한 모델명으로 교체)
time ollama run qwen2.5:7b-instruct-q4_K_M "AI 추론 호스팅 검수 체크리스트를 200단어로 나열하라."
# 3) HTTP 스모크(hey 또는 wrk; 먼저 레이트 리밋)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
http://127.0.0.1:11434/api/generate
의사결정 매트릭스용 세 수치: 첫 토큰까지 시간, 정상 tokens/s, 동시 2에서 OOM 여부. 같은 머신에서의 상대 비교가 랭킹표보다 중요합니다.
월 비용 틀(자사 단가로 대입)
G = GPU 호스트 월세(또는 $/GPU-hour × 730), E = 자가·코로 전력, A = 운영 오버헤드(선택). API 지출 ≈ T × P. T는 월 토큰(입·출력 단가 분리 시 나눔), P는 벤더 공개 $/100만 토큰.
손익분기(대략): G + E + A < T × P이고 GPU를 바쁘게 쓸 수 있으면 셀프호스트가 유리해지기 쉽습니다. 아니면 API, 또는 하이브리드(피크는 API, 골짜기는 Ollama).
| 시나리오 | 월 토큰(예) | 경향 | 메모 |
|---|---|---|---|
| 1인 개발자 | < 300만 | API 또는 4090 단기 시험 | 고정 월세가 유휴하기 쉬움 |
| 3인 제품 팀 | 2천만~8천만 | 4090 1대 + Ollama가 이기기 쉬움 | 야간 배치로 가동률↑ |
| 야간 배치(약 8h/일) | 가변 | GPU-hour 과금이 24/7에 이길 때도 | 주간 정지 |
| 70B + 긴 컨텍스트 | 높음 | A100급 + 엄한 동시 상한 | OOM·API 청구 둘 다 아픔 |
플레이스홀더(자사 견적으로 교체): 4090급 Cloud GPU G = $280/월, T = 5천만, 블렌드 P ≈ $0.6/100만이면 API ≈ $30—현금만 보면 API가 싸 보이나 데이터 거주·버전 고정은 미포함. T = 5억이면 API ≈ $300으로 셀프호스트가 겨루기 시작—드라이버·디스크·보안을 운영할 전제에서. 추론 코어는 Ollama로 두고 멀티 프로바이더 라우팅을 본다면 OpenClaw 멀티 프로바이더·페일오버 설정도 참고하세요.
프로덕션 강화: systemd, 재시작, 디스크, 로그, 레이트 리밋
- systemd:
Restart=on-failure; 업그레이드 전 Ollama 중지로 반쯤 쓴 blob 방지. - 디스크:
/var/lib/ollama또는 Docker 볼륨 여유 ~15% 미만 시 알림; 병렬 pull이 디스크를 급히 채움. - 로그: journal 또는
docker logs로테이션; OOM 사후에 모델 태그·양자화·동시성 기록. - 레이트 리밋: 리버스 프록시에서
/v1/chat/completionsQPS·바디 상한; 인증 없이 11434를 0.0.0.0에 노출하지 않음. - 설정 as code: pull로 캐시 재구성; Modelfile·정책은 Git 관리.
GPU VPS는 대개 SSH만—VNC 불필요. 관리 엔드포인트는 배스천 + 포트 포워딩으로, 빌드 호스트 잠금과 같은 설계입니다.
오류 대조표(CUDA 불일치, OOM, pull 지연, 포트 노출)
| 증상 | 추정 원인 | 수정 순서 |
|---|---|---|
nvidia-smi에 GPU 없음 | 드라이버 미설치, GPU 미부착, 재부팅 필요 | 콘솔 SKU → 드라이버 재설치 → 프로바이더 티켓 |
| 컨테이너 안 GPU 없음 | Toolkit 없음, --gpus=all 없음 | nvidia-ctk configure → Docker 재시작 |
| CUDA 버전 불일치 로그 | 드라이버·런타임 불일치 | 호스트 드라이버 정합; 공식 ollama/ollama 태그 고정 |
| OOM / 프로세스 kill | 과대 모델, 동시성, 긴 컨텍스트 | 동시성 ↓ → 컨텍스트 축소 → Q4 → 7B |
ollama pull 느림 | 국경 간 대역, 느린 디스크 | 오프피크 pull; 대용량 디스크; 허용된 미러 |
| 11434 스캔 노출 | 0.0.0.0 공개 바인드 | 보안 그룹 허용 목록; API 키 또는 mTLS |
각주: 연속 배칭·핫 LoRA 교체가 필요한 팀은 vLLM을 별도 검토하기도 합니다. 본문은 중소 팀의 설치 면과 /v1 호환을 위해 주선을 Ollama에 둡니다.
저렴 GPU VPS가 기본값이 아닐 때(경계)
- 월 토큰 극소·Linux 운영자 없음—드라이버보다 API로 시간을 산다.
- 70B full precision·무거운 멀티모달—4090 한 장으로 부족; 최저 SKU에 억지 말기.
- 광고 VRAM과
nvidia-smi불일치—SKU·리전 변경; 프롬프트로 사기를 덮지 말 것. - 컴플라이언스에 전용 하드 증명 필요—$/시간만이 아니라 계약·로그 확인.
FAQ
- 저렴 GPU 서버 vs Cloud GPU? VPS형 단일 카드 임대 vs GPU-hour 풀. 24/7 vs 간헐 배치로 고른다.
- Ollama로 OpenAI 완전 대체? 오픈 웨이트·느슨한 지연의 내부 도구면 종종 가능; 최신 클로즈드·엄한 SLA면 API 용량 유지.
- 로컬 LLM 배포 최소선? 7B Q4는 실효 VRAM ≥ 약 8GB; 프로덕션은 KV·동시용 24GB 여유가 무난.
- AI 추론 호스팅 검수?
nvidia-smi,/api/tags, 고정 프롬프트 tokens/s 기준을 트래픽 전환 전에. - 관리형 run Ollama cloud vs DIY? 관리형은 운영 절약; DIY는 데이터·단가를 쥔다. vpszap에서는 GPU 인스턴스를 열고 본 체크리스트를 머신에서 실행.
모델 규모에 맞는 GPU 티어—Ollama 검수 후 수평 확장
vpszap은 AI 개발자 인프라 플랫폼입니다. 클라우드 Mac 외에 GPU VPS / Cloud GPU로 llm hosting을 고를 수 있습니다—RTX 4090급은 7B–13B 양자화, A100급은 더 큰 웨이트·병렬 스트림용. 개통 후 본문의 ollama pull·/api/tags를 통과한 뒤 벤치가 정당화할 때 인스턴스를 늘리세요. 추론은 앱 가까이(싱가포르·도쿄·서울·홍콩·미동·미서—콘솔 참고). 가격, 구성·주문, vpszap 홈에서 GPU VPS·AI 추론 호스팅으로—WordPress용 GPU 없는 Linux VPS가 아닙니다.