若要把 Llama 3、Qwen、Mistral 等開源模型跑在自家基礎設施上,2026 年最省心的路徑之一仍是 Ollama:一條指令拉模型、本機 /v1 相容 OpenAI 客戶端、Linux + NVIDIA CUDA 文件齊全。本文面向「廉價 GPU VPS / Cloud GPU 上自建推理」的搜尋意圖:先判斷是否該上 GPU 機,再依 VRAM 選型 對照表選卡,用可複製清單完成 CUDA / Docker 部署與驗收,最後以公式化成本框架對照按 Token 計費的商用 API——不編造 vpszap 價目,只提供可填參數的損益模型。
誰該用 GPU VPS 跑 Ollama(私有化、合規、批次離線 vs 即時 API)
更適合自建 Ollama GPU 伺服器的情境:① 訓練資料或使用者對話不能出境,需要私有化推理與稽核邊界;② 夜間/週末有大量摘要、標註、RAG 索引,可接受分鐘級排隊,批次離線推理為主;③ 已有固定並行(例如 3–20 個內部服務)呼叫同一套模型,API 帳單按月線性成長;④ 需要固定模型版本與量化檔位(Q4_K_M、Q5 等),不願被上游 API 悄悄換模型。
仍應優先商用 API的情境:峰值並行不可預測、要最新閉源模型、團隊無人維護 GPU 驅動與磁碟;或月推理量極低(例如 < 500 萬 token)且對延遲不敏感——此時自建固定 GPU 月租往往不划算。邊界條件:若只跑 CPU 量化小模型,無 GPU 的廉價 Linux VPS 也能試驗,但 tokens/s 與上下文長度會明顯受限;本文主線仍是 Ollama + NVIDIA GPU。
VRAM 與模型參數量對照表(含 VRAM 不足時的降級路徑)
VRAM 選型核心不是「參數量 ÷ 2」,而是參數量 × 量化位元 + KV cache(隨上下文長度與並行上升)。下表依 2026 年社群常用推理檔位給出經驗區間(單卡、單實例、上下文 8k 附近);實測應以 nvidia-smi 占用為準。
| 模型規模 | 常見量化 | 建議 VRAM(單路) | 典型卡型(雲市場) | VRAM 不足時 |
|---|---|---|---|---|
| 7B(Llama3、Qwen2.5 等) | Q4_K_M | ≈ 6–8 GB | RTX 3060 12G、T4、消費級 4090 餘量很大 | 改 Q3 或縮短 context;減並行 |
| 7B | Q8 / FP16 片段 | ≈ 10–14 GB | RTX 3080/4080、L4 | 改 Q4;關閉多餘 adapter |
| 13B | Q4_K_M | ≈ 10–12 GB | RTX 4090 24G(舒適)、A10 24G | 用 7B 蒸餾版;分批離線 |
| 34B–40B | Q4 | ≈ 22–26 GB | RTX 4090 24G(頂格)、A100 40G | 改 13B;或雙卡(Ollama 多 GPU 視版本而定) |
| 70B | Q4_K_M | ≈ 40–48 GB+ | A100 80G、H100、多卡 | 改 34B/工具鏈拆分;商用 API 補峰 |
RTX 4090 級消費卡 VPS適合多數團隊的7B–13B 量化主力:單卡 24GB、性價比在 cheap gpu vps 市場常被討論。A100 / H100 級 Cloud GPU留給 70B、長上下文或多路並行。降級順序建議:降並行 → 縮 context → 換更小量化 → 換更小模型 → 拆離線批次,避免一開始就上最大模型導致 OOM 循環。
Docker 與裸機 CUDA:兩條安裝路徑步驟清單
路徑 A:裸機 Linux + NVIDIA 驅動(常見生產預設)
- 選帶 GPU 的實例後 SSH 登入,確認核心與磁碟 ≥ 80GB(模型快取會成長)。
- 安裝 NVIDIA 驅動並驗收:
nvidia-smi能顯示 GPU 名稱、驅動版本、顯存總量。 - 依 Ollama 官方安裝:
curl -fsSL https://ollama.com/install.sh | sh,再sudo systemctl enable --now ollama(單元名稱以系統為準)。 - 拉模型:
ollama pull qwen2.5:7b-instruct-q4_K_M(範例標籤,以 library 為準)。 - 健康檢查:
curl -s http://127.0.0.1:11434/api/tags回傳 JSON 列表;對外服務再配反向代理與 TLS。 - OpenAI 相容探測:
curl http://127.0.0.1:11434/v1/models。
路徑 B:Docker + NVIDIA Container Toolkit
- 安裝
nvidia-container-toolkit,執行sudo nvidia-ctk runtime configure --runtime=docker並重啟 Docker。 - 啟動:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama(映像標籤以 Docker Hubollama/ollama為準)。 - 容器內跑模型:
docker exec -it ollama ollama run llama3.2。 - 同樣用
curl http://127.0.0.1:11434/api/tags驗收;日誌:docker logs -f ollama。
若你已在 macOS 閘道側用容器編排做過類似驗收,可先對照 OpenClaw Docker Compose 部署與排錯 裡的卷掛載、健康檢查與「行程起來但握手失敗」的分層思路,再套到 Linux GPU 上的 Ollama。
效能與成本:tokens/s 簡易 benchmark 與 break-even 公式
簡易 benchmark(可複製)
# 1) 記錄基線顯存
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1
# 2) 串流生成並目測 tokens/s(範例模型名依你 pull 的為準)
time ollama run qwen2.5:7b-instruct-q4_K_M "用200字解釋GPU推理託管的驗收清單。"
# 3) HTTP 層壓測(需安裝 hey 或 wrk;注意先限流)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
http://127.0.0.1:11434/api/generate
記錄三項即可寫進決策表:首 token 延遲、穩態 tokens/s、並行=2 時是否 OOM。無需宣稱絕對排名,只要同機不同量化可重現對比。
月成本框架(不編造單價)
設 G = GPU 雲主機月租(或 $/GPU-hour × 730),E = 電費/託管雜費(自建機房時填入),A = 維運攤銷(可選)。商用 API 月費近似 T × P,其中 T 為月 token 數(輸入+輸出分開計價時拆兩項),P 為供應商 $/1M tokens(以官網為準)。
Break-even(粗算):當 G + E + A < T × P 且你能吃滿 GPU 利用率時,傾向自建;反之保留 API,或混合(API 扛峰、Ollama 扛谷)。
| 情境 | 月 token 量級(示意) | 傾向 | 備註 |
|---|---|---|---|
| 獨立開發者、1 人 | < 3M | 先 API 或單卡 4090 短租試水 | 固定月租易閒置 |
| 3 人產品團隊 | 20M–80M | 單卡 4090 + Ollama 常見划算 | 需夜間批次提高利用率 |
| 夜間批次(8h/天) | 彈性 | 按 GPU-hour 計費更省 | 白天可關機或縮容 |
| 70B + 長上下文 | 高 | A100 檔 + 嚴格限並行 | 否則 OOM 與帳單雙爆 |
填數範例(請自行替換):若 G = $280/月(某 Cloud GPU 4090 區間價)、T = 50M tokens、混合均價 P ≈ $0.6/1M,則 API 約 $30——此時 API 更便宜,但不含資料駐留與版本控制;若 T = 500M,API 約 $300,則自建開始吸引人,但你要承擔驅動、磁碟與安全。多模型路由與鑑權複雜度可參考 OpenClaw 多 Provider 設定與備援 的分層思路(本文仍以 Ollama 為推理核心)。
生產加固:systemd、重啟策略、磁碟、日誌與限流
- systemd:確認
Restart=on-failure,升級 Ollama 前先systemctl stop ollama避免半拉檔案。 - 磁碟水位:
/var/lib/ollama或 Docker volume 設告警(建議 < 15% 空閒);多模型並行 pull 會暴漲。 - 日誌:journal 或 docker logs 輪替;記錄模型名、量化、並行,便於 OOM 覆盤。
- 限流:反向代理層限制
/v1/chat/completionsQPS 與 body 大小;禁止公網裸奔 11434。 - 備份:模型快取可重建;自訂 Modelfile 與策略檔納入 Git。
需要圖形化排錯時,GPU 實例通常只給 SSH;與雲 Mac 不同,不必期待 VNC,但要準備跳板機 + 連接埠轉發存取內網管理端點。
常見報錯矩陣(CUDA、OOM、拉取慢、連接埠安全)
| 現象 | 可能原因 | 處理順序 |
|---|---|---|
nvidia-smi 找不到裝置 | 驅動未裝、雲廠商未掛載 GPU、需重啟 | 控制台確認 GPU 計費項 → 重裝驅動 → 工單 |
| 容器內無 GPU | 未裝 toolkit、未 --gpus=all | 重跑 nvidia-ctk configure → 重啟 Docker |
| CUDA version mismatch 日誌 | 驅動與執行時期函式庫不一致 | 對齊主機驅動;換官方 ollama 映像標籤 |
| OOM / 行程被殺 | 模型過大、並行過多、context 過長 | 降並行 → 縮 context → 換 Q4 → 換 7B |
ollama pull 極慢 | 跨境頻寬、磁碟慢 | 換近源映像站(若合規)、夜間拉取、升磁碟 |
| API 暴露被掃 | 11434 對 0.0.0.0 開放 | 安全群組僅允許跳板 IP;mTLS 或 API Key |
腳註:高吞吐多卡情境有人會對比 vLLM 等 serving 框架;若你需要嚴格的連續批次與多 LoRA 熱切換,可另開評測。本文主線保持 Ollama,因其安裝面與 /v1 相容對中小團隊最友善。
何時不建議硬上廉價 GPU VPS(邊界條件)
- 月 token 很低且團隊無 Linux 維運——優先 API,把時間花在產品而非驅動。
- 必須 70B 全精度、多模態大圖——單張 4090 不夠,別用「便宜 VPS」硬扛。
- 供應商 GPU 實為共享 vGPU、顯存標稱與實際不符——驗收失敗就換規格或換區。
- 合規要求專用硬體稽核——確認雲廠商合約與日誌留存,而非只看低價。
FAQ
- 廉價 GPU 伺服器與 Cloud GPU 有什麼差別? 前者多指按 VPS 計價的單卡實例;後者常指按 GPU-hour 計費的託管推理池。選型看你是7×24 常駐還是間歇批次。
- Ollama 能否完全取代 OpenAI API? 對開源權重與可接受延遲的內部工具可以;對最新閉源模型或極高 SLA 仍需 API 補位。
- 本地 LLM 部署最低要什麼? 7B Q4 建議 ≥ 8GB 可用 VRAM;生產建議 24GB 檔留並行與 KV 餘量。
- 如何驗收 AI 推理託管是否達標?
nvidia-smi、/api/tags、固定 prompt 的 tokens/s 三項齊再切流量。 - run ollama cloud 與自建關係? 託管服務省維運;自建控資料與單價。vpszap 側重點是快速開通帶 GPU 的實例,由你在機上執行本文清單。
在 vpszap 選 GPU 規格:先跑通 Ollama 驗收再擴並行
vpszap 定位 AI Developer Infrastructure:除雲 Mac 外,可依模型規模選擇 GPU VPS / Cloud GPU——例如 RTX 4090 檔跑 7B–13B 量化主力,A100 檔承接更大模型或更高並行。開通後依本文清單完成 ollama pull 與 /api/tags 驗收,再擴並行實例;推理節點宜靠近你的業務系統(新加坡、東京、首爾、香港、美東、美西等以控制台為準)。產品入口見 定價與方案、設定下單 與 vpszap 首頁(GPU VPS / AI 推理託管)。