← 返回開發者部落格 AI 推理

2026年如何在廉價 GPU VPS 上穩定跑 Ollama 與本地開源 LLM?VRAM 選型、CUDA/Docker 部署清單與按 Token 計費 API 的成本對照 FAQ

📅 2026年5月21日 · 約 10 分鐘閱讀 · VRAM 對照、CUDA/Docker 驗收與 API 成本損益框架

若要把 Llama 3、Qwen、Mistral 等開源模型跑在自家基礎設施上,2026 年最省心的路徑之一仍是 Ollama:一條指令拉模型、本機 /v1 相容 OpenAI 客戶端、Linux + NVIDIA CUDA 文件齊全。本文面向「廉價 GPU VPS / Cloud GPU 上自建推理」的搜尋意圖:先判斷是否該上 GPU 機,再依 VRAM 選型 對照表選卡,用可複製清單完成 CUDA / Docker 部署與驗收,最後以公式化成本框架對照按 Token 計費的商用 API——不編造 vpszap 價目,只提供可填參數的損益模型。

資料中心 GPU 伺服器機架,象徵在廉價 GPU VPS 上部署 Ollama 與本地開源 LLM 推理

誰該用 GPU VPS 跑 Ollama(私有化、合規、批次離線 vs 即時 API)

更適合自建 Ollama GPU 伺服器的情境:① 訓練資料或使用者對話不能出境,需要私有化推理與稽核邊界;② 夜間/週末有大量摘要、標註、RAG 索引,可接受分鐘級排隊,批次離線推理為主;③ 已有固定並行(例如 3–20 個內部服務)呼叫同一套模型,API 帳單按月線性成長;④ 需要固定模型版本與量化檔位(Q4_K_M、Q5 等),不願被上游 API 悄悄換模型。

仍應優先商用 API的情境:峰值並行不可預測、要最新閉源模型、團隊無人維護 GPU 驅動與磁碟;或月推理量極低(例如 < 500 萬 token)且對延遲不敏感——此時自建固定 GPU 月租往往不划算。邊界條件:若只跑 CPU 量化小模型,無 GPU 的廉價 Linux VPS 也能試驗,但 tokens/s 與上下文長度會明顯受限;本文主線仍是 Ollama + NVIDIA GPU

VRAM 與模型參數量對照表(含 VRAM 不足時的降級路徑)

VRAM 選型核心不是「參數量 ÷ 2」,而是參數量 × 量化位元 + KV cache(隨上下文長度與並行上升)。下表依 2026 年社群常用推理檔位給出經驗區間(單卡、單實例、上下文 8k 附近);實測應以 nvidia-smi 占用為準。

模型規模常見量化建議 VRAM(單路)典型卡型(雲市場)VRAM 不足時
7B(Llama3、Qwen2.5 等)Q4_K_M≈ 6–8 GBRTX 3060 12G、T4、消費級 4090 餘量很大改 Q3 或縮短 context;減並行
7BQ8 / FP16 片段≈ 10–14 GBRTX 3080/4080、L4改 Q4;關閉多餘 adapter
13BQ4_K_M≈ 10–12 GBRTX 4090 24G(舒適)、A10 24G用 7B 蒸餾版;分批離線
34B–40BQ4≈ 22–26 GBRTX 4090 24G(頂格)、A100 40G改 13B;或雙卡(Ollama 多 GPU 視版本而定)
70BQ4_K_M≈ 40–48 GB+A100 80G、H100、多卡改 34B/工具鏈拆分;商用 API 補峰

RTX 4090 級消費卡 VPS適合多數團隊的7B–13B 量化主力:單卡 24GB、性價比在 cheap gpu vps 市場常被討論。A100 / H100 級 Cloud GPU留給 70B、長上下文或多路並行。降級順序建議:降並行 → 縮 context → 換更小量化 → 換更小模型 → 拆離線批次,避免一開始就上最大模型導致 OOM 循環。

示意圖:新加坡、東京、首爾、香港、美東美西等區域;Ollama 推理端點應靠近業務系統與使用者以降低 RTT。
AI 推理託管選區:讓 Ollama 端點靠近呼叫方,而非只選最便宜的機房

Docker 與裸機 CUDA:兩條安裝路徑步驟清單

路徑 A:裸機 Linux + NVIDIA 驅動(常見生產預設)

  • 選帶 GPU 的實例後 SSH 登入,確認核心與磁碟 ≥ 80GB(模型快取會成長)。
  • 安裝 NVIDIA 驅動並驗收:nvidia-smi 能顯示 GPU 名稱、驅動版本、顯存總量。
  • 依 Ollama 官方安裝:curl -fsSL https://ollama.com/install.sh | sh,再 sudo systemctl enable --now ollama(單元名稱以系統為準)。
  • 拉模型:ollama pull qwen2.5:7b-instruct-q4_K_M(範例標籤,以 library 為準)。
  • 健康檢查:curl -s http://127.0.0.1:11434/api/tags 回傳 JSON 列表;對外服務再配反向代理與 TLS。
  • OpenAI 相容探測:curl http://127.0.0.1:11434/v1/models

路徑 B:Docker + NVIDIA Container Toolkit

  • 安裝 nvidia-container-toolkit,執行 sudo nvidia-ctk runtime configure --runtime=docker 並重啟 Docker。
  • 啟動:docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama(映像標籤以 Docker Hub ollama/ollama 為準)。
  • 容器內跑模型:docker exec -it ollama ollama run llama3.2
  • 同樣用 curl http://127.0.0.1:11434/api/tags 驗收;日誌:docker logs -f ollama

若你已在 macOS 閘道側用容器編排做過類似驗收,可先對照 OpenClaw Docker Compose 部署與排錯 裡的卷掛載、健康檢查與「行程起來但握手失敗」的分層思路,再套到 Linux GPU 上的 Ollama。

效能與成本:tokens/s 簡易 benchmark 與 break-even 公式

簡易 benchmark(可複製)

# 1) 記錄基線顯存
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1

# 2) 串流生成並目測 tokens/s(範例模型名依你 pull 的為準)
time ollama run qwen2.5:7b-instruct-q4_K_M "用200字解釋GPU推理託管的驗收清單。"

# 3) HTTP 層壓測(需安裝 hey 或 wrk;注意先限流)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
  http://127.0.0.1:11434/api/generate

記錄三項即可寫進決策表:首 token 延遲穩態 tokens/s並行=2 時是否 OOM。無需宣稱絕對排名,只要同機不同量化可重現對比。

月成本框架(不編造單價)

G = GPU 雲主機月租(或 $/GPU-hour × 730),E = 電費/託管雜費(自建機房時填入),A = 維運攤銷(可選)。商用 API 月費近似 T × P,其中 T 為月 token 數(輸入+輸出分開計價時拆兩項),P 為供應商 $/1M tokens(以官網為準)。

Break-even(粗算):G + E + A < T × P 且你能吃滿 GPU 利用率時,傾向自建;反之保留 API,或混合(API 扛峰、Ollama 扛谷)。

情境月 token 量級(示意)傾向備註
獨立開發者、1 人< 3M先 API 或單卡 4090 短租試水固定月租易閒置
3 人產品團隊20M–80M單卡 4090 + Ollama 常見划算需夜間批次提高利用率
夜間批次(8h/天)彈性按 GPU-hour 計費更省白天可關機或縮容
70B + 長上下文A100 檔 + 嚴格限並行否則 OOM 與帳單雙爆

填數範例(請自行替換):若 G = $280/月(某 Cloud GPU 4090 區間價)、T = 50M tokens、混合均價 P ≈ $0.6/1M,則 API 約 $30——此時 API 更便宜,但不含資料駐留與版本控制;若 T = 500M,API 約 $300,則自建開始吸引人,但你要承擔驅動、磁碟與安全。多模型路由與鑑權複雜度可參考 OpenClaw 多 Provider 設定與備援 的分層思路(本文仍以 Ollama 為推理核心)。

生產加固:systemd、重啟策略、磁碟、日誌與限流

  • systemd:確認 Restart=on-failure,升級 Ollama 前先 systemctl stop ollama 避免半拉檔案。
  • 磁碟水位/var/lib/ollama 或 Docker volume 設告警(建議 < 15% 空閒);多模型並行 pull 會暴漲。
  • 日誌:journal 或 docker logs 輪替;記錄模型名、量化、並行,便於 OOM 覆盤。
  • 限流:反向代理層限制 /v1/chat/completions QPS 與 body 大小;禁止公網裸奔 11434。
  • 備份:模型快取可重建;自訂 Modelfile 與策略檔納入 Git。

需要圖形化排錯時,GPU 實例通常只給 SSH;與雲 Mac 不同,不必期待 VNC,但要準備跳板機 + 連接埠轉發存取內網管理端點。

常見報錯矩陣(CUDA、OOM、拉取慢、連接埠安全)

現象可能原因處理順序
nvidia-smi 找不到裝置驅動未裝、雲廠商未掛載 GPU、需重啟控制台確認 GPU 計費項 → 重裝驅動 → 工單
容器內無 GPU未裝 toolkit、未 --gpus=all重跑 nvidia-ctk configure → 重啟 Docker
CUDA version mismatch 日誌驅動與執行時期函式庫不一致對齊主機驅動;換官方 ollama 映像標籤
OOM / 行程被殺模型過大、並行過多、context 過長降並行 → 縮 context → 換 Q4 → 換 7B
ollama pull 極慢跨境頻寬、磁碟慢換近源映像站(若合規)、夜間拉取、升磁碟
API 暴露被掃11434 對 0.0.0.0 開放安全群組僅允許跳板 IP;mTLS 或 API Key

腳註:高吞吐多卡情境有人會對比 vLLM 等 serving 框架;若你需要嚴格的連續批次與多 LoRA 熱切換,可另開評測。本文主線保持 Ollama,因其安裝面與 /v1 相容對中小團隊最友善。

何時不建議硬上廉價 GPU VPS(邊界條件)

  • 月 token 很低且團隊無 Linux 維運——優先 API,把時間花在產品而非驅動。
  • 必須 70B 全精度、多模態大圖——單張 4090 不夠,別用「便宜 VPS」硬扛。
  • 供應商 GPU 實為共享 vGPU、顯存標稱與實際不符——驗收失敗就換規格或換區。
  • 合規要求專用硬體稽核——確認雲廠商合約與日誌留存,而非只看低價。

FAQ

  • 廉價 GPU 伺服器與 Cloud GPU 有什麼差別? 前者多指按 VPS 計價的單卡實例;後者常指按 GPU-hour 計費的託管推理池。選型看你是7×24 常駐還是間歇批次
  • Ollama 能否完全取代 OpenAI API? 對開源權重與可接受延遲的內部工具可以;對最新閉源模型或極高 SLA 仍需 API 補位。
  • 本地 LLM 部署最低要什麼? 7B Q4 建議 ≥ 8GB 可用 VRAM;生產建議 24GB 檔留並行與 KV 餘量。
  • 如何驗收 AI 推理託管是否達標? nvidia-smi/api/tags、固定 prompt 的 tokens/s 三項齊再切流量。
  • run ollama cloud 與自建關係? 託管服務省維運;自建控資料與單價。vpszap 側重點是快速開通帶 GPU 的實例,由你在機上執行本文清單。

在 vpszap 選 GPU 規格:先跑通 Ollama 驗收再擴並行

vpszap 定位 AI Developer Infrastructure:除雲 Mac 外,可依模型規模選擇 GPU VPS / Cloud GPU——例如 RTX 4090 檔跑 7B–13B 量化主力,A100 檔承接更大模型或更高並行。開通後依本文清單完成 ollama pull/api/tags 驗收,再擴並行實例;推理節點宜靠近你的業務系統(新加坡、東京、首爾、香港、美東、美西等以控制台為準)。產品入口見 定價與方案設定下單vpszap 首頁(GPU VPS / AI 推理託管)。

vpszap

依模型規模選 GPU,先驗收 Ollama 再擴實例

7B–13B 量化可優先 4090 檔;更大模型或高並行看 A100 檔。完成 /api/tags 與 tokens/s 基線後再接業務流量。