如果你要把 Llama 3、Qwen、Mistral 等开源模型跑在自家基础设施上,2026 年最省心的路径之一仍是 Ollama:一条命令拉模型、本地 /v1 兼容 OpenAI 客户端、Linux + NVIDIA CUDA 文档齐全。本文面向「廉价 GPU VPS / Cloud GPU 上自建推理」的搜索意图:先判断该不该上 GPU 机,再按 VRAM 选型 对照表选卡,用可复制清单完成 CUDA / Docker 部署与验收,最后用公式化成本框架对比按 Token 计费的商用 API——不编造 vpszap 价目,只给你可填参数的盈亏模型。
谁该用 GPU VPS 跑 Ollama(私有化、合规、批量离线 vs 实时 API)
更适合自建 Ollama GPU 服务器的场景:① 训练数据或用户对话不能出境,需要私有化推理与审计边界;② 夜间/周末有大批量摘要、打标、RAG 索引,可接受分钟级排队,批量离线推理占主导;③ 已有固定并发(例如 3–20 个内部服务)调用同一套模型,API 账单按月线性上涨;④ 需要固定模型版本与量化档位(Q4_K_M、Q5 等),不愿被上游 API 悄悄换模型。
仍应优先商用 API的场景:峰值并发不可预测、要最新闭源模型、团队无人维护 GPU 驱动与磁盘;或月推理量极低(例如 < 500 万 token)且对延迟不敏感——此时自建固定 GPU 月租往往不划算。边界条件:若你只跑 CPU 量化小模型,无 GPU 的廉价 Linux VPS 也能试验,但 tokens/s 与上下文长度会明显受限;本文主线仍是 Ollama + NVIDIA GPU。
VRAM 与模型参数量对照表(含不够 VRAM 时的降级路径)
VRAM 选型核心不是「参数量 ÷ 2」,而是参数量 × 量化比特 + KV cache(随上下文长度与并发上升)。下表按 2026 年社区常用推理档位给出经验区间(单卡、单实例、上下文 8k 附近);你的实测应以 nvidia-smi 占用为准。
| 模型规模 | 常见量化 | 建议 VRAM(单路) | 典型卡型(云市场) | 不够 VRAM 时 |
|---|---|---|---|---|
| 7B(Llama3、Qwen2.5 等) | Q4_K_M | ≈ 6–8 GB | RTX 3060 12G、T4、消费级 4090 余量很大 | 换 Q3 或缩短 context;减并发 |
| 7B | Q8 / FP16 片段 | ≈ 10–14 GB | RTX 3080/4080、L4 | 改 Q4;关闭多余 adapter |
| 13B | Q4_K_M | ≈ 10–12 GB | RTX 4090 24G(舒适)、A10 24G | 用 7B 蒸馏版;分批离线 |
| 34B–40B | Q4 | ≈ 22–26 GB | RTX 4090 24G(顶格)、A100 40G | 改 13B;或双卡(Ollama 多 GPU 视版本而定) |
| 70B | Q4_K_M | ≈ 40–48 GB+ | A100 80G、H100、多卡 | 改 34B/工具链拆分;商用 API 补峰 |
RTX 4090 级消费卡 VPS适合多数团队的7B–13B 量化主力:单卡 24GB、性价比在 cheap gpu vps 市场常被提及。A100 / H100 级 Cloud GPU留给 70B、长上下文或多路并行。降级路径顺序建议:降并发 → 缩 context → 换更小量化 → 换更小模型 → 拆离线批处理,避免一上来上最大模型导致 OOM 循环。
Docker 与裸机 CUDA:两条安装路径步骤清单
路径 A:裸机 Linux + NVIDIA 驱动(常见生产默认)
- 选带 GPU 的实例后 SSH 登录,确认内核与磁盘 ≥ 80GB(模型缓存会涨)。
- 安装 NVIDIA 驱动并验收:
nvidia-smi能显示 GPU 名称、驱动版本、显存总量。 - 按 Ollama 官方安装:
curl -fsSL https://ollama.com/install.sh | sh,再sudo systemctl enable --now ollama(单元名以系统为准)。 - 拉模型:
ollama pull qwen2.5:7b-instruct-q4_K_M(示例标签,以 library 为准)。 - 健康检查:
curl -s http://127.0.0.1:11434/api/tags返回 JSON 列表;对外服务再配反代与 TLS。 - OpenAI 兼容探测:
curl http://127.0.0.1:11434/v1/models。
路径 B:Docker + NVIDIA Container Toolkit
- 安装
nvidia-container-toolkit,执行sudo nvidia-ctk runtime configure --runtime=docker并重启 Docker。 - 启动:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama(镜像标签以 Docker Hubollama/ollama为准)。 - 容器内跑模型:
docker exec -it ollama ollama run llama3.2。 - 同样用
curl http://127.0.0.1:11434/api/tags验收;日志:docker logs -f ollama。
若你已在 macOS 网关侧用容器编排做过类似验收,可先对照 OpenClaw Docker Compose 部署与排错 里的卷挂载、健康检查与「进程起来但握手失败」分层思路,再套到 Linux GPU 上的 Ollama。
性能与成本:tokens/s 简易 benchmark 与 break-even 公式
简易 benchmark(可复制)
# 1) 记录基线显存
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1
# 2) 流式生成并目测 tokens/s(示例模型名按你 pull 的为准)
time ollama run qwen2.5:7b-instruct-q4_K_M "用200字解释GPU推理托管的验收清单。"
# 3) HTTP 层压测(需安装 hey 或 wrk;注意先限流)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
http://127.0.0.1:11434/api/generate
记录三项即可写进决策表:首 token 延迟、稳态 tokens/s、并发=2 时是否 OOM。无需声称绝对排名,只要同机不同量化可复现对比。
月成本框架(不编造单价)
设 G = GPU 云主机月租(或 $/GPU-hour × 730),E = 电费/托管杂费(自建机房时填入),A = 运维摊销(可选)。商用 API 月费近似 T × P,其中 T 为月 token 数(输入+输出分开计价时拆两项),P 为供应商 $/1M tokens(以官网为准)。
Break-even(粗算):当 G + E + A < T × P 且你能吃满 GPU 利用率时,倾向自建;反之保留 API,或混合(API 扛峰、Ollama 扛谷)。
| 场景 | 月 token 量级(示意) | 倾向 | 备注 |
|---|---|---|---|
| 独立开发者、1 人 | < 3M | 先 API 或单卡 4090 短租试水 | 固定月租易闲置 |
| 3 人产品团队 | 20M–80M | 单卡 4090 + Ollama 常见划算 | 需夜间批处理提高利用率 |
| 夜间批处理(8h/天) | 弹性 | 按 GPU-hour 计费更省 | 白天可关机或缩容 |
| 70B + 长上下文 | 高 | A100 档 + 严格限并发 | 否则 OOM 与账单双爆 |
填数示例(请自行替换):若 G = $280/月(某 Cloud GPU 4090 区间价)、T = 50M tokens、混合均价 P ≈ $0.6/1M,则 API 约 $30——此时 API 更便宜,但不含数据驻留与版本控制;若 T = 500M,API 约 $300,则自建开始吸引人,但你要承担驱动、磁盘与安全。多模型路由与鉴权复杂度可参考 OpenClaw 多 Provider 配置与备援 的分层思路(本文仍以 Ollama 为推理核心)。
生产加固:systemd、重启策略、磁盘、日志与限流
- systemd:确认
Restart=on-failure,升级 Ollama 前先systemctl stop ollama避免半拉文件。 - 磁盘水位:
/var/lib/ollama或 Docker volume 设告警(建议 < 15% 空闲);多模型并行 pull 会暴涨。 - 日志:journal 或 docker logs 轮转;记录模型名、量化、并发,便于 OOM 复盘。
- 限流:反代层限制
/v1/chat/completionsQPS 与 body 大小;禁止公网裸奔 11434。 - 备份:模型缓存可重建;自定义 Modelfile 与策略文件纳入 Git。
需要图形化排障时,GPU 实例通常只给 SSH;与云 Mac 不同,不必期待 VNC,但要准备跳板机 + 端口转发访问内网管理端点。
常见报错矩阵(CUDA、OOM、拉取慢、端口安全)
| 现象 | 可能原因 | 处理顺序 |
|---|---|---|
nvidia-smi 找不到设备 | 驱动未装、云厂商未挂载 GPU、需重启 | 控制台确认 GPU 计费项 → 重装驱动 → 工单 |
| 容器内无 GPU | 未装 toolkit、未 --gpus=all | 重跑 nvidia-ctk configure → 重启 Docker |
| CUDA version mismatch 日志 | 驱动与运行时库不一致 | 对齐主机驱动;换官方 ollama 镜像标签 |
| OOM / 进程被杀 | 模型过大、并发过多、context 过长 | 降并发 → 缩 context → 换 Q4 → 换 7B |
ollama pull 极慢 | 跨境带宽、磁盘慢 | 换近源镜像站(若合规)、夜间拉取、升磁盘 |
| API 暴露被扫 | 11434 对 0.0.0.0 开放 | 安全组仅允许跳板 IP;mTLS 或 API Key |
脚注:高吞吐多卡场景有人会对比 vLLM 等 serving 框架;若你需要严格的连续批处理与多 LoRA 热切换,可另开评测。本文主线保持 Ollama,因其安装面与 /v1 兼容对中小团队最友好。
何时不建议硬上廉价 GPU VPS(边界条件)
- 月 token 很低且团队无 Linux 运维——优先 API,把时间花在产品而非驱动。
- 必须 70B 全精度、多模态大图——单张 4090 不够,别用「便宜 VPS」硬扛。
- 供应商 GPU 实为共享 vGPU、显存标称与实际不符——验收失败就换规格或换区。
- 合规要求专用硬件审计——确认云厂商合同与日志留存,而非只看低价。
FAQ
- 廉价 GPU 服务器和 Cloud GPU 有什么区别? 前者多指按 VPS 计价的单卡实例;后者常指按 GPU-hour 计费的托管推理池。选型看你是7×24 常驻还是间歇批处理。
- Ollama 能否完全替代 OpenAI API? 对开源权重与可接受延迟的内部工具可以;对最新闭源模型或极高 SLA 仍需 API 补位。
- 本地 LLM 部署最低要什么? 7B Q4 建议 ≥ 8GB 可用 VRAM;生产建议 24GB 档留并发与 KV 余量。
- 如何验收 AI 推理托管是否达标?
nvidia-smi、/api/tags、固定 prompt 的 tokens/s 三项齐再切流量。 - run ollama cloud 与自建关系? 托管服务省运维;自建控数据与单价。vpszap 侧重点是快速开通带 GPU 的实例,由你在机上执行本文清单。
在 vpszap 选 GPU 规格:先跑通 Ollama 验收再扩并发
vpszap 定位 AI Developer Infrastructure:除云 Mac 外,可按模型规模选择 GPU VPS / Cloud GPU——例如 RTX 4090 档跑 7B–13B 量化主力,A100 档承接更大模型或更高并发。开通后按本文清单完成 ollama pull 与 /api/tags 验收,再扩并行实例;推理节点宜靠近你的业务系统(新加坡、东京、首尔、香港、美东、美西等以控制台为准)。产品入口见 定价与方案、配置下单 与 vpszap 首页(GPU VPS / AI 推理托管)。