Llama 3、Qwen、Mistral などのオープンウェイトを自前境界で動かすなら、2026 年も手数の少ない経路のひとつは Ollama です。モデルを pull し、ローカルで OpenAI 互換の /v1 を立て、公式ドキュメントどおり Linux + NVIDIA CUDA で入れるのが定番です。本稿は cheap GPU VPS・run Ollama cloud の検索意図向けに、GPU ホストが按 Token API に勝つか、VRAM 選定、貼り付け可能な CUDA / Docker 受け入れチェックリスト、GPU 月額と API 請求の対照をまとめます(vpszap の架空価格表は使いません。変数で埋める式だけ提示します)。
誰が GPU VPS で Ollama を回すべきか(プライベート推論、コンプライアンス、バッチ vs ライブ API)
GPU サーバー上のセルフホスト Ollama が向くのは次のときです。(1) プロンプトや学習データを境界外に出せない—プライベート推論と監査ログが必要;(2) 夜間・週末に要約・ラベリング・RAG インデックスなどの大量 オフラインバッチがあり、リクエスト課金より安い;(3) 社内サービス(おおよそ同時 3〜20 コール)が同じモデルを叩き、API 支出が毎月線形に増える;(4) Q4_K_M・Q5 など量子化ティアとモデル版を固定し、上流のサイレント差し替えを避けたい。
按 Token の商用 API が勝つのは、ピークが読めない、最新のクローズドモデルが必須、ドライバとディスクを維持する人がいないときです。月間トークンが極小(例:〜500 万未満)でレイテンシに余裕があるなら、GPU の固定月額は大半アイドルになりがちです。境界条件:CPU のみの極小量子化は GPU なしの廉価 VPS でも試せますが、コンテキスト長と tokens/s は崩れます—本稿は Ollama + NVIDIA GPU を前提にします。
VRAM とモデル規模(足りないときの降格パス)
選定は「パラメータ ÷ 2」ではありません。パラメータ × 量子化ビット + KV キャッシュを見積もり、後者はコンテキスト長と同時セッションで伸びます。下表は一般的な 2026 推論ティア(単一インスタンス、コンテキスト約 8k)です。ホストで nvidia-smi を必ず確認してください。
| モデル規模 | 典型量子化 | 推奨 VRAM(単一ストリーム) | 典型クラウド SKU | VRAM 不足時 |
|---|---|---|---|---|
| 7B(Llama 3、Qwen 2.5 等) | Q4_K_M | ≈ 6–8 GB | RTX 3060 12G、T4;4090 は余裕 | Q3 または短いコンテキスト;同時リクエスト削減 |
| 7B | Q8 / 一部 FP16 | ≈ 10–14 GB | RTX 3080/4080、L4 | Q4 に落とす;アダプタ削除 |
| 13B | Q4_K_M | ≈ 10–12 GB | RTX 4090 24G、A10 24G | 7B 蒸留;オフラインバッチ |
| 34B–40B | Q4 | ≈ 22–26 GB | RTX 4090 24G(ギリ)、A100 40G | 13B;マルチ GPU(Ollama 版次第) |
| 70B | Q4_K_M | ≈ 40–48 GB+ | A100 80G、H100、マルチ GPU | 34B またはパイプライン分割;ピークは API |
RTX 4090 級の廉価 GPU VPS は 7B–13B 量子化の定番です。A100 / H100 の Cloud GPU は 70B・長コンテキスト・高並列向け。降格順序は 並列度を下げる → コンテキスト短縮 → 量子化を下げる → モデル縮小 → バッチ分割—最大ウェイトから入って OOM ループしないこと。
Docker とベアメタル CUDA:2 つのインストールチェックリスト
経路 A:ベアメタル Linux + NVIDIA ドライバ(本番の定番)
- GPU インスタンス開通後に SSH。ディスクは ≥ 80GB を想定—モデルキャッシュは急増します。
- NVIDIA ドライバを導入し、
nvidia-smiで受け入れ(GPU 名、ドライバ版、VRAM 総量)。 - 公式どおり Ollama:
curl -fsSL https://ollama.com/install.sh | shのあとsudo systemctl enable --now ollama(ユニット名は環境により異なる)。 - モデル pull:
ollama pull qwen2.5:7b-instruct-q4_K_M(タグはライブラリに合わせる)。 - ヘルス:
curl -s http://127.0.0.1:11434/api/tagsが JSON を返す。外向き公開は TLS と認証の内側のみ。 - OpenAI 互換:
curl http://127.0.0.1:11434/v1/models。
経路 B:Docker + NVIDIA Container Toolkit
nvidia-container-toolkitを入れ、sudo nvidia-ctk runtime configure --runtime=docker後に Docker 再起動。- 起動:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama(Docker Hub のタグを要確認)。 - コンテナ内:
docker exec -it ollama ollama run llama3.2。 - 同じ確認:
curl http://127.0.0.1:11434/api/tags;ログはdocker logs -f ollama。
ゲートウェイホストでコンテナを既に切り分けているなら、OpenClaw Docker Compose デプロイのトラブルシュート の層別ヘルスチェックの考え方は Linux GPU + Ollama にそのまま使えます(ボリューム、プローブ、「プロセスは上がるがハンドシェイク失敗」)。
性能とコスト:tokens/s ベンチマークと損益分岐
軽量ベンチマーク(コピペ可)
# 1) VRAM ベースライン
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1
# 2) ストリーム実行 — tokens/s を目視(pull したモデル名に置換)
time ollama run qwen2.5:7b-instruct-q4_K_M "AI 推論ホスティングの受け入れチェックリストを 200 語で列挙せよ。"
# 3) HTTP スモーク(hey または wrk;先にレート制限)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
http://127.0.0.1:11434/api/generate
意思決定マトリクス用に 3 点を記録:初トークンまでの時間、定常 tokens/s、並列 2 で OOM するか。同一マシン上の相対比較が、ランキング表より重要です。
月額コストの枠組み(自社の単価を代入)
G = GPU ホスト月額(または $/GPU-hour × 730)、E = 自宅・コロの電力、A = 運用オーバーヘッド(任意)。API 支出 ≈ T × P。 T は月間トークン(入出力別単価なら分割)、P はベンダー公開の $/100 万トークン。
損益分岐(概算):G + E + A < T × P かつ GPU を稼働させられるならセルフホストが有利になりやすい。そうでなければ API、または ハイブリッド(ピークは API、谷間は Ollama)。
| シナリオ | 月間トークン(例) | 傾向 | メモ |
|---|---|---|---|
| 個人開発者 | < 300 万 | API または 4090 の短期試用 | 固定月額がアイドルしやすい |
| 3 人プロダクトチーム | 2000 万〜8000 万 | 4090 1 台 + Ollama が勝ちやすい | 夜間バッチで稼働率向上 |
| 夜間バッチ(約 8h/日) | 可変 | GPU-hour 課金が 24/7 に勝つことも | 昼は停止 |
| 70B + 長コンテキスト | 高 | A100 級 + 厳しい並列上限 | OOM と API 請求の両方が痛い |
プレースホルダ例(自社見積に置換):4090 級 Cloud GPU で G = $280/月、T = 5000 万、ブレンド P ≈ $0.6/100 万 なら API ≈ $30—現金だけ見れば API が安いが、データ所在地と版固定は含まない。T = 5 億 なら API ≈ $300 でセルフホストが競合し始める—ドライバ・ディスク・セキュリティを運用する前提で。推論コアは Ollama のままマルチプロバイダルーティングする場合は、OpenClaw のマルチプロバイダ設定とフェイルオーバー も参照してください。六都市ノードの選び方は 越境パフォーマンス基準線とスモークゲートの FAQ の「呼び出し元に近いリージョン」の考え方と同型です。
本番強化:systemd、再起動、ディスク、ログ、レート制限
- systemd:
Restart=on-failure;アップグレード前に Ollama を止め、中途半端な blob を避ける。 - ディスク:
/var/lib/ollamaまたは Docker ボリュームの空きが約 15% 未満でアラート;並列 pull は急速に埋まる。 - ログ:journal または
docker logsをローテーション;OOM 調査用にモデルタグ・量子化・並列度を記録。 - レート制限:リバースプロキシで
/v1/chat/completionsの QPS とボディ上限;認証なしで 11434 を 0.0.0.0 に晒さない。 - 設定 as code:pull でキャッシュ再構築;Modelfile とポリシーは Git 管理。
GPU VPS は多くが SSH のみ—VNC は不要。管理エンドポイントは踏み台 + ポートフォワードで、ビルドホストのロックダウンと同様に設計します。
エラー対照表(CUDA 不一致、OOM、pull 遅延、ポート露出)
| 症状 | 想定原因 | 修正順 |
|---|---|---|
nvidia-smi に GPU なし | ドライバ未導入、GPU 未アタッチ、再起動要 | コンソール SKU → ドライバ再インストール → プロバイダチケット |
| コンテナ内に GPU なし | Toolkit 未導入、--gpus=all なし | nvidia-ctk configure → Docker 再起動 |
| CUDA バージョン不一致ログ | ドライバとランタイムの齟齬 | ホストドライバ整合;公式 ollama/ollama タグ固定 |
| OOM / プロセス kill | 過大モデル、並列、長コンテキスト | 並列低下 → コンテキスト短縮 → Q4 → 7B |
ollama pull が遅い | 越境帯域、ディスク遅延 | オフピーク pull;大容量ディスク;許可されたミラー |
| 11434 がスキャンされる | 0.0.0.0 公開バインド | セキュリティグループ許可リスト;API キーまたは mTLS |
脚注:連続バッチやホット LoRA 差し替えが必要なチームは vLLM を別途検討することがあります。本稿は中小チーム向けの導入面と /v1 互換のため、主線は Ollama に固定します。
廉価 GPU VPS がデフォルトに向かないとき(境界条件)
- 月間トークンが極小で Linux 運用者がいない—ドライバより API で時間を買う。
- 70B フル精度や重いマルチモーダル—4090 1 枚では不足;最安 SKU に無理しない。
- 広告 VRAM と
nvidia-smiが一致しない—SKU またはリージョン変更;プロンプト調整で詐称を誤魔化しない。 - コンプライアンスで専用ハードの証明が必要—$/時間だけでなく契約とログを確認。
FAQ
- 廉価 GPU サーバーと Cloud GPU の違い? VPS 型の単卡レンタと GPU-hour プール。 24/7 か 断続バッチ かで選ぶ。
- Ollama で OpenAI を完全置換できる? オープンウェイトと社内ツールの緩いレイテンシなら多くは可;最新クローズドモデルや厳しい SLA なら API 容量を残す。
- ローカル LLM デプロイの最低ライン? 7B Q4 は実効 VRAM ≥ 約 8GB;本番は KV と並列用に 24GB 余裕が無難。
- AI 推論ホスティングの受け入れ?
nvidia-smi、/api/tags、固定プロンプトの tokens/s 基準を本番切替前に。 - マネージド「run Ollama cloud」と DIY? マネージドは運用節約;DIY はデータと単価を握る。vpszap では GPU インスタンス を開き、本チェックリストをマシン上で実行。
モデル規模に合わせた GPU ティア—Ollama 受け入れ後に水平拡張
vpszap は AI 開発者向けインフラ です。クラウド Mac に加え、GPU VPS / Cloud GPU で llm hosting を選べます—RTX 4090 級 は 7B–13B 量子化、A100 級 は更大ウェイトや並列ストリーム向け。開通後は本稿の ollama pull と /api/tags を通し、ベンチマークが justify したらインスタンスを増やしてください。推論はアプリ近く(シンガポール・東京・ソウル・香港・米東・米西—コンソール参照)。料金、構成・注文、vpszap ホーム から GPU VPS と AI 推論ホスティングへ—WordPress 向けの GPU なし Linux VPS ではありません。