← 開発者ブログに戻る AI 推論

2026年、廉価GPU VPSでOllamaとオープンLLMを安定運用:VRAM・CUDA/Docker・Token APIコスト対照FAQ

📅 2026年5月21日 · 約 10 分 · VRAM 選定、CUDA/Docker 受け入れ、API コスト対照

Llama 3、Qwen、Mistral などのオープンウェイトを自前境界で動かすなら、2026 年も手数の少ない経路のひとつは Ollama です。モデルを pull し、ローカルで OpenAI 互換の /v1 を立て、公式ドキュメントどおり Linux + NVIDIA CUDA で入れるのが定番です。本稿は cheap GPU VPSrun Ollama cloud の検索意図向けに、GPU ホストが按 Token API に勝つか、VRAM 選定、貼り付け可能な CUDA / Docker 受け入れチェックリスト、GPU 月額と API 請求の対照をまとめます(vpszap の架空価格表は使いません。変数で埋める式だけ提示します)。

データセンターの GPU サーバーラック。廉価 GPU VPS 上の Ollama とオープン LLM 推論を表す

誰が GPU VPS で Ollama を回すべきか(プライベート推論、コンプライアンス、バッチ vs ライブ API)

GPU サーバー上のセルフホスト Ollama が向くのは次のときです。(1) プロンプトや学習データを境界外に出せない—プライベート推論と監査ログが必要;(2) 夜間・週末に要約・ラベリング・RAG インデックスなどの大量 オフラインバッチがあり、リクエスト課金より安い;(3) 社内サービス(おおよそ同時 3〜20 コール)が同じモデルを叩き、API 支出が毎月線形に増える;(4) Q4_K_M・Q5 など量子化ティアとモデル版を固定し、上流のサイレント差し替えを避けたい。

按 Token の商用 API が勝つのは、ピークが読めない、最新のクローズドモデルが必須、ドライバとディスクを維持する人がいないときです。月間トークンが極小(例:〜500 万未満)でレイテンシに余裕があるなら、GPU の固定月額は大半アイドルになりがちです。境界条件:CPU のみの極小量子化は GPU なしの廉価 VPS でも試せますが、コンテキスト長と tokens/s は崩れます—本稿は Ollama + NVIDIA GPU を前提にします。

VRAM とモデル規模(足りないときの降格パス)

選定は「パラメータ ÷ 2」ではありません。パラメータ × 量子化ビット + KV キャッシュを見積もり、後者はコンテキスト長と同時セッションで伸びます。下表は一般的な 2026 推論ティア(単一インスタンス、コンテキスト約 8k)です。ホストで nvidia-smi を必ず確認してください。

モデル規模典型量子化推奨 VRAM(単一ストリーム)典型クラウド SKUVRAM 不足時
7B(Llama 3、Qwen 2.5 等)Q4_K_M≈ 6–8 GBRTX 3060 12G、T4;4090 は余裕Q3 または短いコンテキスト;同時リクエスト削減
7BQ8 / 一部 FP16≈ 10–14 GBRTX 3080/4080、L4Q4 に落とす;アダプタ削除
13BQ4_K_M≈ 10–12 GBRTX 4090 24G、A10 24G7B 蒸留;オフラインバッチ
34B–40BQ4≈ 22–26 GBRTX 4090 24G(ギリ)、A100 40G13B;マルチ GPU(Ollama 版次第)
70BQ4_K_M≈ 40–48 GB+A100 80G、H100、マルチ GPU34B またはパイプライン分割;ピークは API

RTX 4090 級の廉価 GPU VPS7B–13B 量子化の定番です。A100 / H100 の Cloud GPU は 70B・長コンテキスト・高並列向け。降格順序は 並列度を下げる → コンテキスト短縮 → 量子化を下げる → モデル縮小 → バッチ分割—最大ウェイトから入って OOM ループしないこと。

図:シンガポール・東京・ソウル・香港・米東・米西。Ollama エンドポイントは呼び出し元と業務システムに近い場所へ
AI 推論ホスティング:最安リージョンだけでなく、アプリに近い場所に Ollama を置く

Docker とベアメタル CUDA:2 つのインストールチェックリスト

経路 A:ベアメタル Linux + NVIDIA ドライバ(本番の定番)

  • GPU インスタンス開通後に SSH。ディスクは ≥ 80GB を想定—モデルキャッシュは急増します。
  • NVIDIA ドライバを導入し、nvidia-smi で受け入れ(GPU 名、ドライバ版、VRAM 総量)。
  • 公式どおり Ollama:curl -fsSL https://ollama.com/install.sh | sh のあと sudo systemctl enable --now ollama(ユニット名は環境により異なる)。
  • モデル pull:ollama pull qwen2.5:7b-instruct-q4_K_M(タグはライブラリに合わせる)。
  • ヘルス:curl -s http://127.0.0.1:11434/api/tags が JSON を返す。外向き公開は TLS と認証の内側のみ。
  • OpenAI 互換:curl http://127.0.0.1:11434/v1/models

経路 B:Docker + NVIDIA Container Toolkit

  • nvidia-container-toolkit を入れ、sudo nvidia-ctk runtime configure --runtime=docker 後に Docker 再起動。
  • 起動:docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama(Docker Hub のタグを要確認)。
  • コンテナ内:docker exec -it ollama ollama run llama3.2
  • 同じ確認:curl http://127.0.0.1:11434/api/tags;ログは docker logs -f ollama

ゲートウェイホストでコンテナを既に切り分けているなら、OpenClaw Docker Compose デプロイのトラブルシュート の層別ヘルスチェックの考え方は Linux GPU + Ollama にそのまま使えます(ボリューム、プローブ、「プロセスは上がるがハンドシェイク失敗」)。

性能とコスト:tokens/s ベンチマークと損益分岐

軽量ベンチマーク(コピペ可)

# 1) VRAM ベースライン
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1

# 2) ストリーム実行 — tokens/s を目視(pull したモデル名に置換)
time ollama run qwen2.5:7b-instruct-q4_K_M "AI 推論ホスティングの受け入れチェックリストを 200 語で列挙せよ。"

# 3) HTTP スモーク(hey または wrk;先にレート制限)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
  http://127.0.0.1:11434/api/generate

意思決定マトリクス用に 3 点を記録:初トークンまでの時間定常 tokens/s並列 2 で OOM するか。同一マシン上の相対比較が、ランキング表より重要です。

月額コストの枠組み(自社の単価を代入)

G = GPU ホスト月額(または $/GPU-hour × 730)、E = 自宅・コロの電力、A = 運用オーバーヘッド(任意)。API 支出 ≈ T × PT は月間トークン(入出力別単価なら分割)、P はベンダー公開の $/100 万トークン。

損益分岐(概算):G + E + A < T × P かつ GPU を稼働させられるならセルフホストが有利になりやすい。そうでなければ API、または ハイブリッド(ピークは API、谷間は Ollama)。

シナリオ月間トークン(例)傾向メモ
個人開発者< 300 万API または 4090 の短期試用固定月額がアイドルしやすい
3 人プロダクトチーム2000 万〜8000 万4090 1 台 + Ollama が勝ちやすい夜間バッチで稼働率向上
夜間バッチ(約 8h/日)可変GPU-hour 課金が 24/7 に勝つことも昼は停止
70B + 長コンテキストA100 級 + 厳しい並列上限OOM と API 請求の両方が痛い

プレースホルダ例(自社見積に置換):4090 級 Cloud GPU で G = $280/月T = 5000 万、ブレンド P ≈ $0.6/100 万 なら API ≈ $30—現金だけ見れば API が安いが、データ所在地と版固定は含まない。T = 5 億 なら API ≈ $300 でセルフホストが競合し始める—ドライバ・ディスク・セキュリティを運用する前提で。推論コアは Ollama のままマルチプロバイダルーティングする場合は、OpenClaw のマルチプロバイダ設定とフェイルオーバー も参照してください。六都市ノードの選び方は 越境パフォーマンス基準線とスモークゲートの FAQ の「呼び出し元に近いリージョン」の考え方と同型です。

本番強化:systemd、再起動、ディスク、ログ、レート制限

  • systemd:Restart=on-failure;アップグレード前に Ollama を止め、中途半端な blob を避ける。
  • ディスク:/var/lib/ollama または Docker ボリュームの空きが約 15% 未満でアラート;並列 pull は急速に埋まる。
  • ログ:journal または docker logs をローテーション;OOM 調査用にモデルタグ・量子化・並列度を記録。
  • レート制限:リバースプロキシで /v1/chat/completions の QPS とボディ上限;認証なしで 11434 を 0.0.0.0 に晒さない。
  • 設定 as code:pull でキャッシュ再構築;Modelfile とポリシーは Git 管理。

GPU VPS は多くが SSH のみ—VNC は不要。管理エンドポイントは踏み台 + ポートフォワードで、ビルドホストのロックダウンと同様に設計します。

エラー対照表(CUDA 不一致、OOM、pull 遅延、ポート露出)

症状想定原因修正順
nvidia-smi に GPU なしドライバ未導入、GPU 未アタッチ、再起動要コンソール SKU → ドライバ再インストール → プロバイダチケット
コンテナ内に GPU なしToolkit 未導入、--gpus=all なしnvidia-ctk configure → Docker 再起動
CUDA バージョン不一致ログドライバとランタイムの齟齬ホストドライバ整合;公式 ollama/ollama タグ固定
OOM / プロセス kill過大モデル、並列、長コンテキスト並列低下 → コンテキスト短縮 → Q4 → 7B
ollama pull が遅い越境帯域、ディスク遅延オフピーク pull;大容量ディスク;許可されたミラー
11434 がスキャンされる0.0.0.0 公開バインドセキュリティグループ許可リスト;API キーまたは mTLS

脚注:連続バッチやホット LoRA 差し替えが必要なチームは vLLM を別途検討することがあります。本稿は中小チーム向けの導入面と /v1 互換のため、主線は Ollama に固定します。

廉価 GPU VPS がデフォルトに向かないとき(境界条件)

  • 月間トークンが極小で Linux 運用者がいない—ドライバより API で時間を買う。
  • 70B フル精度や重いマルチモーダル—4090 1 枚では不足;最安 SKU に無理しない。
  • 広告 VRAM と nvidia-smi が一致しない—SKU またはリージョン変更;プロンプト調整で詐称を誤魔化しない。
  • コンプライアンスで専用ハードの証明が必要—$/時間だけでなく契約とログを確認。

FAQ

  • 廉価 GPU サーバーと Cloud GPU の違い? VPS 型の単卡レンタと GPU-hour プール。 24/7断続バッチ かで選ぶ。
  • Ollama で OpenAI を完全置換できる? オープンウェイトと社内ツールの緩いレイテンシなら多くは可;最新クローズドモデルや厳しい SLA なら API 容量を残す。
  • ローカル LLM デプロイの最低ライン? 7B Q4 は実効 VRAM ≥ 約 8GB;本番は KV と並列用に 24GB 余裕が無難。
  • AI 推論ホスティングの受け入れ? nvidia-smi/api/tags、固定プロンプトの tokens/s 基準を本番切替前に。
  • マネージド「run Ollama cloud」と DIY? マネージドは運用節約;DIY はデータと単価を握る。vpszap では GPU インスタンス を開き、本チェックリストをマシン上で実行。

モデル規模に合わせた GPU ティア—Ollama 受け入れ後に水平拡張

vpszap は AI 開発者向けインフラ です。クラウド Mac に加え、GPU VPS / Cloud GPUllm hosting を選べます—RTX 4090 級 は 7B–13B 量子化、A100 級 は更大ウェイトや並列ストリーム向け。開通後は本稿の ollama pull/api/tags を通し、ベンチマークが justify したらインスタンスを増やしてください。推論はアプリ近く(シンガポール・東京・ソウル・香港・米東・米西—コンソール参照)。料金構成・注文vpszap ホーム から GPU VPS と AI 推論ホスティングへ—WordPress 向けの GPU なし Linux VPS ではありません。

vpszap

GPU ティアを選び、Ollama チェックリスト通過後に拡張

7B–13B 量子化は RTX 4090 級、更大ウェイトや高並列は A100 級。本番トラフィック前に /api/tags と tokens/s の基準線を。